Ungewollte Effekte weitflächiger Evaluationen

[Gesellschaftliche] Technik, im umfassenden Sinne begriffen, ist funktionierende Simplifikation, ist eine Form der Reduktion von Komplexität, die sich konstruieren und realisieren läßt, obwohl man die Welt und die Gesellschaft nicht kennt, in der dies geschieht: ausprobiert an sich selber. Die Emanzipation der Individuen – wohlgemerkt: auch der unvernünftigen Individuen – ist ein unvermeidlicher Nebeneffekt dieser Technisierung.
Nur ein so weit gefaßter Technikbegriff kann den Anspruch einlösen, zur Selbstbeschreibung der modernen Gesellschaft beizutragen. Er mach das Beiseiteschieben von Hinsichten und Rücksichten verständlich. Er bezeichnet das Absehen von individualpsychologischen und von ökologischen Auswirkungen gleichermaßen. Er klärt die technische Seite der Wissenschaft, und zwar ganz unabhängig von den Anwendungen wissenschaftlicher Erkenntnisse auf Produktionsprozesse. Er macht verständlich, daß die moderne Gesellschaft zur humanistischen und zur ökologischen Selbstkritik neigt; aber auch: daß sie in Reaktion darauf wiederum nur Technik einsetzen kann, indem sie zum Beispiel Humandefizite und ökologische Probleme als Fianzierungsprobleme auffaßt.
[Luhmann, Niklas / Beobachtungen der Moderne. – 2. Aufl. – Wiesbaden : VS Verlag für Sozialwissenschaften, 2006 [1992], S.21f.]

Am 24. und 25. Juni 2008 fand am Wissenschaftszentrum Berlin für Sozialforschung (WZB) die eher wenig besucht Konferenz „Changing Educational Accountablility in Europe“ statt. Während im deutschen Bildungssystem, hauptsächlich im Bezug auf Schulen, Diskussionen darüber geführt werden, ob allgemeine Standards zu einer Erhöhung der Schulqualität führen können, ob mehr nationale und internationale Vergleichsstudien zu einer Verbesserung der Bildungsergebnisse führen werden und ob die Orientierung am betriebswirtschaftlichen Paradigma der informierten Kundin bzw. des informierten Kunden und einem verstärkten Wettbewerb zwischen autonomen Schulen positive Effekte für Schülerinnen, Schüler und deren Familien haben könnten, ist eine solche Test- und Wettbewerbssituation in anderen Staaten die allgemeine Praxis im Schulsystem. Dabei stechen die USA und England (nicht Schottland, Wales und Nordirland) hervor, in denen die bildungspolitische Steuerung der Schulen hauptsächlich über nationale, regionale und kommunale Standards, Test und Wettbewerbssituationen erfolgt. Erklärtes Ziel der deutschen Bildungspolitik ist es, sich dieses Praxis anzunähern. Der sogenannte Konstanzer Beschluss von 1997, in welchem die Kultusministerkonferenz beschloss, dass Deutschland (wieder) an internationalen vergleichenden Bildungsstudien teilnehmen und die Ergebnisse dieser Studien zur Weiterentwicklung des Bildungssystems nutzen soll, war der offizielle Beginn dieses bildungspolitischen Paradigmenwechsels. Die IGLU- und die PISA-Studien waren seine bisher bekanntesten Ergebnisse.

Inkonsistente Studienergebnisse
Die Grundfrage der Konferenz war, so die Präsidentin der WZB Jutta Allmendinger, herauszufinden, was das Messen, Testen und Standardisieren im Hinblick auf Schul- und Unterrichtsqualität bringt. Insbesondere interessierten die Veranstaltenden dabei ungewollte Effekte dieser Steuerungsmodelle. Dabei steht man, wenn man einmal versucht, über eine einzelne Studien hinauszuschauen, beständig vor einem weiteren Rätsel: die Ergebnisse verschiedener Studien lassen sich kaum konsistent miteinander verbinden. Als Beispiel zeigte Prof. Allmendinger, dass es keinen statistischen Zusammenhang zwischen den Ergebnissen von Staaten in den PISA-Studien und der Verteilung und Anzahl und vorgeblichen Qualität der Schulabschlüsse in diesen Staaten gibt. Einen solchen Zusammenhang gibt es auch nicht, wenn man die einzelnen deutschen Bundesländern miteinander vergleicht. Wie im Laufe der Konferenz ersichtlich wurde, gilt dies für verschiedene Studien und Kriterien, die zur Bestimmung der Qualität von Bildungssystemen herangezogen werden.

name and blame
Gwyn Bevan, Professor an der London School of Economics and Political Science, stellte die Praxis des name and blame im englischen Gesundheitssektor vor. Der Gesundheitssektor ist dabei als Vorreiter einer Entwicklung zu sehen, welche mit einiger Verzögerung auch im englischen Bildungssektor zur Anwendung kam. Gesundheitseinrichtungen – Krankenhäuser, Kurhäuser, einzelne Praxen – werden als relativ autonome Akteure auf einem Pseudomarkt verstanden. Diese Institutionen werden so wenig wie möglich direkt bürokratisch kontrolliert und gesteuert, sondern – soweit möglich – als Black-Box verstanden, die einen Input erhalten und einen messbareren Output erzielen sollen. Wie sie den Weg von Input zu Output organisieren, bliebt dabei idealtypisch ihnen selbst überlassen. Die Eingriffsmöglichkeiten des Staates soll sich – neben der Gesetzgebung – auf Hilfe im unabwendbaren Notfall und die finanzielle Förderung guter Praxis beschränken. Gemessen wird diese „gute Praxis“ mithilfe von Standards, d.h. mit mehr oder weniger komplexen Fragesätzen, deren Antworten in möglichst einfache Zahlen übersetzt werden. Im Allgemeinen werden diese Ergebnisse in einfach Punktesystemen (z.B. null bis vier Sterne) und Ranglisten ausgedrückt und in dieser Form auch intensiv medial verbreitet. Insbesondere die Einrichtungen, die bei solchen Tests schlecht abschneiden, werden öffentlich von der Regierung und der Presse benannt und als schlechte Beispiele dargestellt. Dies ist zwar unter der New Labour Regierung seit 1997 verstärkt worden, wurde aber ähnlich schon unter der Regierung der Conservative Party praktiziert.
Erwartet wurde nun, dass sich Institutionen anstrengen würden, möglichst hohe Punktzahlen (Sternchen) zu erhalten, dass sie dies durch eine allgemeine Steigerung der Qualität tun würden und dass gleichzeitig die Grundsätze des kapitalistischen Wettbewerbs dazu führen würden, dass die durch die Ranglisten informierten Bürgerinnen und Bürger das jeweils beste Produkt wählen, bzw. die jeweils beste Einrichtung besuchen würden und somit diejenigen Einrichtungen, die schlechte Ergebnisse erreichen, entweder ihre Qualität verbessern oder aber untergehen würden. [1]
Das trat allerdings, so lässt sich der Vortrag von Bevan zusammenfassen, nicht ein. Egal, wie gut oder schlecht eine Praxis oder ein Krankenhaus abschnitt: es gingen weder relevant mehr noch relevant weniger Menschen hin. Dies ist bei Schulen nicht anders: immer noch gehen Kinder und Jugendliche vor allem in möglichst wohnortnahe Schulen, egal wie sehr sich diese spezialisieren oder wie gut und schlecht diese Schulen bei Rankings abschließen. Der erwartete Markteffekt, welcher durch die Darstellung möglichst einfach nachvollziehbarer Informationen [2] und möglichst großer Wahlmöglichkeit der Individuen erreicht werden soll, trat bis heute nicht ein. Ähnliches berichtete im Laufe der Tagung auch Guri Skedsmo für das norwegische Schulsystem, welches ebenso die Wahlfreiheit der Schülerinnen, Schüler und Eltern fördert.
Ebenso ist allerdings auch kein qualitätssteigender Effekt auf die einzelnen Einrichtungen nachzuweisen. Zwar steigen die gemessenen Werte tendenziell, aber das auch überall. Die Abstände bleiben ähnlich groß.
Hingegen sind negative Effekt für die Reputation und Selbstwahrnehmung der getesteten Einrichtungen nachzuweisen. Zum einen das Gefühl des Personals, für minderwertige Einrichtungen zu arbeiten, dass insbesondere nach schlechten Testergebnissen auftritt. Bevan erwähnte Berichte von Menschen, die sich „am Tag danach“ (d.h. nach einem schlechten Testergebnis) leer und ausgebrannt fühlen und auf ihr Arbeitsstelle als trostlos und emotional herabziehend ansehen. Dies ist nicht nur bei Null-Sterne-Ergebnisse zu beachten, sondern auch bei (meist vorübergehenden) Verlusten von einem Stern, was zu wahren Panikreaktionen in den Einrichtungen führen kann. Zudem ist zu beobachten, dass gerade Einrichtungen, die mit einer solchen Abqualifzierung rechnen, hauptsächlich auf Marketing-Aktionen setzen und nicht auf langfristige Strategien.
Verstärkt wird dieser Effekt dadurch, dass es nicht etwa ein einziges nationales Testsystem gäbe, welches immer und überall angewandt würde, sondern immer wieder wechselnde Tests , ausgehend von unterschiedlichen politischen Ebenen und mit unterschiedlichen Blickwinkeln.

Campbell’s Law

The more any quantitative social indicator is used for social decisionmaking, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor. [Campbell’s Law]

Daniel Koretz von der Harvard University zitierte Campbell’s Law, um die Wirkung von Tests im us-amerikanischen Bildungssystem zu kennzeichnen. Campbell’s Law besagt, dass ein Indikator um so mehr ein Objekt von direkter und indirekter Korrumption wird, je mehr er als Basis für gesellschaftliche und politische Entscheidungen herangezogen wird.
Bevor er dies ausführte, stellte Koretz klar, dass der überwältigen Bedeutung von unterschiedlichen Tests und Evaluationen im politischen und gesellschaftlichen Diskurs wenig bis quasi gar kein Wissen über diese Tests gegenüberstehen. Die gesamten Tests, egal ob lokal eingesetzte Überprüfungen von Standards oder Tests im Umfang der PISA-Studien, sind selber bisher kaum Gegenstand wissenschaftlicher Untersuchungen geworden. Wir haben kaum Daten über die Reliabilität von Tests, wir haben auch kaum ein Wissen darüber, wie groß die tatsächliche Aussagekraft solcher Tests tatsächlich ist.
Dabei erinnerte Koretz an einen eigentlich trivialen, aber gerne übersehenen Fakt, nämlich daran, dass Tests das jeweils gemessene auf small samples reduziert, beispielsweise die Schulabschlussprüfung das Lernen von 10 oder mehr Jahren Schule in einige Stunden Tests oder die IGLU- und PISA-Studien die Lernerfolge von Schülerinnen und Schülern der vierten Klasse respektive 15-Jährigen in jeweils 2-stündigen Tests. Das jeweils abgefragte Sample soll also immer einen größeren Wissens- und Kompetenzbestand repräsentieren. Ob das Sample dies tatsächlich tut, ist nicht so klar, wie dies gerne angenommen wird. Dies ist bei Schulnoten aus zahlreichen Anekdoten bekannt und immerhin soweit akzeptiert, dass gegen Noten der Klageweg vor Gericht möglich ist. Bei den PISA-Studien hingegen oder auch zahlreichen anderen Evaluationen scheint das quasi nicht thematisiert zu werden.
Desweiteren stellte Koretz auf der Basis seiner Forschungsergebnisse zu Evaluationen im Bildungsbereich klar, dass die in diesen Evaluationen jeweils gemessenen Daten und Kompetenzen zumeist „simple and unspecified“ seien, bzw. dass sie zumeist so grob gefasst werden, dass die Menschen zwar mit ihnen umgehen, aber nicht wirklich sagen können, was jetzt genau gemessen wurde und was die jeweiligen Ergebnisse heißen. Lesekompetenz zum Beispiel: was ist das?
Und nicht zuletzt scheint ein Charakteristika von Ergebnissen solcher Test zu sein, dass sie regelmäßig für Aussagen herangezogen werden, die eine gesellschaftliche oder politische Bedeutung haben, aber überhaupt nicht getestet wurden. Hier kann beispielsweise an die im Rahmen der Debatten um die PISA-Studien mit voller Überzeugung geäußerte Behauptungen verweisen werden, dass Bibliotheken einen positiven Einfluss auf die Entwicklung der – wie gesagt nicht wirklich klar gefassten – Lesekompetenz haben würden, obwohl dieser Einfluss in den Studien überhaupt nicht abgefragt wurde.

Die Überbetonung einzelner Werte, die Campbell’s Law als problematisch herausstellt, führt laut Koretz in US-amerikanischen Schulen zu vier ungewollten Mechanismen:

  1. Cheating, also einfacher Betrug. Je bedeutender das Erreichen bestimmter Werte für die Existenz einer Einrichtung ist oder auch nur dafür, von weiteren Beobachtungen und ungewollten Unterstützungsleistung verschont zu bleiben wird, umso höher ist die Chance, dass dies mit Betrug versucht wird. Dieser Effekt ist allerdings zu erwarten und wird in den meisten Anlagen von Testläufen antizipiert.
  2. Changing which people are treated or measured. Bei jedem bedeutsamen Test kommt es laut Koretz dazu, dass Schulen und lokale Behörden versuchen, bestimmte Schülerinnen und Schüler aus Tests herauszuhalten, indem beispielsweise Ausschlussgründe, die es in jedem Test gibt, sehr weitreichend ausgelegt werden. Bevans hatte Ähnliches für Gesundheitseinrichtungen in England berichtet, wo teilweise bestimmtes Personal oder bestimmte Patientinnen und Patienten an Testtagen von der Einrichtung ferngehalten wird. Selbstverständlich verzerrt sich so jedes Ergebnis.
  3. Shifting efforts from unmeasured to measured outcomes. Dieser Effekt ist eigentlich vorhersehbar, insbesondere, wenn Evaluationen beständig wiederholt werden. Man muss sich allerdings daran erinnern, dass die jeweils gemessenen Werte konstruiert werden, um Aussagen über weiterreichende Kompetenzen zu liefern. Bei der Konstruktion der Tests wird jeweils davon ausgegangen, dass durch das Messen eines Teilbereiches eine Aussage über eine ganzheitlich vermittelte Kompetenz getroffen werden könne. So wurde aus den Ergebnissen der PISA-Test geschlossen, wie die tatsächliche Lesekompetenz der Schülerinnen und Schüler sei. Lesekompetenz ist dabei ein Konstruktion, welches den alltäglichen und problemzentrierten Einsatz des Lesens und der Verarbeitung des Gelesenen beinhaltet. Letztlich waren aber auch diese Test zeitlich begrenzte schriftliche Kontrollen im Klassenraum. Während dies bei einmaligen Test vor allem eine Problem der Aussagekraft darstellt, wird dies bei regelmäßiger Wiederholung zu einen Verzerrungsproblem und führt zu einer Veränderung des Unterrichts. Die Vermittlung von ganzheitlichen Lernstoffen wird zurückgestellt zugunsten des Lernens von getesteten Werten. Dies ist bei den PISA-Studien so überhaupt nicht gewollt. Eigentlich sollen diese Tests so etwas wie ein Photo aus verschiedenen Schulsystemen liefern, während die Schulsysteme davon unbeeinflusst nebenher laufen sollen. Aber das funktioniert einfach nicht. Die Studien selber verändern, worauf im Unterricht und der Wissensvermittlung geachtet wird. Schwierig ist es, den Einfluss dieser Test auf die Gestaltung des Unterrichts genau zu beziffern, aber Koretz nannte Schätzungen, wonach es in US-amerikanischen Schulen üblich sei, sechs Wochen eines Schuljahres vor allem für solche Test – die, anders als die „normalen“ Schularbeiten oder Schuabschlusstests, keinen Einfluss auf die Bildungskarriere der Lernenden haben – zu üben. Abgefragt wird durch die Tests dann also vor allem eine Erinnerung an Geübtes, nicht – wie eigentlich impliziert – eine Kompetenz oder ein Wissensbestand. [3]
  4. Undermining the measured outcomes. Das ist einer unerwünschter, aber eigentlich auch zu erwartender Nebeneffekt: gemessenen werden Daten immer, um mehr, als sich selber auszudrücken. Aber die Fokussierung auf diese Daten – die für die Vergleichbarkeit zwischen Einrichtungen oft notwendig ist – führt dazu, dass die Aussagekraft dieser Daten abnimmt. Die Einrichtungen werden sich, bewusst oder unbewusst, darauf ausrichten, diese Datenwerte zu verbessern und zwar nicht nur, indem die Qualität des Gesamtzusammenhangs, der durch die Daten repräsentiert werden soll, verbessert wird, sondern auch indem hauptsächlich die gemessenen Werte beeinflusst werden. Dies funktioniert oft viel banaler, als man sich das gerne vorstellen will. Der Effekt ist aus Bibliotheken in klein bekannt: am Eingang werden durch einen Zähler die Menschen gezählt, die durch diesen Eingang gehen. Aus dieser Zahl wird auf die Annahme der Bibliothek durch Besucherinnen und Besucher geschlossen. Würde – so die dahinter stehende Überlegung – die Qualität der Bibliothek erhöht, würden auch mehr Menschen diese besuchen. Deshalb wird bei der Bewertung von Bibliotheken die Zahl der Besuche beständig einbezogen. Aber da jede Bibliothek das weiß, kann sie auch darauf achten, dass die Anzahl der am Eingang gezählten Menschen hoch ist, ohne dabei wirklich zu cheaten: beispielsweise andere Ein- und Ausgänge schließen, ein Hinweis darauf abringen, dass es ein öffentliches Klo in der Bibliothek gibt, häufig den offiziellen Eingangs für bibliotheksinterne Gänge nutzen und nicht den Personaleingang, Bestände anschaffen, die zum Mitnehmen und weniger zum in-der-Bibliothek-Nutzen anregen. Das heißt nicht, dass die Zahl der Menschen, die durch den Eingang gehen, unbedeutend wäre. Sinkt sie innerhalb eines Jahres um 50% Prozent, ist das immer noch ein schlechtes Zeichen. Aber ihre Aussagekraft sinkt tendenziell immer weiter, je mehr sich das Wissen um die Bedeutung eines Wertes für die Bewertung einer Einrichtung verbreitet.

Hinzu kommt, so Koretz weiter, dass im schulischen Kontext die Präsentation von Tests zu gänzlich unterschiedlichen Ergebnissen führt, also beispielsweise eine Frage, die als Aufzählung präsentiert wird zu anderen Ergebnissen führt, als die gleiche Frage, die als Fließtext oder als Tabelle präsentiert wird. Insgesamt sei die Aussagekraft von Tests sehr gering, bzw. größtenteils „Nonsense“. Als Forschungsperspektive im Bereich Evaluationen und Standards nannte Koretz abschließend den impact on behavoir and on learning and the score inflation.
[Vgl. auch: Koretz, Daniel / Measuring Up : What Educational Testing Really Tells Us. – Cambridge, MA: Harvard University Press, 2008]

In der abschließenden Fragerunde nannte Koretz auf explizite Nachfrage als positiven Effekt der beständigen Evaluation und Testung US-amerikanischer Schulen, dass sowohl die Lehrkräfte als auch die Schulleitungen gezwungen wären, ihre eigene Arbeit schriftlich zu dokumentieren und zu reflektieren. (Allerdings gibt es aus englischen Bibliotheken auch schon die Klage, dass sie durch das ständige Berichteschreiben nicht mehr zum bibliothekarischen Arbeiten kämen.)
Gwyn Bevan argumentierte im Anschluss an Koretz‘ Vortrag, dass die Steuerung öffentlicher Einrichtungen durch Evaluationen und Standards strukturelle Ähnlichkeiten zum Kommandosystem der Sowjetunion aufweise, in welcher auch der Großteil der Verantwortung bei den jeweiligen Einrichtungen gelegen hätte und hauptsächlich über die Vorgabe von zu erreichenden Werten, die zumeist vereinheitlicht waren und auf die realen Gegebenheiten vor Ort wenig Rücksicht nahmen, regiert wurde.
Seine geringe Meinung von Testwerten untermauerte Koretz noch einmal mit dem Hinweis, dass seiner Erfahrung nach Tests zumeist nur das herauskriegen, was eh bekannt sei. Unerwartete Ergebnisse seinen zumeist auf Fehler in den Tests zurückzuführen. Wouter Van Dooren (Universiteit Antwerpen) illustrierte das an den PISA-Ergebnissen in Belgien. Belgien besteht bekanntlich aus zwei Regionen, Flandern und Wallonien, sowie der Hauptstadt Brüssel als eigener Region. Die Geschichte des Schulsystems in den beiden großen Regionen lange gleich verlaufen, erst vor ungefähr zehn Jahren wurden sie in den Verantwortungsbereich der Regionen überlassen, wobei die Struktur der Schulsysteme trotzdem ähnlich blieb. Die Schulen haben in beiden Landesteilen eine relativ große Autonomie. Die PISA-Ergebnisse fallen allerdings radikal auseinander: nimmt man nur Flandern, dann ist diese Region besser, als Finnland und Südkorea, misst man nur Wallonien, dann ist diese Region ungefähr so schlecht wie Deutschland. Es gibt für diese Ergebnisse keine wirkliche Erklärung, da die Strukturen, die gesellschaftlichen und sozialen Voraussetzungen und die Geschichte der Schulsysteme nahezu identisch sind. Eventuell, so Van Doorens Vermutung, liegt der Fehler tatsächlich in der Konzeption der PISA-Studien, nicht in den Schulsystemen, was allerdings die Frage aufwirft, wozu diese Studien dann überhaupt gut seien.

Anne West (London School of Economics and Political Science) konnte Koretz‘ Einschätzungen für die Schulen in England bestätigen. Sie stellte einen weiteren ungewollten Effekt der beständigen Evaluation, das ressourcen fest. Englische Schulen werden nach Standards bewertet, die beispielsweise besagen, dass 30% der Schülerinnen und Schüler in einem bestimmten Test eine bestimmte Note erhalten sollen. Nun haben Schulen immer solche Lernenden, die diese Noten von sich aus erreichen, Lernende, welche solche Noten nicht erreichen und Lernende, deren durchschnittlichen Leistungen an der Grenze dieser Noten liegen, die also vielleicht, aber vielleicht auch nicht diese Note erreichen. Intern logisch, aber nicht intendiert, ist nun, dass Schulen ihre Ressourcen auf die Schülerinnen und Schüler konzentrieren, die sich an dieser Grenze befinden, also beispielsweise Nachhilfestunden oder besondere Förderung im Unterricht erhalten, damit diese bei den relevanten Tests die bessere Note erreichen. Davon haben weder die Klassen als Gesamtverband etwas, da nur ein Teil der Lernenden gefördert wird, noch die leistungsschwachen Schülerinnen und Schüler, die eigentlich besondere Aufmerksamkeit verdienen würden und für deren Förderung eigentlich von Regierung Mittel bereitgestellt werden, die aber von den Schulen zum großen Teil zum ressourcen genutzt würden.
Zudem bestätigte auch West den Trend, das Schulen versuchen, Kinder und Jugendliche bei Test außen vor zu halten, auch wenn es dafür keine direkten Hinweise gäbe. Wichtig ist, dass diese Trends allgemein festzustellen sind, es also kein individuelles Fehlverhalten einzelner Schulen oder Lehrkräfte sei, sondern Effekte, die in der Struktur von Evaluationen und Bildungsstandards angelegt scheint.
Die Frage, warum überhaupt evaluiert würden und warum die Bildungspolitik trotz negativer Erfahrungen immer wieder auf Standards und Vergleichsstudien zurückgreift, konnte auch West nicht beantworten. Sie vermutete aber, dass es eher mit der Funktion des politischen Systems und weniger mit dem Bildungssystem zu tun habe: „at least there have to measure something“. Alles andere würde heißen, dass die Politik eingestehen müsse, dass die Evaluationen, welche das englische Schulsystem prägen würden, eine jahrelang beschrittene Sackgasse darstellen würde.

Tests sind politisch
Evaluationen und Vergleichsstudien sind, so kristallisierte sich im Laufe der Konferenz in fast allen Redebeiträgen immer mehr heraus, hauptsächlich politische Instrumente und nicht, wie sie oft verstanden werden, unangreifbare, wissenschaftlich fundierte und objektive Instrumente. [4]
Bénédicte Robert (Université Paris 12 val de Marne, Sciences Po) stellte dies an der Umsetzung des No Child Left Behind Act in Chicago dar. Der No Child Left Behind Act, erlassen 2001, definiert, dass bis 2014 eigentlich alle (100%, wobei politisch umstritten ist, was diese 100% genau heißt) Schülerinnen und Schüler in den USA den gleichen Standard in Lesekompetenz und der mathematischen Kompetenz erreichen sollen. Dazu wird auf eine standardbasierte Evaluation und Steuerung des Schulsystems, auf sogenannte, aber auch nicht genauer beschriebene, „scientifically based research“ und eine Wahlfreiheit zwischen den einzelnen Schulen gesetzt. Zumeist bedeutet die „scientifically based research“ die Vergabe von Evaluationsaufträgen an Unternehmen, die zwar wissenschaftliche Methodiken einsetzen, aber nicht Teil von wissenschaftlichen Einrichtungen darstellen, vergleichbar mit Umfrageinstituten wie Emnid, forsa oder Infratest und Einrichtungen wie Sinus Sociovision. Wichtig ist für diese Politik die Formulierung nationaler Bildungsstandards und der beständige Einsatz von Vergleichsstudien. Die im Rahmen des Gesetzes angewendeten Standards sind Ergebnis politischer Auseinandersetzungen, nicht pädagogischer Debatten.
Ergebnis dieser Politik war allerdings bislang nicht, dass sich die Qualität der Schulen verbessert hätte. Zwar steigen die Ergebnisse bei den regelmäßigen Test, doch scheint dies eher zu den von Koretz dargelegten ungewollten Effekten von Evaluationen zu gehören. Vielmehr hat sich, wie Robert darstellte, ein Kompetenzstreit zwischen unterschiedlichen politischen Ebenen darüber entwickelt, was genau, wie und wann gemessen wird. In Chicago hat dies beispielsweise den Effekt, dass die Schülerinnen und Schüler pro Schuljahr zwei unterschiedliche Tests schreiben müssen, einmal den, der im Bundesstaat Illinois verwendet wird und einmal den, welchen die Stadt Chicago verwendet. Interessant ist, dass durch die Konzentration auf Standards und Evaluationen, trotz aller Rhetorik von der erweiterten Autonomie der Schulen, der (verfassungsrechtlich nicht zu begründende) Einfluss des Nationalstaates und von Nicht-schulischem Personal, insbesondere aus der lokalen Wirtschaft, auf die Schulen zugenommen hat.
Giliberto Capano (Università di Bologna) fasste die Situation in Italien zusammen. In Italien existiert zwar seit 1994 eine Einrichtung, die für die Regierung Daten über die Hochschulen sammeln soll, was sie auch – das erste Mal in der italienischen Geschichte – kontinuierlich tut. Allerdings wird auf diese Daten von der Regierung – die in Italien auch relativ oft wechselt – kaum zurückgegriffen. Bisher gäbe es keine klaren und konsistenten Aussagen der Politik, was diese überhaupt von den Hochschule wolle, schlimmer noch: die einmal gemachten Forderungen scheinen relativ belanglos, ihre Umsetzung wird weder überprüft, noch bewertet. Ob eine Universität sie umsetzt oder nicht, scheint relativ egal. Ohne solche Vorgaben sei allerdings – abgesehen von allen anderen Problemen – jewede Evaluation vollkommen sinnlos.

Auch wenn das auf der Konferenz selber kein Thema war, geht die Formulierung von Tests immer auch mit einer kritischen Forschungsrichtung zusammen, die daran arbeitet, „faire Tests“ zu entwickeln, die unterschiedliche Ausgangsbedingungen einbeziehen und es beispielsweise ermöglichen sollen, unterschiedliche langfristig angelegte Schulkonzepte abzubilden. Der Einfluss dieser Forschungen scheint bisher aber nicht allzu groß zu sein.

Was ist zu erwarten?
Die Konferenz wurde einberufen, um sich darüber klar zu werden, was die sich abzeichnende Wende hin zu Standards und evaluationsbasierte Outcome-Analysen in der Bildungspolitik für das deutsche (formale) Bildungssystem bedeutet. Allerdings, so fasste Jutta Allmendinger am Ende der Konferenz zusammen, wissen wir immer noch nicht, was das ganze Messen und Standardisieren mit der Entwicklung der Schulqualität zu tun hat. So wie es aussieht, scheinen die negativen Einflüsse zu überwiegen.
Allmendinger verwies darauf, dass auch in deutschen Debatten um die Bildungsqualität der Fokus auf bestimmte Werte gelegt wird. Sie kündigte an, dass das WZB sich in der nächsten Zeit damit beschäftigen wird, wie in diesen Debatten soziale Kompetenzen einbezogen werden können, die bislang überhaupt nicht thematisiert sind.

Die Wende hin zum Testen und Betonen von evaluierbaren Outcomes wird nicht allein im Schulbereich stattfinden. Vielmehr scheint aktuell die gesamte öffentliche Verwaltung davon ergriffen zu sein. Deshalb wird sich dies auch auf Bibliotheken auswirken. Der BIX-Bibliotheksindex ist dabei nur ein kleiner Schritt. Seine Reichweite ist beschränkt, die Teilnahme an ihm ist noch freiwillig und die Kritik an den in ihm bedeutsamen Werten und deren Analyse ist wenn auch nicht dokumentiert, so doch relativ weit verbreitet. Aber die Grundidee, dass Standards dabei helfen würden, dass die Qualität von Bibliotheken nachgewiesen und verbessert werden könnte, scheint sich immer mehr durchzusetzen, obwohl dies bislang im besten Fall eine theoretische Möglichkeit darstellt. Eine empirische Evidenz für den positiven Effekt von Standards und Evaluationen gibt es für Schulen nicht, es gibt ihn für das Gesundheitswesen nicht, insoweit wäre es überraschend, wenn es ihn für Bibliotheken gäbe. Die Arbeitgruppe „Bibliothek 21“ schlägt dennoch relativ ausgearbeitete „Leistungs- und Qualitätsstandards für Bibliotheken“ vor, dass sich hauptsächlich auf Prozentwerte stützt. Ob dieser Vorschlag irgendeinen Einfluss zeitigen wird, wird abzuwarten bleiben.
Wichtiger erscheint, dass es mit einiger Wahrscheinlichkeit dazu kommen wird, dass auch für Bibliotheken Standards von Dritten erlassen werden, denen man sich nicht so leicht wird entziehen können, wie dem BIX. Die PISA-Studien kamen ja auch nicht, weil die Schulen sie gewollt hätten, sondern weil die Kultusministerkonferenz einem Vorschlag der OECD zustimmte. Es ist in diesem Zusammenhang vielleicht hilfreich, an Nico Stehrs Fazit seiner Studie zum Einfluss des Wissens auf die Konstitution moderner demokratischer Einrichtungen und Gesellschaften zu erinnern:

Dennoch wird die Abhängigkeit vom Wissen weiter zunehmen. Denn trotz der Demystifizierung des Wissens kann die Alternative nicht lauten, statt dessen mehr oder weniger zufällig auf irgendwelche Glaubensvorstellungen zu vertrauen. Man muß sich mit dem Gedanken der Kontingenz des Wissens vertraut machen und die Illusion verabschieden, daß dieser Zustand nur eine vorübergehende Erscheinung sei, die über kurz oder lang wieder verschwindet.
[Stehr, Nico / Die Zerbrechlichkeit moderner Gesellschaften : Die Stagnation der Macht und die Chancen der Individuums. – Weilerswist : Velbrück Wissenschaft, 2000, S. 309]

Fußnoten:
[1] Hierzu ist in Gesundheitsbereich eine freie Wahlmöglichkeit der Bürgerinnen und Bürger notwendig, die in Deutschland durch das Hausarztprinzip nicht gegeben ist. Im Bildungsbereich ist für eine solches System auch eine Wahlfreiheit notwendig, die aufgrund des Wohnortprinzips bei Schulen (d.h. das prinzipiell Schülerinnen und Schüler in der nächstgelegenen Einrichtung eingeschult werden sollen) in Deutschland ebenso nicht gegeben ist.
[2] Im Allgemeinen gehen alle zeitgenössischen betriebswirtschaftlichen Theorien davon aus, dass zum funktionieren eines Marktes informierte Marktteilnehmer gehören. Nur wenn alle Teilnehmenden an einem Markt auf die gleichen Informationen zurückgreifen können werden sie dieser Überzeugung nach rationale Marktentscheidungen treffen. Ansonsten würde die Interaktionen auf dem Markt nicht unter Gleichen stattfinden. Als ein möglicher Grund für ein Marktversagen wird deshalb die angebliche oder reale Uninformiert einzelnen Akteure angesehen. Obwohl klar ist, dass Informationsmonopole einen einschränkenden Einfluss auf Märkte haben, ist der positive Markteffekt einer allgemeinen Informiertheit bislang nicht wirklich empirisch abgesichert, ebenso wenig wir die Vorstellung, dass Marktteilnehmer hauptsächlich rationale Entscheidungen treffen würden.
[3] Dies wird auch möglich, da sich um diese Tests herum ein eigenständiger Wirtschaftszweig entwickelt hat. Dies Tests werden öfter von wirtschaftlichen Einrichtungen und weniger von wissenschaftlichen Institutionen entworfen und durchgeführt. Aus Gründen der Transparenz sind die Anlage all dieser Test inklusive Beispielaufgaben im Buchhandel zu erhalten, zudem Übungsbücher und Kurse für die jeweiligen Kurse, was genau genommen vollkommen gegen die Grundüberlegung dieser Tests wirkt, die ja eigentlich Aussagen über größere Zusammenhänge ermöglicht werden solle. Zu vergleichen ist dies teilweise mit dem absurden Wettlauf um den perfekten Lebenslauf, in den sich in Deutschland (und anderswo) Arbeitssuchende stürzen. Einerseits gibt es Hinweise, Bücher und Kurse darüber, worauf Arbeitergeber achten würden und zwar in einer wachsende Zahl mit durchaus widersprüchlichen Angaben. Anderseits gibt es die Arbeitgeber, die sich immer wieder auf neue Auswahlkriterien einigen müssen, da die alten nichts mehr taugen, einfach, weil zu viele Menschen absichtlich auf bestimmte Dinge achten, wenn die Bedeutung dieser Dinge erstmal bekannt gemacht wurde. Gab es beispielsweise eine Zeit, in der bei einer Anzahl von Stellen darauf geachtet wurde, das Menschen irgendwie in ihrem Anschreiben andeuten, sozial aktiv zu sein, setzte sich irgendwann die Floskel, man wolle „gerne was mit Menschen machen“ so sehr in fast allen Bewerbungen durch, dass dieses Kriterium nichts mehr galt. War einst ein Lebenslauf, der viele ehrenamtliche Tätigkeiten enthielt, ein Auswahlkriterium, da Menschen mit einem solchen ein hohe Selbstorganisationsfähigkeit zugestanden wurde, gilt dieses Kriterium immer weniger, nachdem es sich herumgesprochen hat und heute jede zweistündige Tätigkeit als Linienrichter bei einem Sportfest als bedeutsame ehrenamtlich Tätigkeit in den Lebenslauf aufgenommen wird, die auch nicht mehr von einer langjährigen Tätigkeit als Jugendtrainer zu unterscheiden ist. Dies ist ein ständiger Wettlauf, der dem eigentlichen Ziel, sich a.) als Arbeitsuchende möglichst gut zu präsentieren und b.) als Arbeitgebende, dass für die jeweilige Stelle und den Arbeitszusammenhang passende Personal zu finden, nicht im geringsten dienlich ist. Letztlich scheinen oft die Menschen „zu gewinnen“, die die zufällig richtigen Bewerbungsratgeber gelesen haben und weniger die, welche am Besten auf die Stelle passen würden. (Erinnert sich noch jemand an die Zeit, wo die Handschrift auf den Briefumschlägen, mit denen Bewerbungen geschickt wurden, angeblich graphologisch ausgewertet wurden? Und daran, wie Menschen tatsächlich diese Adressen von anderen Menschen schreiben ließen, weil sie meinten, ihrer Handschrift vermittle das falsche Bild?)
[4] Zumal, wie Nico Stehr immer wieder betont, gesellschaftlich ein unzutreffendes Bild von wissenschaftlichem Wissen verbreitet ist. Während wissenschaftsinterne die Prekarität und beständige Diskussion wissenschaftlicher Methoden und Ergebnisse als Vorteil gilt, versteht die Gesellschaft allgemein wissenschaftliches Wissen als unumstößliches Tatsachenwissen, quasi als letztmögliche Tatsachenaussage. Zumindest wird wissenschaftliches Wissen so benutzt, als sei es unumstößlich. Deshalb wird der Expertin und dem Experten eine Aussagekraft zugestanden, die sich nicht aus der Qualität der gelieferten Daten heraus begründen lässt.

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s