Sollte Bildungsforschung mehr Beachtung in der Politik finden?

Die Bildungspolitik würde zu wenig die Ergebnisse der Bildungsforschung beachten, klagt Nina Kolleck in der ZEIT vom 27.9.2018. Dabei gab es m. E. in den letzten Jahre eher zu viel Aufregung um solche Studien und zu viele bildungspolitische Schnellschlüsse, die daraus gezogen wurden.

Am Beispiel von Studien zum Rechtschreibunterricht zeigt Hans Brügelmann in einem (unveröffentlichten) Kommentar auf, wie widersprüchlich die Ergebnisse der Bildungsforschung oft sind und wie leicht man falsche Schlüsse für die Bildungspolitik ziehen kann, wenn man sich auf sie stützt. (Siehe auch meinen Kommentar zur Bonner Rechtschreiblehrstudie.)

Worin liegt das Problem?

In den Beiträgen von Kolleck und Brügelmann werden drei Gründe angesprochen: geringe Repräsentativität und geringer Umfang von Studien und selektive Wahrnehmung der Medien. Die selektive Wahrnehmung von Befunden (man nimmt nur Studien wahr, die in das eigene Weltbild passen), ist ein großes Problem, aber keines, das die Wissenschaft ändern kann. Sie kann aber bezüglich der beiden ersten Gründe etwas tun und sollte das auch. Hier gibt es viel “Luft nach oben” für Verbesserung.

Ist der Umfang einer Studie ein Gütemerkmal?

Jeder mehr Schüler in die Studien eingezogen wurden, umso gültiger seien ihre Ergebnisse, sagt man. Dies ist aber falsch. Vielmehr liegt genau in dem großen Umfang von Studien wie PISA oft ein Grund für falsche Schlussfolgerungen. Mit wachsendem Umfang wächst rein mathematisch die Wahrscheinlichkeit, dass minimale Unterschiede statistisch “signifikant” werden, was überhaupt nichts mit “bedeutsam” (der deutschen Bedeutung von “signifikant”) zu tun hat. Die “signifikanten” Unterschiede sind wegen ihrer Winzigkeit oft nicht stabil (das heißt, in neuen Studien werden sie selten bestätigt), und pädagogisch meist unbedeutend. Der Verwechslung von statistischer “Signifikanz” mit pädagogischer Bedeutsamkeit ist einer der Hauptgründe für die große Konfusion, die solche Großstudien oft anrichten.

Ist Repräsentativität notwendig?

Damit ist gemeint, dass die teilnehmenden SchülerInnen in einer Studie die Vielfalt der Schülerschaft insgesamt abbilden. Aber dies ist nur dann ein Problem, wenn die Studien einen Zustand beschreiben sollen, wie etwa Wählerstudien. Für analytische Studien ist es viel wichtiger, dass sie angelegt werden, dass sie zeigen, wie stark die Effekte und die Effizienz bestimmter Lehrmethoden sind, und dass sie es möglich machen, den Effekt eindeutig auf die jeweils getestete Lehrmethode zurück zu führen. Oft kann der Effekt von ganz anderen Faktoren bewirkt worden sein oder nur bestimmte Schüler gelten.

Wichtig hingegen sind Effektstärke und Effizienz einer Methode

Wie wir vom Wetterbericht wissen wollen, wie viel Grad wärmer oder kälter es heute im Vergleich zu gestern ist, und nicht ob die Unterschiede “statistisch signifikant” sind, wollen wir auch von der Bildungsforschung wissen, wie groß der absolute Lernzuwachs bestimmter Lehrmethoden im Vergleich zu anderen ist. Zudem wollen wissen, wie groß der damit verbundene zeitliche und finanzielle Aufwand im Vergleich zum Erfolg ist, also (a) wie viel Unterrichts- bzw. Lernzeit und (b) welche Ausbildung die Lehrperson nötig sind, um den gefundenen Lerngewinn zu erreichen.

Leider werden Effektstärke und Effizienz in fast keiner Studie berichtet, oft selbst dann nicht, wenn die entsprechenden Daten vorliegen. Statt sie dem Leser direkt mitzuteilen, werden sie oft bis zur Unkenntlichkeit umgeformt (oft in unsägliche Rangplatzangaben). Oft werden Daten zur Effektstärke und Effizienz  gar nicht erhoben. Dabei sind diese Informationen für bildungspolitische Entscheidungen von größter Wichtigkeit. Es macht einen großen Unterschied, ob wir über die Einführung einer Lehrmethode diskutieren, die nur geringe oder große Auswirkungen auf die Fähigkeitsentwicklung von SchülerInnen hat, und ob ihre Einführung und Durchführung mit riesigen oder geringen Kosten verbunden sind. Darüber erfahren wird aus der gängigen Bildungsforschung meist gar nichts.

Effektstärken könnten und sollten immer berichtet werden

Dass dies durchaus möglich, habe ich auf dem Gebiet der moral- und demokratiepädagogischen Forschung gezeigt (Lind 2015). Die Berechnung von Maßen für die relative und absolute Effektstärke ist einfach. Leider wird die Messung von Effektstärken in Statistikkursen für Sozialwissenschaftler nicht oder nur nebenbei behandelt. Die Statistikdozenten kommen selten aus diesen Wissenschaften, sondern oft aus den Ingenieur- oder Naturwissenschaften, in denen Messengenauigkeit ein interessanteres Problem darstellt. Für Effektstärken gibt es dort meist Geräte (Thermometer, Metermaß, Geigerzähler etc.), von denen man sie einfach ablesen kann.

Die Schätzung der Effizienz ist notwendig, aber schwierig

Die Abschätzung von Effizienz ist ein schwereres Problem, das meist speziellen Sachverstand erfordert. Sie sollte aber immer gemacht werden, soweit das möglich ist. Wenn zum Beispiel Methode A 10% effektiver als Methode B ist, dafür aber die dreifache Zeit zum Lernen benötigt, wird wohl niemand fordern, diese Methode einzuführen. Leider finden sich in Forschungsberichten und Pressemitteilungen keinerlei Hinweise auf den Zeitaufwand, den eine bestimmte Lehrmethode auf Seiten der Lehrkraft und der Schüler erfordert. Manchmal ist dafür die Lektüre umfangreicher Berichte ergiebig, falls sie veröffentlicht werden. Aber auch dann muss man oft in Fußnoten und Anlagen wühlen, um an Angaben zur Effizienz einer Methode zu kommen.

Die Frage nach der Effizienz von Lehrmethoden und bildungspolitischen Maßnahmen ist nicht unanständig, wie viele zu meinen glauben. Sie dient nicht der Ökonomisierung der Bildung, sondern dem wirksameren Einsatz unserer Steuergelder. Sie dient zudem den Schülerinnen und Schülern, die die Schule nicht länger besuchen wollen als nötig ist. Und sie dient den Lehrkräften, die keine neueb Methoden lernen müssen, bloß weil diese vielleicht ein klein weniger effektiver sind als ihre herkömmlichen Methoden, dafür aber viel mehr Einsatz verlangen. Wenn engagierte Lehrpersonen davon berichten, dass sie über Jahre hinweg sehr viel Freizeit in ihre Lehrmethode investieren, dass sollte das für sie ein Warnsignal sein. Vielleicht könnten sie mit effizienteren Lehrmethoden dieselben Lerngewinne ohne Selbstausbeutung (und ohne Nachteile für ihre Familie) erreichen.

Ich kann auch hierfür meine Erfahrungen auf dem Gebiet der Moral- und Demokratiepädagogik als Beispiel anführen. Lawrence Kohlberg und seine Kollegen hatten mit der Dilemmadiskussion eine sehr effektive Maßnahme zur Förderung von Moralkompetenz entwickelt. Meine Meta-Analyse von ca. 140 Interventions-Studien ergab, dass die durchschnittliche relative Effektstärke (r=0.40) der Dilemmamethode deutlich über den mittleren Effektstärken von anderen erfolgreichen Lehr- und Therapiemethoden (r=.30) liegt. Auch zeigte sich, dass keine der analysierten Interventionsstudien einen negativen Ausgang hatte! Die Dilemmamethode ist also auch sicher. Obwohl diese Befundlage in der Pädagogik als außergewöhnlich positiv gelten kann, hatte, wie Kohlberg berichtet, keiner der teilnehmenden Lehrpersonen diese Methode nach Abschluss der Erprobungsstudien weiter benutzen wollen. Kohlberg empfahl daher, seine Methode nicht länger zu benutzen. Schade.

Zusammen mit einigen Kollegen (Raschert, Oser, Reinhard, Schirp, u.a.) hatten wir die Dilemmamethode an Schulen in Nordrhein-Westfalen erprobt. Alle Beteiligten beurteilten sie positiv. Eine Lehrerin, die ich 10 Jahre später befragte, sagten mir: “Natürlich setze ich sie immer noch ein. Es wäre ja doof, darauf zu verzichten”. Ich fand, dass die Dilemmamethode noch verbesserte werden konnte. Ich habe daher die Konstanzer Methode der Dilemma-Diskussion (KMDD) entwickelt. Sie ist noch effektiver und auch effizienter, wohl weil sie klarer strukturiert und leichter lehrbar ist. Alle Rückmeldungen von Lehrpersonen sind positiv, manche sehr positiv. Lehrer sagen, dass sie das Lernklima in der Klasse sehr verbessere und dieser Effekt schon nach einer Sitzung eintrete und er nachhaltig sei. Warum hatten wir ganz andere Lehrerurteile als Kohlberg? Der Hauptunterschied ist wohl, dass unsere Lehrpersonen eine gründliche Ausbildung bekommen (Kohlberg schreibt, dass seine Lehrkräfte fast keine Ausbildung bekamen) und dass sie daher den Begriff der Moralkompetenz und seine Messung besser verstehen (die von Kohlberg benutzte Interviewmethode verstehen selbst Experten nicht immer richtig). Daher können Lehrerpersonen auch mit wenig Zeitaufwand und ohne komplizierte Interpretationen die Wirksamkeit ihrer Methoden selbst messen. Das wiederum versetzt sie in die Lage, die richtige Methode auszuwählen, um die moralische-demokratische Kompetenz ihrer Schüler schnell und nachhaltig und bei allen Schülern gleich effektiv zu fördern.

Angmessenes Forschungsdesign ist unverzichtbar

Besonders wichtig ist es auch, die Studien so zu planen, dass damit alternative Faktoren, unerwünschte Nebenwirkungen und personenspezifische Effekte erkannt und ggfs. ausgeschlossen werden können. Hier versagt die Bildungsforschung noch immer fast auf der ganzen Linie. Es gibt kaum Studien, die hierauf Gedanken verschwenden. Wie viel mehr wüssten wir, wenn PISA statt eine Altersgruppe, einen Schuljahrgang ausgewählt hätte, und wie viel mehr wüssten wir, wenn PISA nicht nur eine, sondern zwei oder drei Schuljahrgänge ausgewählt hätte. Dann könnten wir nämlich abschätzen, wie große die Effizienz unseres Bildungssystems und einiger seiner Gliederungen ist. Wie wichtig wäre es auch, herauszufinden, für welche Schüler welche Rechtschreibmethode die bessere ist und welche Methode sich langfristig postiv oder negative auf die Lernmotivation der Schüler auswirkt. Eine Längsschnittstude fand, dass das diskursive Erziehungsverhalten von Eltern eine positive Wirkung auf die Moralentwicklung ihrer Kinder hat, sich dieser Effekt sich aber erst einige Jahre später einstellt. Die Auswirkungen moralisch-demokratischer Kompetenzentwicklung lassen sich oft erst Jahrzehnte später richtig einschätzen, nämlich erst dann, wenn die Menschen mit Situationen und Aufgaben konfrontiert werden, in denen diese Kompetenz benötigt wird.

Forschung ist die Grundlage für gute Evaluation

Ich kann heute, nach über 40 Jahren Beschäftigung mit dem Konzept der Moral- und Demokratiekompetenz mit Sicherheit sagen, dass sich die Investition an Zeit und Geld in die Grundlagenforschung sehr gelohnt hat. Wir verstehen heute noch nicht alles über dieses Konzept, aber viel mehr als bei Beginn. Ein gutes Verständnis des Gegenstands war absolut notwendig, um ein Messverfahren zu entwickeln, das sich trotz seiner Kürze in vielen Forschungsprojekten im In- und Ausland bewährt und als hoch valide erwiesen hat; der Moralische Kompetenz-Test (MKT). Weil das Instrument kurz und dazu noch in vielen Altersgruppen (ab ca. zehn Jahren) eingesetzt werden kann, können komplexe Untersuchungspläne realisiert werden, mit denen die Wirksamkeit verschiedener Methoden unter unterschiedlichen Bedingungen studiert werden kann. Nur daher können wir heute mit einiger Sicherheit sagen, dass die KMDD in den Händen von Lehrkräften, die in der KMDD ausgebildet sind, viel wirksamer und auch viel effizienter als viele andere Methoden ist. Wir können auch angeben, wie groß der Ausbildungsaufwand für die Lehrpersonen ist und wie viel Zeitaufwand für den Einsatz der KMDD notwendig ist. Er ist mit ein bis zwei Doppelstunden im Jahr so gering, dass man ihn als vernachlässigbar bezeichnen kann. Für die Ausbildung der Lehrer in der KMDD werden aber ca. 120 Lernstunden benötigt. Dies lohnt sich sehr im Hinblick auf die geringen Aufwand und die gloße Wirksamkeit der KMDD, da Moralkompetenz für viele Lebens- und Arbeitsbereiche von großer, oft sogar von zentraler Bedeutung ist (Lind 2015).

Bessere Bildungsforschung ist nötig, dann wird sie auch zu recht beachtet

Wenn die Bildungsforschung Fragen nach der Gültigkeit ihrer Messmethoden und nach Effektivität und Effizienz von Lehrmethoden und bildungspolitischen Maßnahmen beantworten kann, dann verdienen ihre Ergebnisse in der Bildungspolitik auch große Beachtung. Ja, Bildungspolitik dürfte dann gar nicht gemacht werden, wenn sie diesen Ergebnissen nicht Rechnung trägt. Dafür muss Bildungsforschung aber besser werden und müssen die großen Geldsummen, die heute für Studien mit sehr großen Teilnehmerzahlen und immer neue Wiederholungen mit derselben schlechten Untersuchungsanlage ausgegeben werden, umgeleitet werden, um mehr Forschung über den Lerngegenstand (z.B. Rechtschreibfähigkeit), in die Ausbildung der Lehrkräfte, in die Entwicklung besserer Messinstrumente (die Entwicklung unseres Moralische Kompetenz-Tests kostete fast zwei Jahre intensiver Lese-, Denk- und Erprobungsarbeit) und in bessere Untersuchungspläne zu ermöglichen. Es muss sicher gestellt sein, dass die Lehrkräfte in der untersuchten Lehrmethode ausreichend gut ausgebildet sind, der Ausbildungsaufwand dokumentiert wird, alternative Lehrmethoden mit untersucht werden, die Länge der Intervention dokumentiert wird, und wichtige Kategorien von Lernenden (langsam/schnell, mit und ohne Hochsprachhintergrund in der Familie, geringer/hoher Lernstand bei Beginn der Untersuchung, niedrige/hohe Unterstützung durch Elternhaus etc.) in der Studie mit ausreichender Fallzahl repräsentiert sind, um einige wichtige Faktoren zu nennen, die in Wirksamkeitsstudien eingeschlossen werden sollten und natürlich Geld und Zeit kosten. Investitionen in gute Bildungsforschung und in Interventionsstudien würden sich aber später für die Gesellschaft gut auszahlen.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s