Definition

Formative Beurteilung umfasst jede Beurteilungsaktivität, die während des Lernprozesses mit dem ausdrücklichen Ziel durchgeführt wird, den Unterricht zu informieren und das Lernen der Schülerinnen und Schüler zu verbessern, bevor es abgeschlossen ist. Es handelt sich weder um einen Test noch um eine Note — sondern um ein kontinuierliches Gespräch zwischen Lehrkraft und Lernenden darüber, wo das Lernen steht und wohin es noch führen soll.

Die maßgebliche Definition stammt von Paul Black und Dylan Wiliam in ihrer Synthese von 1998: Beurteilung ist formativ, wenn Belege für das Lernen der Schülerinnen und Schüler erhoben, interpretiert und genutzt werden, um Entscheidungen über die nächsten Unterrichtsschritte zu treffen. An dieser Feedbackschleife sind drei Akteure beteiligt — die Lehrkraft, Mitschülerinnen und Mitschüler sowie die Lernenden selbst — und alle drei können sie anstoßen. Eine Lehrkraft, die Exit-Cards an der Tür durchsieht, zwei Schülerinnen und Schüler, die während eines Think-Pair-Share ihre Überlegungen vergleichen, und ein Lernender, der seinen Entwurf mit einer Checkliste für Erfolgskriterien abgleicht, praktizieren alle formative Beurteilung.

Das Wort „formativ" erfasst die zeitliche Logik: Diese Beurteilung formt den Lernenden, solange die Formung noch möglich ist. Im Gegensatz dazu misst die summative Beurteilung, was ein Lernender nach Abschluss des Unterrichts erreicht hat. Beide erfüllen wesentliche Zwecke, doch wer sie verwechselt — formative Arbeit benotet oder summative Ergebnisse als handlungsleitende Hinweise behandelt — schwächt beide.

Historischer Kontext

Das intellektuelle Fundament der formativen Beurteilung reicht durch mehrere Jahrzehnte kognitiver und pädagogischer Forschung zurück und beginnt lange bevor der Begriff selbst gebräuchlich wurde.

Benjamin Blooms Arbeit von 1969 zum Mastery Learning brachte die grundlegende Erkenntnis: Erhalten Schülerinnen und Schüler in regelmäßigen Abständen während des Unterrichts korrigierendes Feedback, verbessert sich ihre Leistung erheblich. Bloom beobachtete, dass Einzelunterricht Ergebnisse zwei Standardabweichungen über dem konventionellen Klassenunterricht erzielte. Er führte den Unterschied vor allem auf die kontinuierliche Beobachtung und die Anpassung in Echtzeit durch die Lehrperson zurück. Formative Beurteilung war in Blooms Verständnis eine klassenzimmergerechte Annäherung an die Feedbackschleife des Tutors.

Michael Scriven prägte den Begriff „formative Evaluation" 1967, ursprünglich bezogen auf die Lehrplanentwicklung, nicht auf die Schülerbeurteilung. Lee Cronbach weitete das Konzept kurz darauf auf das Lernen der Schülerinnen und Schüler aus. Doch es war die Arbeit von Paul Black und Dylan Wiliam am King's College London im Jahr 1998, die die formative Beurteilung zu einer Forschungspriorität in der Unterrichtspraxis machte. Ihr Übersichtsartikel „Inside the Black Box", erschienen im Phi Delta Kappan, synthetisierte 250 Studien und stellte Effektgrößen zwischen 0,4 und 0,7 fest — genug, um eine durchschnittliche Schülerin oder einen durchschnittlichen Schüler vom 50. auf etwa das 70. Perzentil zu heben. Der Umfang und die Zugänglichkeit des Überblicks machten ihn zu einem der meistzitierten Texte in der Bildungsforschung.

Wiliam entwickelte den Rahmen durch die Assessment Reform Group im Vereinigten Königreich weiter, und sein 2011 erschienenes Buch Embedded Formative Assessment übertrug die Forschung in strukturierte Unterrichtsroutinen, die Praktiker übernehmen konnten, ohne den Lehrplan vollständig umzustellen. Die parallele Arbeit von John Hattie, dessen 2009 erschienene Meta-Analyse Visible Learning Erkenntnisse aus 800 Meta-Analysen bündelte, bestätigte unabhängig davon die herausragende Bedeutung von Feedback — es zählte in seiner Synthese zu den Einflüssen mit den stärksten Effekten auf die Leistung.

Grundprinzipien

Die Feedbackschleife schließt sich

Formative Beurteilung wirkt nur dann, wenn Lernbelege tatsächlich verändern, was als Nächstes geschieht. Daten zu erheben und abzulegen ist Monitoring, keine formative Beurteilung. Das entscheidende Merkmal ist, dass die Information in den Unterricht zurückfließt: Die Lehrkraft behandelt ein unklares Konzept erneut, überspringt bereits beherrschte Inhalte oder gestaltet eine Aufgabe neu, die das beabsichtigte Denken nicht ausgelöst hat. Schließt sich die Feedbackschleife nicht, war die Beurteilung nicht formativ — ungeachtet des verwendeten Werkzeugs.

Feedback zielt auf die Lücke

Effektives formatives Feedback benennt die Lücke zwischen dem aktuellen Verständnis einer Schülerin oder eines Schülers und dem Lernziel und liefert Informationen, die helfen, sie zu überbrücken. Dies ist der von Sadler (1989) formulierte und später von Hatties und Timperleys Feedback-Modell von 2007 systematisierte Rahmen. Feedback, das lediglich eine Antwort als falsch markiert, gibt Schülerinnen und Schülern ein Urteil ohne Richtung. Feedback, das benennt, was die Schülerin oder der Schüler getan hat, was das Ziel erfordert und wie ein konkreter nächster Schritt aussieht, gibt ihnen Handlungsmöglichkeiten.

Lernziele müssen transparent sein

Schülerinnen und Schüler können sich nicht selbst einschätzen, auf Feedback reagieren oder von Mitschülerinnen und Mitschülern lernen, wenn sie nicht wissen, worauf sie hinarbeiten. Formative Beurteilung setzt klare, spezifische und für Lernende zugängliche Ziele voraus. Wenn Lehrkräfte nicht nur die Aufgabe, sondern auch die Erfolgskriterien offenlegen und den Schülerinnen und Schülern durch Musterarbeiten helfen zu verstehen, wie „Standard erfüllt" aussieht, wird formatives Feedback handlungsleitend statt verwirrend.

Peer- und Selbstbeurteilung erweitern das Feedback

Keine Lehrkraft kann für jede Schülerin und jeden Schüler bei jeder Aufgabe bedeutungsvolles, individualisiertes Feedback geben. Peer- und Selbstbeurteilung skalieren das Feedbacksystem, ohne die Arbeitsbelastung der Lehrkraft zu erhöhen, und bringen eigene Lernvorteile mit sich. Wenn Schülerinnen und Schüler die Arbeit einer Mitschülerin oder eines Mitschülers anhand gemeinsamer Kriterien beurteilen, üben sie das analytische Denken, das das Lernziel verlangt. Wenn Schülerinnen und Schüler ihre eigene Arbeit ehrlich bewerten, entwickeln sie jenes metakognitive Bewusstsein, das langfristigen akademischen Erfolg vorhersagt (Zimmerman, 2002).

Niedriger Einsatz schützt ehrliche Belege

Glauben Schülerinnen und Schüler, dass ihre formativen Antworten benotet werden, performen sie, anstatt ihr Verständnis zu zeigen. Noten auf formative Arbeiten unterdrücken die ehrlichen Fehler, die für eine Lehrkraft, die den Unterricht anpasst, am wertvollsten sind. Die Forschung zeigt konsistent, dass das Entfernen von Noten aus formativen Aktivitäten — verbunden mit der expliziten Botschaft an die Schülerinnen und Schüler, dass Fehler erwartet werden und nützlich sind — sowohl die Qualität der gesammelten Belege als auch die Bereitschaft der Lernenden verbessert, intellektuelle Risiken einzugehen (Butler, 1988).

Anwendung im Unterricht

Grundschule: Die Ampelkarte

Eine Lehrerin im dritten Schuljahr führt eine neue Multiplikationsstrategie ein. An einem natürlichen Pause im Unterricht bittet sie die Schülerinnen und Schüler, eine rote, gelbe oder grüne Karte hochzuhalten (oder Finger zu zeigen): Grün bedeutet „Ich habe es verstanden", Gelb „Ich bin unsicher", Rot „Ich bin verloren". Sie erfasst die Situation in wenigen Sekunden. Die Schülerinnen und Schüler mit roten Karten zieht sie für eine zusätzliche Modellierungsphase in eine Kleingruppe, während die Grün-Karten-Gruppe an einer Erweiterungsaufgabe arbeitet. Die Gelb-Karten-Gruppe arbeitet in Paaren und vergleicht ihre Ansätze. Die Lehrkraft hat den Unterricht in unter einer Minute differenziert — auf der Grundlage von Belegen aus dem Raum, nicht von Vermutungen.

Sekundarstufe: Die Whiteboard-Galerie für die Argumentkartierung

Eine Englischlehrerin in der neunten Klasse bittet die Schülerinnen und Schüler, ihre Thesen auf Mini-Whiteboards zu schreiben und sie gleichzeitig hochzuhalten. Sie geht die Reihe entlang und sieht sofort, dass etwa ein Drittel der Klasse Themensätze statt arguierbarer Behauptungen formuliert hat. Statt jeden Aufsatz zu korrigieren, wählt sie drei anonyme Beispiele aus — eines stark, eines teilweise gelungen, eines unausgereift — und führt eine kurze Klassenanalyse durch. Die Schülerinnen und Schüler überarbeiten ihre Whiteboards. Die Lehrkraft hat von jeder Person Belege gesammelt und den Unterricht umgelenkt, ohne eine einzige Note zu vergeben.

Hochschule und Lehrerfortbildung: Das Einminuten-Paper

Eine Moderatorin in einer Lehrerfortbildung hält fünfzehn Minuten vor Ende inne und stellt zwei Fragen: „Was ist das Wichtigste, das Sie heute gelernt haben?" und „Welche Frage haben Sie noch?" Die Teilnehmerinnen und Teilnehmer schreiben zwei Minuten lang und geben die Zettel ab. Die Moderatorin liest sie am Abend durch und eröffnet die nächste Sitzung, indem sie die drei häufigsten offenen Fragen aufgreift. Die Teilnehmerinnen und Teilnehmer erleben, dass ihre Verwirrung erwartet und wertgeschätzt wird; die Moderatorin weiß, wo sie beim nächsten Mal ansetzen soll.

Exit-Tickets sind eine der praktischsten Umsetzungen dieses Prinzips über alle Klassenstufen hinweg — ein strukturierter Stundenabschluss, der in weniger als fünf Minuten handlungsrelevante Belege liefert.

Forschungsnachweise

Black und Wiliams Überblick von 1998 legte die grundlegende Evidenzbasis. Mit der Synthese von rund 250 Studien stellten sie fest, dass gut umgesetzte formative Beurteilung Effektgrößen zwischen 0,4 und 0,7 erzielte, wobei die stärksten Effekte bei leistungsschwachen Schülerinnen und Schülern beobachtet wurden. Das ist bemerkenswert: Formative Beurteilung ist keine Strategie, die vorrangig bereits leistungsstarken Lernenden zugute kommt. Zu den identifizierten Mechanismen gehörten klarere Lernziele, reichhaltigeres Feedback und eine stärkere Eigenverantwortung der Schülerinnen und Schüler.

Hatties und Timperleys Artikel „The Power of Feedback" von 2007, erschienen im Review of Educational Research, metaanalysierte 196 Studien mit 6.972 Effektgrößen und ermittelte eine durchschnittliche Effektgröße von 0,79 für Feedback — einen der stärksten Unterrichtseinflüsse in der gesamten Synthese. Entscheidend war, dass auf die Person bezogenes Feedback („Du bist eine gute Schülerin") weitgehend wirkungslos war. Feedback, das sich auf die Aufgabe, den Prozess und die Selbstregulierungsstrategien des Lernenden bezog, erzielte die stärksten Zuwächse.

Kingsley und Grabner-Hagen (2015) untersuchten digitale formative Beurteilungswerkzeuge in K-12-Klassen und stellten fest, dass sofortiges Feedback — verfügbar über Classroom-Response-Systeme — stärkere Lernergebnisse erzielte als verzögertes schriftliches Feedback, sofern die Schülerinnen und Schüler ausreichende Orientierung hatten, um das Erhaltene umzusetzen. Die Schnelligkeit des Feedbacks spielt eine Rolle, aber nur in Verbindung mit Klarheit.

Kingston und Nashs Meta-Analyse von 2011, erschienen in Educational Measurement: Issues and Practice, verdient aus Gründen der intellektuellen Redlichkeit Erwähnung: Sie fand kleinere Effektgrößen (etwa 0,20) als die Synthese von Black und Wiliam. Kingston und Nash führten den Unterschied auf Studienqualität und Umsetzungstreue zurück. Formative Beurteilung mit schwacher Umsetzung liefert schwache Ergebnisse. Die Forschung stützt die Praxis, aber nicht unkritisch — die Ausführung zählt.

Häufige Missverständnisse

Formative Beurteilung bedeutet häufiges Abfragen. Kurzabfragen mit niedrigem Einsatz können formativen Zwecken dienen, doch formative Beurteilung definiert sich dadurch, was mit den Belegen geschieht — nicht durch das Format des Werkzeugs. Eine Lehrkraft, die einen Fünf-Fragen-Quiz gibt und anschließend ungeachtet der Ergebnisse mit der nächsten Stunde fortfährt, hat einen Quiz durchgeführt, keine formative Beurteilung. Umgekehrt ist eine reichhaltige Klassendiskussion, bei der die Lehrkraft aufmerksam zuhört und die Tagesplanung auf Grundlage des Gehörten anpasst, hochgradig formativ — ganz ohne Quiz.

Formative Beurteilung ist nur Aufgabe der Lehrkraft. Dieses Missverständnis reduziert formative Beurteilung auf eine Überwachungsaufgabe, die an Schülerinnen und Schülern vollzogen wird, statt auf einen kollaborativen Prozess, der sie einbezieht. Wenn Schülerinnen und Schüler lernen, ihr eigenes Verständnis einzuschätzen, Lernziele zu setzen und Mitschülerinnen und Mitschülern nützliches Feedback zu geben, werden sie zu aktiven Beteiligten an ihrem eigenen Lernfortschritt. Peer-Beurteilung erzeugt insbesondere Feedback in einem Ausmaß und einer Häufigkeit, die keine einzelne Lehrkraft erreichen kann, und das Bewerten der Arbeit anderer vertieft das eigene Verständnis.

Ergebnisse formativer Beurteilung sollten ins Notenbuch. Formative Arbeiten zu benoten vermischt ihren diagnostischen Zweck mit dem evaluativen Zweck der summativen Beurteilung. Wenn Schülerinnen und Schüler wissen, dass jede Antwort bewertet wird, schützen sie ihre Durchschnittsnote, statt ihr Denken zu zeigen. Die wertvollsten formativen Belege entstehen häufig aus unvollständigem Verständnis, Irrwegen und halbfertigen Ideen — genau das, was Noten bestrafen. Die Trennung von formativen und summativen Aufzeichnungen schützt die psychologische Sicherheit, die ehrliche formative Belege erfordern.

Verbindung zum Aktiven Lernen

Formative Beurteilung und aktives Lernen verstärken sich gegenseitig: Aktives Lernen erzeugt beobachtbare Belege für das Denken, und formative Beurteilung gibt Lehrkräften und Schülerinnen und Schülern einen Mechanismus, diese Belege zu nutzen. Ohne formatives Feedback kann aktives Lernen ansprechend, aber ziellos sein; ohne Strukturen des aktiven Lernens fehlen der formativen Beurteilung die reichhaltigen Belege, die sie für ihre Wirksamkeit benötigt.

Think-Pair-Share ist eines der wirkungsvollsten formativen Beurteilungsinstrumente im gängigen Einsatz. Wenn Schülerinnen und Schüler sich in Paaren über eine Frage austauschen, bevor sie diese mit der Klasse teilen, zirkuliert die Lehrkraft und hört zu — sie sammelt in Echtzeit Belege dafür, was die Schülerinnen und Schüler verstehen, womit sie sich schwertun und was sie wirklich herausfordernd finden. Die Austauschphase zeigt, welche Ideen verbreitet sind und welche vereinzelt vorkommen. Die Lehrkraft kann den Unterricht auf der Stelle anpassen, basierend auf dem, was die Paare zutage gefördert haben.

Gallery Walk verwandelt formative Belege in ein physisches Artefakt, das die Klasse gemeinsam untersuchen kann. Wenn Gruppen ihre Arbeiten an den Wänden aushängen und die Stationen durchwechseln, können sowohl die Lehrkraft als auch die Schülerinnen und Schüler die Bandbreite der Antworten in der Klasse sehen. Die Lehrkraft erhält schnelle Beurteilungsdaten für die gesamte Gruppe; die Schülerinnen und Schüler kalibrieren ihr eigenes Verständnis anhand ihrer Mitschülerinnen und Mitschüler. Die Anmerkungen, die Schülerinnen und Schüler beim Durchwechseln hinzufügen, sind selbst formative Belege.

Chalk Talk, das stille kollaborative Schreibprotokoll, erzeugt eine sichtbare Aufzeichnung des studentischen Denkens ohne den sozialen Druck verbaler Diskussionen. Schülerinnen und Schüler schreiben Fragen und Antworten direkt auf gemeinsames Papier oder ein Whiteboard. Die Lehrkraft kann das Gespräch fotografieren und als formative Daten auswerten, während die Schülerinnen und Schüler sehen, wo das Denken ihrer Mitschülerinnen und Mitschüler mit ihrem eigenen übereinstimmt und wo es abweicht.

Das Konzept der Beurteilung für das Lernen bietet den übergeordneten philosophischen Rahmen, der diese Praktiken verbindet. Während formative Beurteilung die technische Praxis benennt, benennt Beurteilung für das Lernen die Haltung: Beurteilung nicht zum Sortieren oder Zertifizieren, sondern zur Unterstützung des Lernenden auf dem Weg des Fortschritts.

Quellen

  1. Black, P., & Wiliam, D. (1998). Inside the black box: Raising standards through classroom assessment. Phi Delta Kappan, 80(2), 139–148.
  2. Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81–112.
  3. Wiliam, D. (2011). Embedded Formative Assessment. Solution Tree Press.
  4. Sadler, D. R. (1989). Formative assessment and the design of instructional systems. Instructional Science, 18(2), 119–144.