Definition
Peer Assessment ist eine strukturierte pädagogische Praxis, bei der Schülerinnen und Schüler die Arbeit, Leistung oder das Verständnis ihrer Mitschüler anhand vorher festgelegter Kriterien bewerten. Die bewertende Person verfasst schriftliche Kommentare, Bewertungen oder beides, und die empfangende Person nutzt dieses Feedback zur Überarbeitung oder Reflexion. Im Unterschied zu beiläufigem Peer-Feedback, also einem schlichten „Sieht gut aus", erfordert strukturiertes Peer Assessment explizite Kriterien, einen definierten Prozess und in der Regel eine Form der Rechenschaftspflicht.
Das Konzept ordnet sich in den breiteren Bereich der formativen Beurteilung ein: Beurteilung, deren primäre Funktion die Verbesserung des Lernens ist, nicht dessen Messung für eine Note. Keith Topping, dessen Metaanalyse von 1998 an der University of Dundee die grundlegende Übersicht des Feldes bleibt, definierte Peer Assessment als „eine Vereinbarung, bei der Lernende das Niveau, den Wert oder die Qualität eines Produkts oder einer Leistung anderer gleichrangiger Lernender berücksichtigen und bestimmen." Die Definition hebt zwei wesentliche Merkmale hervor: das evaluative Urteilsvermögen, das beteiligt ist, und die soziale Gleichrangigkeit von Bewertenden und Bewertetem.
Peer Assessment unterscheidet sich von Selbstbeurteilung, bei der Lernende ihre eigene Arbeit bewerten, obwohl beide Praktiken häufig kombiniert werden. Es unterscheidet sich auch von kooperativem Lernen, das Gruppeninterdependenz für die gemeinsame Produkterstellung strukturiert. Peer Assessment kann innerhalb kooperativer Strukturen stattfinden, wirkt aber als eigenständiger reflektiver Akt, nicht nur als Merkmal von Gruppenarbeit.
Historischer Kontext
Die intellektuellen Wurzeln des Peer Assessments reichen in die 1960er und 1970er Jahre zurück, als Kognitionspsychologen das passive Lernmodell, das Schulen dominierte, zu hinterfragen begannen. Blooms Mastery-Learning-Modell (1968) stellte fest, dass formatives Feedback innerhalb von Lernzyklen wesentlich für den Lernfortschritt der Schülerinnen und Schüler ist, eine Prämisse, die Peer-Feedback zu einem naheliegenden Werkzeug machte.
Die Praxis erhielt ihre erste systematische Forschungsbasis in der Hochschulbildung in den 1980er und 1990er Jahren. Nancy Falchikov an der Napier University gehörte zu den ersten Forscherinnen, die Peer-Bewertungen systematisch untersuchte, und berichtete in einem Artikel von 1986, dass Lernende zuverlässig nahe an den Noten der Lehrenden liegende Bewertungen vergeben konnten, wenn sie mit expliziten Kriterien geschult wurden. Keith Toppings Überblick von 1998 im Review of Educational Research konsolidierte Erkenntnisse aus 109 Studien und belegte, dass Peer Assessment zuverlässige Zuwächse in akademischer Leistung, metakognitiver Bewusstheit und der Qualität des Feedbacks der Schülerinnen und Schüler erzeugte.
Paul Black und Dylan Wiliams wegweisendes Review von 1998, „Inside the Black Box" (veröffentlicht im Phi Delta Kappan), veränderte die gesamte Diskussion. Ihre Analyse von 250 Studien kam zu dem Schluss, dass formative Beurteilungspraktiken, einschließlich Peer- und Selbstbeurteilung, einige der größten Effektstärken produzierten, die je in der Bildungsforschung dokumentiert wurden, insbesondere für leistungsschwächere Schülerinnen und Schüler. Ihre Arbeit verwandelte Peer Assessment von einer Nischentechnik der Hochschullehre in eine weltweit verbreitete schulische Praxis.
David Nicol und Debra Macfarlane-Dick bauten auf diesem Fundament mit einem 2006 in Studies in Higher Education veröffentlichten theoretischen Modell auf und argumentierten, dass Peer-Feedback vor allem deshalb wertvoll ist, weil es die Fähigkeit der Bewertenden entwickelt, ihr eigenes Lernen zu überwachen und zu regulieren, nicht weil es die Empfangenden informiert.
Grundprinzipien
Kriterien müssen vor der Beurteilung explizit sein
Peer Assessment liefert nur dann zuverlässiges, nützliches Feedback, wenn sowohl Bewertende als auch Bewertete verstehen, wie Qualität aussieht, bevor die Evaluation beginnt. Erst nach der Abgabe präsentierte Kriterien wirken als nachträgliches Urteil. Kriterien, die gemeinsam mit Lernenden vor einer Aufgabe erarbeitet werden, dienen als Lerngerüst während des gesamten Erarbeitungsprozesses. Forschungen von Andrade und Du (2005) ergaben, dass Lernende, die an der Entwicklung von Rubriken mitgewirkt hatten, signifikant bessere Arbeiten produzierten als jene, die dieselbe Rubrik passiv erhielten. Das Artikulieren von Qualität ist selbst ein Lernakt.
Die bewertende Person lernt ebenso viel wie die empfangende
Ein hartnäckiges Missverständnis behandelt Peer Assessment als Übermittlungsmechanismus für Feedback. Die stärkere Evidenz verweist in eine andere Richtung: Die kognitive Arbeit, Kriterien auf die Arbeit anderer anzuwenden, zwingt die Bewertenden, sich aktiv mit Standards auseinanderzusetzen, die sie sonst möglicherweise überfliegen würden. Toppings Analyse von 1998 dokumentierte diesen Nutzen für die Bewertenden über mehrere Fachbereiche hinweg. Schülerinnen und Schüler, die gebeten werden, ein Argument zu bewerten, müssen zunächst ein mentales Modell davon konstruieren, wie ein starkes Argument aussieht, und genau diese Konstruktion ist das Lernen.
Schulung und modellierte Beispiele sind unverzichtbar
Ohne Vorbereitung fallen Lernende auf vages Lob zurück („gut gemacht") oder üben stumpfe Kritik ohne Erklärung. Beides hilft der empfangenden Person nicht. Effektive Peer-Assessment-Programme investieren explizite Unterrichtszeit in Feedback-Kompetenz: was Feedback spezifisch macht, was es umsetzbar macht, wie man Beschreibung von Bewertung unterscheidet. Übliche Praxis umfasst die Analyse starker und schwacher Beispiele von Peer-Feedback, bevor Lernende ihr eigenes verfassen.
Anonymität ist ein Werkzeug, keine Voraussetzung
Anonymes Peer Assessment reduziert sozialen Druck und Freundschaftsbias in manchen Kontexten, besonders wenn Noten auf dem Spiel stehen. Es beseitigt aber auch Rechenschaftspflicht und kann die Sorgfalt verringern, die Lernende auf schriftliche Kommentare verwenden. Viele erfahrene Praktiker nutzen identifiziertes Peer-Feedback für formative Arbeiten, wo die Beziehung zwischen Feedback-Gebenden und -Empfangenden selbst zu einem Lerngespräch werden kann, und anonymes Review, wenn Noten in die Benotung einfließen.
Häufigkeit ist wichtiger als Einzelereignisse
Einmal pro Semester praktiziertes Peer Assessment hat minimale bleibende Wirkung auf Feedback-Kompetenz oder Selbstregulation. Forschende wie Nicol und Macfarlane-Dick (2006) argumentieren, dass das Ziel darin besteht, dass Lernende evaluative Standards verinnerlichen, ein Prozess, der wiederholte Auseinandersetzung über verschiedene Aufgaben und Fachbereiche hinweg erfordert. Kurze, häufige Peer-Review-Zyklen, selbst strukturierte Austausche von zehn Minuten, bauen die Gewohnheit effektiver auf als aufwendige Einzelereignisse.
Unterrichtliche Anwendung
Grundschule: Kriterienchecklisten für frühe Schreibende
In der 2. und 3. Klasse funktioniert Peer Assessment am besten mit konkreten, binären Kriterien, die Lernende abhaken können. Nach einer kurzen Schreibaufgabe tauschen die Lernenden ihre Arbeiten aus und gehen eine Checkliste durch: „Hat es einen Großbuchstaben am Anfang? Hat es einen Punkt am Ende? Findest du ein beschreibendes Wort?" Die bewertende Person markiert oder setzt Häkchen bei jedem Kriterium. Das Feedback ist strukturiert genug, um umsetzbar zu sein, und spezifisch genug, um ehrlich zu sein, ohne die nuancierte evaluative Sprache zu erfordern, die junge Lernende noch nicht entwickelt haben.
Die Rolle der Lehrkraft besteht in diesem Stadium darin, den Prozess wiederholt anhand von Beispielen aus dem Plenum zu modellieren und zu benennen, was sie bemerkt und warum es das Kriterium erfüllt oder verfehlt. Dieses Modellieren ist kein optionales Gerüst, es ist der eigentliche Unterricht in Feedback-Kompetenz.
Sekundarschule: Strukturiertes Peer-Review argumentativer Texte
Eine Klasse 10 im Geschichtsunterricht, die analytische Aufsätze schreibt, profitiert von einer zweistufigen Peer-Review-Struktur. Im ersten Durchgang liest jede Person den Aufsatz ihrer Partnerin oder ihres Partners und unterstreicht die Hauptthese und alle Belege. Im zweiten Durchgang füllen sie einen Feedback-Rahmen aus: „Dein Argument ist am stärksten, wenn ... Eine Stelle, an der der Beleg deine These nicht vollständig stützt, ist ... Eine konkrete Überarbeitungsempfehlung wäre ..." Der Rahmen verhindert vages Feedback, ohne die Antwort übermäßig zu skripten.
Das Zurückgeben der Arbeiten mit schriftlichem Peer-Feedback vor der Abgabe der Endfassung gibt den Lernenden ein konkretes Revisionsziel. Studien, die Feedback-dann-Überarbeitung mit Bedingungen ohne Feedback verglichen, zeigen konsistent Qualitätssteigerungen in den überarbeiteten Entwürfen.
Plenum: Galeriegang mit Peer-Annotation
Eine Galeriegang-Peer-Assessment-Adaption platziert die Arbeiten der Lernenden im Raum. Jede Person bewegt sich mit Haftnotizen in zwei Farben durch den Raum: eine für spezifische Stärken („starke Verwendung von Daten in Bild 3"), eine für spezifische Fragen oder Vorschläge („Was ist die Quelle für die Statistik in Absatz 2?"). Die Lernenden kehren zu ihrer Arbeit mit einer Reihe von Peer-Annotationen zurück, die mehrere Perspektiven repräsentieren, nicht nur die Sichtweise einer einzelnen Person.
Dieses Format eignet sich besonders für visuelle und projektbasierte Arbeiten, wo die Ausstellung selbst etwas über Organisation und Designentscheidungen kommuniziert, was schriftlicher Text allein möglicherweise nicht erfassen würde.
Forschungsbefunde
Toppings Metaanalyse von 1998 im Review of Educational Research synthetisierte 109 Studien zum Peer Assessment über Bildungsniveaus und Fachbereiche hinweg. Die Übersicht ergab, dass Peer Assessment konsistente positive Auswirkungen auf die akademische Leistung erzeugte, mit Effektstärken vergleichbar mit anderen gut etablierten formativen Interventionen. Entscheidend fand Topping, dass die Effektstärken größer waren, wenn Bewertungskriterien explizit waren, wenn Lernende im Prozess geschult wurden und wenn Peer Assessment in den Lehrplan integriert, statt als einmalige Aktivität hinzugefügt wurde.
Falchikov und Goldfinch (2000), ebenfalls im Review of Educational Research, führten eine Metaanalyse von 48 Studien durch, die Peer-Noten mit Lehrernoten verglichen. Sie fanden, dass die Übereinstimmung zwischen Peer- und Lehrernoten signifikant stärker war, wenn die Beurteilung mehrere Kriterien umfasste (statt einer einzelnen ganzheitlichen Bewertung), wenn Kriterien gemeinsam mit Lernenden erarbeitet wurden und wenn die bewertete Arbeit gut strukturiert war. Der Befund adressiert eine häufige Sorge: Peer-Noten können zuverlässig sein, wenn die Bedingungen stimmen.
Van Zundert, Sluijsmans und Van Merrienboer (2010) in Learning and Instruction überprüften prozessorientierte Forschung zum Peer Assessment und fanden starke Belege dafür, dass die Qualität von Peer-Feedback steigt, wenn Bewertende Schulungen erhalten, wenn Aufgaben spezifische statt globale Evaluierung erfordern und wenn Feedback mit Überarbeitungsmöglichkeiten verknüpft ist. Studien, die Feedback ohne Überarbeitungsmöglichkeit bereitstellten, zeigten geringere oder vernachlässigbare Lernzuwächse.
Eine erwähnenswerte Einschränkung: Der Großteil der Peer-Assessment-Forschung wurde im Hochschulkontext durchgeführt. Die Evidenzbasis für strukturiertes Peer Assessment in der Grundschule ist dünner und gemischter. Die altersstufengerechte Passung sowohl der Kriterienkomplexität als auch der sozialen Dynamiken erfordert sorgfältiges pädagogisches Urteilsvermögen, und eine pauschale Übertragung hochschulbasierter Erkenntnisse auf Grundschulklassen ist nicht angebracht.
Häufige Missverständnisse
Peer Assessment ist ein zeitsparender Ersatz für Lehrerfeedback. Peer-Feedback ist kein günstigeres oder schnelleres Lehrerfeedback, sondern eine andere Art von Lernaktivität. Wenn es als Strategie zur Arbeitslastreduktion ohne Schulung oder Struktur eingesetzt wird, produziert es Feedback von geringer Qualität, das Lernende frustriert und das Vertrauen in den Prozess untergräbt. Sein Wert liegt in der kognitiven Arbeit, die es für die Bewertenden erzeugt. Lehrkräfte, die Peer Assessment effektiv implementieren, investieren in der Regel erhebliche Unterrichtszeit vorab in die Schulung der Lernenden; der Ertrag ist langfristige Entwicklung von Urteilsvermögen, nicht reduzierter Korrekturaufwand.
Lernende sind nicht qualifiziert, die Arbeit ihrer Mitschüler zu bewerten. Diese Sorge ist verständlich, beruht aber auf einem Missverständnis dessen, was Peer Assessment von Lernenden verlangt. Peer-Bewertende werden nicht gebeten, summative Urteile über die Fähigkeiten einer Mitschülerin oder eines Mitschülers zu fällen, sondern explizite Kriterien auf ein spezifisches Stück Arbeit anzuwenden. Wenn Kriterien klar sind und Lernende geschult wurden, ist dies eine Aufgabe innerhalb ihrer Kompetenz. Falchikovs und Goldfinch's Metaanalyse von 2000 dokumentierte Peer-Lehrer-Notenkorrelationen über 0,80 in gut konzipierten Studien.
Positive Peer-Beziehungen werden Noten aufblähen und negative sie drücken. Freundschaftseffekte sind real, aber kontextgebunden und beherrschbar. Von Topping (1998) überprüfte Forschung fand, dass Freundschaftseffekte bei unstrukturierten, ganzheitlichen Beurteilungsaufgaben am stärksten und bei mehreren spezifischen Kriterien, die individuelle Begründungen erfordern, am schwächsten waren. Anonyme Abgaben reduzieren sozialen Druck in Hochstakessituationen. Wichtiger noch: In eine Feedback-Kultur zu investieren, also Klassennormen rund um ehrliches, nützliches Feedback als Form des Respekts zu entwickeln, verändert die soziale Bedeutung von Peer Assessment im Laufe der Zeit.
Verbindung zum aktiven Lernen
Peer Assessment ist von Natur aus ein aktiver Lernakt. Kriterien anzuwenden, schriftliche Begründungen zu generieren und evaluative Urteile zu fällen, erfordert Elaboration, Analyse und Synthese, die oberen Ebenen von Blooms Taxonomie, statt passiver Aufnahme von Lehrerkommentaren.
Peer Teaching und Peer Assessment teilen denselben zugrunde liegenden Mechanismus: Beide verlangen von Lernenden, sich mit Inhalten oder Kriterien auf eine Tiefe einzulassen, die bloße Aufnahme nicht erzeugen kann. Beim Peer Teaching zwingt das Erklären eines Konzepts die Erklärenden dazu, Lücken in ihrem eigenen Verständnis zu identifizieren und zu schließen. Beim Peer Assessment zwingt das Bewerten von Arbeiten die Bewertenden dazu, ein internes Qualitätsmodell zu konstruieren. Lehrkräfte, die Peer Teaching mit strukturiertem Peer Review kombinieren, schaffen eine verstärkende Wechselwirkung, bei der Lernende sowohl Inhalte unterrichten als auch die Qualität der gegenseitigen Anwendung bewerten.
Galeriegänge bieten einen natürlichen Rahmen für Peer Assessment visueller Arbeiten oder Ausstellungsformate. Strukturierte Annotationsprotokolle, die spezifische kriterienbasierte Kommentare statt allgemeiner Reaktionen verlangen, verwandeln den Galeriegang von einer Ausstellung in einen Feedback-Zyklus.
Karussell-Brainstorming kann für Peer Assessment schriftlicher Entwürfe oder strukturierter Argumente adaptiert werden. Gruppen rotieren durch die Arbeiten der anderen und fügen an jeder Station spezifische Kommentare hinzu. Das Mehrfach-Reviewer-Format bedeutet, dass jedes Stück Arbeit vielfältiges Feedback erhält, was das Gewicht eines einzelnen Peer-Urteils reduziert.
Die Verbindung zu Feedback in der Bildung ist direkt: Peer Assessment ist einer der wirkungsstärksten Kontexte für die Entwicklung von Feedback-Kompetenz, weil Lernende Feedback aktiv generieren müssen, statt es passiv zu empfangen. Forschung zu Feedback zeigt konsistent, dass das Geben detaillierten Feedbacks die eigene nachfolgende Arbeit der Gebenden verbessert, ein Befund, der für den Aufbau von Peer Assessment in reguläre Unterrichtszyklen spricht, statt es als gelegentliche Bereicherungsaktivität zu behandeln.
Quellen
-
Topping, K.J. (1998). Peer assessment between students in colleges and universities. Review of Educational Research, 68(3), 249–276.
-
Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7–74.
-
Falchikov, N., & Goldfinch, J. (2000). Student peer assessment in higher education: A meta-analysis comparing peer and teacher marks. Review of Educational Research, 70(3), 287–322.
-
Nicol, D.J., & Macfarlane-Dick, D. (2006). Formative assessment and self-regulated learning: A model and seven principles of good feedback practice. Studies in Higher Education, 31(2), 199–218.