Definition

Summative Beurteilung ist die formale Evaluation des Lernstands von Schülerinnen und Schülern am Ende eines definierten Unterrichtszeitraums — einer Einheit, eines Semesters, eines Kurses oder einer Jahrgangsstufe. Ihr Zweck besteht darin, das Ausmaß zu messen, in dem Lernende spezifische Lernstandards oder Ziele erreicht haben, und ein Urteil über die Kompetenz zu fällen — keine unmittelbare Korrekturanweisung.

Der Begriff leitet sich vom lateinischen summa ab, was „Gesamtheit" oder „Summe" bedeutet. Diese Herkunft ist aufschlussreich: Summative Beurteilung addiert, was eine Schülerin oder ein Schüler zu einem bestimmten Zeitpunkt weiß und kann. Sie ist der Kontrollpunkt am Ende einer Reise, nicht die Wegbeschreibung dazwischen. Häufige Beispiele sind Abschlussprüfungen, Abschlussprojekte einer Einheit, standardisierte staatliche Tests, AP-Prüfungen, Abschlusspräsentationen und Portfolio-Verteidigungen.

Entscheidend ist: Summative Beurteilung ist von Natur aus kein Test. Die Form ist weitaus weniger wichtig als die Funktion. Was eine Beurteilung summativ macht, ist ihre Platzierung nach dem Unterricht und ihr evaluativer Zweck: Hat diese Schülerin, dieser Schüler den Standard erreicht?

Historischer Kontext

Die konzeptuelle Unterscheidung zwischen formativer und summativer Evaluation gelangte durch Michael Scrivens 1967 erschienenen Aufsatz „The Methodology of Evaluation", veröffentlicht in der AERA-Monografienreihe zu Curriculum Evaluation, in die Bildungsliteratur. Scriven schrieb über Programmevaluation, nicht über Schülerbeurteilung, aber Benjamin Bloom und seine Kollegen an der University of Chicago übertrugen den Rahmen rasch in die Unterrichtspraxis.

Bloom entwickelte gemeinsam mit J. Thomas Hastings und George Madaus die unterrichtspraktische Anwendung in ihrem 1971 erschienenen Werk Handbook on Formative and Summative Evaluation of Student Learning. In diesem Rahmen informierte formative Evaluation den laufenden Unterricht, während summative Evaluation ein abschließendes Urteil fällte. Bloom verknüpfte summative Beurteilung direkt mit seiner Taxonomie pädagogischer Ziele und argumentierte, dass die tiefsten kognitiven Ebenen — Analyse, Synthese, Bewertung — Beurteilungsaufgaben verlangen, die über reine Reproduktion hinausgehen.

Das Zeitalter standardisierter Tests in der zweiten Hälfte des zwanzigsten Jahrhunderts verengte das öffentliche Verständnis von summativer Beurteilung auf groß angelegte, hochriskante Prüfungen. Das No Child Left Behind Act (2001) in den USA verstärkte diese Gleichsetzung, indem es die Schulfinanzierung an standardisierte summative Testergebnisse knüpfte und so eine Generation von Lehrkräften hervorbrachte, die den Begriff ausschließlich mit Antwortbögen und Prüfungsangst verband.

Der Gegenstoß kam in den 1990er Jahren und beschleunigte sich durch die 2000er Jahre. Grant Wiggins und Jay McTighes Understanding by Design (1998) plädierte für kompetenzbasierte summative Aufgaben, die rückwärts von angestrebten Verständnissen aus gestaltet werden. Ihre Arbeit — zusammen mit dem wachsenden Interesse an Portfolio-Beurteilung durch Forscherinnen wie Dennie Palmer Wolf am Harvard Project Zero — rehabilitierte summative Beurteilung als flexible, bedeutungsvolle Abschlusserfahrung anstelle eines standardisierten Tests als Standardoption.

Kernprinzipien

Abstimmung auf Lernstandards

Eine summative Beurteilung ist nur so valide wie ihre Verbindung zu dem, was gelehrt wurde und was die Lernenden erreichen sollten. Jede Aufgabe, jede Fragestellung oder jedes Leistungskriterium sollte direkt auf ein spezifisches Lernziel oder einen Standard abgestimmt sein. Wenn Beurteilungen von ihren Standards abdriften — wenn eine Geschichtsprüfung eher Lesekompetenz als historisches Denken testet — liefern sie irreführende Daten über den Lernstand. Diese Abstimmungsanforderung ist das Fundament der kompetenzbasierten Benotung, die die Verbindung zwischen Beurteilungsaufgaben und spezifischen Kompetenzen explizit und transparent macht.

Urteil statt Feedback

Der definierende Zweck summativer Beurteilung ist evaluativ, nicht instruktional. Während formative Beurteilung Feedback erzeugt, auf das Schülerinnen, Schüler und Lehrkräfte sofort reagieren, erzeugt summative Beurteilung eine Note, einen Punktestand oder eine Kompetenzfeststellung, die eine abgeschlossene Lernepisode repräsentiert. Das bedeutet nicht, dass summative Beurteilungen kein Lernen erzeugen — gut gestaltete Aufgaben erfordern tiefes kognitives Engagement — doch das primäre Ergebnis ist ein Urteil, keine Unterrichtsmaßnahme.

Authentizität und Transfer

Die wirkungsvollsten summativen Beurteilungen fordern Schülerinnen und Schüler auf, Wissen auf neue Kontexte anzuwenden, anstatt lediglich auswendig gelernte Informationen zu reproduzieren. Dieses Prinzip — begründet in der Transfertheorie, die von Forschern wie Robert Bjork an der UCLA und Henry Roediger an der Washington University entwickelt wurde — unterscheidet Oberflächenwissen von dauerhaftem Verständnis. Eine Schülerin, die den Wasserkreislauf auf einem Diagramm erklären kann, demonstriert Reproduktion; eine Schülerin, die ein Wasserrückgewinnungssystem für eine von Dürre betroffene Region entwerfen kann, demonstriert Transfer.

Transparenz vor der Beurteilung

Schülerinnen und Schüler performen besser und chancengerechter, wenn sie verstehen, wie Kompetenz aussieht, bevor sie versuchen, sie nachzuweisen. Rubriken im Voraus zu veröffentlichen, Musterbeispiele zu besprechen und Lernziele explizit zu machen, ist kein „Verraten" der Beurteilung. Es sind Bedingungen für faire Messung. Wenn Schülerinnen und Schüler die Kriterien nicht kennen, spiegelt ihre Leistung ebenso sehr die Vertrautheit mit Prüfungsformaten wie das tatsächliche Lernen wider.

Trennung von der Übungsphase

Summative Beurteilungen sollten endgültige Kompetenz evaluieren, nicht das unordentliche Mittelstück des Lernprozesses. Rohentwürfe, Mitarbeit oder laufende Labornotizbücher als summativ zu bewerten, untergräbt sowohl die Genauigkeit (die Schülerin hatte das Lernen noch nicht abgeschlossen) als auch die Motivation (Schülerinnen und Schüler hören auf, Risiken einzugehen, wenn jeder Versuch dauerhaft gegen sie zählt). Übungsbeurteilung von abschließendem Urteil getrennt zu halten, ist sowohl ein Messprinzip als auch ein ethisches.

Unterrichtspraktische Anwendung

Abschluss-Leistungsaufgaben (Mittelstufe)

Eine Lehrerin einer siebten Klasse schließt eine Einheit über Ökosysteme ab, indem sie die Schülerinnen und Schüler auffordert, ein selbsterhaltendes Terrarium zu entwerfen und eine wissenschaftliche Erklärung des Energieflusses und der Nährstoffkreisläufe darin zu verfassen. Die Lernenden präsentieren ihre Entwürfe einem Gremium aus der Lehrkraft und zwei als Evaluatoren geschulten Mitschülerinnen. Die Aufgabe erfordert die Reproduktion von Fachbegriffen, aber ihr Kernanspruch ist die Anwendung: Die Schülerinnen und Schüler müssen über ein System nachdenken, das sie selbst konstruiert haben, nicht über eines, das sie auswendig gelernt haben. Die Lehrkraft verwendet eine Rubrik mit vier Kriterien: wissenschaftliche Genauigkeit, Systemdenken, Kommunikationsklarheit und Nutzung von Belegen — jedes Kriterium ist einem spezifischen NGSS-Leistungsstandard zugeordnet.

Abschlussdebatte (Gymnasiale Oberstufe)

Eine Lehrerin einer zwölften Klasse beendet eine semesterlange Einheit zum Verfassungsrecht mit einem strukturierten Scheinprozess. Die Schülerinnen und Schüler argumentieren zugewiesene Positionen in einem simulierten Fall über Durchsuchungs- und Beschlagnahmerechte nach dem Vierten Zusatzartikel, unter Verweis auf Fallpräzedenzien und Verfassungstext. Das Scheinprozess-Format ist inhärent summativ: Die Lernenden können nichts nachschlagen, müssen monatelange Inhalte synthetisieren und müssen in Echtzeit auf Gegenargumente reagieren. Die Lehrkraft bewertet jede Schülerin und jeden Schüler nach juristischer Argumentation, Nutzung von Belegen, Qualität der Erwiderung und prozeduraler Einhaltung — alles auf die AP-Government-Kursstandards abgestimmt.

Museumsausstellung (Grundschule)

Eine vierte Klasse, die Lokalgeschichte studiert, präsentiert ein „lebendes Museum", in dem jede Schülerin und jeder Schüler zur Expertin oder zum Experten für einen Aspekt der Stadtgeschichte wird. Die Lernenden erstellen Ausstellungstafeln, verfassen erläuternde Beschriftungen und beantworten Besucherfragen in der Rolle. Das Museumsausstellungs-Format funktioniert als summative Beurteilung, weil es die Lernenden auffordert, Forschungsergebnisse zu einer kommunizierbaren Erzählung zu synthetisieren und unvorhergesehene Fragen eines authentischen Publikums zu beantworten. Lehrkräfte beurteilen anhand einer Rubrik, die historische Genauigkeit, Nutzung von Primärquellen und mündliche Erklärungsqualität abdeckt.

Pressekonferenz (Gesellschaftskunde, Klasse 6–12)

Nach einer Einheit zur Klimapolitik wählen die Schülerinnen und Schüler eine Stakeholder-Rolle — eine Küstenbürgermeisterin, einen Fossilienbrennstoffe-Manager, eine Umweltwissenschaftlerin, eine Gewerkschaftsvertreterin — und nehmen an einer simulierten Pressekonferenz teil. Schülerjournalistinnen und -journalisten (aus der Klasse oder einer Partnerklasse) reichen Fragen im Voraus ein und stellen Nachfragen in Echtzeit. Lehrkräfte bewerten sachliche Genauigkeit, Argumentationsqualität, Auseinandersetzung mit Gegenargumenten und Nutzung von Daten. Das Format fordert die Lernenden auf, ihr Wissen unter Druck zu vertreten — ein besseres Maß für echtes Verständnis als eine schriftliche Prüfung in Stille.

Forschungsstand

Den grundlegenden Beleg für rigorose summative Beurteilung liefert John Hatties Synthese von über 800 Meta-Analysen, veröffentlicht in Visible Learning (2009). Hattie stellte fest, dass Beurteilungen mit klaren Kriterien und bedeutungsvollen Leistungsstandards eine Effektgröße von 0,62 auf die Schülerleistung hatten — deutlich über dem Schwellenwert von 0,40, den er als Äquivalent eines Jahres Lernwachstum identifiziert. Die entscheidende Moderatorvariable war, ob die Lernenden die Erfolgskriterien verstanden, bevor sie die Aufgabe versuchten.

Paul Black und Dylan Wiliams wegweisendes 1998er Review „Assessment and Classroom Learning", veröffentlicht in Assessment in Education, untersuchte 250 Studien zur Beurteilungspraxis. Obwohl ihre Arbeit vor allem für ihre Schlussfolgerungen zu formativem Feedback bekannt ist, dokumentierten sie auch, dass summative Beurteilungen, die auf höherstufiges Denken ausgerichtet waren, dauerhafte Behaltenseffekte erzeugten, während auf Faktenwissen ausgerichtete Beurteilungen innerhalb von Wochen nach dem Test steile Vergessenskurven zeigten.

Linda Darling-Hammond und ihre Kollegen am Stanford Center for Opportunity Policy in Education veröffentlichten 2010 eine vergleichende Studie zu Leistungsbeurteilungssystemen in den USA und international. Schulen, die portfoliobasierte summative Beurteilungen verwendeten — insbesondere im New York Performance Standards Consortium — zeigten vergleichbare oder überlegene Hochschulverbleibsquoten im Vergleich zu Schulen mit Schwerpunkt auf standardisierten summativen Tests, obwohl sie deutlich höhere Anteile von Schülerinnen und Schülern aus einkommensschwachen Familien unterrichteten.

Forschung zur Authentizität unterstützt speziell kompetenzbasierte summative Formate. Eine 2018 erschienene Meta-Analyse von Karen Murphy und Kolleginnen und Kollegen an der Penn State, veröffentlicht in Review of Educational Research, untersuchte 53 Studien zu kollaborativen, leistungsbasierten Beurteilungen und fand signifikante Vorteile für langfristigen Behalt und Transfer im Vergleich zu individuellen schriftlichen Prüfungen. Der Effekt war am stärksten, wenn Aufgaben die Lernenden dazu aufforderten, ein öffentlich zugängliches Produkt zu erstellen — eine Präsentation, Ausstellung oder ein veröffentlichtes Werk — anstatt einer privaten Einreichung.

Eine ehrliche Einschränkung: Die meisten Studien zur Leistungsbeurteilung sind schwer zu vergleichen, da Aufgaben von Klasse zu Klasse und von Schule zu Schule enorm variieren. Die Forschungsgrundlage wächst, hat aber noch nicht die Art von engmaschig kontrollierten Studien hervorgebracht, die einen skeptischen Politikgestalter überzeugen würden. Was die Belege klar unterstützen, ist: Die Abstimmung zwischen Beurteilung und Unterrichtszielen ist der stärkste Prädiktor für aussagekräftige Daten — unabhängig vom Format.

Häufige Missverständnisse

Missverständnis 1: Summative Beurteilungen müssen hochriskante Tests sein

Die Gleichsetzung von „summativ" mit „standardisierter Test" ist angesichts des bildungspolitischen Umfelds der letzten drei Jahrzehnte verständlich, aber ungenau. Jede Aufgabe, die den Lernstand von Schülerinnen und Schülern am Ende eines Lernabschnitts evaluiert, ist per Definition summativ. Ein Portfolio-Review, eine mündliche Prüfung, eine Designaufgabe oder eine Forschungspräsentation können alle als summative Beurteilungen dienen. Das Format sollte danach gewählt werden, welche Aufgabe am besten zeigt, ob die Lernenden die spezifischen Lernziele der Einheit erreicht haben — nicht nach administrativer Bequemlichkeit oder Tradition.

Missverständnis 2: Summative Beurteilungsdaten kommen zu spät, um nützlich zu sein

Lehrkräfte dismissieren summative Daten manchmal als „retrospektiv" — nützlich nur für die Benotung, nicht für die Verbesserung der Praxis. Das missversteht, wie summative Daten auf Klassen- und Curriculumsebene wirken. Wenn eine Analyse zeigt, dass 65 % der Schülerinnen und Schüler in jeder Sektion Fragen zu einem bestimmten Konzept verfehlt haben, sind das diagnostische Informationen über das Einheitsdesign, die Zeitplanung oder die Sequenzierung von Vorwissen. Viele leistungsstarke Schulen bauen formale Dateninquiry-Protokolle rund um summative Ergebnisse auf, um das Curriculum vor der nächsten Kohorte derselben Einheit anzupassen.

Missverständnis 3: Rubriken vor der Beurteilung zu teilen, beeinträchtigt ihre Validität

Einige Lehrkräfte befürchten, dass das Bereitstellen von Rubriken oder Musterbeispielen im Voraus die Beurteilung zu einfach macht oder auf den Test vorbereitet. Die Forschung unterstützt diese Sorge nicht. Die Veröffentlichung von Kriterien vor der Aufgabe beeinträchtigt die Messung nicht — sie verbessert sie, indem sie sicherstellt, dass die Leistung der Schülerinnen und Schüler ihre Kompetenz bezüglich der Lernziele widerspiegelt und nicht ihre Fähigkeit, zu erraten, was die Lehrkraft wertschätzt. Im Voraus geteilte Rubriken sind eine Bedingung für chancengerechte Beurteilung, keine Abkürzung, die die Anforderungen untergräbt.

Verbindung zum aktiven Lernen

Summative Beurteilung und aktives Lernen sind nicht nur vereinbar — die stärksten aktiven Lernmethoden wurden von Grund auf mit bedeutungsvollen summativen Aufgaben im Blick gestaltet. Grant Wiggins argumentierte in Educative Assessment (1998), dass authentische Aufgaben — reale Anwendungen von akademischem Wissen — gleichzeitig die besten Unterrichtsvehikel und die validesten summativen Maßnahmen sind.

Das Scheinprozess-Format exemplifiziert diese Integration. Schülerinnen und Schüler können juridische Konzepte nicht bloß reproduzieren; sie müssen sie unter adversarialen Bedingungen anwenden und auf Argumente reagieren, die sie nicht antizipiert haben. Die Beurteilung ist die Aktivität, und die Aktivität ist die Beurteilung. Es gibt keinen separaten „Prüfungstag", der von der Lernerfahrung abgekoppelt ist.

Ebenso erzeugt die Museumsausstellungs-Methodik ein öffentliches Artefakt, das die Lernenden auffordert, Forschungsergebnisse in eine zugängliche, genaue und ansprechende Präsentation zu synthetisieren. Der Prozess des Aufbaus der Ausstellung ist formativ — Lehrkräfte und Mitschülerinnen geben Feedback zu Entwürfen, Genauigkeitsprüfungen finden vor der Eröffnung statt — während die abschließende Ausstellung als summatives Maß dient. Diese Struktur entspricht genau dem, was Dylan Wiliam als „Assessment for learning" neben „Assessment of learning" bezeichnet.

Die Pressekonferenz-Methodik schafft Bedingungen für spontanen Wissensnachweis — wohl die reinste Form summativer Beurteilung: Schülerinnen und Schüler können sich nicht auf Notizen oder Skripte stützen, müssen ihre Positionen mit Belegen verteidigen und auf unerwartete Fragen von Mitschülerinnen und Mitschülern reagieren, die eigene Recherchen durchgeführt haben. Diese Art ungescrippter Leistung offenbart Verständnis, auf das kein schriftlicher Test zugreifen kann.

Alle drei Methoden passen natürlich zu Rubriken, um die Bewertungskriterien explizit zu machen, und zu formativen Beurteilungs-Checkpoints während des gesamten Vorbereitungsprozesses. Wenn sie in einen Rahmen der kompetenzbasierten Benotung eingebettet sind, entsteht ein kohärentes System, in dem Schülerinnen und Schüler stets verstehen, wie Kompetenz aussieht, mehrere Übungsmöglichkeiten vor der abschließenden Demonstration haben und nach konsistenten, transparenten Kriterien bewertet werden — nicht im Vergleich zu Mitschülerinnen und Mitschülern oder nach Kurvenbenotung.

Quellen

  1. Scriven, M. (1967). The methodology of evaluation. In R. W. Tyler, R. M. Gagné, & M. Scriven (Eds.), Perspectives of Curriculum Evaluation (pp. 39–83). Rand McNally.

  2. Bloom, B. S., Hastings, J. T., & Madaus, G. F. (1971). Handbook on Formative and Summative Evaluation of Student Learning. McGraw-Hill.

  3. Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7–74.

  4. Wiggins, G., & McTighe, J. (1998). Understanding by Design. Association for Supervision and Curriculum Development.