Definition

Eine Rubrik ist ein Bewertungsleitfaden, der die Kriterien zur Beurteilung einer Arbeit explizit formuliert und die Leistung auf mehreren Qualitätsniveaus für jedes Kriterium beschreibt. Anstatt eine Note aus dem Bauchgefühl heraus zu vergeben, macht eine Rubrik das mentale Modell der Lehrperson von „guter Arbeit" explizit, kommunizierbar und konsistent über Schülerinnen und Schüler sowie Bewerterinnen und Bewerter hinweg.

Die kanonische Form einer analytischen Rubrik ist ein Raster. Zeilen repräsentieren Kriterien (zum Beispiel Argumentationsklarheit, Umgang mit Belegen, Gliederung). Spalten repräsentieren Leistungsniveaus, die üblicherweise mit Beschreibungen wie „Anfänger", „In Entwicklung", „Kompetent" und „Vorbildlich" oder mit numerischen Punktwerten versehen sind. Jede Zelle enthält eine spezifische Beschreibung, wie die Arbeit an der Schnittstelle von Kriterium und Niveau aussieht. Holistische Rubriken fassen dieses Raster zu einem Satz von Absatzbeschreibungen zusammen, die jeweils das Gesamtprodukt auf einem bestimmten Qualitätsniveau repräsentieren.

Rubriken erfüllen zwei unterschiedliche Zwecke, die leicht miteinander verwechselt werden. Sie sind Beurteilungsinstrumente, die Lehrpersonen dabei helfen, konsistent zu benoten, und sie sind Unterrichtswerkzeuge, die Erwartungen kommunizieren und Schülerinnen und Schüler bei der Überarbeitung leiten. Die zweite Funktion ist mindestens ebenso wichtig wie die erste, und sie wird am häufigsten zu wenig genutzt.

Historischer Kontext

Das Wort „Rubrik" stammt vom lateinischen rubrica, was roten Ocker oder rote Erde bedeutet und sich auf die rote Tinte bezieht, mit der mittelalterliche Schreiber Überschriften und Anweisungen in Manuskripten markierten. Die moderne pädagogische Bedeutung entwickelte sich im Laufe des zwanzigsten Jahrhunderts, als Forschende systematische Wege suchten, um komplexe Schülerleistungen zu bewerten, die einer einfachen Richtig-oder-Falsch-Bewertung nicht zugänglich waren.

Frühe formalisierte Rubriken entstanden in groß angelegten Schreibbeurteilungsprogrammen der 1960er und 1970er Jahre, getrieben von der Notwendigkeit, mehrere Bewerterinnen und Bewerter darin zu schulen, Schüleraufsätze konsistent zu bewerten. Educational Testing Service und ähnliche Organisationen entwickelten Protokolle zur Interrater-Reliabilität, die zur Grundlage für das Rubrikdesign wurden. Paul Diederich's Werk Measuring Growth in English aus dem Jahr 1974 beschrieb die gewichtete Merkmalsbewertung für das Schreiben, ein früher analytischer Rahmen, der die spätere Rubrikentwicklung beeinflusste.

Der Begriff fand vor allem durch die Arbeit von Heidi Goodrich Andrade Eingang in die breite Unterrichtspraxis. Ihr Artikel „Understanding Rubrics" aus dem Jahr 1997 in Educational Leadership gab praktizierenden Lehrpersonen eine klare, praxisorientierte Einführung in das analytische Rubrikdesign. Andrade argumentierte, dass Rubriken nicht bloß Abkürzungen beim Benoten seien, sondern Werkzeuge, um Qualitätskriterien für Schülerinnen und Schüler transparent zu machen, bevor sie mit der Arbeit beginnen. Ihre Forschungen in den späten 1990er und 2000er Jahren etablierten die Selbstbeurteilung von Lernenden mithilfe von Rubriken als eigenständige, empirisch gestützte Praxis.

W. James Popham bot eine wichtige Korrektur in seinem 1997 in Educational Leadership erschienenen Beitrag „What's Wrong — and What's Right, with Rubrics" und warnte davor, dass schlecht gestaltete Rubriken die Aufgabe statt die zugrunde liegende Kompetenz beschreiben, was zu rubrikspezifischem Coaching führe, das nicht transferierbar sei. Seine Kritik trieb das Feld in Richtung Rubriken, die dauerhafte Lernkonstrukte statt aufgabenspezifisches Verhalten messen.

Susan Brookhart fasste jahrzehntelange Praxis und Forschung in ihrem 2013 erschienenen Buch How to Create and Use Rubrics for Formative Assessment and Grading zusammen, das bis heute als meistzitierter Praxisleitfaden gilt. Brookhart betonte, dass Rubrikdeskriptoren in Begriffen der Qualitäten der Arbeit formuliert sein müssen, nicht des Verhaltens der Schülerinnen und Schüler oder der Anforderungen der Aufgabe, eine Unterscheidung, die erhebliche Konsequenzen dafür hat, wie nützlich eine Rubrik wird.

Grundprinzipien

Kriterien spiegeln Lernziele wider, keine Aufgabenschritte

Jede Zeile einer Rubrik sollte einem Lernziel entsprechen, nicht einem Merkmal des Arbeitsauftrags. Eine Rubrik für einen Geschichtsaufsatz, die „Fünf Quellen verwendet", „MLA-Format benutzt" und „Rechtzeitig abgegeben" auflistet, misst Regelkonformität, kein Lernen. Eine Rubrik, die „Quellenkorroboration", „Historische Argumentation" und „Kontextuelle Analyse" misst, erfasst die intellektuellen Fähigkeiten, die der Arbeitsauftrag entwickeln soll. Wenn Rubrikkriterien mit Lernzielen übereinstimmen, werden Beurteilungsinstrument und Unterrichtsziel zu ein und demselben Gegenstand.

Leistungsdeskriptoren sind qualitativ, nicht quantitativ

Die Beschreibungen in jeder Zelle sollten beobachtbare Qualitäten der Arbeit auf dem jeweiligen Niveau beschreiben, keine Mengen. „Verwendet drei oder mehr Beispiele" teilt den Lernenden mit, wie viele Beispiele sie einbringen sollen; „stützt Aussagen mit spezifischen, sorgfältig ausgewählten Beispielen, die das Argument stärken" zeigt ihnen, wie guter Umgang mit Belegen aussieht. Quantitative Deskriptoren sind leichter zu schreiben und leichter zu bewerten, laden aber zum Taktieren ein. Qualitative Deskriptoren fördern Urteilsvermögen.

Niveaustufen sind gleichmäßig entlang eines Kontinuums verteilt

Jede Leistungsstufe sollte einen bedeutsamen, annähernd gleich großen Schritt gegenüber der vorherigen darstellen. Ein verbreitetes Versagen besteht darin, dass die unteren drei Stufen geringfügige Variationen schwacher Leistung beschreiben und die oberste Stufe ein unerreichbares Ideal darstellt. Schülerinnen und Schüler, die solche Rubriken zur Selbstbeurteilung verwenden, erhalten kein klares Signal darüber, wo sie sich tatsächlich befinden und was sie als nächstes tun müssen. Als nützliche Designprüfung empfiehlt sich die Frage: „Was müsste ein Schüler anders machen, um von dieser Zelle zur nächsten zu gelangen?"

Rubriken entfalten ihre größte Wirkung, wenn sie vor Beginn der Aufgabe geteilt werden

Das Teilen einer Rubrik mit Schülerinnen und Schülern zu Beginn eines Arbeitsauftrags kehrt die traditionelle Beurteilungsabfolge um. Die Lernenden sehen, wie Qualität aussieht, bevor sie die Arbeit erstellen, nicht danach. Dies ermöglicht es ihnen, sich während des Prozesses selbst zu überwachen, kriterienorientiertes Feedback einzuholen und gezielt zu überarbeiten. Andrades Forschungen zeigen konsistent, dass dieses Teilen vor der Aufgabe, kombiniert mit strukturierter Selbstbeurteilung, zu qualitativ hochwertigeren Arbeitsergebnissen führt als das Benoten mit einer Rubrik, die die Lernenden nie gesehen haben.

Co-Konstruktion vertieft das Verständnis

Wenn Schülerinnen und Schüler an der Entwicklung oder Verfeinerung einer Rubrik mitwirken, müssen sie artikulieren, was Qualität im jeweiligen Bereich bedeutet. Das ist eine kognitiv anspruchsvolle Tätigkeit, die zur Auseinandersetzung mit Standards zwingt. Selbst eine teilweise Co-Konstruktion, etwa wenn Schülerinnen und Schüler Deskriptoren für das Kompetenzniveau entwerfen, bevor sie die Version der Lehrperson sehen, führt zu einer besseren Verinnerlichung der Erwartungen als das bloße Erhalten einer fertigen Rubrik.

Anwendung im Unterricht

Grundschule: Schreiben in verschiedenen Fächern

Eine Zweitklasslehrerin verwendet eine dreikriteriige analytische Rubrik für naturwissenschaftliche Beobachtungstagebücher: „Wissenschaftliche Detailgenauigkeit" (was der Schüler oder die Schülerin beobachtet hat), „Genauigkeit" (ob die Beobachtungen mit den Belegen übereinstimmen) und „Vollständigkeit" (ob alle Abschnitte bearbeitet wurden). Bevor die Schülerinnen und Schüler ihren ersten Tagebucheintrag verfassen, zeigt die Lehrerin die Rubrik auf dem Projektor und erklärt jede Stufe anhand anonymisierter Beispiele aus früheren Jahrgängen. Die Lernenden verwenden Haftnotizen, um zu markieren, wo sie ihren Eintrag auf jedem Kriterium verorten. Die Lehrerin liest und markiert dann dieselbe Rubrik, und das Paar bespricht etwaige Abweichungen. Dieses Selbstbeurteilungsgespräch dauert vier Minuten pro Schülerin oder Schüler, ersetzt aber umfangreiche schriftliche Rückmeldungen, die Lernende selten lesen.

Mittelschule: Präsentationen im projektbasierten Lernen

Eine siebte Klasse im Fach Humanwissenschaften präsentiert Projekte zu gemeinschaftlichen Problemlösungen vor einem echten Publikum. Die Rubrik umfasst „Problemanalyse", „Qualität der vorgeschlagenen Lösung", „Nutzung von Belegen", „Mündliche Präsentation" und „Antworten auf Fragen". Die Schülerinnen und Schüler erhalten die Rubrik, wenn das Projekt vorgestellt wird, drei Wochen vor der Präsentation. Zur Halbzeit bewertet jede Schülerin und jeder Schüler mithilfe der Rubrik ein Video seiner Übungspräsentation und formuliert für jedes Kriterium ein Ziel. Eine Mitschülerin oder ein Mitschüler bewertet dann dasselbe Video, und das Paar vergleicht die Bewertungen. Die Lehrperson benotet nur die abschließende Präsentation, doch die Rubrik hat drei Wochen zuvor als Coaching-Instrument gewirkt. Dies ist eine Kernanwendung im projektbasierten Lernen, wo komplexe, mehrwöchige Aufgaben von den Schülerinnen und Schülern erfordern, sich über einen langen Arbeitsbogen selbst zu regulieren.

Oberstufe: Ausstellungs- und Galeriebeurteilungen

Bei einer abschließenden Ausstellung im Stil eines Museumsexponats, bei der die Schülerarbeiten Mitschülerinnen und Mitschülern, Eltern und Gemeindemitgliedern präsentiert werden, dient die Rubrik sowohl der Lehrperson als auch dem Publikum. Eine Lehrerin im Fach AP Environmental Science erstellt eine zweiseitige analytische Rubrik für Forschungsplakate und teilt eine vereinfachte einseitige Version mit den Gemeinschaftsjuroren. Die vereinfachte Version deckt dieselben Kriterien ab, verwendet jedoch eine klare Sprache, die für Nicht-Fachleute zugänglich ist. Die Schülerinnen und Schüler bewerten sich selbst, bevor die Ausstellung eröffnet, legen ihre Selbstbeurteilung verdeckt hinter das Plakat, und die Juroren bewerten unabhängig davon. Nach der Veranstaltung vergleichen die Schülerinnen und Schüler ihre Selbstbeurteilung mit den Bewertungen der Juroren und der Lehrperson in einer schriftlichen Reflexion. Diese Struktur, die der Museum-Exhibit-Methodik eigen ist, verwandelt die öffentliche Präsentation in eine dreiseitige Kalibrierungsübung.

Forschungsbelege

Die Metaanalyse von Panadero und Jonsson aus dem Jahr 2013 in Studies in Educational Evaluation, die 21 Studien zur Rubriknutzung untersuchte, fand konsistente positive Effekte auf die Selbstwirksamkeit der Schülerinnen und Schüler, reduzierte Beurteilungsangst und verbesserte Lernergebnisse. Der Effekt war stärker, wenn Rubriken vor der Aufgabe geteilt wurden und wenn die Lernenden sie zur Selbstbeurteilung verwendeten, anstatt sie erst nach der Benotung als Feedback zu erhalten. Die Autoren wiesen darauf hin, dass die Effektgrößen je nach Rubrikqualität und Umsetzung durch die Lehrpersonen erheblich variieren.

Andrade und Du (2005) stellten beim Schreiben von Studierenden fest, dass diejenigen, die Rubriken zur Selbstbeurteilung vor der Abgabe eines Abschlussentwurfs verwendeten, Arbeiten produzierten, die von verblindeten Bewerterinnen und Bewertern deutlich besser bewertet wurden als die von Studierenden, die nur Lehrerfeedback erhalten hatten. Der entscheidende Mechanismus schien die Überarbeitung zu sein: Rubriknutzende überarbeiteten umfangreicher und strategischer. Die Studierenden berichteten, dass sie durch die Kenntnis der Kriterien im Vorfeld verstanden, was die Lehrenden tatsächlich wertschätzten, was sie als anders beschrieben als das, was sie zuvor angenommen hatten.

Jonsson und Svingby (2007) kamen bei der Auswertung von 75 Studien zur Rubrikreliabilität zu dem Schluss, dass analytische Rubriken eine konsistentere Bewertung erzeugten als holistische Rubriken, insbesondere bei Aufgaben mit mehreren klar abgrenzbaren Dimensionen. Sie stellten auch fest, dass das Training von Bewerterinnen und Bewertern mithilfe von Rubriken die Interrater-Reliabilität signifikant verbesserte, was Rubriken als unverzichtbare Infrastruktur für jede Beurteilung ausweist, an der mehr als eine bewertende Person beteiligt ist. Sie merkten jedoch an, dass schlecht konstruierte Rubriken die Reliabilität senken können, indem sie irrelevante Unterscheidungen oder schlecht geordnete Niveaustufen einführen.

Die Forschung zu Single-Point-Rubriken ist jüngerer Natur. Fluckiger (2010) beschrieb das Single-Point-Format und seine pädagogische Begründung und argumentierte, dass die ausschließliche Beschreibung des Kompetenzniveaus die Aufmerksamkeit der Schülerinnen und Schüler auf Qualität statt auf das Ansammeln von Mindestpunktwerten lenkt. Praxisberichte legen nahe, dass Lernende ehrgeizigere Arbeiten produzieren, wenn sie nicht an einem detaillierten Niedrigleistungsdeskriptor orientiert sind, wenngleich kontrollierte Studien zu diesem Format noch begrenzt sind.

Häufige Missverständnisse

Rubriken schränken Kreativität ein. Die Überzeugung, dass Rubriken den Ausdruck der Schülerinnen und Schüler einengen, ist weit verbreitet und nachvollziehbar, besonders unter Lehrpersonen der Kunst und Geisteswissenschaften. Die Befundlage stützt sie nicht. Rubriken schränken willkürliche Beurteilung ein, keine kreativen Entscheidungen. Eine Rubrik für ein Gedicht, die „Bildlichkeit der Sprache", „Tonale Konsistenz" und „Beherrschung der gewählten Form" bewertet, schreibt nicht vor, worum das Gedicht gehen soll oder wie es klingen soll. Sie beschreibt, was jedes Gedicht in jeder Stimme stark oder schwach macht. Rubriken, die Kreativität einschränken, sind in der Regel Rubriken, die Aufgabenkonformität mit Lernzielen verwechseln, ein Designproblem, kein strukturelles.

Alle Rubriken sind gleichwertig. Lehrpersonen gehen manchmal davon aus, dass das Vorhandensein einer Rubrik entscheidend ist, unabhängig davon, wie sie formuliert ist. Schlecht formulierte Rubriken erzeugen unzuverlässige Bewertungen, vages Feedback und keinen Nutzen für das Lernen. Eine Rubrik, die Stufen als „Ausgezeichnet", „Gut", „Verbesserungsbedürftig" und „Mangelhaft" ohne ergänzende Beschreibung benennt, ist eine Notenskala, keine Rubrik. Die Qualität der Deskriptoren ist entscheidend. Eine gute Rubrik braucht erhebliche Zeit zum sorgfältigen Verfassen, und diese Investition lohnt sich nur für wichtige, wiederkehrende Aufgaben.

Rubriken dienen der Benotung, nicht dem Lernen. Viele Lehrpersonen entwickeln Rubriken zum eigenen Nutzen, um das Benoten zu beschleunigen und vertretbare Ergebnisse zu dokumentieren, ohne sie vor der Aufgabe mit den Schülerinnen und Schülern zu teilen. Damit nutzen sie Rubriken für vielleicht 20 % ihres potenziellen Wertes. Der überwiegende Teil der Forschung zu Rubrikeffekten, einschließlich aller Arbeiten von Andrade, bezieht sich auf Rubriken als schülerseitige Unterrichtsinstrumente, nicht als lehrerseitige Bewertungswerkzeuge. Eine Rubrik, die nur im Notenbuch existiert, ist eine verpasste Chance.

Verbindung zum aktiven Lernen

Rubriken entfalten ihre größte Wirkung innerhalb aktiver Lernstrukturen, gerade weil diese Strukturen komplexe, mehrdimensionale Arbeiten erzeugen, die sich einer einfachen Bewertung entziehen.

Im projektbasierten Lernen verbringen Schülerinnen und Schüler Wochen damit, Artefakte zu erstellen, Recherchen durchzuführen und Präsentationen vorzubereiten. Ohne eine zu Beginn geteilte Rubrik haben sie keine Grundlage für eigenständiges Arbeiten über diesen ausgedehnten Zeitraum. Mit einer Rubrik wird jeder Meilenstein-Check-in bedeutsam: Die Lernenden können sich auf bestimmten Kriterien verorten, die Lücke zwischen aktueller und kompetenter Leistung identifizieren und ein konkretes Überarbeitungsziel setzen. Lehrpersonen, die PBL ohne Rubriken einsetzen, stellen typischerweise fest, dass sie von der Variabilität der Endprodukte überwältigt werden. Rubriken lösen diese Variabilität nicht; sie machen sie interpretierbar und lehrreich.

Die Museum-Exhibit-Methodik macht das Rubrikdesign zu einem sozialen Akt. Wenn Gemeindemitglieder, Mitschülerinnen und Mitschüler sowie Lehrpersonen dieselbe Arbeit beurteilen, benötigen sie ein gemeinsames Vokabular. Die Rubrik stellt dieses Vokabular bereit. Schülerinnen und Schüler, die die Rubrik im Voraus kennen, erleben die öffentliche Beurteilung nicht als ein von Außenstehenden gefälltes Urteil, sondern als ein Gespräch in einer Sprache, die sie bereits sprechen.

Rubriken stehen auch in direktem Zusammenhang mit der formativen Beurteilung. Jede Rubrik, die vor einer Aufgabe geteilt wird, wirkt formativ: Sie gibt den Schülerinnen und Schülern Informationen, auf die sie handeln können, solange das Lernen noch im Gange ist. Selbstbeurteilungen in der Projektmitte mithilfe einer Rubrik gehören zu den praktischsten verfügbaren formativen Beurteilungsmaßnahmen für Lehrpersonen im Unterricht, weil sie nur wenige Minuten in Anspruch nehmen und von den Schülerinnen und Schülern selbst erhobene Daten über Lernlücken liefern.

In Systemen der kompetenzbasierten Benotung sind Rubriken die unverzichtbare Infrastruktur. Kompetenzbasierte Benotung erfordert explizite, kriterienreferenzierte Leistungsstufen, die mit Lernstandards abgestimmt sind, was genau das ist, was eine gut gestaltete Rubrik bereits darstellt. Viele Schulen, die auf kompetenzbasierte Benotung umsteigen, stellen fest, dass sie schwache holistische Rubriken verwendet haben, die sich nicht klar auf Standards abbilden lassen, und müssen ihre Beurteilungsinstrumente überarbeiten, bevor die Benotungsphilosophie kohärent umgesetzt werden kann.

Rubriken unterstützen auch die authentische Beurteilung. Authentische Aufgaben erfordern per Definition, dass Schülerinnen und Schüler Wissen in realen Kontexten anwenden, in denen Qualität mehrdimensional ist. Rubriken bieten den Rahmen, diese mehrdimensionale Qualität auf eine Weise zu bewerten, die für Schülerinnen und Schüler transparent und gegenüber Eltern, Schulleitung und den Lernenden selbst vertretbar ist.

Quellen

  1. Andrade, H. G. (1997). Understanding rubrics. Educational Leadership, 54(4), 14–17.
  2. Brookhart, S. M. (2013). How to Create and Use Rubrics for Formative Assessment and Grading. ASCD.
  3. Panadero, E., & Jonsson, A. (2013). The use of scoring rubrics for formative assessment purposes revisited: A review. Educational Research Review, 9, 129–144.
  4. Jonsson, A., & Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and educational consequences. Educational Research Review, 2(2), 130–144.