Definition
Zu jedem Beurteilungsergebnis lassen sich zwei grundlegend verschiedene Fragen stellen: „Wie hat diese Schülerin oder dieser Schüler im Vergleich zu anderen abgeschnitten?" und „Wie hat diese Schülerin oder dieser Schüler in Bezug auf einen definierten Standard abgeschnitten?" Die erste Frage führt zu einer normorientierten Interpretation, die zweite zu einer kriterienorientierten.
Eine normorientierte Beurteilung interpretiert die Punktzahl einer Schülerin oder eines Schülers relativ zu einer Normierungsgruppe — typischerweise einer großen, repräsentativen Stichprobe von Schülerinnen und Schülern, die denselben Test abgelegt haben. Die Punktzahl selbst ist weniger aussagekräftig als die Position der Person in der Verteilung. Ein Wert von 72 bedeutet wenig, solange man nicht weiß, dass er die Person auf dem 88. Perzentil platziert. Klassische Beispiele sind IQ-Tests, viele Hochschuleignungstests und national normierte Leistungsbatterien wie die Iowa Assessments.
Eine kriterienorientierte Beurteilung interpretiert die Punktzahl einer Schülerin oder eines Schülers anhand eines vorher festgelegten Satzes von Lernkriterien, unabhängig davon, wie andere abschneiden. Die Frage lautet, ob die Person bestimmte Fertigkeiten oder Inhalte beherrscht. Wenn alle Schülerinnen und Schüler einer Klasse 95 % erreichen, ist das ein Erfolg — kein Zeichen dafür, dass der Test zu leicht war. Beispiele sind Führerscheinprüfungen, Anwaltsexamina und Klassenarbeiten, die auf Lernziele ausgerichtet sind.
Die Unterscheidung betrifft nicht den Test selbst, sondern die Art, wie Punktzahlen konstruiert und interpretiert werden. Entscheidungen im Beurteilungsdesign — Aufgabenschwierigkeit, Punktberichterstattung, Grenzwerte — folgen aus dem Zweck, dem die Beurteilung dienen soll.
Historischer Kontext
Die intellektuellen Wurzeln normorientierter Beurteilung reichen zurück zu Francis Galtons Arbeiten über statistische Verteilungen in den 1880er Jahren. Galton führte das Konzept der Rangordnung von Individuen auf einer Normalverteilung ein und legte damit das Fundament für die psychometrische Tradition. Sein Schüler Karl Pearson formalisierte die Korrelation und die statistischen Werkzeuge, die bei der Testnormierung eingesetzt werden.
Die moderne Ära normorientierter Tests begann mit den Army-Alpha- und -Beta-Tests, die Robert Yerkes und Kolleginnen und Kollegen während des Ersten Weltkriegs (1917–1919) entwickelten. Angesichts der Notwendigkeit, rasch 1,75 Millionen Rekruten einzuteilen, brauchte das US-Militär Instrumente, die Menschen effizient sortierten. Der Alpha-Test für lesefähige Rekruten und der Beta-Test für Analphabeten oder nicht-englischsprachige Rekruten erzeugten Rangordnungen statt Kompetenzurteile. Dieses Modell prägte das amerikanische Bildungstestswesen über Jahrzehnte.
Lewis Termans Stanford-Binet-Intelligenztest (1916) und später die Entwicklung des SAT durch Carl Brigham in den 1920er Jahren übertrugen das normorientierte Modell in die Bildung. In der Mitte des Jahrhunderts dominierten normorientierte standardisierte Tests das amerikanische Schulwesen, insbesondere durch Instrumente von Verlagen wie Educational Testing Service (ETS) und das Iowa-Testprogramm.
Die kriterienorientierte Alternative trat 1963 explizit hervor, als der Psychologe Robert Glaser seinen Aufsatz „Instructional Technology and the Measurement of Learning Outcomes" im American Psychologist veröffentlichte. Glaser prägte den Begriff „kriterienorientiertes Maß" und argumentierte, dass Bildungsmessung einen Rahmen benötige, der auf spezifischen Verhaltenszielen statt auf Vergleichsranglisten basiere. James Popham und T.R. Husek erweiterten den theoretischen Rahmen in einem 1969 im Journal of Educational Measurement erschienenen Aufsatz, der bis heute ein Grundlagentext geblieben ist.
Die Standardbewegung der 1990er Jahre, die im No Child Left Behind Act (2001) und später im Every Student Succeeds Act (2015) gipfelte, drängte die amerikanische Bildung stark in Richtung kriterienorientierter staatlicher Beurteilungen, die an jahrgangsbezogene Inhaltsstandards geknüpft waren — obwohl normorientierte Instrumente in der Hochschulzulassung und der Begabtenförderung dominant blieben.
Grundprinzipien
Die Bedeutung einer Punktzahl hängt vom Bezugsrahmen ab
Eine normorientierte Punktzahl beantwortet eine vergleichende Frage: Wo steht diese Person im Verhältnis zu anderen? Eine kriterienorientierte Punktzahl beantwortet eine Kompetenzfrage: Was kann diese Person? Das sind unterschiedliche Fragen, und ihre Verwechslung führt zu verzerrten Schlüssen. Eine Schülerin, die bei einem normorientierten Lesetest auf dem 50. Perzentil liegt, ist möglicherweise eine kompetente Leserin — aber das hängt vollständig davon ab, was die Normierungsgruppe selbst leisten kann.
Normorientierte Tests sind darauf ausgelegt, Schülerinnen und Schüler auseinanderzusortieren
Testentwicklerinnen und -entwickler, die normorientierte Instrumente konstruieren, bauen bewusst Aufgaben unterschiedlicher Schwierigkeit ein und entfernen Aufgaben, die fast alle richtig oder falsch beantworten. Hohe Trennschärfe zwischen Personen ist das Designziel. Ein gut konstruierter normorientierter Test erzeugt Punktzahlen, die über den gesamten Verteilungsbereich gestreut sind. Dieses Designprinzip ist für Rankingzwecke angemessen, wirkt aber aktiv kontraproduktiv bei der Messung von Unterrichtsergebnissen — Aufgaben, die das Unterrichtete widerspiegeln, werden nach gutem Unterricht von den meisten Schülerinnen und Schülern richtig beantwortet, was die Varianz reduziert und einen normorientierten Test psychometrisch „schwächt".
Kriterienorientierte Tests definieren Kompetenz vor der Prüfung
Das definierende Merkmal kriterienorientierter Beurteilung ist, dass der Standard unabhängig von der Schülerleistung existiert. Der Grenzwert für einen Führerschein (z. B. 80 % richtig im Wissenstest) verschiebt sich nicht danach, wie andere Bewerberinnen und Bewerber an einem bestimmten Tag abschneiden. Das erfordert die bewusste Festlegung von Lernzielen, Inhaltsbereichen und Leistungsstandards vor der Testdurchführung. Robert Magers Arbeiten zu Verhaltenszielen (1962) lieferten einen Großteil des praktischen Rahmens für diesen Designansatz.
Beide Typen haben legitime Anwendungsbereiche
Normorientierte Beurteilungen dienen der Auswahl, dem Screening und diagnostischen Vergleichen über Populationen hinweg. Sie beantworten Fragen wie: Liegt die Leseleistung dieser Schule über oder unter dem nationalen Durchschnitt? Welche Schülerinnen und Schüler benötigen am ehesten intensive Förderung? Kriterienorientierte Beurteilungen dienen dem Unterricht, der Zertifizierung und der Rechenschaftspflicht gegenüber Standards. Sie beantworten: Hat diese Schülerin gelernt, Brüche zu multiplizieren? Ist dieser Absolvent bereit, als Anwalt zu praktizieren? Die Verwendung eines normorientierten Instruments für kriterienorientierte Entscheidungen — oder umgekehrt — führt zu irreführenden Schlüssen.
Grenzwerte bei kriterienorientierten Tests sind Werturteile
Die Festlegung der Kompetenzschwelle bei einem kriterienorientierten Test ist eine politische Entscheidung, keine rein technische. Methoden wie die Angoff-Methode, die Lesezeichen-Methode und die Methode kontrastierender Gruppen sind alle vertretbare Ansätze, betten aber Urteile darüber ein, was „kompetent" bedeutet. Robert Linn (2003) dokumentierte ausführlich, wie stark die Kompetenzschwellen bei staatlichen Beurteilungen zwischen den Bundesstaaten variierten und zu inkonsistenten Schlüssen über Schülerleistungen führten, selbst bei ähnlichen Inhalten.
Unterrichtliche Anwendung
Kriterienorientierte Beurteilungen für die Unterrichtsplanung nutzen
Eine Mathematiklehrerin der fünften Klasse, die eine Einheit zu Brüchen plant, formuliert spezifische Lernziele: Die Schülerinnen und Schüler sollen Brüche mit ungleichen Nennern addieren, Brüche mithilfe von Referenzbrüchen vergleichen und Textaufgaben zur Bruchaddition lösen. Der Einheitentest wird direkt aus diesen Zielen entwickelt, mit klaren Kompetenzschwellen (z. B. 80 % richtig pro Zielcluster).
Nach der Auswertung schlüsselt die Lehrerin die Ergebnisse nach Zielen auf, statt auf Gesamtpunktzahlen zu schauen. Mehrere Schülerinnen und Schüler haben das Addieren ungleicher Nenner beherrscht, hatten aber Schwierigkeiten mit Textaufgaben; eine kleinere Gruppe zeigte Lücken beim Vergleich über Referenzbrüche. Der Nachunterricht richtet sich gezielt auf diese spezifischen Lücken. Gesamtpunktzahlen hätten diese unterrichtlich relevante Information vollständig verdeckt.
Normorientiertes Denken in der alltäglichen Benotung erkennen
Ein Biologielehrer der Oberstufe benotet nach der Kurve nach einer schwierigen Prüfung — die höchste Punktzahl lag bei 78, also addiert er 22 Punkte zu jeder Schülerpunktzahl. Das ist normorientierte Praxis im Klassenraum. Die Konsequenz: Schülerinnen und Schüler, die den Stoff schlecht gelernt haben, erhalten möglicherweise ausreichende Noten, während die Lehrkraft keine zuverlässige Information darüber erhält, welche Konzepte nachgearbeitet werden müssen. Eine kriterienorientierte Alternative besteht darin zu untersuchen, warum die Punktzahlen niedrig waren (War der Unterricht ausreichend? War der Test am Unterricht ausgerichtet?), und die zugrunde liegende Ursache zu beheben, anstatt Punktzahlen anzupassen.
Beide Ansätze für Screening und Unterricht kombinieren
Eine Lesekompetenz-Koordinatorin einer Mittelschule setzt dreimal jährlich eine national normierte Lesebewertung (z. B. NWEA MAP) ein, um Schülerinnen und Schüler zu identifizieren, die deutlich unter dem Jahresnorm-Niveau liegen — eine normorientierte Nutzung. Die markierten Schülerinnen und Schüler erhalten eine kriterienorientierte Diagnostikbewertung (bezogen auf spezifische Dekodierungs-, Flüssigkeits- und Verständnisstandards), um Unterrichtsziele zu bestimmen. Der normorientierte Screen identifiziert, wer Aufmerksamkeit benötigt; die kriterienorientierte Diagnostikbeurteilung identifiziert, welchen Unterricht diese Person braucht. Kein Instrument allein würde beide Aufgaben gut erfüllen.
Forschungsgrundlage
Robert Glasers und Anthony Nitkos grundlegende Arbeiten etablierten den psychometrischen Fall für kriterienorientierte Beurteilung in Bildungskontexten. Nitkos Monographie von 1980, Distinguishing the Many Varieties of Criterion-Referenced Tests, lieferte die erste umfassende Taxonomie kriterienorientierter Ansätze und klärte Unterscheidungen, die in dem Jahrzehnt nach Glasers Aufsatz von 1963 verschwommen waren.
James Pophams Forschung zur Unterrichtssensitivität von Beurteilungen — Arbeit, die er von den 1970ern bis in die 2010er Jahre fortsetzte — zeigte, dass die meisten groß angelegten standardisierten Tests, einschließlich vieler staatlicher Rechenschaftstests, die nominell als kriterienorientiert bezeichnet werden, Aufgaben enthalten, die stärker vom sozioökonomischen Hintergrund als von der Unterrichtsqualität geprägt sind. Sein Konzept „unterrichtlich unsensibler" Tests (2007, Educational Researcher) stellte die Annahme in Frage, dass standardsausgerichtete Tests automatisch die Unterrichtswirksamkeit messen.
W. James Popham und Eva Baker (1970) führten frühe empirische Vergleiche norm- und kriterienorientierter Ansätze durch und stellten fest, dass Lehrkräfte, die kriterienorientierte Leistungsdaten erhielten, präzisere Unterrichtsanpassungen vornahmen als jene, die normorientierte Punktzahlen erhielten. Dieser Befund wurde in jüngeren Arbeiten repliziert: Wiliam und Thompson (2007) untersuchten in Ahead of the Curve die Literatur zur formativen Beurteilung und kamen zu dem Schluss, dass kriterienbasiertes Feedback das Schülerlernen durchgängig besser fördert als vergleichendes Feedback.
Robert Linns Analyse von 2003 im Educational Researcher, „Accountability: Responsibility and Reasonable Expectations", untersuchte zwei Jahrzehnte staatlicher Beurteilungsdaten und stellte fest, dass Kompetenzratengewinne bei staatlichen kriterienorientierten Tests häufig nicht mit Gewinnen beim NAEP (einem national normierten Instrument) korrelierten — was Fragen aufwarf, ob staatliche Grenzwerte auf vertretbarem Niveau gesetzt worden waren. Seine Arbeit verdeutlichte, dass kriterienorientierte Interpretation nur so bedeutsam ist wie die Qualität der Kriterien selbst.
Häufige Missverständnisse
Missverständnis 1: Standardisierte Tests sind immer normorientiert. Viele standardisierte Tests sind kriterienorientiert. „Standardisiert" bedeutet lediglich, dass sie unter einheitlichen, konsistenten Bedingungen durchgeführt und ausgewertet werden. Staatliche Tests, die an Inhaltsstandards geknüpft sind (PARCC, SBAC, STAAR), sind standardisiert und kriterienorientiert. SAT und ACT sind standardisiert und normorientiert. Der Begriff „standardisiert" beschreibt das Durchführungsverfahren, nicht den Interpretationsrahmen.
Missverständnis 2: Kriterienorientierte Beurteilungen sind leichter zu konstruieren. Da kriterienorientierte Beurteilungen explizite, operationalisierte Lernstandards mit vertretbaren Grenzwerten erfordern, sind sie oft schwieriger sorgfältig zu entwickeln als normorientierte Instrumente. Ein normorientierter Test kann zusammengestellt werden, indem Aufgaben ausgewählt werden, die die Punktstreuung in einer Normierungsgruppe maximieren. Ein kriterienorientierter Test erfordert die Vorabfestlegung, was Schülerinnen und Schüler genau können müssen, wie die Leistung erhoben wird und welche Schwelle Kompetenz ausmacht — Entscheidungen, die sowohl Fachexpertise als auch bewusste Validierungsarbeit erfordern.
Missverständnis 3: Normorientierte Beurteilungen haben im Unterricht keinen Platz. Für einige unterrichtliche Entscheidungen sind normorientierte Vergleiche tatsächlich nützlich. Eine Lehrerin, die wissen möchte, ob die Schreibentwicklung ihrer Klasse mit der ähnlicher Schülerinnen und Schüler auf nationaler Ebene Schritt hält, profitiert von normierten Daten. Eine Schulberaterin, die Schülerinnen und Schüler für Begabtenförderung identifiziert, benötigt normative Vergleiche. Das Problem ist nicht die normorientierte Interpretation an sich, sondern ihre Verwendung für unterrichtliche Entscheidungen, die kriterienorientierte Informationen erfordern (d. h.: Was genau muss diese Schülerin oder dieser Schüler als Nächstes lernen?).
Verbindung zum aktiven Lernen
Die Wahl zwischen norm- und kriterienorientierten Rahmen prägt, wie aktives Lernen im Unterricht funktioniert. Aktive Lernmethoden — Think-Pair-Share, Sokratisches Seminar, projektbasierte Erkundung — sind darauf ausgelegt, echte Kompetenz in bestimmten Fertigkeiten aufzubauen: Analyse, Argumentation, kollaboratives Problemlösen. Diese Ergebnisse sind von Natur aus kriterienorientiert. Eine Schülerin hat die Fähigkeit entwickelt, aus Belegen ein begründetes Argument zu konstruieren — oder noch nicht. Normorientiertes Ranking trägt zu dieser Frage nichts bei.
Standards-based Grading operationalisiert kriterienorientierte Prinzipien auf der Berichterstattungsebene und ersetzt prozentbasierte Noten durch Kompetenzindikatoren, die direkt an Lernziele geknüpft sind. Lehrkräfte in standardsbasierten Systemen stellen fest, dass kriterienorientierte Beurteilungen natürlich mit formativen Zyklen harmonieren: am Standard messen, Lücken identifizieren, gezielte Übung anbieten, erneut beurteilen. Normorientierte Benotung stört diesen Zyklus, weil die Note einer Schülerin oder eines Schülers teilweise davon abhängt, wie Mitschülerinnen und Mitschüler abschneiden — nicht vom eigenen Kompetenzfortschritt.
Summative Beurteilung am Ende einer Einheit oder eines Kurses dient in den meisten unterrichtlichen Kontexten einem kriterienorientierten Zweck: Hat die Schülerin oder der Schüler die Lernziele erreicht? Wenn summative Noten nach der Kurve angepasst werden (eine normorientierte Maßnahme), verlieren sie ihre diagnostische Integrität und ihren Nutzen als Kompetenznachweis für künftige Lehrkräfte oder Arbeitgeberinnen und Arbeitgeber. Diagnostische Beurteilung zu Beginn einer Lernsequenz ist fast immer kriterienorientiert: Lehrkräfte müssen gezielt wissen, was Schülerinnen und Schüler bereits können und noch nicht können — nicht, wie sie im Vergleich zu Gleichaltrigen einzustufen sind.
Damit aktives Lernen gut funktioniert, benötigen Schülerinnen und Schüler kriterienorientiertes Feedback. Forschung zum selbstregulierten Lernen (Zimmerman, 2002) zeigt, dass Lernende ihren Aufwand und ihre Strategie anhand von Lückeninformationen anpassen: „Ich beherrsche X noch nicht" ist handlungsrelevant. „Ich liege auf dem 43. Perzentil" ist es nicht. Beurteilungssysteme, die auf definierten Kriterien aufbauen, geben Schülerinnen und Schülern das spezifische Feedback, das produktives Ringen und echtes Lernen aufrechterhält.
Quellen
-
Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions. American Psychologist, 18(8), 519–521.
-
Popham, W. J., & Husek, T. R. (1969). Implications of criterion-referenced measurement. Journal of Educational Measurement, 6(1), 1–9.
-
Linn, R. L. (2003). Accountability: Responsibility and reasonable expectations. Educational Researcher, 32(7), 3–13.
-
Nitko, A. J. (1980). Distinguishing the many varieties of criterion-referenced tests. Research Report RR-80-9. Educational Testing Service.