Definitie
Over elk toetsresultaat kunnen twee fundamenteel verschillende vragen worden gesteld: "Hoe presteerde deze leerling in vergelijking met andere leerlingen?" en "Hoe presteerde deze leerling ten opzichte van een gedefinieerde standaard?" De eerste vraag leidt tot een normatieve interpretatie; de tweede tot een criteriumgerichte.
Een normatieve toets interpreteert de score van een leerling ten opzichte van een normgroep — doorgaans een grote, representatieve steekproef van leerlingen die dezelfde toets hebben gemaakt. De score zelf is minder betekenisvol dan de positie van de leerling in de verdeling. Een score van 72 zegt weinig totdat je weet dat de leerling daarmee op het 88ste percentiel staat. Klassieke voorbeelden zijn IQ-tests, veel universitaire toelatingsexamens en nationaal genormeerde prestatietoetsen zoals de Iowa Assessments.
Een criteriumgerichte toets interpreteert de score van een leerling aan de hand van een vooraf vastgestelde set leercriteria, ongeacht hoe andere leerlingen presteren. De vraag is of de leerling aantoonbaar specifieke vaardigheden of inhoud beheerst. Als elke leerling in de klas 95% scoort, is dat een succes — geen teken dat de toets te makkelijk was. Voorbeelden zijn rijexamens, advocatenexamens en klassikale toetsen die zijn opgebouwd rond leerdoelen.
Het onderscheid gaat niet over de toets zelf, maar over hoe scores worden geconstrueerd en geïnterpreteerd. Ontwerpkeuzes bij toetsing — moeilijkheidsgraad van items, score-rapportage, grenspunten — vloeien voort uit welk doel de toets beoogt te dienen.
Historische Context
De intellectuele wortels van normatieve toetsing gaan terug op het werk van Francis Galton over statistische verdelingen in de jaren 1880. Galton introduceerde het concept van het rangschikken van individuen op een normaalcurve en legde daarmee de basis voor de psychometrische traditie. Zijn leerling Karl Pearson formaliseerde correlatie en de statistische instrumenten die worden gebruikt bij het normeren van toetsen.
Het moderne tijdperk van normatieve toetsing begon met de Army Alpha- en Beta-toetsen die Robert Yerkes en collega's ontwikkelden tijdens de Eerste Wereldoorlog (1917–1919). Geconfronteerd met de snelle classificatie van 1,75 miljoen rekruten had het Amerikaanse leger instrumenten nodig die mensen efficiënt indeelden. De Alpha-toets voor geletterde rekruten en de Beta-toets voor ongeletterde of niet-Engelssprekende rekruten produceerden rangordeningen in plaats van beheersingsuitspraken. Dit model beïnvloedde de Amerikaanse onderwijstoetsing decennialang.
De Stanford-Binet IQ-test van Lewis Terman (1916) en later de ontwikkeling van de SAT door Carl Brigham in de jaren 1920 breidden het normatieve model uit naar het onderwijs. Halverwege de twintigste eeuw domineerden normatieve gestandaardiseerde toetsen het Amerikaanse onderwijs, met name via instrumenten van uitgevers als Educational Testing Service (ETS) en het Iowa-toetsprogramma.
Het criteriumgerichte alternatief verscheen expliciet in 1963, toen psycholoog Robert Glaser "Instructional Technology and the Measurement of Learning Outcomes" publiceerde in het tijdschrift American Psychologist. Glaser introduceerde de term "criterion-referenced measure" en betoogde dat onderwijsmeting een kader nodig had dat was geworteld in specifieke gedragsdoelstellingen in plaats van vergelijkende rangschikkingen. James Popham en T.R. Husek breidden het theoretische kader uit in een artikel uit 1969 in het Journal of Educational Measurement, dat een fundamentele tekst is gebleven.
De standaardenbeweging van de jaren 1990, die culmineerde in de No Child Left Behind Act (2001) en later de Every Student Succeeds Act (2015), stuurde het Amerikaanse onderwijs sterk in de richting van criteriumgerichte staatstoetsen gekoppeld aan inhoudelijke standaarden per leerjaar, hoewel normatieve instrumenten dominant bleven bij universitaire toelating en screening voor hoogbegaafd onderwijs.
Kernprincipes
Scorebetekenis Hangt Af van het Referentiekader
Een normatieve score beantwoordt een vergelijkende vraag: waar staat deze leerling ten opzichte van anderen? Een criteriumgerichte score beantwoordt een beheersingsvraag: wat kan deze leerling? Dit zijn verschillende vragen, en ze door elkaar halen leidt tot vertekende conclusies. Een leerling die op het 50ste percentiel scoort op een normatieve leestoets is al dan niet een vaardige lezer — dat hangt volledig af van wat de normgroep zelf kan.
Normatieve Toetsen Zijn Ontworpen om Leerlingen te Spreiden
Toetsontwerpers die normatieve instrumenten bouwen, nemen bewust items van uiteenlopende moeilijkheidsgraad op en verwijderen items die bijna iedereen goed of fout beantwoordt. Een hoge discriminatie tussen leerlingen is het ontwerpdoel. Een goed geconstrueerde normatieve toets produceert scores die gespreid zijn over het volledige bereik van de verdeling. Dit ontwerpprincipe is geschikt voor rankingdoeleinden, maar ronduit contraproductief voor het meten van onderwijsresultaten: items die weerspiegelen wat is onderwezen, worden na goed onderwijs door de meeste leerlingen correct beantwoord, wat de variantie vermindert en een normatieve toets psychometrisch "schaadt".
Criteriumgerichte Toetsen Definiëren Beheersing Voorafgaand aan de Toetsing
Het onderscheidende kenmerk van criteriumgerichte toetsing is dat de standaard onafhankelijk van de prestaties van leerlingen bestaat. Het grenspunt voor een rijbewijs (bijv. 80% correct op de kentoets) verschuift niet op basis van hoe andere kandidaten presteren op een bepaalde dag. Dit vereist een doelbewuste specificatie van leerdoelen, inhoudsgebieden en prestatiestandaarden voordat de toets wordt afgenomen. Het werk van Robert Mager over gedragsdoelstellingen (1962) bood veel van het praktische kader voor deze ontwerpbenadering.
Beide Typen Hebben Legitieme Toepassingen
Normatieve toetsen dienen selectie, screening en diagnostische vergelijkingen over populaties. Ze beantwoorden vragen als: Ligt de leesontwikkeling van deze school boven of onder het nationale gemiddelde? Welke leerlingen hebben waarschijnlijk intensieve begeleiding nodig? Criteriumgerichte toetsen dienen onderwijs, certificering en verantwoording aan standaarden. Ze beantwoorden: Heeft deze leerling geleerd breuken met ongelijke noemers op te tellen? Is deze afgestudeerde klaar om de rechtspraktijk uit te oefenen? Het gebruiken van een normatief instrument voor criteriumgerichte beslissingen — of andersom — leidt tot misleidende conclusies.
Grenspunten bij Criteriumgerichte Toetsen Bevatten Waardeoordelen
Het vaststellen van de vaardigheidsdrempel op een criteriumgerichte toets is een beleidsbeslissing, niet een puur technische. Methoden zoals de Angoff-methode, de bladwijzer-methode en de methode van contrasterende groepen zijn allemaal verdedigbare benaderingen, maar ze bevatten oordelen over wat "vaardig" betekent. Robert Linn (2003) documenteerde uitvoerig hoe vaardigheidsgrensscores op staatstoetsen sterk verschilden per staat, met inconsistente conclusies over leerlingprestaties zelfs bij het meten van vergelijkbare inhoud.
Toepassing in de Klas
Criteriumgerichte Toetsen Gebruiken voor Instructieplanning
Een wiskundeleraar in groep 7 die een eenheid over breuken ontwerpt, formuleert specifieke leerdoelen: leerlingen tellen breuken met ongelijke noemers op, vergelijken breuken met behulp van referentiebreuken en lossen woordproblemen met breukoptelling op. De toets voor de eenheid is rechtstreeks opgebouwd vanuit die doelen, met duidelijke beheersingsdrempels (bijv. 80% correct binnen elk doelcluster).
Na het nakijken analyseert de leraar de resultaten per doelstelling in plaats van naar totaalscores te kijken. Meerdere leerlingen beheersten het optellen van ongelijke noemers, maar hadden moeite met woordproblemen; een kleinere groep vertoonde hiaten bij referentiebreukvergelijkingen. Heronderwijs richt zich op deze specifieke hiaten. Totaalscores zouden deze instructionele informatie volledig hebben verholen.
Normatief Denken in Alledaagse Beoordeling Herkennen
Een biologieleraar op de middelbare school past na een moeilijk proefwerk een curve toe — de hoogste score was 78, dus de leraar telt 22 punten op bij elke score. Dit is normatieve praktijk ingebed in een klassikale context. Het gevolg: leerlingen die de leerstof slecht hebben geleerd, kunnen een voldoende krijgen, terwijl de leraar geen betrouwbare informatie ontvangt over welke concepten heronderwijs behoeven. Een criteriumgericht alternatief is te onderzoeken waarom scores laag waren (Was de instructie toereikend? Was de toets afgestemd op de instructie?) en de onderliggende oorzaak aan te pakken in plaats van scores aan te passen.
Beide Benaderingen Combineren voor Screening en Instructie
Een leesbegeleider op de middelbare school gebruikt drie keer per jaar een nationaal genormeerde leestoets (bijv. NWEA MAP) om leerlingen te identificeren die significant onder de normscores voor hun leerjaar presteren — een normatief gebruik. Gemarkeerde leerlingen ontvangen een criteriumgerichte diagnostische toets (gekoppeld aan specifieke decodeer-, fluency- en begripstandaarden) om instructiedoelen te bepalen. De normatieve screening identificeert wie aandacht nodig heeft; de criteriumgerichte diagnostische toets identificeert welke instructie zij nodig hebben. Geen van beide instrumenten alleen zou beide taken goed vervullen.
Onderzoeksbasis
Het fundamentele werk van Robert Glaser en Anthony Nitko legde de psychometrische basis voor criteriumgerichte toetsing in onderwijscontexten. Nitko's monografie uit 1980, Distinguishing the Many Varieties of Criterion-Referenced Tests, bood de eerste uitgebreide taxonomie van criteriumgerichte benaderingen en verduidelijkte onderscheiden die in het decennium na Glaser's artikel uit 1963 vervaagd waren.
James Popham's onderzoek naar de instructionele gevoeligheid van toetsen — werk dat hij van de jaren 1970 tot in de jaren 2010 volhield — toonde aan dat de meeste grootschalige gestandaardiseerde toetsen, inclusief veel staatsverantwoordingstoetsen die nominaal als criteriumgericht worden aangeduid, items bevatten die meer worden gedomineerd door sociaaleconomische achtergrond dan door instructiekwaliteit. Zijn concept van "instructioneel ongevoelige" toetsen (2007, Educational Researcher) daagde de veronderstelling uit dat aan standaarden gekoppelde toetsen automatisch de onderwijseffectiviteit meten.
W. James Popham en Eva Baker (1970) voerden vroege empirische vergelijkingen uit van normatieve en criteriumgerichte benaderingen en stelden vast dat leraren die criteriumgerichte prestatiegegevens ontvingen, preciezere instructionele aanpassingen deden dan degenen die normatieve scores kregen. Deze bevinding is bevestigd in recentere studies; Wiliam en Thompson (2007) in Ahead of the Curve beoordeelden de literatuur over formatieve toetsing en concludeerden dat criteriumgerichte feedback consequent beter presteert dan vergelijkende feedback bij het verbeteren van leerlingprestaties.
Robert Linn's analyse uit 2003 in Educational Researcher, "Accountability: Responsibility and Reasonable Expectations," onderzocht twee decennia aan staatstoetsgegevens en stelde vast dat verbeteringen in vaardigheidspercentages op criteriumgerichte staatstoetsen vaak niet correleerden met verbeteringen op NAEP (een nationaal genormeerd instrument). Dit wierp vragen op over de kwaliteit van de vastgestelde vaardigheidsdrempels. Zijn werk illustreerde dat criteriumgerichte interpretatie niet sterker is dan de kwaliteit van de criteria zelf.
Veelvoorkomende Misvattingen
Misvatting 1: Gestandaardiseerde toetsen zijn altijd normatief. Veel gestandaardiseerde toetsen zijn criteriumgericht. Gestandaardiseerd betekent simpelweg dat de toets onder consistente, uniforme omstandigheden wordt afgenomen en beoordeeld. Staatstoetsen gekoppeld aan inhoudelijke standaarden (PARCC, SBAC, STAAR) zijn gestandaardiseerd en criteriumgericht. De SAT en ACT zijn gestandaardiseerd en normatief. De term "gestandaardiseerd" beschrijft de afnameprocedure, niet het interpretatiekader.
Misvatting 2: Criteriumgerichte toetsen zijn eenvoudiger te construeren. Omdat criteriumgerichte toetsen expliciete, geoperationaliseerde leerstandaarden vereisen met verdedigbare grenspunten, zijn ze vaak moeilijker rigoureus te bouwen dan normatieve instrumenten. Een normatieve toets kan worden samengesteld door items te selecteren die de scorevariatie over een normgroep maximaliseren. Een criteriumgerichte toets vereist voorafgaande specificatie van precies wat leerlingen moeten kunnen, hoe prestaties worden bemonsterd en welke drempel beheersing vormt — beslissingen die zowel vakinhoudelijke expertise als doelgericht validiteitswerk vereisen.
Misvatting 3: Normatieve toetsen hebben geen plaats in de klas. Voor sommige instructionele beslissingen zijn normatieve vergelijkingen oprecht nuttig. Een leraar die wil weten of de schrijfontwikkeling van haar klas op schema ligt ten opzichte van vergelijkbare leerlingen nationaal, heeft baat bij genormeerde gegevens. Een schooldecaan die leerlingen identificeert die mogelijk hoogbegaafdendiensten nodig hebben, heeft normatieve vergelijkingen nodig. Het probleem is niet de normatieve interpretatie zelf, maar het gebruiken ervan voor instructionele beslissingen die criteriumgerichte informatie vereisen (d.w.z. wat moet deze leerling precies nog leren?).
Verbinding met Actief Leren
De keuze tussen normatieve en criteriumgerichte kaders bepaalt hoe actief leren functioneert in een klas. Actiefleerenmethodologieën — denken-delen-uitwisselen, Socratisch seminar, projectgebaseerd onderzoek — zijn ontworpen om echte competentie in specifieke vaardigheden op te bouwen: analyse, argumentatie, samenwerkend probleemoplossen. Deze uitkomsten zijn van nature criteriumgericht. Een leerling heeft al dan niet de capaciteit ontwikkeld om een beredeneerd argument vanuit bewijs te construeren. Normatieve rangschikking voegt niets toe aan die vraag.
Standaardgerichte beoordeling operationaliseert criteriumgerichte principes op rapportageniveau, waarbij op percentages gebaseerde cijfers worden vervangen door beheersingsindicatoren die rechtstreeks zijn gekoppeld aan leerdoelen. Leraren die in standaardgerichte systemen werken, merken dat criteriumgerichte toetsen van nature aansluiten bij formatieve cycli: toets aan de standaard, identificeer hiaten, geef gerichte oefening, toets opnieuw. Normatieve beoordeling verstoort deze cyclus, omdat het cijfer van een leerling deels afhangt van hoe klasgenoten presteren, niet van de eigen beheersingsvoortgang.
Summatieve toetsing aan het einde van een eenheid of cursus dient in de meeste instructionele contexten een criteriumgericht doel: heeft de leerling de leerdoelen bereikt? Wanneer summatieve cijfers worden bijgesteld via een curve (een normatieve aanpassing), verliezen ze hun diagnostische integriteit en hun bruikbaarheid als bewijs van competentie voor toekomstige leraren of werkgevers. Diagnostische toetsing aan het begin van een leertraject is bijna altijd criteriumgericht: leraren moeten specifiek weten wat leerlingen al weten en nog niet weten, niet hoe zij rangschikken ten opzichte van klasgenoten.
Voor goed functionerend actief leren hebben leerlingen criteriumgerichte feedback nodig. Onderzoek naar zelfgereguleerd leren (Zimmerman, 2002) toont aan dat leerlingen hun inspanning en strategie aanpassen op basis van hiaatinformatie: "Ik heb X nog niet beheerst" is uitvoerbaar. "Ik sta op het 43ste percentiel" niet. Het bouwen van toetssystemen rond gedefinieerde criteria geeft leerlingen de specifieke feedback die productieve worsteling en oprecht leren in stand houdt.
Bronnen
-
Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions. American Psychologist, 18(8), 519–521.
-
Popham, W. J., & Husek, T. R. (1969). Implications of criterion-referenced measurement. Journal of Educational Measurement, 6(1), 1–9.
-
Linn, R. L. (2003). Accountability: Responsibility and reasonable expectations. Educational Researcher, 32(7), 3–13.
-
Nitko, A. J. (1980). Distinguishing the many varieties of criterion-referenced tests. Research Report RR-80-9. Educational Testing Service.