Definition
Två fundamentalt olika frågor kan ställas om vilket bedömningsresultat som helst: "Hur presterade den här eleven jämfört med andra elever?" och "Hur presterade den här eleven i förhållande till en definierad standard?" Den första frågan ger en normrelaterad tolkning; den andra ger en målrelaterad.
En normrelaterad bedömning tolkar en elevs poäng i förhållande till en normgrupp — vanligtvis ett stort, representativt urval av elever som gjort samma prov. Poängen i sig är mindre meningsfull än elevens position i fördelningen. En poäng på 72 säger lite förrän man vet att den placerar eleven på 88:e percentilen. Klassiska exempel är IQ-tester, många antagningsprov till högskola och nationellt normerade kunskapsbatterier som Iowa Assessments.
En målrelaterad bedömning tolkar en elevs poäng mot ett förutbestämt set av inlärningsmål, oavsett hur andra elever presterar. Frågan är om eleven visat att de behärskar specifika färdigheter eller innehåll. Om alla elever i klassen får 95 % är det en framgång — inte ett tecken på att provet var för lätt. Exempel är körkortsprov, advokatexamen och klassrumsprov byggda kring inlärningsmål.
Skillnaden gäller inte provet i sig utan hur poäng konstrueras och tolkas. Val i bedömningsdesign — uppgifternas svårighetsgrad, poängrapportering, gränsvärden — följer av vilket syfte bedömningen är avsedd att fylla.
Historisk bakgrund
De intellektuella rötterna till normrelaterad bedömning spåras till Francis Galtons arbete om statistiska fördelningar på 1880-talet. Galton introducerade konceptet att rangordna individer på en normalkurva och lade grunden för den psykometriska traditionen. Hans student Karl Pearson formaliserade korrelation och de statistiska verktyg som används vid normering av prov.
Den moderna eran av normrelaterade prov inleddes med Army Alpha- och Beta-testen som utvecklades av Robert Yerkes och kollegor under första världskriget (1917–1919). Inför behovet att snabbt klassificera 1,75 miljoner rekryter behövde den amerikanska militären instrument som sorterade människor effektivt. Alpha-provet för läskunniga rekryter och Beta-provet för analfabeter eller icke-engelsktalande producerade rangordningar snarare än kunskapsbedömningar. Denna modell formade amerikansk utbildningstestning i decennier.
Lewis Termans Stanford-Binet IQ-test (1916) och senare Carl Brighams utveckling av SAT på 1920-talet utvidgade den normrelaterade modellen till utbildning. Vid mitten av seklet dominerade normrelaterade standardiserade prov det amerikanska skolväsendet, framför allt genom instrument producerade av förlag som Educational Testing Service (ETS) och Iowas testprogram.
Det målrelaterade alternativet formulerades explicit 1963 när psykologen Robert Glaser publicerade "Instructional Technology and the Measurement of Learning Outcomes" i tidskriften American Psychologist. Glaser myntade begreppet "criterion-referenced measure" och argumenterade för att utbildningsmätning behövde ett ramverk grundat i specifika beteendemål snarare än jämförande rangordningar. James Popham och T.R. Husek utvidgade det teoretiska ramverket i en artikel från 1969 i Journal of Educational Measurement, som fortfarande är en grundläggande text.
1990-talets kunskapsrörelse, som kulminerade i No Child Left Behind Act (2001) och senare Every Student Succeeds Act (2015), drev det amerikanska utbildningssystemet starkt mot målrelaterade delstatliga prov kopplade till ämnesspecifika standarder, även om normrelaterade instrument förblev dominerande vid antagning till högskola och identifiering av begåvade elever.
Centrala principer
Poängens innebörd beror på referensramen
Ett normrelaterat resultat besvarar en jämförande fråga: var befinner sig den här eleven i förhållande till andra? Ett målrelaterat resultat besvarar en kunskapsfråga: vad kan den här eleven göra? Det är olika frågor, och att blanda ihop dem leder till felaktiga slutsatser. En elev som ligger på 50:e percentilen på ett normrelaterat läsprov kanske är en läskunnig läsare — eller inte. Det beror helt på vad normgruppen själv kan.
Normrelaterade prov är utformade för att sprida elever
Provdesigners som skapar normrelaterade instrument inkluderar medvetet uppgifter med varierande svårighetsgrad och tar bort uppgifter som nästan alla svarar rätt eller fel på. Hög diskriminering mellan elever är designmålet. Ett välkonstruerat normrelaterat prov ger poäng spridda över hela fördelningens spektrum. Denna designprincip är lämplig för rangordningssyften men aktivt kontraproduktiv för att mäta undervisningsresultat — uppgifter som speglar det som undervisats tenderar att besvaras rätt av de flesta elever efter god undervisning, vilket minskar variansen och "skadar" ett normrelaterat prov psykometriskt.
Målrelaterade prov definierar kunskapskraven före provtillfället
Det definierande draget hos målrelaterad bedömning är att standarden existerar oberoende av elevernas prestationer. Gränsvärdet för ett körkortsprov (t.ex. 80 % rätt på kunskapsprovet) förändras inte utifrån hur andra sökande presterar en given dag. Detta kräver tydlig specifikation av inlärningsmål, innehållsdomäner och prestationsstandarder innan provet ges. Robert Magers arbete med beteendemål (1962) gav mycket av det praktiska ramverket för detta designarbete.
Båda typerna har legitima användningsområden
Normrelaterade bedömningar tjänar urval, screening och diagnostiska jämförelser över populationer. De besvarar frågor som: Ligger den här skolans läsprestationer över eller under riksgenomsnittet? Vilka elever behöver troligen intensivt stöd? Målrelaterade bedömningar tjänar undervisning, certifiering och ansvarsskyldighet mot standarder. De besvarar: Har den här eleven lärt sig att multiplicera bråk? Är den här studenten redo att praktisera juridik? Att använda ett normrelaterat instrument för målrelaterade beslut — eller tvärtom — ger vilseledande slutsatser.
Gränsvärden på målrelaterade prov inbegriper värdeomdömen
Att sätta kunskapsgränsen på ett målrelaterat prov är ett politiskt beslut, inte ett rent tekniskt. Metoder som Angoff-metoden, bokmärkesmetoden och kontrastgruppsmetoden är alla försvarbara, men de inbegriper bedömningar om vad "tillräckliga kunskaper" innebär. Robert Linn (2003) dokumenterade ingående hur kunskapsgränser på delstatliga prov varierade dramatiskt mellan stater, vilket gav motstridiga slutsatser om elevers kunskaper även när liknande innehåll mättes.
Tillämpning i klassrummet
Målrelaterade bedömningar för undervisningsplanering
En matematiklärare i femte klass som utformar en enhet om bråk skriver specifika inlärningsmål: eleverna ska addera bråk med olika nämnare, jämföra bråk med hjälp av referensbråk och lösa textuppgifter med brådddition. Enhetsprovet byggs direkt utifrån dessa mål, med tydliga kunskapsgränser (t.ex. 80 % rätt inom varje målkluster).
Efter rättning bryter läraren ned resultaten per mål snarare än att titta på totalpoäng. Flera elever behärskade addition med olika nämnare men hade svårigheter med textuppgifter; en mindre grupp visade brister i referensjämförelser. Repetitionsundervisningen riktas mot dessa specifika luckor. Totalpoäng hade helt dolt denna undervisningsinformation.
Att känna igen normrelaterat tänkande i vardaglig betygsättning
En biologilärare på gymnasiet sätter betyg på kurva efter ett svårt prov — den högsta poängen var 78, så läraren lägger till 22 poäng på varje elevs poäng. Detta är normrelaterad praktik inbäddad i ett klassrumssammanhang. Konsekvensen: elever som lärde sig innehållet dåligt kan få godkänt, medan läraren inte får tillförlitlig information om vilket begrepp som behöver undervisas om. Ett målrelaterat alternativ är att undersöka varför poängen var låga (Var undervisningen tillräcklig? Stämde provet överens med undervisningen?) och åtgärda den underliggande orsaken snarare än att justera poängen.
Att kombinera båda synsätten för screening och undervisning
En läs- och skrivkoordinator på mellanstadiet använder ett nationellt normerat läsprov (t.ex. NWEA MAP) tre gånger per år för att identifiera elever som presterar markant under normerna för sin åldersgrupp — en normrelaterad användning. Elever som flaggas får en målrelaterad diagnostisk bedömning (kopplad till specifika standarder för avkodning, flyt och förståelse) för att precisera undervisningsbehoven. Den normrelaterade screeningen identifierar vem som behöver uppmärksamhet; den målrelaterade diagnostiska bedömningen identifierar vilken undervisning de behöver. Inget enskilt instrument skulle klara båda uppgifterna väl.
Forskningsstöd
Robert Glasers och Anthony Nitkos grundläggande arbete etablerade det psykometriska stödet för målrelaterad bedömning i utbildningssammanhang. Nitkos monografi från 1980, Distinguishing the Many Varieties of Criterion-Referenced Tests, gav den första heltäckande taxonomin av målrelaterade metoder och klargjorde distinktioner som hade suddats ut under decenniet efter Glasers artikel från 1963.
James Pophams forskning om bedömningars undervisningskänslighet — ett arbete han bedrev från 1970-talet till 2010-talet — visade att de flesta storskaliga standardiserade prov, inklusive många delstatliga ansvarsprov nominellt kallade målrelaterade, innehåller uppgifter dominerade av socioekonomisk bakgrund snarare än undervisningskvalitet. Hans begrepp "undervisningsokänsliga prov" (2007, Educational Researcher) utmanade antagandet att standardanpassade prov automatiskt mäter undervisningens effektivitet.
W. James Popham och Eva Baker (1970) genomförde tidiga empiriska jämförelser av norm- och målrelaterade metoder och fann att lärare som fick målrelaterad prestationsdata gjorde mer precisa undervisningsjusteringar än de som fick normrelaterade poäng. Detta fynd har replikerats i senare forskning; Wiliam och Thompson (2007) i Ahead of the Curve granskade litteraturen om formativ bedömning och drog slutsatsen att målbaserad återkoppling konsekvent överträffar jämförande återkoppling för att förbättra elevers lärande.
Robert Linns analys från 2003 i Educational Researcher, "Accountability: Responsibility and Reasonable Expectations," granskade två decennier av delstatliga provdata och fann att förbättrade kunskapsresultat på delstatliga målrelaterade prov ofta inte korrelerade med förbättringar på NAEP (ett nationellt normerat instrument), vilket väckte frågor om huruvida delstatliga gränsvärden hade satts på försvarbara nivåer. Hans arbete visade att målrelaterad tolkning endast är meningsfull i den mån kriterierna själva håller hög kvalitet.
Vanliga missuppfattningar
Missuppfattning 1: Standardiserade prov är alltid normrelaterade. Många standardiserade prov är målrelaterade. Standardiserat innebär helt enkelt att provet ges och rättas under enhetliga, konsekventa förhållanden. Delstatliga prov kopplade till ämnesstandarder (PARCC, SBAC, STAAR) är standardiserade och målrelaterade. SAT och ACT är standardiserade och normrelaterade. Begreppet "standardiserat" beskriver administrationsproceduren, inte tolkningsramverket.
Missuppfattning 2: Målrelaterade prov är lättare att konstruera. Eftersom målrelaterade bedömningar kräver explicita, operationaliserade inlärningsmål med försvarbara gränsvärden är de ofta svårare att bygga noggrant än normrelaterade instrument. Ett normrelaterat prov kan sättas samman genom att välja uppgifter som maximerar poängvariation i en normgrupp. Ett målrelaterat prov kräver en tidig specifikation av exakt vad elever ska kunna göra, hur prestationer ska samplas och vilket tröskel som utgör kunskapsbehärskning — beslut som kräver både ämnesexpertis och ett medvetet valideringsarbete.
Missuppfattning 3: Normrelaterade bedömningar har ingen plats i klassrummet. För vissa undervisningsbeslut är normrelaterade jämförelser genuint användbara. En lärare som undrar om hennes klasss skrivutveckling är i nivå med liknande elever nationellt drar nytta av normerade data. En skolkurator som identifierar elever som kan behöva begåvningsanpassad undervisning behöver normativa jämförelser. Problemet är inte normrelaterad tolkning i sig, utan att använda den för undervisningsbeslut som kräver målrelaterad information (dvs. vad behöver den här eleven lära sig härnäst?).
Koppling till aktivt lärande
Valet mellan normrelaterade och målrelaterade ramverk formar hur aktivt lärande fungerar i ett klassrum. Metoder för aktivt lärande — tänka-para-dela, sokratiskt seminarium, projektbaserat undersökande — är utformade för att bygga genuin kompetens i specifika färdigheter: analys, argumentation, kollaborativ problemlösning. Dessa resultat är till sin natur målrelaterade. En elev har eller har inte utvecklat förmågan att konstruera ett välgrundat argument utifrån bevis. Normrelaterad rangordning tillför inget till den frågan.
Kunskapsbaserad betygsättning operationaliserar målrelaterade principer på rapporteringsnivå och ersätter procentbaserade betyg med kunskapsindikatorer direkt kopplade till inlärningsmål. Lärare som arbetar i kunskapsbaserade system finner att målrelaterade bedömningar naturligt stämmer överens med formativa cykler: bedöm mot standarden, identifiera luckor, ge riktad träning, bedöm igen. Normrelaterad betygsättning stör denna cykel eftersom en elevs betyg delvis beror på hur klasskamraterna presterar, inte på deras egna framsteg mot kunskapsbehärskning.
Summativ bedömning i slutet av en enhet eller kurs fyller ett målrelaterat syfte i de flesta undervisningssammanhang: nådde eleven inlärningsmålen? När summativa betyg sätts på kurva (en normrelaterad justering) förlorar de sin diagnostiska integritet och sin användbarhet som kompetensbevis för framtida lärare eller arbetsgivare. Diagnostisk bedömning i början av en inlärningssekvens är nästan alltid målrelaterad: lärare behöver veta specifikt vad elever redan kan och ännu inte kan — inte hur de rangordnas i förhållande till kamrater.
För att aktivt lärande ska fungera väl behöver elever målrelaterad återkoppling. Forskning om självreglerat lärande (Zimmerman, 2002) visar att elever justerar sina ansträngningar och strategier utifrån gapinformation: "Jag behärskar inte X ännu" är handlingsbar. "Jag ligger på 43:e percentilen" är det inte. Att bygga bedömningssystem kring definierade kriterier ger elever den specifika återkoppling som upprätthåller produktiv kamp och genuint lärande.
Källor
-
Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions. American Psychologist, 18(8), 519–521.
-
Popham, W. J., & Husek, T. R. (1969). Implications of criterion-referenced measurement. Journal of Educational Measurement, 6(1), 1–9.
-
Linn, R. L. (2003). Accountability: Responsibility and reasonable expectations. Educational Researcher, 32(7), 3–13.
-
Nitko, A. J. (1980). Distinguishing the many varieties of criterion-referenced tests. Research Report RR-80-9. Educational Testing Service.