Definizione

A qualsiasi risultato di valutazione si possono porre due domande fondamentalmente diverse: «Come ha performato questo studente rispetto agli altri?» e «Come ha performato questo studente rispetto a uno standard definito?». La prima domanda produce un'interpretazione normativa; la seconda produce un'interpretazione criteriale.

Una valutazione normativa interpreta il punteggio di uno studente in relazione a un gruppo di riferimento — solitamente un campione ampio e rappresentativo di studenti che hanno sostenuto lo stesso test. Il punteggio in sé è meno significativo della posizione dello studente nella distribuzione. Un punteggio di 72 dice poco finché non si sa che colloca lo studente all'88° percentile. Esempi classici sono i test del QI, molti esami di ammissione universitaria e le batterie di rendimento standardizzate a livello nazionale come gli Iowa Assessments.

Una valutazione criteriale interpreta il punteggio di uno studente rispetto a un insieme predefinito di criteri di apprendimento, indipendentemente da come performano gli altri. La domanda è se lo studente ha dimostrato padronanza di specifiche competenze o contenuti. Se tutti gli studenti ottengono il 95%, è un successo, non un segnale che il test fosse troppo facile. Esempi includono l'esame per la patente di guida, gli esami di abilitazione professionale e i test in classe costruiti attorno agli obiettivi di apprendimento.

La distinzione non riguarda il test in sé, ma il modo in cui i punteggi vengono costruiti e interpretati. Le scelte progettuali della valutazione — difficoltà degli item, modalità di riportare i punteggi, punteggi soglia — derivano dallo scopo che la valutazione è chiamata a servire.

Contesto Storico

Le radici intellettuali della valutazione normativa risalgono al lavoro di Francis Galton sulle distribuzioni statistiche negli anni Ottanta dell'Ottocento. Galton introdusse il concetto di classificare gli individui su una curva normale, ponendo le basi per la tradizione psicometrica. Il suo allievo Karl Pearson formalizzò la correlazione e gli strumenti statistici utilizzati nella standardizzazione dei test.

L'era moderna della valutazione normativa iniziò con i test Army Alpha e Beta sviluppati da Robert Yerkes e colleghi durante la Prima Guerra Mondiale (1917–1919). Dovendo classificare rapidamente 1,75 milioni di reclute, l'esercito statunitense aveva bisogno di strumenti che ordinassero le persone in modo efficiente. Il test Alpha per le reclute alfabetizzate e il test Beta per quelle analfabete o non anglofone producevano graduatorie anziché verdetti di padronanza. Questo modello influenzò la misurazione educativa americana per decenni.

Il test Stanford-Binet di Lewis Terman (1916) e, successivamente, lo sviluppo del SAT da parte di Carl Brigham negli anni Venti estesero il modello normativo all'istruzione. A metà del Novecento, i test standardizzati normativi dominavano la scuola americana, in particolare attraverso gli strumenti prodotti da editori come Educational Testing Service (ETS) e il programma di test dell'Iowa.

L'alternativa criteriale emerse esplicitamente nel 1963, quando lo psicologo Robert Glaser pubblicò "Instructional Technology and the Measurement of Learning Outcomes" nella rivista American Psychologist. Glaser coniò il termine "misura criterio-riferita" e sostenne che la misurazione educativa aveva bisogno di un quadro fondato su obiettivi comportamentali specifici piuttosto che su classifiche comparative. James Popham e T.R. Husek ampliarono il quadro teorico in un articolo del 1969 nel Journal of Educational Measurement, che rimane un testo fondamentale.

Il movimento degli standard degli anni Novanta, culminato nel No Child Left Behind Act (2001) e successivamente nell'Every Student Succeeds Act (2015), spinse fortemente l'istruzione americana verso valutazioni statali criteriali legate agli standard di contenuto per grado scolastico, sebbene gli strumenti normativi rimanessero dominanti nell'ammissione universitaria e nella selezione per l'istruzione per gifted.

Principi Chiave

Il Significato del Punteggio Dipende dal Quadro di Riferimento

Un punteggio normativo risponde a una domanda comparativa: dove si colloca questo studente rispetto agli altri? Un punteggio criteriale risponde a una domanda di padronanza: cosa sa fare questo studente? Si tratta di domande diverse, e confonderle produce conclusioni distorte. Uno studente che si colloca al 50° percentile in un test normativo di lettura potrebbe essere o meno un lettore competente — dipende interamente da cosa sa fare il gruppo di riferimento stesso.

I Test Normativi Sono Progettati per Differenziare gli Studenti

I progettisti di strumenti normativi includono deliberatamente item di difficoltà variabile e rimuovono quelli che quasi tutti rispondono correttamente o erroneamente. L'obiettivo progettuale è una elevata discriminazione tra gli studenti. Un test normativo ben costruito produce punteggi distribuiti sull'intera gamma della distribuzione. Questo principio è appropriato per scopi di classificazione, ma attivamente controproducente per misurare i risultati dell'istruzione: gli item che riflettono ciò che è stato insegnato tendono a essere risposti correttamente dalla maggior parte degli studenti dopo una buona istruzione, il che riduce la varianza e "penalizza" un test normativo dal punto di vista psicometrico.

I Test Criteriali Definiscono la Padronanza Prima della Valutazione

La caratteristica distintiva della valutazione criteriale è che lo standard esiste indipendentemente dalla performance degli studenti. Il punteggio soglia per la patente di guida (ad esempio, l'80% di risposte corrette al test teorico) non cambia in base a come performano gli altri candidati in un determinato giorno. Ciò richiede la specifica deliberata degli obiettivi di apprendimento, dei domini di contenuto e degli standard di performance prima che il test venga somministrato. Il lavoro di Robert Mager sugli obiettivi comportamentali (1962) fornì gran parte del quadro pratico per questo approccio progettuale.

Entrambi i Tipi Hanno Usi Legittimi

Le valutazioni normative servono per la selezione, lo screening e i confronti diagnostici tra popolazioni. Rispondono a domande come: la performance in lettura di questa scuola è sopra o sotto la media nazionale? Quali studenti hanno più probabilità di aver bisogno di un intervento intensivo? Le valutazioni criteriali servono per l'istruzione, la certificazione e la responsabilizzazione rispetto agli standard. Rispondono a domande come: questo studente ha imparato a moltiplicare le frazioni? Questo laureato è pronto per esercitare la professione legale? Usare uno strumento normativo per prendere decisioni criteriali, o viceversa, produce conclusioni fuorvianti.

I Punteggi Soglia nei Test Criteriali Implicano Giudizi di Valore

Stabilire la soglia di competenza in un test criteriale è una decisione politica, non puramente tecnica. Metodi come il metodo Angoff, il metodo del segnalibro e il metodo dei gruppi contrapposti sono tutti approcci difendibili, ma incorporano giudizi su cosa significa "competente". Robert Linn (2003) ha documentato estesamente come i punteggi soglia di competenza nelle valutazioni statali variassero notevolmente tra gli stati, producendo conclusioni incoerenti sul rendimento degli studenti anche quando si misuravano contenuti simili.

Applicazione in Classe

Usare le Valutazioni Criteriali per la Pianificazione Didattica

Un insegnante di matematica di quinta elementare che progetta un'unità sulle frazioni scrive obiettivi di apprendimento specifici: gli studenti addizioranno frazioni con denominatori diversi, confronteranno frazioni usando frazioni di riferimento e risolveranno problemi applicativi sull'addizione di frazioni. Il test dell'unità è costruito direttamente a partire da quegli obiettivi, con soglie di padronanza chiare (ad esempio, l'80% di risposte corrette per ciascun raggruppamento di obiettivi).

Dopo la correzione, l'insegnante disaggrega i risultati per obiettivo anziché guardare i punteggi totali. Alcuni studenti hanno raggiunto la padronanza nell'addizione con denominatori diversi ma hanno avuto difficoltà con i problemi applicativi; un gruppo più piccolo ha mostrato lacune nei confronti con frazioni di riferimento. Il recupero mira a colmare queste specifiche lacune. I punteggi totali avrebbero oscurato completamente questa informazione didattica.

Riconoscere il Pensiero Normativo nella Valutazione Quotidiana

Un insegnante di biologia delle superiori assegna i voti in curva dopo un esame difficile: il punteggio più alto era 78, quindi aggiunge 22 punti al voto di ogni studente. Si tratta di una pratica normativa incorporata nel contesto della classe. La conseguenza: gli studenti che hanno appreso poco i contenuti possono ottenere la sufficienza, mentre l'insegnante non riceve informazioni affidabili su quali concetti necessitano di essere riaffrontati. Un'alternativa criteriale consiste nell'esaminare perché i punteggi erano bassi (l'istruzione è stata adeguata? il test era allineato all'istruzione?) e affrontare la causa sottostante anziché aggiustare i punteggi.

Combinare Entrambi gli Approcci per lo Screening e l'Istruzione

Una coordinatrice dell'alfabetizzazione di una scuola media usa una valutazione della lettura standardizzata a livello nazionale (ad esempio, NWEA MAP) tre volte l'anno per identificare gli studenti che performano significativamente al di sotto delle norme di grado — un uso normativo. Gli studenti segnalati ricevono una valutazione diagnostica criteriale (legata a specifici standard di decodifica, fluenza e comprensione) per individuare gli obiettivi didattici. Lo screening normativo identifica chi ha bisogno di attenzione; la valutazione criteriale identifica di quale istruzione ha bisogno. Nessuno dei due strumenti da solo sarebbe in grado di svolgere entrambe le funzioni.

Evidenze di Ricerca

Il lavoro fondamentale di Robert Glaser e Anthony Nitko ha stabilito le basi psicometriche per la valutazione criteriale in contesti educativi. La monografia di Nitko del 1980 Distinguishing the Many Varieties of Criterion-Referenced Tests ha fornito la prima tassonomia completa degli approcci criteriali, chiarendo distinzioni che erano rimaste sfumate nel decennio successivo all'articolo di Glaser del 1963.

La ricerca di James Popham sulla sensibilità didattica delle valutazioni — un lavoro che ha portato avanti dagli anni Settanta fino agli anni Duemiladieci — ha dimostrato che la maggior parte dei test standardizzati su larga scala, inclusi molti test statali di rendicontazione nominalmente etichettati come criteriali, contiene item dominati dal background socioeconomico piuttosto che dalla qualità dell'istruzione. Il suo concetto di test "didatticamente insensibili" (2007, Educational Researcher) ha messo in discussione l'assunzione che i test allineati agli standard misurino automaticamente l'efficacia dell'insegnamento.

W. James Popham ed Eva Baker (1970) hanno condotto alcuni dei primi confronti empirici tra approcci normativi e criteriali, riscontrando che gli insegnanti che ricevevano dati di performance criteriale effettuavano adeguamenti didattici più precisi rispetto a quelli che ricevevano punteggi normativi. Questo risultato è stato replicato in lavori più recenti: Wiliam e Thompson (2007) in Ahead of the Curve hanno esaminato la letteratura sulla valutazione formativa e concluso che il feedback basato su criteri supera costantemente il feedback comparativo nel migliorare l'apprendimento degli studenti.

L'analisi di Robert Linn del 2003 in Educational Researcher, "Accountability: Responsibility and Reasonable Expectations", ha esaminato due decenni di dati sulle valutazioni statali e ha rilevato che i guadagni nei tassi di competenza nei test criteriali statali spesso non erano correlati ai guadagni nel NAEP (uno strumento normativo a livello nazionale), sollevando interrogativi sulla solidità dei punteggi soglia statali. Il suo lavoro ha illustrato che l'interpretazione criteriale è significativa solo quanto la qualità dei criteri stessi.

Misconcezioni Comuni

Misconcezione 1: I test standardizzati sono sempre normativi. Molti test standardizzati sono criteriali. "Standardizzato" significa semplicemente somministrato e corretto in condizioni uniformi e coerenti. I test statali legati agli standard di contenuto (PARCC, SBAC, STAAR) sono standardizzati e criteriali. Il SAT e l'ACT sono standardizzati e normativi. Il termine "standardizzato" descrive la procedura di somministrazione, non il quadro interpretativo.

Misconcezione 2: Le valutazioni criteriali sono più facili da costruire. Poiché le valutazioni criteriali richiedono standard di apprendimento espliciti e operazionalizzati con punteggi soglia difendibili, sono spesso più difficili da costruire rigorosamente rispetto agli strumenti normativi. Un test normativo può essere assemblato selezionando item che massimizzano la varianza dei punteggi in un gruppo di riferimento. Un test criteriale richiede la specifica preliminare di esattamente cosa gli studenti devono saper fare, come verrà campionata la performance e quale soglia costituisce la padronanza — decisioni che richiedono sia competenza nei contenuti sia un lavoro deliberato di validità.

Misconcezione 3: Le valutazioni normative non hanno posto nelle classi. Per alcune decisioni didattiche, i confronti normativi sono genuinamente utili. Un insegnante che vuole sapere se lo sviluppo della scrittura della sua classe è in linea con quello di studenti simili a livello nazionale trae vantaggio dai dati standardizzati. Un consulente scolastico che identifica studenti che potrebbero necessitare di servizi per gifted ha bisogno di confronti normativi. Il problema non è l'interpretazione normativa in sé, ma il suo utilizzo per decisioni didattiche che richiedono informazioni criteriali (ovvero: cosa deve imparare esattamente questo studente?).

Connessione con l'Apprendimento Attivo

La scelta tra quadri normativi e criteriali determina come l'apprendimento attivo funziona in una classe. Le metodologie di apprendimento attivo — think-pair-share, seminario socratico, indagine basata su progetti — sono progettate per costruire competenze genuine in abilità specifiche: analisi, argomentazione, risoluzione collaborativa di problemi. Questi risultati sono criteriali per natura. Uno studente ha o non ha sviluppato la capacità di costruire un argomento ragionato a partire dalle prove. La classificazione normativa non aggiunge nulla a questa domanda.

La valutazione basata sugli standard operazionalizza i principi criteriali a livello di rendicontazione, sostituendo i voti percentuali con indicatori di padronanza direttamente legati agli obiettivi di apprendimento. Gli insegnanti che lavorano in sistemi basati sugli standard trovano che le valutazioni criteriali si allineano naturalmente ai cicli formativi: valuta rispetto allo standard, identifica le lacune, fornisci pratica mirata, rivaluta. La valutazione normativa interrompe questo ciclo perché il voto di uno studente dipende in parte dalla performance dei compagni, non dal proprio progresso nella padronanza.

La valutazione sommativa alla fine di un'unità o di un corso serve uno scopo criteriale nella maggior parte dei contesti didattici: lo studente ha raggiunto gli obiettivi di apprendimento? Quando i voti sommativi vengono assegnati in curva (un aggiustamento normativo), perdono la loro integrità diagnostica e la loro utilità come prova di competenza per futuri insegnanti o datori di lavoro. La valutazione diagnostica all'inizio di una sequenza di apprendimento è quasi sempre criteriale: gli insegnanti devono sapere specificamente cosa gli studenti già sanno e cosa non sanno ancora, non come si collocano rispetto ai compagni.

Perché l'apprendimento attivo funzioni bene, gli studenti hanno bisogno di feedback criteriale. La ricerca sull'apprendimento autoregolato (Zimmerman, 2002) mostra che gli studenti adeguano il loro impegno e le loro strategie in base alle informazioni sulle lacune: "Non ho ancora raggiunto la padronanza di X" è un'informazione su cui si può agire. "Sono al 43° percentile" non lo è. Costruire sistemi di valutazione attorno a criteri definiti fornisce agli studenti il feedback specifico che sostiene la lotta produttiva e l'apprendimento autentico.

Fonti

  1. Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions. American Psychologist, 18(8), 519–521.

  2. Popham, W. J., & Husek, T. R. (1969). Implications of criterion-referenced measurement. Journal of Educational Measurement, 6(1), 1–9.

  3. Linn, R. L. (2003). Accountability: Responsibility and reasonable expectations. Educational Researcher, 32(7), 3–13.

  4. Nitko, A. J. (1980). Distinguishing the many varieties of criterion-referenced tests. Research Report RR-80-9. Educational Testing Service.