Définition
Toute évaluation peut susciter deux questions fondamentalement différentes : « Comment cet élève s'est-il comporté par rapport aux autres ? » et « Comment cet élève s'est-il comporté par rapport à un standard défini ? » La première question produit une interprétation normative ; la seconde, une interprétation critériée.
Une évaluation normative interprète le score d'un élève par rapport à un groupe de référence — généralement un large échantillon représentatif d'élèves ayant passé le même test. Le score brut importe moins que la position de l'élève dans la distribution. Un score de 72 ne signifie pas grand-chose tant qu'on ne sait pas qu'il place l'élève au 88e percentile. Les exemples classiques incluent les tests de QI, de nombreux examens d'entrée à l'université et les batteries d'évaluation nationales normées comme les Iowa Assessments.
Une évaluation critériée interprète le score d'un élève par rapport à un ensemble prédéfini de critères d'apprentissage, indépendamment des résultats des autres élèves. La question est de savoir si l'élève a démontré la maîtrise de compétences ou de contenus spécifiques. Si tous les élèves de la classe obtiennent 95 %, c'est un succès — non le signe que le test était trop facile. Les examens du permis de conduire, le barreau et les tests de classe construits autour d'objectifs d'apprentissage en sont des exemples typiques.
La distinction ne porte pas sur le test lui-même, mais sur la façon dont les scores sont construits et interprétés. Les choix de conception — difficulté des items, mode de restitution des scores, seuils de réussite — découlent de la finalité que l'évaluation est censée servir.
Contexte historique
Les racines intellectuelles de l'évaluation normative remontent aux travaux de Francis Galton sur les distributions statistiques dans les années 1880. Galton a introduit le concept de classement des individus sur une courbe normale, posant les bases de la tradition psychométrique. Son élève Karl Pearson a formalisé la corrélation et les outils statistiques utilisés dans la normalisation des tests.
L'ère moderne des tests normatifs a débuté avec les tests Army Alpha et Beta développés par Robert Yerkes et ses collègues pendant la Première Guerre mondiale (1917-1919). Confrontée à la nécessité de classer rapidement 1,75 million de recrues, l'armée américaine avait besoin d'instruments triant les individus efficacement. Le test Alpha pour les recrues alphabétisées et le test Beta pour les recrues analphabètes ou non anglophones produisaient des classements plutôt que des verdicts de maîtrise. Ce modèle a façonné les tests éducatifs américains pendant des décennies.
Le test Stanford-Binet de Lewis Terman (1916) puis le développement du SAT par Carl Brigham dans les années 1920 ont étendu le modèle normatif à l'éducation. Au milieu du siècle, les tests standardisés normatifs dominaient la scolarité américaine, notamment à travers les instruments produits par des éditeurs comme l'Educational Testing Service (ETS) et le programme de tests de l'Iowa.
L'alternative critériée est apparue explicitement en 1963 lorsque le psychologue Robert Glaser a publié « Instructional Technology and the Measurement of Learning Outcomes » dans la revue American Psychologist. Glaser a forgé le terme « mesure critériée » et a soutenu que la mesure éducative avait besoin d'un cadre fondé sur des objectifs comportementaux spécifiques plutôt que sur des classements comparatifs. James Popham et T.R. Husek ont étendu ce cadre théorique dans un article de 1969 paru dans le Journal of Educational Measurement, qui reste un texte fondateur.
Le mouvement des standards des années 1990, qui a culminé avec la loi No Child Left Behind (2001) puis Every Student Succeeds Act (2015), a fortement orienté l'éducation américaine vers des évaluations critériées d'État liées à des standards de contenu par niveau scolaire — même si les instruments normatifs sont restés dominants pour les admissions universitaires et le dépistage des élèves doués.
Principes clés
Le sens d'un score dépend du cadre de référence
Un score normatif répond à une question comparative : où se situe cet élève par rapport aux autres ? Un score critérié répond à une question de maîtrise : que sait faire cet élève ? Ce sont deux questions différentes, et les confondre produit des conclusions erronées. Un élève au 50e percentile sur un test de lecture normatif peut être ou non un lecteur compétent — cela dépend entièrement du niveau du groupe de référence lui-même.
Les tests normatifs sont conçus pour différencier les élèves
Les concepteurs d'instruments normatifs incluent délibérément des items de difficulté variable et éliminent ceux auxquels presque tout le monde répond correctement ou incorrectement. L'objectif est de maximiser la discrimination entre les élèves. Un test normatif bien construit produit des scores répartis sur l'ensemble de la distribution. Ce principe de conception est approprié pour les classements, mais contre-productif pour mesurer les résultats pédagogiques : les items reflétant ce qui a été enseigné tendent à être bien réussis après un bon enseignement, ce qui réduit la variance et nuit psychométriquement à un test normatif.
Les tests critériés définissent la maîtrise avant l'évaluation
La caractéristique distinctive de l'évaluation critériée est que le standard existe indépendamment des performances des élèves. Le seuil de réussite du permis de conduire (par exemple, 80 % de bonnes réponses au test de code) ne varie pas selon les résultats des autres candidats ce jour-là. Cela exige une spécification délibérée des objectifs d'apprentissage, des domaines de contenu et des standards de performance avant l'administration du test. Les travaux de Robert Mager sur les objectifs comportementaux (1962) ont fourni une grande partie du cadre pratique pour cette approche de conception.
Les deux types ont des usages légitimes
Les évaluations normatives servent la sélection, le dépistage et les comparaisons diagnostiques entre populations. Elles répondent à des questions comme : les performances en lecture de cette école sont-elles au-dessus ou en dessous de la moyenne nationale ? Quels élèves ont le plus besoin d'une intervention intensive ? Les évaluations critériées servent l'instruction, la certification et la responsabilisation par rapport à des standards. Elles répondent à : cet élève a-t-il appris à multiplier les fractions ? Ce diplômé est-il prêt à exercer le droit ? Utiliser un instrument normatif pour des décisions critériées — ou inversement — produit des conclusions trompeuses.
Les seuils de réussite des tests critériés impliquent des jugements de valeur
Fixer le seuil de compétence d'un test critérié est une décision politique, pas purement technique. Les méthodes comme la méthode Angoff, la méthode du signet ou la méthode des groupes contrastés sont toutes défendables, mais elles incorporent des jugements sur ce que signifie « être compétent ». Robert Linn (2003) a abondamment documenté la façon dont les seuils de compétence sur les évaluations d'État variaient considérablement d'un État à l'autre, produisant des conclusions incohérentes sur les résultats des élèves même lorsque des contenus similaires étaient évalués.
Application en classe
Utiliser les évaluations critériées pour la planification pédagogique
Un enseignant de CM2 concevant une unité sur les fractions rédige des objectifs d'apprentissage précis : les élèves additionneront des fractions à dénominateurs différents, compareront des fractions en utilisant des fractions de référence, et résoudront des problèmes de mots impliquant l'addition de fractions. Le test de l'unité est construit directement à partir de ces objectifs, avec des seuils de maîtrise clairs (par exemple, 80 % de réussite par groupe d'objectifs).
Après la correction, l'enseignant désagrège les résultats par objectif plutôt que d'examiner les scores totaux. Plusieurs élèves ont maîtrisé l'addition à dénominateurs différents mais peinent avec les problèmes de mots ; un groupe plus restreint présente des lacunes dans la comparaison par fractions de référence. Le réenseignement cible ces lacunes spécifiques. Les scores totaux auraient entièrement masqué cette information pédagogique.
Reconnaître la pensée normative dans la notation quotidienne
Un enseignant de lycée en biologie note sur courbe après un examen difficile — le score le plus élevé était 78, donc il ajoute 22 points à tous les scores. C'est une pratique normative intégrée dans un contexte de classe. La conséquence : des élèves qui ont mal assimilé le contenu peuvent obtenir des notes passables, tandis que l'enseignant ne dispose d'aucune information fiable sur les concepts à reprendre. L'alternative critériée consiste à examiner pourquoi les scores étaient bas (l'enseignement était-il suffisant ? Le test était-il aligné sur l'enseignement ?) et à traiter la cause sous-jacente plutôt qu'à ajuster les scores.
Combiner les deux approches pour le dépistage et l'instruction
Un coordinateur de littératie au collège utilise une évaluation de lecture normée nationalement (par exemple, NWEA MAP) trois fois par an pour identifier les élèves dont les performances sont significativement inférieures aux normes de leur niveau — usage normatif. Les élèves signalés reçoivent une évaluation diagnostique critériée (liée à des standards spécifiques de décodage, de fluidité et de compréhension) pour cibler les objectifs pédagogiques. Le dépistage normatif identifie qui a besoin d'attention ; l'évaluation critériée identifie de quelle instruction ces élèves ont besoin. Aucun instrument seul ne pourrait remplir les deux fonctions efficacement.
Données probantes
Les travaux fondateurs de Robert Glaser et Anthony Nitko ont établi le socle psychométrique de l'évaluation critériée dans les contextes éducatifs. La monographie de Nitko en 1980, Distinguishing the Many Varieties of Criterion-Referenced Tests, a fourni la première taxonomie complète des approches critériées, clarifiant des distinctions qui s'étaient brouillées dans la décennie suivant l'article fondateur de Glaser en 1963.
Les recherches de James Popham sur la sensibilité instructionnelle des évaluations — travaux qu'il a poursuivis des années 1970 aux années 2010 — ont montré que la plupart des tests standardisés à grande échelle, y compris de nombreux tests d'accountability d'État nominalement qualifiés de critériés, contiennent des items davantage influencés par le statut socio-économique que par la qualité de l'enseignement. Son concept de tests « insensibles à l'instruction » (2007, Educational Researcher) a remis en question l'hypothèse selon laquelle les tests alignés sur des standards mesurent automatiquement l'efficacité de l'enseignement.
W. James Popham et Eva Baker (1970) ont mené des comparaisons empiriques précoces entre approches normatives et critériées, constatant que les enseignants qui recevaient des données de performance critériées effectuaient des ajustements pédagogiques plus précis que ceux qui recevaient des scores normatifs. Ce résultat a été reproduit dans des travaux plus récents : Wiliam et Thompson (2007) dans Ahead of the Curve ont passé en revue la littérature sur l'évaluation formative et conclu que le feedback fondé sur des critères surpasse systématiquement le feedback comparatif pour améliorer les apprentissages.
L'analyse de Robert Linn en 2003 dans Educational Researcher, « Accountability: Responsibility and Reasonable Expectations », a examiné deux décennies de données d'évaluations d'État et a constaté que les gains de taux de compétence sur les tests critériés d'État ne correspondaient souvent pas aux gains sur le NAEP (instrument normatif national), soulevant des questions sur la validité des seuils de compétence fixés par les États. Ses travaux ont illustré le fait que l'interprétation critériée n'est pertinente qu'à la mesure de la qualité des critères eux-mêmes.
Idées reçues
Idée reçue n° 1 : les tests standardisés sont toujours normatifs. De nombreux tests standardisés sont critériés. « Standardisé » signifie simplement qu'un test est administré et noté dans des conditions uniformes et cohérentes. Les tests d'État liés à des standards de contenu (PARCC, SBAC, STAAR) sont standardisés et critériés. Le SAT et l'ACT sont standardisés et normatifs. Le terme « standardisé » décrit la procédure d'administration, non le cadre d'interprétation.
Idée reçue n° 2 : les évaluations critériées sont plus faciles à construire. Parce que les évaluations critériées exigent des standards d'apprentissage explicitement opérationnalisés avec des seuils défendables, elles sont souvent plus difficiles à construire rigoureusement que les instruments normatifs. Un test normatif peut être assemblé en sélectionnant des items qui maximisent la variance des scores dans un groupe de référence. Un test critérié requiert une spécification préalable de ce que les élèves doivent être capables de faire, de la façon dont la performance sera échantillonnée et du seuil constitutif de la maîtrise — décisions qui nécessitent à la fois une expertise disciplinaire et un travail de validation délibéré.
Idée reçue n° 3 : les évaluations normatives n'ont pas leur place en classe. Pour certaines décisions pédagogiques, les comparaisons normatives sont réellement utiles. Un enseignant qui se demande si le développement en écriture de sa classe est dans la norme nationale par rapport à des élèves comparables bénéficie de données normées. Un conseiller d'orientation qui identifie les élèves pouvant avoir besoin de services pour surdoués a besoin de comparaisons normatives. Le problème n'est pas l'interprétation normative en elle-même, mais son usage pour des décisions pédagogiques qui requièrent des informations critériées (c'est-à-dire : que doit apprendre cet élève ensuite ?).
Lien avec l'apprentissage actif
Le choix entre cadre normatif et critérié influe directement sur le fonctionnement de l'apprentissage actif en classe. Les méthodologies d'apprentissage actif — think-pair-share, séminaire socratique, enquête par projets — sont conçues pour développer des compétences réelles et spécifiques : analyse, argumentation, résolution collaborative de problèmes. Ces résultats sont critériés par nature. Un élève a ou n'a pas développé la capacité à construire un argument raisonné à partir de preuves. Le classement normatif n'apporte rien à cette question.
La notation fondée sur les standards opérationnalise les principes critériés au niveau du bulletin scolaire, remplaçant les notes en pourcentage par des indicateurs de maîtrise directement liés aux objectifs d'apprentissage. Les enseignants travaillant dans des systèmes fondés sur les standards constatent que les évaluations critériées s'alignent naturellement sur les cycles formatifs : évaluer par rapport au standard, identifier les lacunes, proposer une pratique ciblée, réévaluer. La notation normative perturbe ce cycle parce que la note d'un élève dépend en partie des performances de ses camarades, non de sa propre progression vers la maîtrise.
L'évaluation sommative en fin d'unité ou de cours remplit une fonction critériée dans la plupart des contextes pédagogiques : l'élève a-t-il atteint les objectifs d'apprentissage ? Lorsque les notes sommatives sont ajustées par courbe (correction normative), elles perdent leur intégrité diagnostique et leur utilité comme preuves de compétence pour les futurs enseignants ou employeurs. L'évaluation diagnostique en début de séquence est presque toujours critériée : les enseignants ont besoin de savoir précisément ce que les élèves savent et ne savent pas encore faire, non comment ils se classent par rapport à leurs pairs.
Pour que l'apprentissage actif fonctionne bien, les élèves ont besoin d'un feedback critérié. Les recherches sur l'apprentissage autorégulé (Zimmerman, 2002) montrent que les élèves ajustent leurs efforts et leurs stratégies à partir d'informations sur leurs lacunes : « Je ne maîtrise pas encore X » est un point d'appui pour agir. « Je suis au 43e percentile » ne l'est pas. Construire des systèmes d'évaluation autour de critères définis donne aux élèves le feedback spécifique qui soutient la lutte productive et l'apprentissage authentique.
Sources
-
Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions. American Psychologist, 18(8), 519–521.
-
Popham, W. J., & Husek, T. R. (1969). Implications of criterion-referenced measurement. Journal of Educational Measurement, 6(1), 1–9.
-
Linn, R. L. (2003). Accountability: Responsibility and reasonable expectations. Educational Researcher, 32(7), 3–13.
-
Nitko, A. J. (1980). Distinguishing the many varieties of criterion-referenced tests. Research Report RR-80-9. Educational Testing Service.