Définition

L'évaluation par la performance est une méthode d'évaluation des apprentissages qui demande aux élèves de démontrer leurs savoirs et compétences par une action directe — construire une réponse, produire un travail ou réaliser une procédure — plutôt que de choisir parmi des réponses prédéfinies. Ce qui la caractérise, c'est la preuve observable : l'enseignant observe, écoute ou examine ce qu'un élève fait réellement, puis évalue cette preuve selon des critères explicites.

Le terme recouvre un large éventail de tâches. Un élève de maternelle qui raconte une histoire à un camarade, un lycéen en chimie réalisant une titration, un étudiant défendant sa thèse de recherche devant un jury : toutes ces situations constituent des évaluations par la performance, car la compétence est déduite d'un comportement démontré, et non d'une mesure indirecte comme un score à un QCM. La forme de la tâche varie ; la logique sous-jacente reste la même.

L'évaluation par la performance s'inscrit dans la catégorie plus large de l'évaluation authentique, qui met l'accent sur l'application dans des contextes réels et signifiants. Toutes les tâches de performance ne sont pas contextualisées de façon authentique, mais les mieux conçues le sont : elles confrontent les élèves au type de problème qu'un praticien du domaine rencontrerait réellement, en mobilisant à la fois savoirs, compétences et jugement.

Contexte historique

Les racines intellectuelles de l'évaluation par la performance s'inscrivent dans deux traditions distinctes : l'éducation progressive et la psychologie cognitive. L'argument de John Dewey, au début du XXe siècle, selon lequel un apprentissage authentique exige une action concrète, a posé les bases philosophiques. Dewey affirmait que les écoles devaient engager les élèves dans une activité finalisée, non dans une réception passive de faits — une position qui remet implicitement en question la logique des tests de mémorisation.

Le mouvement formel vers des approches fondées sur la performance dans l'éducation américaine s'est développé à la fin des années 1980. Lauren Resnick, psychologue cognitive à l'Université de Pittsburgh, a publié en 1987 un article majeur dans l'American Psychologist affirmant que la pensée de haut niveau ne peut être évaluée par des items décontextualisés et fragmentés. Ses travaux, combinés à l'essai de Grant Wiggins paru en 1989 dans Educational Leadership — « A True Test: Toward More Authentic and Equitable Assessment » — ont établi le fondement théorique de l'évaluation directe des compétences.

Wiggins et Jay McTighe ont développé cette réflexion dans le cadre de la conception en amont (Understanding by Design, 1998), qui place les tâches de performance au cœur de la planification curriculaire. Leur structure de conception « GRASPS » (Objectif, Rôle, Public, Situation, Produit, Standards) a fourni aux enseignants un cadre pratique pour créer des évaluations à la fois exigeantes et évaluables.

Parallèlement, des chercheurs en psychométrie posaient des fondements techniques. Richard Stiggins a fondé l'Assessment Training Institute en 1992 et a plaidé pour une culture de l'évaluation chez les enseignants, en affirmant que la qualité de l'évaluation quotidienne en classe importait davantage pour les apprentissages que les tests standardisés annuels. Le National Board for Professional Teaching Standards, créé en 1987, a fondé l'ensemble de son système de certification enseignante sur des portfolios et des preuves de performance — et non sur des examens écrits — consacrant ainsi ce modèle au plus haut niveau institutionnel.

Dans les années 2000, l'évaluation par la performance est devenue une caractéristique déterminante des réformes fondées sur les compétences, des programmes de certification, et des évaluations internationales telles que le Baccalauréat International, qui exige depuis des décennies des évaluations internes (travaux expérimentaux, examens oraux, essais étendus).

Principes fondamentaux

Alignement entre la tâche et le standard

Une tâche de performance doit mobiliser exactement les savoirs et compétences nommés dans l'objectif d'apprentissage — pas un substitut. Si le standard est « les élèves argumenteront une position en s'appuyant sur des preuves textuelles », la tâche doit leur demander d'argumenter une position en s'appuyant sur des preuves textuelles — et non de résumer un argument ou d'identifier des affirmations dans un passage. Le défaut d'alignement est la lacune de conception la plus fréquente : les enseignants proposent des tâches impressionnantes qui mesurent en réalité quelque chose d'adjacent au standard visé.

Ce principe d'alignement s'inspire de la théorie unifiée de la validité de construit de Samuel Messick (1989). La validité n'est pas une propriété d'un test pris isolément ; c'est un jugement sur la légitimité des inférences tirées des scores. Une tâche de performance n'est valide que dans la mesure où ce que font les élèves reflète authentiquement la compétence que l'on entend mesurer.

Preuves observables et évaluables

L'évaluation par la performance nécessite des preuves qui peuvent être observées et évaluées. Cela peut sembler évident, mais cela contraint la conception des tâches de façon importante. Les preuves de processus (observer un élève réaliser une expérience) et les preuves de produit (lire le compte rendu de labo par la suite) sont toutes deux légitimes, mais les enseignants doivent décider à l'avance lesquelles ils évalueront et comment. Les tâches qui ne produisent aucune preuve tangible — une discussion de classe dont rien n'est enregistré, un projet de groupe où les contributions individuelles sont invisibles — rendent l'évaluation équitable difficile.

L'évaluation repose sur des grilles d'évaluation bien conçues qui définissent ce que représentent différents niveaux de performance. Les grilles remplissent deux fonctions : elles communiquent les attentes aux élèves avant la tâche, et elles ancrent le jugement des évaluateurs durant l'évaluation. Les grilles analytiques qui distinguent des critères spécifiques (ex. : structure argumentative, utilisation des preuves, mécanique de l'écrit) produisent un retour plus diagnostique que les grilles holistes qui condensent tout en une seule note.

Complexité cognitive

Les tâches de performance doivent exiger une réflexion soutenue et de haut niveau. La taxonomie de Benjamin Bloom (1956, révisée par Anderson et Krathwohl en 2001) fournit le cadre le plus largement utilisé : les tâches aux niveaux de l'application, de l'analyse, de l'évaluation et de la création exigent un travail cognitif plus complexe que celles relevant de la mémorisation ou de la compréhension. Une tâche de performance qui ne requiert que du rappel (« citez les branches du gouvernement ») ne diffère pas réellement d'une question de contrôle.

La complexité cognitive d'une tâche doit correspondre aux objectifs d'apprentissage. Les enseignants conçoivent parfois des scénarios élaborés qui se réduisent finalement à un rappel en une étape. Inversement, ils assignent parfois des tâches réellement complexes sans étayage suffisant, ce qui mesure davantage les acquis préalables ou les ressources familiales que l'enseignement dispensé en classe.

Équité et accessibilité

L'évaluation par la performance introduit des enjeux d'équité que les tests à choix multiples traitent différemment. Les tâches de longue durée avantagent les élèves disposant de plus de temps, de meilleurs matériaux et de conventions d'écriture plus solides. Les tâches de groupe masquent les contributions individuelles. Les performances orales désavantagent les apprenants en langue et les élèves souffrant de troubles anxieux. Concevoir des évaluations par la performance équitables exige des aménagements délibérés : principes de conception universelle, modalités de démonstration flexibles, et grilles qui évaluent la compétence ciblée plutôt que des caractéristiques de surface sans lien avec l'objectif d'apprentissage.

Application en classe

École primaire : évaluation de la lecture à voix haute

Les enseignants du primaire recourent régulièrement à l'évaluation par la performance à travers les grilles de lecture — observations structurées d'un élève lisant à voix haute. L'enseignant consigne les erreurs (substitutions, omissions, répétitions), les code par type, calcule les taux de précision et d'autocorrection, puis utilise ces preuves pour déterminer le niveau de lecture et les lacunes spécifiques en décodage.

C'est l'évaluation par la performance dans sa forme la plus intégrée : l'enseignant observe un comportement authentique (lire), applique une méthode de notation systématique, et prend des décisions pédagogiques sur la base des résultats. Le programme Reading Recovery de Marie Clay a formalisé cette pratique dans les années 1970, et les grilles de lecture sont depuis devenues une norme dans l'enseignement initial de la lecture dans le monde entier.

Collège : investigation scientifique

Un enseignant de cinquième évaluant le standard de démarche scientifique propose une tâche de performance structurée : les élèves doivent concevoir une expérience contrôlée, collecter et consigner des données, analyser les résultats à l'aide d'un jeu de données fourni, et présenter leurs conclusions avec des affirmations et preuves appropriées.

Plutôt qu'un QCM sur les étapes de la méthode scientifique, les élèves démontrent un raisonnement scientifique en le pratiquant réellement. L'enseignant utilise une grille analytique qui note séparément la conception expérimentale (contrôles, variables), la qualité des données et le raisonnement affirmation-preuve. Les élèves reçoivent la grille avant de commencer, afin de comprendre ce que signifie « compétent » dans chaque dimension.

Lycée : séminaire socratique et réflexion écrite

Un professeur de terminale en lettres évalue le raisonnement argumentatif à travers une évaluation en deux parties : un séminaire socratique sur un texte controversé, suivi d'un argument écrit indépendant. Durant le séminaire, les élèves sont notés selon une grille de discussion (s'appuyer sur les idées des autres, citer des preuves textuelles, affiner ses positions en réponse aux contre-arguments). L'argument écrit est noté séparément avec une grille d'écriture.

Cette conception capture à la fois des preuves orales et écrites de l'argumentation, offrant aux élèves deux modes de démonstration de la même compétence. Les enseignants qui observent des écarts importants entre les scores du séminaire et de l'écrit disposent d'une information diagnostique sur la nature de cet écart.

Données probantes

Richard Shavelson et ses collègues (1992) ont mené l'une des premières comparaisons rigoureuses entre évaluation par la performance et évaluation traditionnelle. Dans une étude publiée dans le Journal of Research in Science Teaching, ils ont constaté que des tâches de performance en sciences — où les élèves manipulaient réellement du matériel — détectaient des compréhensions que les tests papier-crayon sur le même contenu manquaient entièrement. Des élèves ayant obtenu de bons scores au test écrit ne parvenaient fréquemment pas à exécuter la procédure correctement, et inversement. Les deux formats mesuraient des compétences liées mais distinctes.

Une méta-analyse majeure de Kingston et Nash (2011) dans Educational Measurement: Issues and Practice a examiné les effets des pratiques d'évaluation formative, incluant des tâches de performance utilisées pour le retour sur l'apprentissage, à travers 13 études. Ils ont trouvé une taille d'effet moyenne de 0,20 sur la réussite sommative, avec des effets plus marqués dans les études mettant l'accent sur le retour de l'enseignant sur les productions de performance. L'analyse a confirmé ce que les praticiens observaient depuis longtemps : les tâches de performance génèrent des informations diagnostiques plus riches que les évaluations à choix multiples, mais traduire ces informations en progrès des élèves exige des cycles de retour délibérés.

Darling-Hammond, Ancess et Falk (1995) ont documenté l'utilisation d'exigences d'obtention du diplôme fondées sur la performance dans trois lycées new-yorkais : l'Urban Academy, la Central Park East Secondary School et l'International High School. Les élèves de ces établissements, issus majoritairement de milieux défavorisés, obtenaient leur diplôme à des taux plus élevés et persévéraient davantage dans l'enseignement supérieur que leurs pairs dans des écoles traditionnelles comparables. Les chercheurs ont attribué en partie ce résultat à des cultures d'évaluation où les élèves recevaient des retours substantiels sur leurs productions tout au long de l'année — pas seulement au moment des examens. L'étude était qualitative et il est difficile d'isoler les liens de causalité de la culture scolaire globale, mais elle reste influente pour sa documentation détaillée de l'évaluation par la performance à grande échelle.

La recherche sur la fidélité inter-juges montre de façon constante que des évaluateurs non formés utilisant des grilles vagues produisent des scores peu fiables pour les tâches de performance. Johnstone, Bottsford-Miller et Thompson (2006) ont mis en évidence des désaccords importants entre évaluateurs lors de la notation à grande échelle lorsque les procédures d'ancrage étaient absentes. Pour les enseignants, la leçon est claire : la qualité des grilles et la formation au calibrage ne sont pas des raffinements optionnels — elles constituent le fondement technique qui rend l'évaluation par la performance défendable.

Idées reçues fréquentes

L'évaluation par la performance est réservée aux unités fondées sur des projets. Beaucoup d'enseignants associent les tâches de performance exclusivement à des projets de longue durée ou à des expositions de fin d'année. En pratique, elles vont d'une explication orale de deux minutes à un portfolio semestriel. Une question de sortie quotidienne demandant aux élèves de résoudre un problème inédit et d'expliquer leur raisonnement est une évaluation par la performance. L'échelle varie ; la caractéristique définissante (démontrer une compétence par l'action) reste constante.

Les grilles éliminent la subjectivité. Les grilles réduisent la subjectivité en rendant les critères explicites, mais elles ne l'éliminent pas. Deux enseignants notant la même présentation d'élève avec la même grille ne seront pas nécessairement d'accord, sauf s'ils ont calibré leur jugement sur des exemples partagés de travaux d'élèves à chaque niveau. Un libellé comme « démontre une compréhension partielle » signifie des choses différentes selon les évaluateurs, sans travaux de référence pour illustrer ce que « partiel » signifie concrètement. C'est pourquoi le calibrage par ancrage — et pas seulement la distribution de grilles — est indispensable pour une notation équitable.

L'évaluation par la performance ne peut pas être rigoureuse ou fiable. Les détracteurs soutiennent que la part de jugement inhérente à la notation de performance la rend moins rigoureuse que les tests corrigés automatiquement. Cette position confond fiabilité et validité. Un test à choix multiples peut être parfaitement fiable et néanmoins ne pas mesurer la compétence visée. L'évaluation par la performance, correctement conçue avec de bonnes grilles et une formation des évaluateurs, atteint une fiabilité satisfaisante tout en mesurant des compétences plus complexes que les formats à choix multiples ne peuvent atteindre. Le National Board for Professional Teaching Standards utilise des portfolios de performance pour la certification enseignante depuis plus de trente ans, avec des coefficients de fidélité inter-juges comparables à ceux des grands tests standardisés.

Lien avec l'apprentissage actif

L'évaluation par la performance et l'apprentissage actif sont structurellement liés : les méthodologies d'apprentissage actif génèrent des comportements observables que l'évaluation par la performance est conçue pour saisir et évaluer.

La méthodologie du procès simulé en est un exemple clair. Les élèves recherchent des précédents juridiques, se voient attribuer des rôles, préparent des arguments et plaident devant un jury. La tâche de performance, c'est le procès lui-même ; la grille mesure le raisonnement juridique, l'utilisation des preuves et la plaidoirie orale. Il est impossible de séparer l'activité d'apprentissage de l'évaluation — l'apprentissage se produit à travers la performance évaluée.

Les tâches de simulation fonctionnent de façon similaire. Simulations médicales, exercices de trading boursier, scénarios de gestion de crise : toutes créent des conditions où les élèves doivent mobiliser leurs savoirs en temps réel, produisant des preuves observables qu'une grille peut noter. La simulation est à la fois l'activité pédagogique et le véhicule de l'évaluation.

Les projets d'exposition de musée, courants dans l'apprentissage par projets, demandent aux élèves de curer et de présenter des contenus à un public authentique. Les visiteurs posent des questions ; les élèves répondent. L'exposition elle-même devient une évaluation par la performance de la compréhension conceptuelle, des compétences de communication et des connaissances disciplinaires.

Cette intégration est l'argument central en faveur de l'évaluation par la performance dans les contextes d'apprentissage par projets : lorsque l'activité d'apprentissage est la tâche de performance, l'évaluation cesse d'être perçue comme un ajout et devient inséparable de l'enseignement. Les élèves qui savent qu'ils devront démontrer leur compréhension publiquement — et non simplement la restituer en privé lors d'un test — s'engagent différemment avec la matière.

Pour un traitement plus approfondi de la catégorie plus large à laquelle ces tâches appartiennent, voir l'évaluation authentique.

Sources

  1. Wiggins, G. (1989). A true test: Toward more authentic and equitable assessment. Educational Leadership, 46(7), 703–713.
  2. Shavelson, R. J., Baxter, G. P., & Pine, J. (1992). Performance assessments: Political rhetoric and measurement reality. Educational Researcher, 21(4), 22–27.
  3. Kingston, N., & Nash, B. (2011). Formative assessment: A meta-analysis and a call for research. Educational Measurement: Issues and Practice, 30(4), 28–37.
  4. Darling-Hammond, L., Ancess, J., & Falk, B. (1995). Authentic Assessment in Action: Studies of Schools and Students at Work. Teachers College Press.