Définition

L'évaluation au service de l'apprentissage (AfL) consiste à recueillir en continu des preuves de la compréhension des élèves pendant l'enseignement, afin d'ajuster en temps réel les pratiques pédagogiques. L'objectif n'est ni de mesurer ni d'enregistrer — il est de produire des informations exploitables que les enseignants et les élèves utilisent pour combler l'écart entre les performances actuelles et l'objectif d'apprentissage.

L'Assessment Reform Group (1999) a défini l'AfL comme « le processus de recherche et d'interprétation des preuves destinées aux apprenants et à leurs enseignants, afin de décider où en sont les apprenants dans leur apprentissage, où ils doivent aller et comment y parvenir au mieux. » Trois questions sont au cœur de cette définition : Où en est l'apprenant ? Où doit-il aller ? Quelle est la meilleure prochaine étape ? Toute stratégie AfL répond à au moins l'une d'elles.

L'AfL est étroitement liée à l'évaluation formative, mais met davantage l'accent sur l'agentivité des élèves. Alors que l'évaluation formative peut désigner tout contrôle à faible enjeu, l'AfL exige spécifiquement que les preuves recueillies soient partagées avec les élèves et qu'ils y donnent suite eux-mêmes, sans que l'enseignant se contente de les consigner.

Contexte historique

Le cadre moderne de l'AfL est issu d'une revue publiée en 1998 par Paul Black et Dylan Wiliam, alors au King's College de Londres. Leur article « Inside the Black Box: Raising Standards Through Classroom Assessment » a synthétisé 250 études publiées entre 1988 et 1997 et conclu que l'évaluation formative, lorsqu'elle est mise en œuvre avec un retour d'information de qualité et une implication des élèves, produisait des tailles d'effet de 0,4 à 0,7 écart-type — ce qui correspond, selon leurs propres termes, à faire passer un élève du 50e au 65e ou 75e percentile.

L'expression « évaluation au service de l'apprentissage » a été popularisée par l'Assessment Reform Group (ARG), un consortium de recherche britannique actif de 1989 à 2010, qui réunissait notamment Black, Wiliam, Mary James et Bethan Marshall. Leur publication de 1999, « Assessment for Learning: Beyond the Black Box », a nommé le concept, l'a distingué de l'évaluation sommative et a posé dix principes utilisables comme cadre par les établissements scolaires.

Black et Wiliam ont poursuivi avec « Assessment and Classroom Learning » (1998, Assessment in Education) et le guide praticien « Working Inside the Black Box » (2002), qui introduisait des stratégies concrètes : techniques de questionnement, feedback qui fait avancer l'apprentissage, partage des objectifs d'apprentissage avec les élèves, évaluation par les pairs et auto-évaluation. Dès 2004, l'AfL avait été adoptée comme politique officielle en Angleterre, en Écosse et au Pays de Galles, et s'était répandue en Australie, en Nouvelle-Zélande, au Canada et en Scandinavie.

Les racines intellectuelles remontent plus loin que les années 1990. Le modèle d'apprentissage par maîtrise de Benjamin Bloom (1968) avait montré que les élèves qui recevaient des contrôles formatifs et un feedback correctif avant de passer à de nouveaux contenus atteignaient des niveaux nettement plus élevés. La zone proximale de développement de Vygotsky (1978) offrait un fondement théorique : un enseignement efficace doit cibler l'écart entre ce qu'un apprenant peut faire seul et ce qu'il peut faire avec un soutien. L'AfL est, en pratique, le mécanisme permettant de repérer et de combler cet écart en permanence.

Principes fondamentaux

Partager les intentions d'apprentissage et les critères de réussite

Les élèves apprennent plus efficacement quand ils savent ce qu'ils sont censés apprendre et à quoi ressemble un travail réussi. Partager les intentions d'apprentissage (« À la fin de cette leçon, vous serez capables de... ») ne se réduit pas à annoncer une activité. Les critères de réussite décrivent des preuves observables de la compréhension : « Vous pouvez expliquer pourquoi le cycle de l'eau s'accélère dans les régions tropicales en mobilisant au moins deux variables météorologiques. » Quand les élèves intériorisent ce standard, ils peuvent suivre leur propre progression au lieu de deviner les attentes de l'enseignant.

Le questionnement en classe comme générateur de preuves

Les questions de rappel de bas niveau (« En quelle année a débuté la Révolution française ? ») confirment la mémorisation mais ne révèlent rien de la compréhension. L'AfL exige des questions qui font émerger le raisonnement : « Pourquoi pensez-vous que le Tiers État était plus instable que le Second ? » Des techniques comme le temps d'attente (au moins trois secondes après avoir posé une question), l'appel aléatoire et les politiques « mains baissées » garantissent que les preuves proviennent de tous les élèves, et non des seuls volontaires. L'objectif est de collecter des données diagnostiques, non de mettre en scène une performance.

Un feedback qui fait avancer l'apprentissage

Un feedback efficace dans le cadre de l'AfL indique précisément aux élèves ce qu'ils ont bien fait, ce qui doit être amélioré et comment s'y prendre. Une recherche de Kluger et DeNisi (1996), portant sur 2 500 expériences, a montré que le feedback centré sur la tâche et la prochaine étape améliorait systématiquement les performances, tandis que le feedback centré sur la personne (notes, éloge, ego) les dégradait souvent. Le feedback en éducation fonctionne comme une instruction, non comme une évaluation. Des commentaires tels que « Votre argumentation est claire, mais vous n'avez cité qu'une seule source — trouvez-en une autre qui soutient votre thèse sous un angle différent » donnent à l'élève une action concrète à réaliser.

L'évaluation par les pairs

Les élèves qui évaluent le travail de leurs camarades consolident leur propre compréhension des critères de réussite tout en générant un retour d'information pour un pair. Dylan Wiliam souligne que l'évaluation par les pairs nécessite une formation explicite : les élèves doivent apprendre à formuler un feedback spécifique et centré sur la tâche, plutôt que des éloges ou des critiques génériques. La dimension sociale présente un avantage supplémentaire : un feedback venant d'un camarade est souvent mieux accueilli qu'un feedback de l'enseignant, car il comporte moins de charge évaluative.

Auto-évaluation et autorégulation

L'auto-évaluation est la composante à plus fort levier de l'AfL, car elle ancre l'habitude de surveiller sa propre compréhension indépendamment de l'enseignant. Les techniques incluent l'auto-notation par feux tricolores (rouge : je ne comprends pas ; orange : je suis incertain ; vert : je comprends), les journaux réflexifs et l'auto-évaluation structurée par rapport aux critères de réussite. Avec le temps, l'auto-évaluation développe la conscience métacognitive — les élèves capables de juger précisément leur propre compréhension sont mieux armés pour réguler leur propre apprentissage.

Application en classe

Les tickets de sortie (tous niveaux)

Un ticket de sortie est une courte réponse écrite à une question ciblée, rédigée dans les trois à cinq dernières minutes du cours et remise avant que les élèves ne partent. Un professeur de sciences pourrait demander : « Dessinez et légendez le cycle de l'eau. Entourez l'étape sur laquelle vous vous sentez le moins à l'aise. » L'enseignant examine les tickets avant le cours suivant, les répartit en trois piles (bonne compréhension, compréhension partielle, erreur de conception) et ajuste l'ouverture du cours suivant en conséquence. Les tickets de sortie consomment quasiment aucun temps pédagogique et fournissent plus d'informations diagnostiques que les contrôles de fin d'unité, car ils arrivent quand la correction est encore possible.

Le think-pair-share comme moteur de l'AfL

Le think-pair-share est généralement décrit comme une technique d'engagement, mais il fonctionne comme outil d'évaluation formative lorsqu'il est utilisé délibérément. Pendant la phase « partage », l'enseignant écoute non pour trouver les bonnes réponses, mais pour saisir l'éventail des raisonnements dans la salle. Un professeur d'histoire qui applique le think-pair-share aux causes de la Première Guerre mondiale entendra cinq à huit explications distinctes en quatre minutes — suffisamment pour savoir si les élèves confondent causes immédiates et causes structurelles, s'ils s'appuient sur les sources données à lire, et quelles paires ont besoin d'une intervention directe avant de progresser.

Un gallery walk affiche les travaux des élèves ou des séries de problèmes dans la salle et invite les élèves à circuler pour lire, répondre et enrichir la pensée des autres. Pour l'enseignant, il crée un affichage distribué de la compréhension qui peut être parcouru en quelques minutes. Un professeur de mathématiques qui affiche six approches différentes d'un même problème algébrique peut utiliser le gallery walk pour ouvrir une discussion en classe sur pourquoi trois approches fonctionnent et trois non, sans désigner individuellement les élèves. Cela fait émerger les conceptions erronées à grande échelle, dans un format à faible enjeu.

Le chalk-talk pour des preuves formatives écrites

Le chalk-talk est une discussion silencieuse et écrite dans laquelle les élèves répondent à une question centrale affichée sur du papier kraft ou un tableau blanc. Comme toutes les contributions sont visibles, l'enseignant peut lire d'un coup d'œil la compréhension collective de la classe et ajouter des questions de relance ciblées directement sur le papier. Contrairement à une discussion orale, le chalk-talk produit un artefact permanent qui peut être photographié et revu. Il fonctionne particulièrement bien avec des sujets où les élèves hésitent à prendre la parole (questions sensibles, domaines où ils craignent de se tromper) et dans des classes où quelques voix dominantes ont tendance à étouffer les élèves plus discrets.

Preuves issues de la recherche

La revue fondatrice de Black et Wiliam (1998) a établi la base de preuves : sur 250 études, les classes qui appliquaient des pratiques d'évaluation formative surpassaient systématiquement les classes témoins de 0,4 à 0,7 écart-type. Cette revue s'est distinguée par son ampleur et par sa diversité de contextes nationaux, de niveaux scolaires et de disciplines.

Le projet Visible Learning de John Hattie (2009), une méta-analyse de plus de 800 méta-analyses portant sur 80 millions d'élèves, classe l'évaluation formative à une taille d'effet de 0,90 — bien au-dessus du seuil de 0,40 qu'Hattie identifie comme « point charnière » pour une année de croissance attendue. Le feedback seul obtient 0,73. Ces chiffres figurent parmi les tailles d'effet les plus élevées de toutes les interventions pédagogiques, y compris l'intégration des technologies, le regroupement par aptitude et l'allongement du temps scolaire.

Une étude de 2011 de Ruiz-Primo et Furtak (Université du Colorado) a observé des enseignants de sciences au collège et analysé leur comportement de questionnement en lien avec les résultats des élèves à des pré- et post-tests. Les enseignants qui pratiquaient une évaluation formative informelle — sollicitant la pensée des élèves, reconnaissant les preuves et y répondant — ont produit des gains nettement supérieurs à ceux qui ne le faisaient pas, même après contrôle des connaissances préalables des élèves.

Une recherche de Cowie et Bell (1999, publiée dans Assessment in Education) a distingué l'AfL planifiée de l'AfL interactive. L'AfL planifiée implique des instruments délibérés (tickets de sortie, pré-évaluations). L'AfL interactive se produit spontanément dans le dialogue — un enseignant qui perçoit une confusion dans la question d'un élève et ajuste son explication en cours de route. Les deux génèrent des gains d'apprentissage, mais l'AfL interactive est plus difficile à former et ne se maintient que lorsque les enseignants possèdent une connaissance approfondie du contenu et des relations solides avec leurs élèves.

La limite à reconnaître honnêtement : une grande partie de la recherche sur l'AfL repose sur des auto-déclarations des enseignants ou des mesures de résultats à court terme. Les études sur la rétention à long terme sont plus rares. Certaines méta-analyses confondent le feedback formatif de haute qualité avec les quiz à faible enjeu, ce qui gonfle les tailles d'effet. Les preuves des mécanismes fondamentaux de l'AfL sont solides ; celles portant sur des protocoles de mise en œuvre spécifiques sont plus variables.

Idées reçues courantes

L'AfL, c'est juste des contrôles plus fréquents. Les quiz à faible enjeu fréquents peuvent être une composante de l'AfL, et la pratique de récupération soutient bien la rétention. Mais l'AfL ne se définit pas par la fréquence des vérifications — elle se définit par ce que l'on fait des informations recueillies. Un quiz dont les résultats sont enregistrés dans le carnet de notes et rendu sans feedback n'est pas de l'AfL. Un échange ouvert où l'enseignant pose une question, écoute la réponse et ajuste immédiatement son explication est de l'AfL, même si rien n'a été écrit.

Partager les intentions d'apprentissage signifie lire l'objectif sur une diapositive. Afficher « SWBAT : analyser les causes de la Première Guerre mondiale » satisfait une exigence formelle mais n'aide pas les élèves à apprendre. Partager une intention d'apprentissage, c'est la rendre significative : discuter de ce que l'analyse implique par rapport à la description, co-construire les critères de réussite avec les élèves, revenir sur l'intention en milieu de séance pour vérifier la progression. Les mots sur le tableau comptent bien moins que ce que les élèves comprennent de l'objectif visé.

L'AfL profite surtout aux élèves en difficulté. L'AfL produit des gains sur tout le spectre des performances, mais la recherche montre constamment les gains les plus importants pour les élèves les moins performants. C'est intuitif : les élèves qui maîtrisent déjà la matière dépendent moins des ajustements de l'enseignant. Cela dit, présenter l'AfL comme une stratégie de remédiation la sous-estime. Les élèves à hauts niveaux bénéficient substantiellement d'un feedback qui pousse leur pensée au-delà des critères de réussite minimaux, et des pratiques d'auto-évaluation qui développent des habitudes d'apprentissage autonome.

Lien avec l'apprentissage actif

L'AfL et l'apprentissage actif sont des systèmes mutuellement renforçants. L'apprentissage actif génère les preuves observables que l'AfL requiert ; l'AfL donne aux enseignants un cadre raisonné pour répondre à ce que l'apprentissage actif révèle.

Le think-pair-share illustre cette relation. La technique oblige chaque élève à construire une réponse avant d'entendre l'explication de l'enseignant, ce qui fait émerger les connaissances préalables et les erreurs de conception qui resteraient autrement invisibles. Un enseignant qui écoute pendant la phase « pair » et amplifie sélectivement certaines réponses pendant la phase « partage » pratique l'AfL interactive — il utilise les preuves pour orienter la direction de la discussion collective en temps réel.

Le chalk-talk produit une trace écrite de la pensée collective qui fonctionne comme un artefact formatif. Contrairement à une discussion orale, l'enseignant peut examiner simultanément l'ensemble des réponses des élèves, identifier des schémas d'incompréhension et concevoir une séquence de suivi ciblée. Le silence du chalk-talk garantit également que les élèves les plus discrets de la classe contribuent des preuves — un problème persistant avec les techniques AfL orales, qui favorisent les répondants rapides et confiants.

Les gallery walks transforment les travaux des élèves en données publiquement visibles. Quand les élèves affichent leur raisonnement et que leurs camarades l'annotent, l'enseignant obtient un tableau distribué de la compréhension de la classe sans avoir à s'entretenir individuellement avec chacun. Les artefacts produits peuvent informer non seulement le cours suivant, mais aussi quels élèves ont besoin d'une intervention en petit groupe et lesquels sont prêts pour un approfondissement.

À un niveau plus profond, apprentissage actif et AfL partagent une même prémisse : les élèves ne sont pas des récepteurs passifs de l'enseignement, mais des constructeurs actifs de la compréhension. L'AfL rend cette construction visible ; l'apprentissage actif crée les conditions dans lesquelles elle se produit.

Pour en savoir plus sur la dimension feedback de l'AfL, voir Feedback en éducation. Pour la composante centrée sur l'élève, voir Auto-évaluation.

Sources

  1. Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7–74.
  2. Black, P., & Wiliam, D. (1998). Inside the Black Box: Raising Standards Through Classroom Assessment. King's College London School of Education.
  3. Assessment Reform Group. (1999). Assessment for Learning: Beyond the Black Box. University of Cambridge School of Education.
  4. Hattie, J. (2009). Visible Learning: A Synthesis of Over 800 Meta-Analyses Relating to Achievement. Routledge.