Définition
L'apprentissage multimodal consiste à présenter l'information et à s'y engager à travers plusieurs canaux sensoriels ou modes de représentation. Un mode est une ressource porteuse de sens : la langue orale, le texte écrit, les images fixes, les schémas, la vidéo, le geste, le son et la manipulation physique constituent autant de modes distincts. Lorsque l'enseignement en combine au moins deux, les apprenants disposent de plusieurs voies cognitives pour encoder, relier et récupérer la matière.
Le terme s'ancre dans la sémiotique et la théorie de la communication autant que dans la psychologie cognitive. Gunther Kress, spécialiste de la littératie à l'University College London, a défini les modes comme des ressources sémiotiques façonnées socialement et données culturellement (Kress, 2010). En termes de classe, cela signifie qu'un enseignant qui explique verbalement tout en dessinant un schéma, puis demande aux élèves d'en esquisser leur propre version, pratique déjà l'enseignement multimodal, qu'il emploie ou non ce terme.
L'apprentissage multimodal est souvent confondu avec la théorie des styles d'apprentissage, qui postule que les apprenants ont des préférences sensorielles fixes devant gouverner la manière dont on les enseigne. Cette théorie ne bénéficie d'aucun soutien empirique crédible (Pashler et al., 2008). L'apprentissage multimodal ne formule pas une telle revendication. L'argument n'est pas que certains élèves ont besoin d'images et d'autres de son ; l'argument est que tous les élèves bénéficient lorsque l'enseignement active plusieurs canaux simultanément ou en séquence rapprochée.
Contexte historique
Les racines intellectuelles de l'apprentissage multimodal remontent à la théorie du double codage d'Allan Paivio, élaborée à l'Université Western Ontario au début des années 1970. Paivio (1971) a proposé que l'esprit humain maintient des systèmes distincts mais interconnectés pour l'information verbale et non verbale, et que l'information encodée dans les deux systèmes est rappelée plus fiablement que celle encodée dans un seul. C'est l'assertion cognitive fondatrice qui sous-tend l'enseignement multimodal.
Neil Fleming, un éducateur néo-zélandais, a introduit le modèle VARK en 1987 alors qu'il travaillait à l'Université Lincoln. VARK catégorisait les préférences de communication des apprenants selon quatre modes : Visuel, Auditif (Aural), Lecture/Écriture (Read/Write) et Kinesthésique. L'objectif initial de Fleming était la conscience de soi — aider les étudiants à comprendre leurs propres habitudes d'étude, et non prescrire la manière dont les enseignants devraient enseigner. Le modèle a été ultérieurement interprété à tort comme un cadre de styles d'apprentissage, une confusion que Fleming lui-même a contestée.
L'articulation scientifique la plus rigoureuse est venue de Richard Mayer à l'Université de Californie à Santa Barbara. Sa théorie cognitive de l'apprentissage multimédia, publiée intégralement en 2001, s'appuyait sur le double codage de Paivio et le modèle de mémoire de travail d'Alan Baddeley pour expliquer précisément quand et pourquoi la combinaison de mots et d'images améliore les résultats d'apprentissage. Ce cadre a généré plus de 100 expériences contrôlées testant des principes de conception spécifiques, ce qui en fait la conception la plus solidement étayée empiriquement de l'enseignement multimodal en psychologie de l'éducation.
Gunther Kress et Theo van Leeuwen (1996) ont étendu le concept à l'analyse du discours multimodal, soutenant que les images, la mise en page, la typographie et le geste portent du sens indépendamment des mots. Cette tradition sémiotique a influencé l'enseignement de la littératie et élargi la définition du « texte » à tout artefact multi-modes que les élèves rencontrent ou produisent.
Principes fondamentaux
L'hypothèse des deux canaux
La théorie de Mayer postule que les humains traitent l'information verbale et picturale dans des canaux cognitifs distincts. La parole et le texte activent le canal verbal ; les images, les schémas et les animations activent le canal pictural. Lorsque l'enseignement sollicite les deux canaux avec un contenu apparenté, les apprenants peuvent construire des représentations mentales plus riches que lorsqu'un seul canal supporte toute la charge. Cela correspond directement au cadre antérieur du double codage de Paivio (voir Théorie du double codage).
Le principe de modalité
Présenter une narration sous forme audio orale en accompagnement d'une animation produit un meilleur apprentissage que présenter la même narration sous forme de texte à l'écran avec la même animation. C'est le principe de modalité de Mayer. L'explication : lorsque texte et image apparaissent ensemble, les deux se disputent le canal visuel et peuvent saturer la mémoire de travail. Lorsque la narration est audio, chaque canal traite son propre contenu et la charge cognitive est distribuée plus efficacement. Ce principe a des implications concrètes pour la conception des diapositives et des vidéos pédagogiques.
Les effets de cohérence et de redondance
Ajouter de l'information n'améliore pas automatiquement l'apprentissage. Le principe de cohérence de Mayer stipule que les mots, sons ou images superflus — des contenus qui ne soutiennent pas directement l'objectif d'apprentissage — nuisent à la compréhension en consommant une mémoire de travail limitée. L'effet de redondance prolonge ce constat : présenter la même information sous deux formes simultanément (par exemple, lire à voix haute un texte qui apparaît également à l'écran mot pour mot) peut gêner l'apprentissage plutôt que le soutenir. Une conception multimodale efficace est sélective, pas additive.
La contiguïté
La contiguïté spatiale et temporelle importent toutes deux. Les mots qui expliquent une image doivent apparaître à côté d'elle, pas de l'autre côté de la page (contiguïté spatiale). La narration et l'animation correspondante doivent se dérouler ensemble, pas en séquence (contiguïté temporelle). Lorsque des contenus apparentés arrivent par différents modes au même moment et dans le même champ visuel, les apprenants peuvent les intégrer sans avoir à garder un élément en mémoire pendant qu'ils cherchent l'autre.
Le choix intentionnel des modes
Tous les modes ne sont pas équivalents pour tous les contenus. La langue écrite gère bien l'argumentation séquentielle et complexe. Les schémas transmettent efficacement la structure spatiale et relationnelle. La vidéo capture les processus et les changements dans le temps. Les modèles physiques soutiennent la compréhension procédurale. Choisir les modes de façon stratégique — en faisant correspondre les affordances du mode aux exigences du concept — est la compétence de conception au cœur de l'enseignement multimodal.
Application en classe
Sciences au primaire : formation de concepts par représentations multiples
Une classe de CE2 étudiant le cycle de l'eau illustre les principes multimodaux en action. L'enseignante commence par une courte animation narrée montrant l'évaporation, la condensation et les précipitations. Elle s'arrête pour esquisser le cycle au tableau en nommant chaque étape à voix haute, puis distribue des schémas imprimés que les élèves légendent eux-mêmes. La leçon se termine par une courte séquence kinesthésique où les élèves incarnent chaque étape.
Chaque étape ajoute un mode et une exigence de traitement. L'animation fournit une dynamique temporelle qu'un schéma statique ne peut offrir. Le croquis au tableau, tracé en temps réel, modélise la schématisation scientifique comme outil de pensée. Le légendage par les élèves exige le rappel et la production plutôt que la réception passive. La mise en scène kinesthésique encode le mouvement et la séquence. Aucun mode seul n'aurait produit ce que la séquence réalise ensemble.
Histoire au secondaire : sources primaires et traces visuelles
Une classe de seconde qui examine l'industrialisation utilise l'enseignement multimodal pour développer la compétence d'interprétation. Les élèves lisent un court extrait du rapport d'un inspecteur des manufactures (mode textuel), examinent deux photographies d'époque sur les conditions de travail (mode visuel) et écoutent un clip audio de deux minutes dans lequel un historien contextualise les deux (mode auditif). Ils rédigent ensuite un paragraphe comparatif s'appuyant sur les trois sources.
Les modes ne sont pas redondants ici ; ils véhiculent des contenus réellement différents. Le texte fournit le langage législatif et les détails bureaucratiques. Les photographies apportent un contexte spatial et humain que le texte ne peut pas offrir. L'audio apporte un cadrage historiographique. Demander aux élèves de synthétiser à travers les modes développe la même compétence disciplinaire qu'utilisent les historiens.
Mathématiques dans l'enseignement supérieur : exemples résolus et geste
Un enseignant de calcul dans un IUT qui enseigne l'intégration par parties utilise une approche en écran partagé : d'un côté, la manipulation symbolique pas à pas ; de l'autre, un graphique qui se met à jour à chaque étape. Il narre les deux tout en gesticulant pour relier les représentations symbolique et visuelle. Les recherches d'Alibali et Nathan (2012) à l'Université du Wisconsin-Madison montrent que le geste co-verbal oriente l'attention vers la structure mathématique et favorise la rétention, faisant du geste lui-même un mode qui mérite un usage délibéré.
Données probantes
La méta-analyse exhaustive de Richard Mayer portant sur 100 comparaisons expérimentales (Mayer, 2009) a montré que les étudiants qui apprenaient avec des mots et des images combinés surpassaient ceux qui apprenaient avec des mots seuls, avec une taille d'effet médiane de d = 0,67. C'est un effet important selon les standards de la recherche en éducation. Le bénéfice se maintenait dans toutes les disciplines, dont les sciences, les mathématiques et la formation technique.
Ginns (2005) a conduit une méta-analyse indépendante de 43 études examinant l'effet de modalité — plus précisément le bénéfice des présentations audio-plus-visuel par rapport aux présentations texte-plus-visuel. Les tailles d'effet variaient de d = 0,72 à d = 0,82 selon les dispositifs. Ginns a également constaté que l'effet était le plus fort pour les apprenants novices et se réduisait pour les experts, ce qui est cohérent avec la théorie de la charge cognitive : les experts disposent de schémas existants qui réduisent la demande de traitement des présentations texte-plus-image.
Une synthèse de 2019 de Schroeder et Colunga à l'Université du Colorado, portant sur 92 études sur l'enseignement multimodal dans les classes K-12, a signalé des effets positifs constants sur la compréhension et le transfert, avec des effets plus importants pour les contenus scientifiques que pour la maîtrise de la langue. Les auteurs ont noté que le bénéfice diminuait lorsque les modes étaient mal intégrés, ce qui confirme les principes de contiguïté de Mayer.
La recherche sur le geste et l'enseignement multimodal (Goldin-Meadow, 2003 ; Alibali & Nathan, 2012) ajoute une dimension rarement évoquée : le geste de l'enseignant est lui-même un mode. Lorsque les enseignants gesticulent de façon significative pendant une explication — désignant des caractéristiques pertinentes, traçant des relations spatiales, utilisant des gestes iconiques pour représenter un processus — les élèves retiennent davantage. Le geste véhicule des informations que la parole seule ne transmet pas.
La mise en garde honnête est que la plupart des expériences contrôlées dans cette littérature sont des études de laboratoire à court terme, souvent de 20 à 40 minutes. Les données sur l'enseignement multimodal à l'échelle d'unités curriculaires complètes et d'années scolaires entières sont plus minces. Les principes sont robustes ; la validité écologique à travers une pratique de classe prolongée est moins exhaustivement documentée.
Idées reçues courantes
L'apprentissage multimodal valide les styles d'apprentissage
L'idée reçue la plus persistante est que l'apprentissage multimodal et la théorie des styles d'apprentissage affirment la même chose. Ce n'est pas le cas. La théorie des styles d'apprentissage formule une revendication prescriptive : adapter le mode à la préférence de l'apprenant améliore les résultats. Pashler et al. (2008) ont examiné la littérature sur les styles d'apprentissage et n'ont trouvé aucune preuve crédible que faire correspondre l'enseignement au style d'apprentissage déclaré d'un élève produise de meilleurs résultats. L'apprentissage multimodal ne formule pas une telle revendication d'appariement. Il argue que tous les apprenants bénéficient de plusieurs modes, non que différents apprenants ont besoin de modes différents et uniques.
Plus de modes signifie toujours un meilleur apprentissage
Ajouter des modes n'est pas automatiquement bénéfique. Le principe de cohérence et l'effet de séparation de l'attention prédisent tous deux qu'un enseignement multimodal mal conçu peut nuire à l'apprentissage. Une animation avec texte simultané, narration, musique de fond et images décoratives peut saturer la mémoire de travail et entraver la compréhension par rapport à une présentation plus simple. Un enseignement multimodal efficace est intentionnellement conçu ; efficace ne signifie pas maximalement stimulant.
L'enseignement multimodal requiert la technologie
Les enseignants supposent parfois que la pédagogie multimodale dépend de tableaux blancs interactifs, de tablettes ou d'outils de production vidéo. Ce n'est pas le cas. Une explication orale combinée à un schéma tracé à la main est multimodale. Une lecture à voix haute accompagnée d'une esquisse par les élèves est multimodale. Mettre en scène un événement historique, construire un modèle physique, ou lire une carte tout en discutant d'un texte écrit — toutes ces activités impliquent plusieurs modes. La technologie peut élargir la gamme des modes disponibles, mais le principe est antérieur aux classes numériques de plusieurs décennies.
Lien avec l'apprentissage actif
L'apprentissage multimodal s'intègre le plus naturellement aux structures d'apprentissage actif qui demandent aux élèves de passer d'un mode de représentation à l'autre plutôt que de les recevoir passivement.
La méthodologie Gallery Walk en est une application directe : les élèves circulent entre des stations présentant l'information selon différents modes — graphiques, photographies, citations, objets physiques, clips vidéo — et répondent par écrit ou lors de discussions. Le déplacement entre les stations reflète le passage cognitif entre les modes, et la tâche de réponse exige une intégration. Un gallery walk bien conçu oblige les élèves à synthétiser à travers les représentations plutôt qu'à absorber une seule.
Les Ateliers tournants poussent cette logique plus loin en assignant différents modes à différents emplacements. Une station peut présenter le contenu via une courte vidéo ; une deuxième via une tâche de légendage de schéma ; une troisième via un manipulatif ou un modèle physique ; une quatrième via un extrait de texte et une question de discussion. Les élèves rencontrent le même concept sous-jacent à travers quatre canaux représentationnels distincts au cours d'une seule séance. La structure de rotation est, en son cœur, une conception pédagogique multimodale.
La Conception Universelle de l'Apprentissage formalise les principes multimodaux comme cadre de conception curriculaire inclusive. La première directive de la CUA — des moyens multiples de représentation — exige que le contenu soit disponible dans plus d'un mode, afin que les différences de traitement sensoriel, de contexte linguistique ou de connaissances préalables ne créent pas d'obstacles d'accès. L'apprentissage multimodal fournit la justification cognitive ; la CUA fournit la justification équitable pour la même démarche pédagogique.
Le lien avec l'apprentissage visuel mérite d'être précisé avec soin. Les représentations visuelles constituent un mode parmi plusieurs, et ne sont pas synonymes d'enseignement multimodal. Une leçon reposant entièrement sur des schémas et des vidéos est unimodale dans un registre visuel. Une conception multimodale efficace intègre les représentations visuelles à au moins un autre mode, afin que les canaux visuel et non visuel travaillent ensemble plutôt que l'un d'eux ne supporte toute la charge.
Sources
- Mayer, R. E. (2009). Multimedia Learning (2e éd.). Cambridge University Press.
- Paivio, A. (1971). Imagery and Verbal Processes. Holt, Rinehart & Winston.
- Pashler, H., McDaniel, M., Rohrer, D., & Bjork, R. (2008). Learning styles: Concepts and evidence. Psychological Science in the Public Interest, 9(3), 105–119.
- Ginns, P. (2005). Meta-analysis of the modality effect. Learning and Instruction, 15(4), 313–331.