Was ist multimodales Lernen?

Multimodales Lernen ist ein Unterrichtsansatz, bei dem Informationen gleichzeitig oder nacheinander über mehrere sensorische Kanäle und Darstellungsformen vermittelt werden – etwa durch die Kombination von verbaler Erklärung mit Diagrammen, Text und praktischer Tätigkeit. Ziel ist es, reichhaltigere und dauerhaftere Gedächtnisspuren zu erzeugen, als es ein einzelner Modus allein vermag.

Ist multimodales Lernen dasselbe wie Lernstile?

Nein. Die Lernstiltheorie behauptet, Lernende hätten feste Präferenzen (visuell, auditiv, kinästhetisch), die bestimmen sollten, wie sie unterrichtet werden. Diese Theorie ist durch die Forschung nicht belegt. Multimodales Lernen hingegen geht davon aus, dass alle Lernenden davon profitieren, Informationen über mehrere Modalitäten aufzunehmen – unabhängig von individuellen Präferenzen. Beide Konzepte werden häufig verwechselt, sind aber grundlegend verschieden.

Was sagt die Forschung zur Wirksamkeit multimodalen Lernens?

Richard Mayer und Kollegen haben seit 2001 über 100 Studien veröffentlicht, die die Überlegenheit der Kombination von Wörtern und Bildern gegenüber Wörtern allein belegen. Metaanalysen, darunter Ginns (2005) über 43 Studien, bestätigen konsistente Vorteile. Die Effekte sind am stärksten, wenn die Modalitäten räumlich und zeitlich integriert statt getrennt präsentiert werden.

Wie viele Modalitäten sollte eine Lehrkraft in einer Stunde einsetzen?

Es gibt keine feste Zahl. Die Theorie der kognitiven Belastung warnt davor, Modalitäten wahllos hinzuzufügen, da dies die extrinsische Belastung erhöhen und das Lernen beeinträchtigen kann. Das Prinzip lautet: zielgerichtete Integration – Modalitäten wählen, die sich gegenseitig ergänzen und den kognitiven Aufwand beim Bedeutungsaufbau reduzieren, nicht solche, die lediglich Stimulation hinzufügen.

Wie verhält sich multimodales Lernen zum Universal Design for Learning?

Universal Design for Learning (UDL) formalisiert multimodales Lernen als Gestaltungsprinzip. Seine erste Leitlinie – multiple Mittel der Repräsentation – verlangt, Inhalte in mehr als einer Modalität anzubieten, damit sensorische, sprachliche oder verarbeitungsbedingte Unterschiede keine Barrieren erzeugen. Multimodales Lernen liefert die kognitive Begründung; UDL liefert den Implementierungsrahmen.

Multimodales Lernen - Pädagogisches Wiki

Definition

Multimodales Lernen bezeichnet die Praxis, Informationen über mehr als einen sensorischen Kanal oder eine Darstellungsform zu präsentieren und zu verarbeiten. Ein Modus ist eine bedeutungstragende Ressource: gesprochene Sprache, geschriebener Text, Standbilder, Diagramme, Video, Gestik, Klang und physische Manipulation sind allesamt eigenständige Modi. Wenn der Unterricht mindestens zwei davon kombiniert, stehen den Lernenden mehrere kognitive Pfade zur Verfügung, über die sie das Material kodieren, verknüpfen und abrufen können.

Der Begriff schöpft ebenso aus Semiotik und Kommunikationstheorie wie aus kognitiver Psychologie. Gunther Kress, Literaturwissenschaftler am University College London, definierte Modi als sozial geprägte und kulturell vermittelte semiotische Ressourcen (Kress, 2010). Im Unterrichtsalltag bedeutet das: Eine Lehrkraft, die verbal erklärt und gleichzeitig ein Diagramm zeichnet, anschließend die Schülerinnen und Schüler bittet, eine eigene Version zu skizzieren, praktiziert bereits multimodalen Unterricht – unabhängig davon, ob sie diesen Begriff verwendet.

Multimodales Lernen wird häufig mit der Lernstiltheorie gleichgesetzt, die behauptet, Lernende hätten feste sensorische Präferenzen, die ihren Unterricht bestimmen sollten. Diese Theorie entbehrt jeder glaubwürdigen empirischen Grundlage (Pashler et al., 2008). Multimodales Lernen erhebt keinen solchen Anspruch. Das Argument lautet nicht, manche Schülerinnen und Schüler bräuchten Bilder und andere Audio; das Argument lautet, dass alle Lernenden davon profitieren, wenn der Unterricht mehrere Kanäle gleichzeitig oder in enger Abfolge aktiviert.

Historischer Kontext

Die intellektuellen Wurzeln des multimodalen Lernens reichen bis zu Allan Paivios Theorie der dualen Kodierung zurück, die er Anfang der 1970er-Jahre an der University of Western Ontario entwickelte. Paivio (1971) schlug vor, dass der menschliche Geist getrennte, aber miteinander verbundene Systeme für verbale und nonverbale Informationen unterhält, und dass Informationen, die in beiden Systemen kodiert werden, zuverlässiger abgerufen werden als solche, die nur in einem System gespeichert sind. Dies bleibt die grundlegende kognitive These, auf der multimodaler Unterricht beruht.

Neil Fleming, ein neuseeländischer Pädagoge, stellte das VARK-Modell 1987 vor, während er an der Lincoln University arbeitete. VARK kategorisierte kommunikative Präferenzen von Lernenden in vier Modi: Visual (visuell), Aural (auditiv), Read/Write (lesen/schreiben) und Kinesthetic (kinästhetisch). Flemings ursprüngliches Ziel war Selbstreflexion – Schülerinnen und Schülern dabei zu helfen, ihre eigenen Lerngewohnheiten zu verstehen, nicht vorzuschreiben, wie Lehrkräfte unterrichten sollen. Das Modell wurde später fälschlicherweise als Lernstilkonzept gedeutet, eine Verwechslung, der Fleming selbst widersprach.

Die wissenschaftlich rigoroseste Darlegung stammt von Richard Mayer an der University of California, Santa Barbara. Seine Kognitive Theorie des Multimedialen Lernens, vollständig veröffentlicht 2001, baute auf Paivios dualer Kodierung und Alan Baddeleys Arbeitsgedächtnismodell auf, um zu erklären, wann und warum die Kombination von Wörtern und Bildern Lernergebnisse verbessert. Mayers Rahmenwerk generierte mehr als 100 kontrollierte Experimente, die spezifische Gestaltungsprinzipien prüften, und ist damit die empirisch am besten abgesicherte Darstellung multimodalen Unterrichts in der Pädagogischen Psychologie.

Gunther Kress und Theo van Leeuwen (1996) erweiterten das Konzept in die multimodale Diskursanalyse und argumentierten, dass Bilder, Layout, Typografie und Gestik eigenständig Bedeutung tragen. Diese semiotische Tradition beeinflusste die Literacypädagogik und weitete den Begriff „Text" auf alle multimedialen Artefakte aus, denen Schülerinnen und Schüler begegnen oder die sie selbst erstellen.

Zentrale Prinzipien

Die Zwei-Kanal-Annahme

Mayers Theorie geht davon aus, dass Menschen verbale und bildliche Informationen in getrennten kognitiven Kanälen verarbeiten. Sprache und Text aktivieren den verbalen Kanal; Bilder, Diagramme und Animationen aktivieren den bildlichen Kanal. Wenn der Unterricht beide Kanäle mit inhaltlich zusammenhängendem Material anspricht, können Lernende reichhaltigere mentale Repräsentationen aufbauen, als wenn ein Kanal die gesamte Last trägt. Dies korrespondiert direkt mit Paivios früherem Doppelkodierungsrahmen (siehe Theorie der dualen Kodierung).

Das Modalitätsprinzip

Narration als gesprochenes Audio neben einer Animation zu präsentieren erzeugt bessere Lernergebnisse als dieselbe Narration als Bildschirmtext neben derselben Animation. Dies ist Mayers Modalitätsprinzip. Die Erklärung: Wenn Text und Bild gleichzeitig erscheinen, konkurrieren beide um den visuellen Kanal und können das Arbeitsgedächtnis überlasten. Wenn die Narration auditiv ist, verarbeitet jeder Kanal seinen eigenen Inhalt, und die kognitive Belastung wird effizienter verteilt. Dieses Prinzip hat konkrete Konsequenzen für das Design von Präsentationsfolien und Lehrvideos.

Kohärenz- und Redundanzeffekte

Das Hinzufügen von Informationen verbessert das Lernen nicht automatisch. Mayers Kohärenzprinzip besagt, dass irrelevante Wörter, Töne oder Bilder, also Material, das das Lernziel nicht direkt unterstützt, das Verständnis beeinträchtigen, weil sie begrenzte Arbeitsgedächtniskapazität verbrauchen. Der Redundanzeffekt geht noch weiter: Dieselbe Information gleichzeitig in zwei Formen darzubieten – etwa einen Text wortgenau vorzulesen, der gleichzeitig auf dem Bildschirm zu sehen ist – kann das Lernen eher stören als fördern. Wirksames multimodales Design ist selektiv, nicht additiv.

Kontiguität

Räumliche und zeitliche Kontiguität spielen beide eine Rolle. Wörter, die ein Bild erläutern, sollten neben diesem stehen, nicht auf der gegenüberliegenden Seite (räumliche Kontiguität). Narration und entsprechende Animation sollten gleichzeitig ablaufen, nicht nacheinander (zeitliche Kontiguität). Wenn zusammenhängende Inhalte über verschiedene Modalitäten im gleichen Moment und im gleichen visuellen Feld eintreffen, können Lernende sie integrieren, ohne einen Teil im Gedächtnis halten zu müssen, während sie nach dem anderen suchen.

Zielgerichtete Modalitätswahl

Nicht alle Modi sind für alle Inhalte gleichwertig. Schriftsprache bewältigt sequenzielle, komplexe Argumentation gut. Diagramme vermitteln räumliche und relationale Strukturen effizient. Video erfasst Prozesse und Veränderungen über die Zeit. Physische Modelle fördern prozedurales Verständnis. Modi strategisch zu wählen – die Stärken des Modus auf die Anforderungen des Konzepts abzustimmen – ist die Gestaltungskompetenz im Zentrum multimodalen Unterrichts.

Unterrichtliche Anwendung

Grundschule

Konzeptbildung durch multiple Repräsentationen

Eine dritte Klasse, die den Wasserkreislauf untersucht, veranschaulicht multimodale Prinzipien in der Praxis. Die Lehrkraft beginnt mit einer kurzen kommentierten Animation, die Verdunstung, Kondensation und Niederschlag zeigt. Sie hält inne, um den Kreislauf an der Tafel zu skizzieren, während sie jede Phase laut benennt, und verteilt anschließend gedruckte Diagramme, die die Schülerinnen und Schüler selbst beschriften. Die Stunde endet damit, dass die Klasse jede Phase in einer kurzen kinästhetischen Sequenz nachspielt.

Jeder Schritt fügt einen Modus und eine Verarbeitungsanforderung hinzu. Die Animation liefert zeitliche Dynamik, die ein statisches Diagramm nicht bieten kann. Die in Echtzeit gezeichnete Tafelskizze modelliert wissenschaftliches Diagrammieren als Denkwerkzeug. Das Beschriften durch die Schülerinnen und Schüler erfordert Abruf und Produktion statt passiver Aufnahme. Die kinästhetische Darstellung kodiert Bewegung und Abfolge. Kein einzelner Modus würde das erreichen, was die Abfolge gemeinsam leistet.

Sekundarstufe Geschichte: Primärquellen und visuelle Zeugnisse

Eine zehnte Klasse, die die Industrialisierung untersucht, nutzt multimodalen Unterricht, um interpretive Fähigkeiten aufzubauen. Die Schülerinnen und Schüler lesen einen kurzen Auszug aus dem Bericht eines Fabrikinspektors (Textmodus), betrachten zwei historische Fotografien von Arbeitsbedingungen (visueller Modus) und hören einen zweiminütigen Audioclip, in dem eine Historikerin beide kontextualisiert (auditiver Modus). Anschließend verfassen sie einen vergleichenden Absatz, der alle drei einbezieht.

Die Modi sind hier nicht redundant; sie tragen genuinen Inhalt. Der Text liefert Gesetzessprache und bürokratische Details. Die Fotografien liefern räumlichen und menschlichen Kontext, den der Text nicht bieten kann. Das Audio liefert historiografische Rahmung. Die Schülerinnen und Schüler aufzufordern, über alle drei Modi hinweg zu synthetisieren, trainiert dieselbe disziplinäre Kompetenz, die Historikerinnen und Historiker selbst anwenden.

Hochschule Mathematik: Lösungsbeispiele und Gestik

Eine Dozentin an einer Gemeinschaftshochschule, die Integration durch Teile unterrichtet, verwendet einen geteilten Bildschirm: Eine Seite zeigt die symbolische Umformung Schritt für Schritt; die andere zeigt einen Graphen, der sich mit jedem Schritt aktualisiert. Sie kommentiert beides sprachlich und gestikuliert dabei, um symbolische und visuelle Repräsentationen zu verbinden. Forschung von Alibali und Nathan (2012) an der University of Wisconsin-Madison zeigt, dass sprachbegleitende Gestik die Aufmerksamkeit auf mathematische Strukturen lenkt und die Behaltenleistung fördert – Gestik ist damit selbst ein Modus, der bewusst eingesetzt werden kann.

Forschungsbefunde

Richard Mayers umfassende Metaanalyse über 100 Experimentalvergleiche (Mayer, 2009) ergab, dass Schülerinnen und Schüler, die aus Wörtern und Bildern kombiniert lernten, jene, die nur aus Wörtern lernten, mit einer medianen Effektgröße von d = 0,67 übertrafen. Dies gilt nach Maßstäben der Bildungsforschung als großer Effekt. Der Vorteil hielt über Fachbereiche hinweg stand, darunter Naturwissenschaften, Mathematik und technische Ausbildung.

Ginns (2005) führte eine unabhängige Metaanalyse von 43 Studien zum Modalitätseffekt durch – konkret zum Vorteil von Audio-plus-Bild gegenüber Text-plus-Bild-Präsentationen. Effektgrößen lagen zwischen d = 0,72 und d = 0,82 über verschiedene Studiendesigns. Ginns stellte zudem fest, dass der Effekt bei Novizen am stärksten war und bei Experten abnahm, was mit der Theorie der kognitiven Belastung übereinstimmt: Experten verfügen über vorhandene Schemata, die den Verarbeitungsaufwand von Text-plus-Bild-Präsentationen reduzieren.

Eine Synthese von Schroeder und Colunga (2019) an der University of Colorado wertete 92 Studien zu multimodalem Unterricht in K-12-Klassen aus und berichtete konsistent positive Effekte auf Verständnis und Transfer, mit größeren Effekten für naturwissenschaftliche als für sprachliche Inhalte. Sie stellten fest, dass der Vorteil nachließ, wenn Modi schlecht integriert waren, was Mayers Kontiguitätsprinzipien stützt.

Forschung zu Gestik und multimodalem Unterricht (Goldin-Meadow, 2003; Alibali & Nathan, 2012) fügt eine selten diskutierte Dimension hinzu: Lehrergeste ist selbst ein Modus. Wenn Lehrkräfte während einer Erklärung bedeutsam gestikulieren – auf relevante Merkmale zeigen, räumliche Beziehungen nachzeichnen, ikonische Bewegungen zur Darstellung von Prozessen nutzen – behalten Schülerinnen und Schüler mehr. Gestik trägt Informationen, die Sprache allein nicht übermittelt.

Der ehrliche Vorbehalt lautet: Die meisten kontrollierten Experimente in dieser Literatur sind Kurzzeit-Laborstudien, oft 20 bis 40 Minuten lang. Belege für multimodalen Unterricht über vollständige Lehrplaneinheiten und Schuljahre hinweg sind dünner. Die Prinzipien sind robust; die ökologische Validität über ausgedehnte Unterrichtspraxis ist weniger umfassend dokumentiert.

Häufige Missverständnisse

Verbindung zum aktiven Lernen

Multimodales Lernen fügt sich am natürlichsten in aktive Lernstrukturen ein, die Schülerinnen und Schüler auffordern, zwischen Darstellungsformen zu wechseln, statt sie passiv aufzunehmen.

Die Methode Gallery Walk ist eine direkte Anwendung: Schülerinnen und Schüler bewegen sich durch Stationen, an denen Informationen in verschiedenen Modi präsentiert werden – Graphen, Fotografien, Zitate, physische Objekte, Videoclips – und reagieren schriftlich oder im Gespräch. Die Bewegung zwischen den Stationen spiegelt den kognitiven Wechsel zwischen Modi wider, und die Antworttätigkeit erfordert Integration. Ein gut gestalteter Gallery Walk zwingt Schülerinnen und Schüler dazu, über Repräsentationen hinweg zu synthetisieren, statt eine einzelne aufzunehmen.

Lernstationen führen dies weiter, indem verschiedenen Orten unterschiedliche Modi zugewiesen werden. Eine Station könnte Inhalte über ein kurzes Video präsentieren; eine zweite über eine Diagrammbeschriftungsaufgabe; eine dritte über ein Manipulativ oder physisches Modell; eine vierte über einen Textauszug und eine Diskussionsaufgabe. Schülerinnen und Schüler begegnen demselben zugrundeliegenden Konzept über vier verschiedene Darstellungskanäle innerhalb einer Stunde. Die Rotationsstruktur ist im Kern ein multimodales Unterrichtsdesign.

Universal Design for Learning formalisiert multimodale Prinzipien als Rahmen für inklusives Lehrplandesign. UDLs erste Leitlinie, multiple Mittel der Repräsentation, verlangt, dass Inhalte in mehr als einer Modalität verfügbar sind, damit Unterschiede in der sensorischen Verarbeitung, im sprachlichen Hintergrund oder im Vorwissen keine Zugangsbarrieren erzeugen. Multimodales Lernen liefert die kognitive Begründung; UDL liefert die Gerechtigkeitsbegründung für denselben Unterrichtsschritt.

Die Verbindung zu visuellem Lernen verdient eine präzise Einordnung. Visuelle Repräsentationen sind ein Modus unter mehreren, kein Synonym für multimodalen Unterricht. Eine Stunde, die sich ausschließlich auf Diagramme und Videos stützt, ist unimodal in einem visuellen Register. Wirksames multimodales Design integriert visuelle Repräsentationen mit mindestens einem weiteren Modus, sodass visuelle und nicht-visuelle Kanäle zusammenarbeiten, statt dass einer die gesamte Last trägt.

Quellen

Mayer, R. E. (2009). Multimedia Learning (2. Aufl.). Cambridge University Press.
Paivio, A. (1971). Imagery and Verbal Processes. Holt, Rinehart & Winston.
Pashler, H., McDaniel, M., Rohrer, D., & Bjork, R. (2008). Learning styles: Concepts and evidence. Psychological Science in the Public Interest, 9(3), 105–119.
Ginns, P. (2005). Meta-analysis of the modality effect. Learning and Instruction, 15(4), 313–331.

Multimodales Lernen