Definição

A aprendizagem multimodal é a prática de apresentar e trabalhar informação através de mais do que um canal sensorial ou modo de representação. Um modo é um recurso de produção de significado: a linguagem oral, o texto escrito, as imagens estáticas, os diagramas, o vídeo, o gesto, o som e a manipulação física são todos modos distintos. Quando a instrução combina pelo menos dois, os alunos dispõem de múltiplos percursos cognitivos através dos quais podem codificar, relacionar e recuperar o conteúdo.

O termo apoia-se na semiótica e na teoria da comunicação tanto quanto na psicologia cognitiva. Gunther Kress, investigador de literacia no University College London, definiu os modos como recursos semióticos socialmente moldados e culturalmente dados (Kress, 2010). Em termos de sala de aula, isto significa que um professor que explica verbalmente enquanto desenha um diagrama e pede depois aos alunos que esbocem a sua própria versão já está a praticar instrução multimodal, quer use ou não essa designação.

A aprendizagem multimodal é frequentemente confundida com a teoria dos estilos de aprendizagem, que defende que os alunos têm preferências sensoriais fixas que devem orientar o modo como são ensinados. Essa teoria não tem qualquer suporte empírico credível (Pashler et al., 2008). A aprendizagem multimodal não faz tal afirmação. O argumento não é que alguns alunos precisam de visuais e outros de áudio; o argumento é que todos os alunos beneficiam quando a instrução activa múltiplos canais em simultâneo ou em sequência próxima.

Contexto Histórico

As raízes intelectuais da aprendizagem multimodal remontam à teoria da dupla codificação de Allan Paivio, desenvolvida na University of Western Ontario no início dos anos 1970. Paivio (1971) propôs que a mente humana mantém sistemas separados mas interligados para informação verbal e não verbal, e que a informação codificada em ambos os sistemas é recordada de forma mais fiável do que a informação codificada apenas num. Esta continua a ser a premissa cognitiva fundamental subjacente à instrução multimodal.

Neil Fleming, um educador neozelandês, introduziu o modelo VARK em 1987, enquanto trabalhava na Lincoln University. O VARK categorizava as preferências de comunicação dos alunos em quatro modos: Visual, Auditivo (Aural), Leitura/Escrita (Read/Write) e Cinestésico. O propósito original de Fleming era a auto-consciência — ajudar os alunos a compreender os seus próprios hábitos de estudo, não prescrever a forma como os professores devem ensinar. O modelo foi posteriormente mal interpretado como um enquadramento de estilos de aprendizagem, uma confusão que o próprio Fleming contestou.

A articulação científica mais rigorosa veio de Richard Mayer, na University of California, Santa Barbara. A sua Teoria Cognitiva da Aprendizagem Multimédia, publicada na íntegra em 2001, baseou-se na dupla codificação de Paivio e no modelo de memória de trabalho de Alan Baddeley para explicar com precisão quando e por que razão a combinação de palavras e imagens melhora os resultados de aprendizagem. O enquadramento de Mayer gerou mais de 100 experiências controladas que testaram princípios de design específicos, tornando-o no relato empiricamente mais fundamentado de instrução multimodal na psicologia educacional.

Gunther Kress e Theo van Leeuwen (1996) alargaram o conceito à análise do discurso multimodal, argumentando que as imagens, o layout, a tipografia e o gesto transportam significado independentemente das palavras. Esta tradição semiótica influenciou a educação para a literacia e alargou a definição de "texto" a qualquer artefacto multimodal que os alunos encontrem ou produzam.

Princípios Fundamentais

A Premissa dos Dois Canais

A teoria de Mayer propõe que os seres humanos processam informação verbal e pictórica em canais cognitivos separados. A fala e o texto activam o canal verbal; as imagens, os diagramas e a animação activam o canal pictórico. Quando a instrução envolve ambos os canais com conteúdo relacionado, os alunos podem construir representações mentais mais ricas do que quando um único canal suporta toda a carga. Isto mapeia directamente sobre o enquadramento de dupla codificação anterior de Paivio (ver Teoria da Dupla Codificação).

O Princípio da Modalidade

Apresentar narração como áudio falado em conjunto com uma animação produz melhor aprendizagem do que apresentar a mesma narração como texto no ecrã em conjunto com a mesma animação. Este é o princípio da modalidade de Mayer. A explicação: quando texto e imagem aparecem juntos, ambos competem pelo canal visual e podem sobrecarregar a memória de trabalho. Quando a narração é áudio, cada canal processa o seu próprio conteúdo e a carga cognitiva é distribuída de forma mais eficiente. Este princípio tem implicações específicas para o design de diapositivos e vídeo instrucional.

Os Efeitos de Coerência e Redundância

Acrescentar informação não melhora automaticamente a aprendizagem. O princípio da coerência de Mayer postula que palavras, sons ou imagens extrínsecas — material que não apoia directamente o objectivo de aprendizagem — prejudicam a compreensão ao consumir a limitada memória de trabalho. O efeito de redundância vai mais longe: apresentar a mesma informação em duas formas em simultâneo (por exemplo, ler em voz alta um texto que também está visível no ecrã palavra por palavra) pode interferir com a aprendizagem em vez de a apoiar. O design multimodal eficaz é selectivo, não aditivo.

Contiguidade

A contiguidade espacial e temporal são ambas importantes. As palavras que explicam uma imagem devem aparecer ao lado dela, não noutra página (contiguidade espacial). A narração e a animação correspondente devem ocorrer em simultâneo, não em sequência (contiguidade temporal). Quando conteúdo relacionado chega através de diferentes modos no mesmo momento e no mesmo campo visual, os alunos podem integrá-lo sem necessidade de reter uma parte na memória enquanto procuram a outra.

Selecção Intencional de Modos

Nem todos os modos são equivalentes para todo o conteúdo. A linguagem escrita lida bem com argumentos sequenciais e complexos. Os diagramas transmitem estrutura espacial e relacional de forma eficiente. O vídeo capta processos e mudanças ao longo do tempo. Os modelos físicos apoiam a compreensão processual. Escolher modos de forma estratégica — adequando as características do modo às exigências do conceito — é a competência de design central do ensino multimodal.

Aplicação em Sala de Aula

Ciências no 1.º Ciclo: Formação de Conceitos Através de Múltiplas Representações

Uma turma do 3.º ano a estudar o ciclo da água ilustra os princípios multimodais em acção. A professora começa com uma breve animação narrada que mostra a evaporação, a condensação e a precipitação. Faz uma pausa para esboçar o ciclo no quadro enquanto nomeia cada fase em voz alta e distribui depois diagramas impressos que os alunos legendam. A aula termina com os alunos a representar cada fase numa breve sequência cinestésica.

Cada etapa acrescenta um modo e uma exigência de processamento. A animação fornece dinâmicas temporais que um diagrama estático não consegue. O esboço no quadro, desenhado em tempo real, modela a diagramação científica como ferramenta de pensamento. A legendagem pelos alunos exige recordação e produção em vez de recepção passiva. A representação cinestésica codifica o movimento e a sequência. Nenhum modo isolado alcançaria o que a sequência conjunta alcança.

História no Ensino Secundário: Fontes Primárias e Evidência Visual

Uma turma do 10.º ano a estudar a industrialização utiliza instrução multimodal para desenvolver competências interpretativas. Os alunos lêem um breve excerto do relatório de um inspector de fábricas (modo textual), examinam duas fotografias da época sobre as condições de trabalho (modo visual) e ouvem um clip áudio de dois minutos de um historiador a contextualizar ambos (modo auditivo). Escrevem depois um parágrafo comparativo baseado nos três.

Os modos aqui não são redundantes; transportam conteúdo genuinamente diferente. O texto fornece linguagem legislativa e detalhe burocrático. As fotografias fornecem contexto espacial e humano que o texto não consegue proporcionar. O áudio fornece enquadramento historiográfico. Pedir aos alunos que sintetizem os três modos desenvolve a mesma competência disciplinar que os historiadores utilizam.

Ensino Superior em Matemática: Exemplos Resolvidos e Gesto

Uma professora de cálculo numa universidade politécnica a ensinar integração por partes utiliza uma abordagem de ecrã dividido: num lado mostra a manipulação simbólica passo a passo; no outro mostra um gráfico que se actualiza para reflectir cada passo. Narra ambos enquanto gesticula para conectar representações simbólicas e visuais. A investigação de Alibali e Nathan (2012) na University of Wisconsin-Madison mostra que o gesto co-verbal dirige a atenção para a estrutura matemática e auxilia a retenção, tornando o gesto em si um modo que merece uso deliberado.

Evidência Científica

A meta-análise abrangente de Richard Mayer com 100 comparações experimentais (Mayer, 2009) constatou que os alunos que aprenderam com palavras e imagens combinadas superaram os que aprenderam apenas com palavras, com uma dimensão de efeito mediana de d = 0,67. Trata-se de um efeito considerável pelos padrões da investigação educacional. O benefício manteve-se em diversas áreas disciplinares, incluindo ciências, matemática e formação técnica.

Ginns (2005) conduziu uma meta-análise independente de 43 estudos que examinou o efeito de modalidade — especificamente o benefício de apresentações áudio mais visual em relação a texto mais visual. As dimensões do efeito variaram entre d = 0,72 e d = 0,82 nos diferentes desenhos de estudo. Ginns verificou também que o efeito era mais forte para alunos principiantes e reduzia para especialistas, o que é consistente com a teoria da carga cognitiva: os especialistas possuem esquemas existentes que reduzem a exigência de processamento das apresentações texto mais imagem.

Uma síntese de 2019 de Schroeder e Colunga na University of Colorado analisou 92 estudos sobre instrução multimodal em salas de aula do ensino básico e secundário e reportou efeitos positivos consistentes na compreensão e na transferência, com efeitos maiores para conteúdo de ciências do que para língua e literatura. Os autores observaram que o benefício diminuía quando os modos estavam mal integrados, o que apoia os princípios de contiguidade de Mayer.

A investigação sobre gesto e instrução multimodal (Goldin-Meadow, 2003; Alibali & Nathan, 2012) acrescenta uma dimensão raramente discutida: o gesto do professor é em si mesmo um modo. Quando os professores gesticulam de forma significativa durante a explicação — apontando para características relevantes, traçando relações espaciais, usando movimentos icónicos para representar processos — os alunos retêm mais. O gesto transporta informação que o discurso oral isolado não transporta.

A ressalva honesta é que a maioria das experiências controladas nesta literatura são estudos laboratoriais de curta duração, frequentemente entre 20 e 40 minutos. A evidência para instrução multimodal ao longo de unidades curriculares completas e anos lectivos inteiros é mais escassa. Os princípios são robustos; a validade ecológica ao longo de uma prática lectiva alargada está menos exaustivamente documentada.

Equívocos Comuns

A Aprendizagem Multimodal Valida os Estilos de Aprendizagem

O equívoco mais persistente é que a aprendizagem multimodal e a teoria dos estilos de aprendizagem dizem o mesmo. Não dizem. A teoria dos estilos de aprendizagem faz uma afirmação prescritiva: adequar o modo à preferência do aluno melhora os resultados. Pashler et al. (2008) analisaram a literatura sobre estilos de aprendizagem e não encontraram evidência credível de que adequar a instrução ao estilo de aprendizagem declarado de um aluno produza melhores resultados. A aprendizagem multimodal não faz tal afirmação de correspondência. Defende que todos os alunos beneficiam de múltiplos modos, não que diferentes alunos precisam de diferentes modos isolados.

Mais Modos Significa Sempre Melhor Aprendizagem

Acrescentar modos não é automaticamente benéfico. O princípio da coerência e o efeito de atenção dividida prevêem ambos que uma instrução multimodal mal concebida pode prejudicar a aprendizagem. Uma animação com texto simultâneo, narração, música de fundo e imagens decorativas pode sobrecarregar a memória de trabalho e comprometer a compreensão em relação a uma apresentação mais simples. A instrução multimodal eficaz é intencionalmente concebida; eficaz não significa maximamente estimulante.

A Instrução Multimodal Requer Tecnologia

Os professores assumem por vezes que o ensino multimodal depende de quadros interactivos, tablets ou ferramentas de produção de vídeo. Não depende. A explicação oral combinada com um diagrama desenhado à mão é multimodal. Uma leitura em voz alta acompanhada de esboços dos alunos é multimodal. Representar um acontecimento histórico, construir um modelo físico ou ler um mapa enquanto se discute um relato escrito envolvem todos múltiplos modos. A tecnologia pode alargar o leque de modos disponíveis, mas o princípio é anterior às salas de aula digitais por décadas.

Ligação à Aprendizagem Activa

A aprendizagem multimodal integra-se de forma mais natural com estruturas de aprendizagem activa que exigem que os alunos se movam entre modos de representação em vez de os receberem passivamente.

A metodologia Gallery Walk é uma aplicação directa: os alunos circulam por estações que apresentam informação em diferentes modos — gráficos, fotografias, citações, artefactos físicos, clips de vídeo — e respondem por escrito ou em discussão. O movimento entre estações espelha a mudança cognitiva entre modos, e a tarefa de resposta exige integração. Um gallery walk bem concebido obriga os alunos a sintetizar entre representações em vez de absorver qualquer uma isoladamente.

As Estações de Aprendizagem vão mais longe ao atribuir diferentes modos a diferentes localizações. Uma estação pode apresentar conteúdo através de um breve vídeo; uma segunda através de uma tarefa de legendagem de diagrama; uma terceira através de um manipulativo ou modelo físico; uma quarta através de um excerto de texto e uma questão para discussão. Os alunos encontram o mesmo conceito subjacente através de quatro canais de representação diferentes numa única aula. A estrutura de rotação é, na sua essência, um design instrucional multimodal.

O Design Universal para a Aprendizagem formaliza os princípios multimodais como um enquadramento para o design curricular inclusivo. A primeira directriz do DUA — múltiplos meios de representação — exige que o conteúdo esteja disponível em mais do que um modo, para que diferenças no processamento sensorial, no background linguístico ou nos conhecimentos prévios não criem barreiras de acesso. A aprendizagem multimodal fornece a justificação cognitiva; o DUA fornece a justificação de equidade para o mesmo movimento instrucional.

A ligação à aprendizagem visual merece ser especificada com cuidado. As representações visuais são um modo entre vários, não um sinónimo de instrução multimodal. Uma aula que dependa inteiramente de diagramas e vídeos é unimodal num registo visual. O design multimodal eficaz integra representações visuais com pelo menos um outro modo, para que os canais visual e não visual trabalhem em conjunto em vez de um suportar toda a carga.

Fontes

  1. Mayer, R. E. (2009). Multimedia Learning (2.ª ed.). Cambridge University Press.
  2. Paivio, A. (1971). Imagery and Verbal Processes. Holt, Rinehart & Winston.
  3. Pashler, H., McDaniel, M., Rohrer, D., & Bjork, R. (2008). Learning styles: Concepts and evidence. Psychological Science in the Public Interest, 9(3), 105–119.
  4. Ginns, P. (2005). Meta-analysis of the modality effect. Learning and Instruction, 15(4), 313–331.