Definição

A avaliação de desempenho é um método de avaliação da aprendizagem dos alunos que lhes exige demonstrar conhecimentos e competências através de acção directa — construindo uma resposta, produzindo um produto ou executando um procedimento —, em vez de seleccionar entre opções de resposta predefinidas. A característica definidora é a evidência observável: o professor observa, ouve ou examina algo que o aluno realmente faz ou produz, avaliando depois essa evidência com base em critérios explícitos.

O termo abrange um vasto leque de tarefas. Um aluno do jardim-de-infância a recontar uma história a um colega, um estudante de química a realizar uma titulação, um estudante do ensino secundário a defender uma tese de investigação perante um painel — todos constituem avaliações de desempenho, porque a competência é inferida a partir do comportamento demonstrado e não de uma medida substituta como a pontuação num teste de escolha múltipla. O tipo de tarefa varia; a lógica subjacente é a mesma.

A avaliação de desempenho insere-se na categoria mais ampla da avaliação autêntica, que privilegia a aplicação no mundo real e contextos com significado. Nem todas as tarefas de desempenho são autenticamente contextualizadas, mas as melhor concebidas são: apresentam aos alunos o tipo de problema que um profissional da área enfrentaria realmente, exigindo a integração de conhecimento, competência e discernimento.

Contexto Histórico

As raízes intelectuais da avaliação de desempenho cruzam duas tradições distintas: a educação progressiva e a psicologia cognitiva. O argumento de John Dewey, no início do século XX, de que a aprendizagem genuína requer fazer activo lançou as bases filosóficas. Dewey insistia que as escolas deviam envolver os alunos em actividade com propósito, e não na recepção passiva de factos — um argumento que implicitamente questiona a lógica dos testes baseados na memorização.

O movimento formal em prol de abordagens baseadas no desempenho na educação americana ganhou impulso no final da década de 1980. Lauren Resnick, psicóloga cognitiva da Universidade de Pittsburgh, publicou um artigo de referência no American Psychologist em 1987, argumentando que o pensamento de ordem superior não pode ser avaliado através de itens decompostos e descontextualizados. O seu trabalho, a par do ensaio de Grant Wiggins de 1989 no Educational Leadership — "A True Test: Toward More Authentic and Equitable Assessment" —, estabeleceu o fundamento teórico para avaliar a competência directamente.

Wiggins e Jay McTighe desenvolveram este pensamento no quadro Understanding by Design (1998), que colocou as tarefas de desempenho no centro da planificação curricular. O seu conceito de estrutura de concepção de tarefas "GRASPS" (Objectivo, Papel, Audiência, Situação, Produto, Padrões) forneceu aos professores um andaime prático para criar avaliações simultaneamente desafiantes e avaliáveis.

Em simultâneo, investigadores em psicometria estavam a construir fundamentos técnicos. Richard Stiggins fundou o Assessment Training Institute em 1992 e defendeu a literacia em avaliação entre os professores, argumentando que a qualidade da avaliação quotidiana em sala de aula importava mais para a aprendizagem dos alunos do que os testes padronizados anuais. O National Board for Professional Teaching Standards, criado em 1987, baseou todo o seu sistema de certificação de professores em portfólios e evidências de desempenho em vez de exames escritos — um aval institucional de alto risco para o modelo.

A partir da década de 2000, a avaliação de desempenho tornou-se uma característica definidora das reformas de educação baseada em competências, dos programas de credenciais e das avaliações internacionais, como o Baccalauréat International, que exige há décadas avaliações internas (laboratórios, exames orais, ensaios alargados).

Princípios Fundamentais

Alinhamento entre Tarefa e Padrão

Uma tarefa de desempenho deve exigir exactamente o conhecimento e a competência designados no objectivo de aprendizagem, e não um substituto. Se o padrão é "os alunos argumentarão uma posição utilizando evidência textual", a tarefa deve exigir que os alunos argumentem uma posição utilizando evidência textual — não que resumam um argumento, nem que identifiquem afirmações num texto. O desalinhamento é o erro de concepção mais comum: os professores atribuem tarefas de aparência impressionante que, na prática, medem algo adjacente ao padrão a avaliar.

Este princípio de alinhamento baseia-se na teoria unificada de validade de construto de Samuel Messick (1989). A validade não é uma propriedade de um teste isolado; é um juízo sobre se as inferências extraídas das pontuações são justificadas. Uma tarefa de desempenho é válida apenas na medida em que o que os alunos fazem na tarefa reflecte genuinamente a competência que se pretende medir.

Evidência Observável e Classificável

A avaliação de desempenho requer evidência que possa ser observada e avaliada. Isto parece óbvio, mas impõe restrições importantes à concepção das tarefas. A evidência de processo (observar um aluno a realizar uma experiência) e a evidência de produto (ler o relatório de laboratório depois) são ambas legítimas, mas os professores devem decidir antecipadamente qual avaliarão e como. As tarefas que não produzem evidência tangível — uma discussão de turma em que nada é registado, um projecto de grupo em que as contribuições individuais são invisíveis — dificultam uma avaliação justa.

A avaliação depende de rubricas bem construídas que definam como se parecem diferentes níveis de desempenho. As rubricas servem duas funções: comunicam as expectativas aos alunos antes da tarefa e ancoram o juízo do avaliador durante a avaliação. As rubricas analíticas que separam critérios distintos (por exemplo, estrutura do argumento, utilização de evidência, mecânica) produzem feedback mais diagnóstico do que as rubricas holísticas que comprimem tudo numa única classificação.

Complexidade Cognitiva

As tarefas de desempenho devem exigir pensamento sustentado e de ordem superior. A taxonomia de Benjamin Bloom (1956, revista por Anderson e Krathwohl em 2001) fornece o quadro mais amplamente utilizado: as tarefas nos níveis de aplicação, análise, avaliação e criação exigem um trabalho cognitivo mais complexo do que as tarefas nos níveis do conhecimento ou da compreensão. Uma tarefa de desempenho que exige apenas memorização ("nomeie os ramos do governo") não é significativamente diferente de uma pergunta de teste.

A exigência cognitiva de uma tarefa deve corresponder aos objectivos de aprendizagem. Os professores criam por vezes cenários de desempenho elaborados que, em última análise, se reduzem a memorização numa única etapa. Por outro lado, atribuem por vezes tarefas genuinamente complexas sem andaimes adequados, medindo mais os conhecimentos prévios ou os recursos domésticos do que o que foi ensinado na sala de aula.

Equidade e Acesso

A avaliação de desempenho introduz desafios de equidade que os testes de resposta seleccionada tratam de forma diferente. As tarefas alargadas favorecem os alunos com mais tempo, melhores materiais e convenções de escrita mais sólidas. As tarefas de grupo obscurecem a contribuição individual. As apresentações orais desfavorecem os alunos que aprendem inglês como língua adicional e os alunos com perturbações de ansiedade. Conceber avaliações de desempenho equitativas requer acomodação deliberada: princípios de design universal, modos flexíveis de demonstração e rubricas que classificam a competência-alvo em vez de características superficiais não relacionadas com o objectivo de aprendizagem.

Aplicação em Sala de Aula

Ensino Básico (1.º Ciclo): Avaliação da Leitura Oral

Os professores do 1.º ciclo utilizam rotineiramente a avaliação de desempenho através de registos de leitura — observações estruturadas de um aluno a ler em voz alta. O professor regista os erros (substituições, omissões, repetições), codifica-os por tipo, calcula as taxas de exactidão e auto-correcção, e utiliza esta evidência para determinar o nível de leitura instrucional e as lacunas específicas de descodificação.

Esta é a avaliação de desempenho na sua forma mais integrada: o professor observa comportamento autêntico (a leitura), aplica um método de classificação sistemático e toma decisões de instrução com base nos resultados. O programa Reading Recovery de Marie Clay formalizou esta prática na década de 1970, e os registos de leitura tornaram-se desde então padrão no ensino da literacia inicial em todo o mundo.

Ensino Básico (2.º e 3.º Ciclos): Investigação Científica

Um professor do 7.º ano que avalia o padrão de investigação científica atribui uma tarefa de desempenho estruturada: os alunos devem conceber uma experiência controlada, recolher e registar dados, analisar os resultados utilizando um conjunto de dados fornecido e apresentar conclusões com afirmações e evidências adequadas.

Em vez de um teste de escolha múltipla sobre as etapas do método científico, os alunos demonstram o raciocínio científico fazendo-o efectivamente. O professor utiliza uma rubrica analítica que classifica separadamente a concepção experimental (controlos, variáveis), a qualidade dos dados e o raciocínio afirmação-evidência. Os alunos recebem a rubrica antes de começar, para que compreendam o que significa "proficiente" em cada dimensão.

Ensino Secundário: Seminário Socrático e Reflexão Escrita

Um professor de Português do 12.º ano avalia o raciocínio argumentativo através de um desempenho em duas partes: um seminário socrático sobre um texto controverso, seguido de um argumento escrito independente. Durante o seminário, os alunos são avaliados com uma rubrica de discussão (construir sobre as ideias dos outros, citar evidência textual, reformular afirmações em resposta a contra-argumentos). O argumento escrito é avaliado separadamente com uma rubrica de escrita.

Esta concepção capta evidência oral e escrita de argumentação, dando aos alunos dois modos de demonstrar a mesma competência. Os professores que observam pontuações muito diferentes no seminário e na escrita dispõem de informação diagnóstica sobre onde se encontra a lacuna.

Evidência de Investigação

Richard Shavelson e colegas (1992) realizaram uma das primeiras comparações mais rigorosas entre avaliação de desempenho e avaliação tradicional. Num estudo publicado no Journal of Research in Science Teaching, concluíram que as tarefas práticas de desempenho em ciências — em que os alunos manipulavam equipamento — detectaram compreensão dos alunos que os testes de papel e lápis sobre o mesmo conteúdo não captavam de todo. Os alunos que obtinham pontuações adequadas no teste escrito frequentemente não conseguiam executar o procedimento correctamente, e vice-versa. Os dois formatos mediam competências relacionadas, mas distintas.

Uma meta-análise de referência de Kingston e Nash (2011) no Educational Measurement: Issues and Practice examinou os efeitos das práticas de avaliação formativa — incluindo tarefas de desempenho utilizadas para feedback — em 13 estudos. Encontraram uma dimensão de efeito médio de 0,20 no rendimento sumativo, com estudos que enfatizavam o feedback do professor sobre trabalhos de desempenho a mostrar efeitos mais fortes. A análise confirmou o que os profissionais há muito observavam: as tarefas de desempenho geram informação diagnóstica mais rica do que as avaliações de resposta seleccionada, mas traduzir essa informação em melhoria do aluno requer ciclos de feedback deliberados.

Darling-Hammond, Ancess e Falk (1995) documentaram a utilização de requisitos de graduação baseados no desempenho na Urban Academy de Nova Iorque, na Central Park East Secondary School e na International High School. Os alunos nestas escolas, maioritariamente de contextos de baixos rendimentos, concluíam os estudos a taxas mais elevadas e com maior persistência no ensino superior do que pares comparáveis em escolas tradicionais. Os investigadores atribuíram parte disto a culturas de avaliação em que os alunos recebiam feedback substantivo sobre produtos de trabalho ao longo do ano, e não apenas na época de exames. O estudo era qualitativo e é difícil separar as afirmações causais da cultura escolar, mas continua a ser influente pela sua documentação detalhada da avaliação de desempenho em escala.

A investigação sobre a fiabilidade entre avaliadores demonstra consistentemente que avaliadores não treinados que utilizam rubricas vagas produzem pontuações pouco fiáveis em tarefas de desempenho. Johnstone, Bottsford-Miller e Thompson (2006) encontraram desacordo substancial entre avaliadores na classificação de desempenho em larga escala quando os procedimentos de ancoragem estavam ausentes. A implicação para os professores: a qualidade das rubricas e a formação de calibração não são refinamentos opcionais — são o fundamento técnico que torna a avaliação de desempenho defensável.

Equívocos Comuns

A avaliação de desempenho destina-se apenas a unidades baseadas em projectos. Muitos professores associam as tarefas de desempenho exclusivamente a projectos de longa duração ou exposições finais. Na prática, as avaliações de desempenho vão desde uma explicação oral de dois minutos até um portfólio de um semestre. Uma pergunta de saída diária que pede aos alunos para resolverem um problema novo e explicarem o seu raciocínio é uma avaliação de desempenho. A escala varia; a característica definidora (demonstrar competência através da acção) mantém-se constante.

As rubricas eliminam a subjectividade. As rubricas reduzem a subjectividade tornando os critérios explícitos, mas não a eliminam. Dois professores que classificam a mesma apresentação de um aluno com a mesma rubrica continuarão a discordar, a menos que tenham calibrado o seu juízo com base em exemplos partilhados de trabalho de alunos em cada nível. A linguagem de rubricas como "demonstra compreensão parcial" significa coisas diferentes para avaliadores diferentes sem documentos de ancoragem que ilustrem o que "parcial" parece. É por isso que a calibração por ancoragem — e não apenas a distribuição de rubricas — é essencial para uma classificação de desempenho justa.

A avaliação de desempenho não pode ser rigorosa ou fiável. Os críticos argumentam que o juízo inerente à classificação de desempenho a torna menos rigorosa do que os testes classificados por máquinas. Isto confunde fiabilidade com validade. Um teste de escolha múltipla pode ser perfeitamente fiável e ainda assim não medir a competência-alvo. A avaliação de desempenho, devidamente concebida com rubricas sólidas e formação de avaliadores, alcança uma fiabilidade adequada enquanto mede competências mais complexas que os formatos de resposta seleccionada não conseguem atingir. O National Board for Professional Teaching Standards tem utilizado portfólios de desempenho para a certificação de professores há mais de três décadas, com coeficientes de fiabilidade entre avaliadores comparáveis aos dos principais testes padronizados.

Ligação à Aprendizagem Activa

A avaliação de desempenho e a aprendizagem activa estão estruturalmente ligadas: as metodologias de aprendizagem activa geram comportamento observável que a avaliação de desempenho está concebida para captar e avaliar.

A metodologia do simulacro de julgamento é um exemplo claro. Os alunos investigam precedentes jurídicos, atribuem papéis, preparam argumentos e actuam perante um painel de juízes. A tarefa de desempenho é o próprio julgamento; a rubrica mede o raciocínio jurídico, a utilização de evidência e a advocacia oral. É impossível separar a actividade de aprendizagem da avaliação — a aprendizagem acontece através do desempenho avaliado.

As tarefas de simulação funcionam de forma semelhante. Simulações médicas, exercícios de negociação em bolsa, cenários de resposta a crises: todos criam condições em que os alunos devem mobilizar conhecimentos em tempo real, produzindo evidência observável que uma rubrica pode classificar. A simulação é simultaneamente a actividade instrucional e o veículo de avaliação.

Os projectos de exposição de museu, comuns na aprendizagem baseada em projectos, pedem aos alunos que organizem e apresentem conteúdo a uma audiência autêntica. Os visitantes fazem perguntas; os alunos respondem. A própria exposição torna-se uma avaliação de desempenho da compreensão conceptual, da competência comunicativa e do conhecimento da área.

Esta integração é o argumento central a favor da avaliação de desempenho em contextos de aprendizagem baseada em projectos: quando a actividade de aprendizagem é a tarefa de desempenho, a avaliação deixa de parecer um acrescento e torna-se inseparável do ensino. Os alunos que sabem que terão de demonstrar compreensão publicamente — e não apenas memorizá-la de forma privada num teste — envolvem-se com os conteúdos de forma diferente.

Para um tratamento mais aprofundado da categoria mais ampla a que estas tarefas pertencem, consulte a avaliação autêntica.

Fontes

  1. Wiggins, G. (1989). A true test: Toward more authentic and equitable assessment. Educational Leadership, 46(7), 703–713.
  2. Shavelson, R. J., Baxter, G. P., & Pine, J. (1992). Performance assessments: Political rhetoric and measurement reality. Educational Researcher, 21(4), 22–27.
  3. Kingston, N., & Nash, B. (2011). Formative assessment: A meta-analysis and a call for research. Educational Measurement: Issues and Practice, 30(4), 28–37.
  4. Darling-Hammond, L., Ancess, J., & Falk, B. (1995). Authentic Assessment in Action: Studies of Schools and Students at Work. Teachers College Press.