O que é a avaliação de desempenho em educação?

A avaliação de desempenho avalia os alunos fazendo-os demonstrar conhecimentos e competências através de uma tarefa directa , uma apresentação, uma experiência, um debate ou um produto construído ,, em vez de um teste de resposta seleccionada. A tarefa espelha a forma como essas competências são utilizadas fora da escola.

Em que difere a avaliação de desempenho de um teste tradicional?

Os testes tradicionais medem se um aluno consegue reconhecer ou recordar informação correcta. As avaliações de desempenho medem se um aluno consegue aplicar, analisar ou criar , revelam a competência em acção, não apenas o conhecimento armazenado.

O que torna uma boa tarefa de avaliação de desempenho?

Uma tarefa sólida está alinhada com padrões de aprendizagem específicos, exige pensamento sustentado (não uma única resposta correcta), produz evidência observável que pode ser classificada com uma rubrica e assemelha-se ao modo como a competência é utilizada em contextos reais fora da escola.

Como avaliam os professores as avaliações de desempenho de forma justa?

A classificação depende de rubricas bem concebidas que definem os níveis de desempenho para cada critério. Os documentos de ancoragem (amostras de trabalho de alunos classificadas por consenso) ajudam a calibrar os avaliadores e a reduzir a subjectividade. As verificações de fiabilidade entre avaliadores , em que dois avaliadores avaliam o mesmo trabalho de forma independente , garantem ainda mais a consistência.

Podem as avaliações de desempenho ser utilizadas para classificação e para feedback?

Sim. As avaliações de desempenho servem fins tanto sumativos como formativos. Quando utilizadas de forma sumativa, uma rubrica traduz o desempenho observado numa classificação. Quando utilizadas de forma formativa, a mesma rubrica comunica pontos fortes e lacunas específicas antes de o produto final ser entregue, dando aos alunos tempo para melhorar.

Avaliação de Desempenho - Wiki Pedagógica

Definição

A avaliação de desempenho é um método de avaliação da aprendizagem dos alunos que lhes exige demonstrar conhecimentos e competências através de acção directa , construindo uma resposta, produzindo um produto ou executando um procedimento ,, em vez de seleccionar entre opções de resposta predefinidas. A característica definidora é a evidência observável: o professor observa, ouve ou examina algo que o aluno realmente faz ou produz, avaliando depois essa evidência com base em critérios explícitos.

O termo abrange um vasto leque de tarefas. Um aluno do jardim-de-infância a recontar uma história a um colega, um estudante de química a realizar uma titulação, um estudante do ensino secundário a defender uma tese de investigação perante um painel , todos constituem avaliações de desempenho, porque a competência é inferida a partir do comportamento demonstrado e não de uma medida substituta como a pontuação num teste de escolha múltipla. O tipo de tarefa varia; a lógica subjacente é a mesma.

A avaliação de desempenho insere-se na categoria mais ampla da avaliação autêntica, que privilegia a aplicação no mundo real e contextos com significado. Nem todas as tarefas de desempenho são autenticamente contextualizadas, mas as melhor concebidas são: apresentam aos alunos o tipo de problema que um profissional da área enfrentaria realmente, exigindo a integração de conhecimento, competência e discernimento.

Contexto Histórico

As raízes intelectuais da avaliação de desempenho cruzam duas tradições distintas: a educação progressiva e a psicologia cognitiva. O argumento de John Dewey, no início do século XX, de que a aprendizagem genuína requer fazer activo lançou as bases filosóficas. Dewey insistia que as escolas deviam envolver os alunos em actividade com propósito, e não na recepção passiva de factos , um argumento que implicitamente questiona a lógica dos testes baseados na memorização.

O movimento formal em prol de abordagens baseadas no desempenho na educação americana ganhou impulso no final da década de 1980. Lauren Resnick, psicóloga cognitiva da Universidade de Pittsburgh, publicou um artigo de referência no American Psychologist em 1987, argumentando que o pensamento de ordem superior não pode ser avaliado através de itens decompostos e descontextualizados. O seu trabalho, a par do ensaio de Grant Wiggins de 1989 no Educational Leadership , "A True Test: Toward More Authentic and Equitable Assessment" ,, estabeleceu o fundamento teórico para avaliar a competência directamente.

Wiggins e Jay McTighe desenvolveram este pensamento no quadro Understanding by Design (1998), que colocou as tarefas de desempenho no centro da planificação curricular. O seu conceito de estrutura de concepção de tarefas "GRASPS" (Objectivo, Papel, Audiência, Situação, Produto, Padrões) forneceu aos professores um andaime prático para criar avaliações simultaneamente desafiantes e avaliáveis.

Em simultâneo, investigadores em psicometria estavam a construir fundamentos técnicos. Richard Stiggins fundou o Assessment Training Institute em 1992 e defendeu a literacia em avaliação entre os professores, argumentando que a qualidade da avaliação quotidiana em sala de aula importava mais para a aprendizagem dos alunos do que os testes padronizados anuais. O National Board for Professional Teaching Standards, criado em 1987, baseou todo o seu sistema de certificação de professores em portfólios e evidências de desempenho em vez de exames escritos , um aval institucional de alto risco para o modelo.

A partir da década de 2000, a avaliação de desempenho tornou-se uma característica definidora das reformas de educação baseada em competências, dos programas de credenciais e das avaliações internacionais, como o Baccalauréat International, que exige há décadas avaliações internas (laboratórios, exames orais, ensaios alargados).

Princípios Fundamentais

Alinhamento entre Tarefa e Padrão

Uma tarefa de desempenho deve exigir exactamente o conhecimento e a competência designados no objectivo de aprendizagem, e não um substituto. Se o padrão é "os alunos argumentarão uma posição utilizando evidência textual", a tarefa deve exigir que os alunos argumentem uma posição utilizando evidência textual , não que resumam um argumento, nem que identifiquem afirmações num texto. O desalinhamento é o erro de concepção mais comum: os professores atribuem tarefas de aparência impressionante que, na prática, medem algo adjacente ao padrão a avaliar.

Este princípio de alinhamento baseia-se na teoria unificada de validade de construto de Samuel Messick (1989). A validade não é uma propriedade de um teste isolado; é um juízo sobre se as inferências extraídas das pontuações são justificadas. Uma tarefa de desempenho é válida apenas na medida em que o que os alunos fazem na tarefa reflecte genuinamente a competência que se pretende medir.

Evidência Observável e Classificável

A avaliação de desempenho requer evidência que possa ser observada e avaliada. Isto parece óbvio, mas impõe restrições importantes à concepção das tarefas. A evidência de processo (observar um aluno a realizar uma experiência) e a evidência de produto (ler o relatório de laboratório depois) são ambas legítimas, mas os professores devem decidir antecipadamente qual avaliarão e como. As tarefas que não produzem evidência tangível , uma discussão de turma em que nada é registado, um projecto de grupo em que as contribuições individuais são invisíveis , dificultam uma avaliação justa.

A avaliação depende de rubricas bem construídas que definam como se parecem diferentes níveis de desempenho. As rubricas servem duas funções: comunicam as expectativas aos alunos antes da tarefa e ancoram o juízo do avaliador durante a avaliação. As rubricas analíticas que separam critérios distintos (por exemplo, estrutura do argumento, utilização de evidência, mecânica) produzem feedback mais diagnóstico do que as rubricas holísticas que comprimem tudo numa única classificação.

Complexidade Cognitiva

As tarefas de desempenho devem exigir pensamento sustentado e de ordem superior. A taxonomia de Benjamin Bloom (1956, revista por Anderson e Krathwohl em 2001) fornece o quadro mais amplamente utilizado: as tarefas nos níveis de aplicação, análise, avaliação e criação exigem um trabalho cognitivo mais complexo do que as tarefas nos níveis do conhecimento ou da compreensão. Uma tarefa de desempenho que exige apenas memorização ("nomeie os ramos do governo") não é significativamente diferente de uma pergunta de teste.

A exigência cognitiva de uma tarefa deve corresponder aos objectivos de aprendizagem. Os professores criam por vezes cenários de desempenho elaborados que, em última análise, se reduzem a memorização numa única etapa. Por outro lado, atribuem por vezes tarefas genuinamente complexas sem andaimes adequados, medindo mais os conhecimentos prévios ou os recursos domésticos do que o que foi ensinado na sala de aula.

Equidade e Acesso

A avaliação de desempenho introduz desafios de equidade que os testes de resposta seleccionada tratam de forma diferente. As tarefas alargadas favorecem os alunos com mais tempo, melhores materiais e convenções de escrita mais sólidas. As tarefas de grupo obscurecem a contribuição individual. As apresentações orais desfavorecem os alunos que aprendem inglês como língua adicional e os alunos com perturbações de ansiedade. Conceber avaliações de desempenho equitativas requer acomodação deliberada: princípios de design universal, modos flexíveis de demonstração e rubricas que classificam a competência-alvo em vez de características superficiais não relacionadas com o objectivo de aprendizagem.

Aplicação em Sala de Aula

Básico

Avaliação da Leitura Oral

Os professores do 1.º ciclo utilizam rotineiramente a avaliação de desempenho através de registos de leitura , observações estruturadas de um aluno a ler em voz alta. O professor regista os erros (substituições, omissões, repetições), codifica-os por tipo, calcula as taxas de exactidão e auto-correcção, e utiliza esta evidência para determinar o nível de leitura instrucional e as lacunas específicas de descodificação.

Esta é a avaliação de desempenho na sua forma mais integrada: o professor observa comportamento autêntico (a leitura), aplica um método de classificação sistemático e toma decisões de instrução com base nos resultados. O programa Reading Recovery de Marie Clay formalizou esta prática na década de 1970, e os registos de leitura tornaram-se desde então padrão no ensino da literacia inicial em todo o mundo.

Preparatório

Investigação Científica

Um professor do 7.º ano que avalia o padrão de investigação científica atribui uma tarefa de desempenho estruturada: os alunos devem conceber uma experiência controlada, recolher e registar dados, analisar os resultados utilizando um conjunto de dados fornecido e apresentar conclusões com afirmações e evidências adequadas.

Em vez de um teste de escolha múltipla sobre as etapas do método científico, os alunos demonstram o raciocínio científico fazendo-o efectivamente. O professor utiliza uma rubrica analítica que classifica separadamente a concepção experimental (controlos, variáveis), a qualidade dos dados e o raciocínio afirmação-evidência. Os alunos recebem a rubrica antes de começar, para que compreendam o que significa "proficiente" em cada dimensão.

Secundário

Seminário Socrático e Reflexão Escrita

Um professor de Português do 12.º ano avalia o raciocínio argumentativo através de um desempenho em duas partes: um seminário socrático sobre um texto controverso, seguido de um argumento escrito independente. Durante o seminário, os alunos são avaliados com uma rubrica de discussão (construir sobre as ideias dos outros, citar evidência textual, reformular afirmações em resposta a contra-argumentos). O argumento escrito é avaliado separadamente com uma rubrica de escrita.

Esta concepção capta evidência oral e escrita de argumentação, dando aos alunos dois modos de demonstrar a mesma competência. Os professores que observam pontuações muito diferentes no seminário e na escrita dispõem de informação diagnóstica sobre onde se encontra a lacuna.

Evidência de Investigação

Richard Shavelson e colegas (1992) realizaram uma das primeiras comparações mais rigorosas entre avaliação de desempenho e avaliação tradicional. Num estudo publicado no Journal of Research in Science Teaching, concluíram que as tarefas práticas de desempenho em ciências , em que os alunos manipulavam equipamento , detectaram compreensão dos alunos que os testes de papel e lápis sobre o mesmo conteúdo não captavam de todo. Os alunos que obtinham pontuações adequadas no teste escrito frequentemente não conseguiam executar o procedimento correctamente, e vice-versa. Os dois formatos mediam competências relacionadas, mas distintas.

Uma meta-análise de referência de Kingston e Nash (2011) no Educational Measurement: Issues and Practice examinou os efeitos das práticas de avaliação formativa , incluindo tarefas de desempenho utilizadas para feedback , em 13 estudos. Encontraram uma dimensão de efeito médio de 0,20 no rendimento sumativo, com estudos que enfatizavam o feedback do professor sobre trabalhos de desempenho a mostrar efeitos mais fortes. A análise confirmou o que os profissionais há muito observavam: as tarefas de desempenho geram informação diagnóstica mais rica do que as avaliações de resposta seleccionada, mas traduzir essa informação em melhoria do aluno requer ciclos de feedback deliberados.

Darling-Hammond, Ancess e Falk (1995) documentaram a utilização de requisitos de graduação baseados no desempenho na Urban Academy de Nova Iorque, na Central Park East Secondary School e na International High School. Os alunos nestas escolas, maioritariamente de contextos de baixos rendimentos, concluíam os estudos a taxas mais elevadas e com maior persistência no ensino superior do que pares comparáveis em escolas tradicionais. Os investigadores atribuíram parte disto a culturas de avaliação em que os alunos recebiam feedback substantivo sobre produtos de trabalho ao longo do ano, e não apenas na época de exames. O estudo era qualitativo e é difícil separar as afirmações causais da cultura escolar, mas continua a ser influente pela sua documentação detalhada da avaliação de desempenho em escala.

A investigação sobre a fiabilidade entre avaliadores demonstra consistentemente que avaliadores não treinados que utilizam rubricas vagas produzem pontuações pouco fiáveis em tarefas de desempenho. Johnstone, Bottsford-Miller e Thompson (2006) encontraram desacordo substancial entre avaliadores na classificação de desempenho em larga escala quando os procedimentos de ancoragem estavam ausentes. A implicação para os professores: a qualidade das rubricas e a formação de calibração não são refinamentos opcionais , são o fundamento técnico que torna a avaliação de desempenho defensável.

Equívocos Comuns

A avaliação de desempenho não pode ser rigorosa ou fiável.

Os críticos argumentam que o juízo inerente à classificação de desempenho a torna menos rigorosa do que os testes classificados por máquinas. Isto confunde fiabilidade com validade. Um teste de escolha múltipla pode ser perfeitamente fiável e ainda assim não medir a competência-alvo. A avaliação de desempenho, devidamente concebida com rubricas sólidas e formação de avaliadores, alcança uma fiabilidade adequada enquanto mede competências mais complexas que os formatos de resposta seleccionada não conseguem atingir. O National Board for Professional Teaching Standards tem utilizado portfólios de desempenho para a certificação de professores há mais de três décadas, com coeficientes de fiabilidade entre avaliadores comparáveis aos dos principais testes padronizados.

Ligação à Aprendizagem Activa

A avaliação de desempenho e a aprendizagem activa estão estruturalmente ligadas: as metodologias de aprendizagem activa geram comportamento observável que a avaliação de desempenho está concebida para captar e avaliar.

A metodologia do simulacro de julgamento é um exemplo claro. Os alunos investigam precedentes jurídicos, atribuem papéis, preparam argumentos e actuam perante um painel de juízes. A tarefa de desempenho é o próprio julgamento; a rubrica mede o raciocínio jurídico, a utilização de evidência e a advocacia oral. É impossível separar a actividade de aprendizagem da avaliação , a aprendizagem acontece através do desempenho avaliado.

As tarefas de simulação funcionam de forma semelhante. Simulações médicas, exercícios de negociação em bolsa, cenários de resposta a crises: todos criam condições em que os alunos devem mobilizar conhecimentos em tempo real, produzindo evidência observável que uma rubrica pode classificar. A simulação é simultaneamente a actividade instrucional e o veículo de avaliação.

Os projectos de exposição de museu, comuns na aprendizagem baseada em projectos, pedem aos alunos que organizem e apresentem conteúdo a uma audiência autêntica. Os visitantes fazem perguntas; os alunos respondem. A própria exposição torna-se uma avaliação de desempenho da compreensão conceptual, da competência comunicativa e do conhecimento da área.

Esta integração é o argumento central a favor da avaliação de desempenho em contextos de aprendizagem baseada em projectos: quando a actividade de aprendizagem é a tarefa de desempenho, a avaliação deixa de parecer um acrescento e torna-se inseparável do ensino. Os alunos que sabem que terão de demonstrar compreensão publicamente , e não apenas memorizá-la de forma privada num teste , envolvem-se com os conteúdos de forma diferente.

Para um tratamento mais aprofundado da categoria mais ampla a que estas tarefas pertencem, consulte a avaliação autêntica.

Fontes

Wiggins, G. (1989). A true test: Toward more authentic and equitable assessment. Educational Leadership, 46(7), 703–713.
Shavelson, R. J., Baxter, G. P., & Pine, J. (1992). Performance assessments: Political rhetoric and measurement reality. Educational Researcher, 21(4), 22–27.
Kingston, N., & Nash, B. (2011). Formative assessment: A meta-analysis and a call for research. Educational Measurement: Issues and Practice, 30(4), 28–37.
Darling-Hammond, L., Ancess, J., & Falk, B. (1995). Authentic Assessment in Action: Studies of Schools and Students at Work. Teachers College Press.

Avaliação de Desempenho

Definição

Contexto Histórico

Princípios Fundamentais

Alinhamento entre Tarefa e Padrão

Evidência Observável e Classificável

Complexidade Cognitiva

Equidade e Acesso

Aplicação em Sala de Aula

Avaliação da Leitura Oral

Investigação Científica

Seminário Socrático e Reflexão Escrita

Evidência de Investigação

Equívocos Comuns

Ligação à Aprendizagem Activa

Fontes

Perguntas Frequentes

Conceitos Relacionados

Artigos Relacionados

A diferenciação pedagógica é a chave para o sucesso escolar no DL 54/2018

14 Instrumentos de avaliação formativa para transformar a sua sala de aula

Como implementar as Aprendizagens Essenciais na sala de aula em 7 passos

Metodologias Relacionadas

Simulação de Julgamento

Jogo de Simulação

Exposição de Museu