Definição

A qualquer resultado de avaliação podem ser colocadas duas perguntas fundamentalmente distintas: «Como é que este aluno se saiu em comparação com outros alunos?» e «Como é que este aluno se saiu face a um padrão definido?» A primeira pergunta produz uma interpretação referenciada à norma; a segunda produz uma interpretação referenciada ao critério.

Uma avaliação referenciada à norma interpreta a pontuação de um aluno em relação a um grupo de norma — tipicamente uma amostra representativa e alargada de alunos que realizou o mesmo teste. A pontuação em si é menos significativa do que a posição do aluno na distribuição. Uma pontuação de 72 tem pouco significado enquanto não se sabe que coloca o aluno no percentil 88. Exemplos clássicos incluem testes de QI, muitos exames de acesso ao ensino superior e baterias de rendimento com normas nacionais, como as Iowa Assessments.

Uma avaliação referenciada ao critério interpreta a pontuação de um aluno face a um conjunto predeterminado de critérios de aprendizagem, independentemente do desempenho dos outros alunos. A questão é saber se o aluno demonstrou o domínio de competências ou conteúdos específicos. Se todos os alunos da turma obtiverem 95%, isso é um sucesso — não um sinal de que o teste era demasiado fácil. Exemplos incluem exames de condução, exames da ordem dos advogados e testes de sala de aula construídos em torno de objectivos de aprendizagem.

A distinção não diz respeito ao teste em si, mas à forma como as pontuações são construídas e interpretadas. As escolhas de concepção da avaliação — dificuldade dos itens, reporte de pontuações, pontuações de corte — decorrem da finalidade que a avaliação pretende servir.

Contexto Histórico

As raízes intelectuais da avaliação referenciada à norma remontam ao trabalho de Francis Galton sobre distribuições estatísticas na década de 1880. Galton introduziu o conceito de classificação de indivíduos numa curva normal, lançando as bases para a tradição psicométrica. O seu discípulo Karl Pearson formalizou a correlação e as ferramentas estatísticas utilizadas na normalização dos testes.

A era moderna dos testes referenciados à norma começou com os testes Army Alpha e Beta desenvolvidos por Robert Yerkes e colaboradores durante a Primeira Guerra Mundial (1917–1919). Confrontado com a necessidade de classificar rapidamente 1,75 milhões de recrutas, o exército norte-americano precisava de instrumentos que ordenassem as pessoas de forma eficiente. O teste Alpha para recrutas alfabetizados e o teste Beta para recrutas analfabetos ou não falantes de inglês produziam ordenações e não veredictos de domínio. Este modelo moldou os testes educacionais americanos durante décadas.

O teste de QI Stanford-Binet de Lewis Terman (1916) e, mais tarde, o desenvolvimento do SAT por Carl Brigham na década de 1920 estenderam o modelo referenciado à norma à educação. A meio do século, os testes estandardizados referenciados à norma dominavam o sistema de ensino americano, em particular através de instrumentos produzidos por editoras como o Educational Testing Service (ETS) e o programa de testes de Iowa.

A alternativa referenciada ao critério emergiu explicitamente em 1963, quando o psicólogo Robert Glaser publicou "Instructional Technology and the Measurement of Learning Outcomes" na revista American Psychologist. Glaser cunhou o termo "medida referenciada ao critério" e defendeu que a avaliação educacional necessitava de um quadro de referência baseado em objectivos comportamentais específicos e não em classificações comparativas. James Popham e T.R. Husek alargaram o quadro teórico num artigo de 1969 no Journal of Educational Measurement, que permanece um texto fundacional.

O movimento dos padrões curriculares nos anos 1990, que culminou na Lei No Child Left Behind (2001) e, mais tarde, na Every Student Succeeds Act (2015), empurrou a educação americana fortemente para avaliações estatais referenciadas ao critério e associadas a padrões de conteúdo por ano de escolaridade, embora os instrumentos referenciados à norma se tenham mantido dominantes na admissão universitária e na identificação de alunos sobredotados.

Princípios Fundamentais

O Significado das Pontuações Depende do Quadro de Referência

Uma pontuação referenciada à norma responde a uma pergunta comparativa: onde é que este aluno se posiciona em relação aos outros? Uma pontuação referenciada ao critério responde a uma pergunta de domínio: o que é que este aluno consegue fazer? São perguntas diferentes, e confundi-las produz conclusões distorcidas. Um aluno que obtém o percentil 50 num teste de leitura referenciado à norma pode ou não ser um leitor proficiente — isso depende inteiramente do que o próprio grupo de norma consegue fazer.

Os Testes Referenciados à Norma São Concebidos para Dispersar os Alunos

Os criadores de testes que constroem instrumentos referenciados à norma incluem deliberadamente itens de dificuldade variada e eliminam itens que quase todos respondem correctamente ou incorrectamente. O elevado poder discriminativo entre alunos é o objectivo de concepção. Um teste referenciado à norma bem construído produz pontuações distribuídas por toda a amplitude da distribuição. Este princípio é adequado para fins de classificação, mas activamente contraproducente para medir resultados do ensino — os itens que reflectem o que foi ensinado tendem a ser respondidos correctamente pela maioria dos alunos após um bom ensino, o que reduz a variância e "prejudica" um teste referenciado à norma do ponto de vista psicométrico.

Os Testes Referenciados ao Critério Definem o Domínio Antes da Avaliação

A característica definitória da avaliação referenciada ao critério é que o padrão existe independentemente do desempenho dos alunos. A pontuação de corte para a carta de condução (por exemplo, 80% de respostas correctas no teste de conhecimentos) não muda em função do desempenho de outros candidatos num determinado dia. Isso exige a especificação deliberada de objectivos de aprendizagem, domínios de conteúdo e padrões de desempenho antes da administração do teste. O trabalho de Robert Mager sobre objectivos comportamentais (1962) forneceu grande parte do quadro prático para esta abordagem de concepção.

Ambos os Tipos Têm Utilizações Legítimas

As avaliações referenciadas à norma servem fins de selecção, triagem e comparações diagnósticas entre populações. Respondem a perguntas como: O desempenho de leitura desta escola está acima ou abaixo da média nacional? Quais os alunos que mais provavelmente precisam de intervenção intensiva? As avaliações referenciadas ao critério servem o ensino, a certificação e a responsabilização face a padrões. Respondem a: Este aluno aprendeu a multiplicar fracções? Este licenciado está preparado para exercer advocacia? Utilizar um instrumento referenciado à norma para tomar decisões referenciadas ao critério — ou vice-versa — produz conclusões enganosas.

As Pontuações de Corte nos Testes Referenciados ao Critério Envolvem Juízos de Valor

Definir o limiar de proficiência num teste referenciado ao critério é uma decisão política e não puramente técnica. Métodos como o método Angoff, o método bookmark e o método dos grupos contrastantes são todos abordagens defensáveis, mas incorporam juízos de valor sobre o que significa ser "proficiente". Robert Linn (2003) documentou extensamente como as pontuações de corte de proficiência nas avaliações estatais variavam dramaticamente entre estados, produzindo conclusões inconsistentes sobre o rendimento dos alunos mesmo quando se media conteúdo semelhante.

Aplicação em Sala de Aula

Utilizar Avaliações Referenciadas ao Critério para a Planificação do Ensino

Um professor de matemática do quinto ano, ao planificar uma unidade sobre fracções, escreve objectivos de aprendizagem específicos: os alunos irão adicionar fracções com denominadores diferentes, comparar fracções utilizando fracções de referência e resolver problemas de palavras envolvendo a adição de fracções. O teste da unidade é construído directamente a partir desses objectivos, com limiares de domínio claros (por exemplo, 80% de respostas correctas em cada grupo de objectivos).

Após a correcção, o professor desagrega os resultados por objectivo em vez de analisar as pontuações totais. Vários alunos dominaram a adição com denominadores diferentes, mas tiveram dificuldades com os problemas de palavras; um grupo mais pequeno revelou lacunas nas comparações com fracções de referência. O reensino visa estas lacunas específicas. As pontuações totais teriam obscurecido completamente esta informação pedagógica.

Reconhecer o Pensamento Referenciado à Norma na Classificação do Dia-a-Dia

Um professor de biologia do ensino secundário classifica em curva após um exame difícil — a pontuação mais alta foi 78, pelo que o professor acrescenta 22 pontos à pontuação de todos os alunos. Trata-se de uma prática referenciada à norma inserida no contexto da sala de aula. A consequência: alunos que aprenderam mal o conteúdo podem obter aprovação, enquanto o professor não recebe informação fiável sobre quais os conceitos que necessitam de reensino. Uma alternativa referenciada ao critério consiste em examinar por que razão as pontuações foram baixas (O ensino foi suficiente? O teste estava alinhado com o ensino?) e abordar a causa subjacente em vez de ajustar as pontuações.

Combinar Ambas as Abordagens para Triagem e Ensino

Uma coordenadora de literacia do 2.º ciclo utiliza uma avaliação de leitura com normas nacionais (por exemplo, NWEA MAP) três vezes por ano para identificar alunos com desempenho significativamente abaixo das normas para o seu nível de escolaridade — uma utilização referenciada à norma. Os alunos sinalizados recebem uma avaliação diagnóstica referenciada ao critério (associada a padrões específicos de descodificação, fluência e compreensão) para identificar os alvos de ensino. A triagem referenciada à norma identifica quem precisa de atenção; a avaliação diagnóstica referenciada ao critério identifica o ensino de que necessitam. Nenhum dos instrumentos, isoladamente, cumpriria bem ambas as funções.

Evidência de Investigação

O trabalho fundacional de Robert Glaser e Anthony Nitko estabeleceu o caso psicométrico para a avaliação referenciada ao critério em contextos educacionais. A monografia de Nitko de 1980, Distinguishing the Many Varieties of Criterion-Referenced Tests, forneceu a primeira taxonomia abrangente das abordagens referenciadas ao critério, clarificando distinções que tinham sido esbatidas na década seguinte ao artigo de Glaser de 1963.

A investigação de James Popham sobre a sensibilidade instrucional das avaliações — trabalho que sustentou desde os anos 1970 até à década de 2010 — demonstrou que a maioria dos testes estandardizados em grande escala, incluindo muitos testes estaduais de prestação de contas nominalmente designados como referenciados ao critério, contém itens dominados pelo contexto socioeconómico e não pela qualidade do ensino. O seu conceito de testes "instruccionalmente insensíveis" (2007, Educational Researcher) questionou o pressuposto de que os testes alinhados com os padrões medem automaticamente a eficácia do ensino.

W. James Popham e Eva Baker (1970) conduziram comparações empíricas iniciais entre as abordagens referenciadas à norma e ao critério, verificando que os professores que receberam dados de desempenho referenciados ao critério efectuaram ajustes pedagógicos mais precisos do que os que receberam pontuações referenciadas à norma. Este resultado foi replicado em trabalhos mais recentes; Wiliam e Thompson (2007) em Ahead of the Curve revisaram a literatura sobre avaliação formativa e concluíram que o feedback baseado em critérios supera consistentemente o feedback comparativo na melhoria das aprendizagens dos alunos.

A análise de Robert Linn de 2003 no Educational Researcher, "Accountability: Responsibility and Reasonable Expectations", examinou duas décadas de dados de avaliação estatal e verificou que os ganhos nas taxas de proficiência nos testes estatais referenciados ao critério frequentemente não se correlacionavam com os ganhos no NAEP (um instrumento com normas nacionais), levantando questões sobre se as pontuações de corte dos estados tinham sido definidas a níveis defensáveis. O seu trabalho ilustrou que a interpretação referenciada ao critério só é tão significativa quanto a qualidade dos próprios critérios.

Ideias Erradas Comuns

Ideia errada 1: Os testes estandardizados são sempre referenciados à norma. Muitos testes estandardizados são referenciados ao critério. Estandardizado significa simplesmente que é administrado e corrigido em condições consistentes e uniformes. Os testes estaduais associados a padrões de conteúdo (PARCC, SBAC, STAAR) são estandardizados e referenciados ao critério. O SAT e o ACT são estandardizados e referenciados à norma. O termo "estandardizado" descreve o procedimento de administração e não o quadro interpretativo.

Ideia errada 2: As avaliações referenciadas ao critério são mais fáceis de construir. Como as avaliações referenciadas ao critério exigem padrões de aprendizagem explícitos e operacionalizados com pontuações de corte defensáveis, são frequentemente mais difíceis de construir rigorosamente do que os instrumentos referenciados à norma. Um teste referenciado à norma pode ser montado seleccionando itens que maximizam a variância das pontuações num grupo de norma. Um teste referenciado ao critério exige a especificação prévia do que exactamente os alunos devem ser capazes de fazer, como o desempenho será amostrado e que limiar constitui o domínio — decisões que requerem tanto competência de conteúdo como um trabalho deliberado de validade.

Ideia errada 3: As avaliações referenciadas à norma não têm lugar nas salas de aula. Para algumas decisões pedagógicas, as comparações referenciadas à norma são genuinamente úteis. Um professor que pretende saber se o desenvolvimento da escrita da sua turma está no caminho certo em relação a alunos semelhantes a nível nacional beneficia de dados normalizados. Um orientador escolar que identifica alunos que podem precisar de serviços para sobredotados necessita de comparações normativas. O problema não é a interpretação referenciada à norma em si, mas utilizá-la para decisões pedagógicas que requerem informação referenciada ao critério (ou seja, o que exactamente precisa este aluno de aprender a seguir?).

Ligação à Aprendizagem Activa

A escolha entre quadros referenciados à norma e ao critério molda o funcionamento da aprendizagem activa numa sala de aula. As metodologias de aprendizagem activa — pensar-em-par-partilhar, seminário socrático, investigação baseada em projectos — são concebidas para desenvolver competências genuínas em áreas específicas: análise, argumentação, resolução colaborativa de problemas. Estes resultados são referenciados ao critério por natureza. Um aluno tem ou não tem a capacidade de construir um argumento fundamentado em evidências. A classificação referenciada à norma nada acrescenta a essa questão.

A classificação baseada em padrões operacionaliza os princípios referenciados ao critério ao nível da reporte, substituindo as notas baseadas em percentagem por indicadores de domínio directamente associados a objectivos de aprendizagem. Os professores que trabalham em sistemas baseados em padrões verificam que as avaliações referenciadas ao critério se alinham naturalmente com os ciclos formativos: avaliar face ao padrão, identificar lacunas, proporcionar prática dirigida, reavaliar. A classificação referenciada à norma perturba este ciclo porque a nota de um aluno depende em parte do desempenho dos colegas de turma e não do seu próprio progresso de domínio.

A avaliação sumativa no final de uma unidade ou curso serve uma finalidade referenciada ao critério na maioria dos contextos de ensino: o aluno atingiu os objectivos de aprendizagem? Quando as notas sumativas são atribuídas em curva (um ajuste referenciado à norma), perdem a sua integridade diagnóstica e a sua utilidade como evidência de competência para futuros professores ou empregadores. A avaliação diagnóstica no início de uma sequência de aprendizagem é quase sempre referenciada ao critério: os professores precisam de saber especificamente o que os alunos já sabem e o que ainda não sabem — não como se classificam em relação aos pares.

Para que a aprendizagem activa funcione bem, os alunos necessitam de feedback referenciado ao critério. A investigação sobre a aprendizagem auto-regulada (Zimmerman, 2002) mostra que os alunos ajustam o seu esforço e a sua estratégia com base em informação sobre lacunas: «Ainda não dominei X» é accionável. «Estou no percentil 43» não é. Construir sistemas de avaliação em torno de critérios definidos fornece aos alunos o feedback específico que sustenta a luta produtiva e a aprendizagem genuína.

Fontes

  1. Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions. American Psychologist, 18(8), 519–521.

  2. Popham, W. J., & Husek, T. R. (1969). Implications of criterion-referenced measurement. Journal of Educational Measurement, 6(1), 1–9.

  3. Linn, R. L. (2003). Accountability: Responsibility and reasonable expectations. Educational Researcher, 32(7), 3–13.

  4. Nitko, A. J. (1980). Distinguishing the many varieties of criterion-referenced tests. Research Report RR-80-9. Educational Testing Service.