Definição
Toda avaliação pode ser lida a partir de duas perguntas fundamentalmente diferentes: "Como esse estudante se saiu em comparação aos colegas?" e "Como esse estudante se saiu em relação a um padrão definido?" A primeira pergunta produz uma interpretação referenciada por normas; a segunda, uma interpretação referenciada por critérios.
Uma avaliação referenciada por normas interpreta a pontuação do estudante em relação a um grupo de referência — geralmente uma amostra ampla e representativa de estudantes que realizaram o mesmo teste. A pontuação em si tem pouco significado isolada; o que importa é a posição do estudante na distribuição. Uma nota de 72 diz pouco até que se saiba que ela coloca o aluno no percentil 88. Exemplos clássicos incluem testes de QI, muitos exames de acesso ao ensino superior e baterias de desempenho com normatização nacional.
Uma avaliação referenciada por critérios interpreta a pontuação do estudante em relação a um conjunto predefinido de critérios de aprendizagem, independentemente do desempenho dos demais. A pergunta é se o aluno demonstrou domínio de habilidades ou conteúdos específicos. Se todos os alunos da turma tirarem 95%, isso é um sucesso, não um sinal de que a prova estava fácil demais. Exemplos incluem o exame prático para a carteira de motorista, a OAB e provas elaboradas a partir dos objetivos de aprendizagem de uma unidade.
A distinção não está na prova em si, mas em como as pontuações são construídas e interpretadas. As escolhas de design — dificuldade dos itens, forma de reportar resultados, pontos de corte — decorrem do propósito que a avaliação pretende cumprir.
Contexto Histórico
As raízes intelectuais da avaliação referenciada por normas remontam aos trabalhos de Francis Galton sobre distribuições estatísticas na década de 1880. Galton introduziu o conceito de classificar indivíduos em uma curva normal, lançando as bases da tradição psicométrica. Seu aluno Karl Pearson formalizou a correlação e as ferramentas estatísticas usadas na normatização de testes.
A era moderna dos testes referenciados por normas começou com os testes Army Alpha e Beta desenvolvidos por Robert Yerkes e colaboradores durante a Primeira Guerra Mundial (1917–1919). Diante da necessidade de classificar rapidamente 1,75 milhão de recrutas, o exército norte-americano precisava de instrumentos que ordenassem pessoas de forma eficiente. O teste Alpha, para recrutas alfabetizados, e o Beta, para recrutas iletrados ou não falantes de inglês, produziam hierarquias de classificação, não veredictos de domínio. Esse modelo moldou os testes educacionais americanos por décadas.
O teste Stanford-Binet de Lewis Terman (1916) e, posteriormente, o desenvolvimento do SAT por Carl Brigham nos anos 1920 estenderam o modelo referenciado por normas ao campo educacional. Em meados do século XX, os testes padronizados referenciados por normas dominavam o ensino norte-americano.
A alternativa referenciada por critérios emergiu de forma explícita em 1963, quando o psicólogo Robert Glaser publicou "Instructional Technology and the Measurement of Learning Outcomes" no periódico American Psychologist. Glaser cunhou o termo "medida referenciada por critérios" e argumentou que a avaliação educacional precisava de um referencial baseado em objetivos comportamentais específicos, não em classificações comparativas. James Popham e T.R. Husek ampliaram o framework teórico em um artigo de 1969 no Journal of Educational Measurement, que se tornou texto fundacional da área.
No Brasil, a criação do SAEB (Sistema de Avaliação da Educação Básica) em 1990 e, posteriormente, a BNCC (Base Nacional Comum Curricular) em 2017 impulsionaram a avaliação referenciada por critérios nas redes de ensino, ao mesmo tempo em que o ENEM mantinha características normativas em seu uso para seleção ao Ensino Superior.
Princípios Fundamentais
O Significado da Pontuação Depende do Referencial
Uma pontuação referenciada por normas responde a uma pergunta comparativa: onde esse estudante está em relação aos colegas? Uma pontuação referenciada por critérios responde a uma pergunta de domínio: o que esse estudante consegue fazer? São perguntas diferentes, e confundi-las produz conclusões distorcidas. Um aluno no percentil 50 de um teste de leitura referenciado por normas pode ou não ser um leitor proficiente — isso depende inteiramente do nível do grupo de referência.
Testes Referenciados por Normas São Desenhados para Separar os Estudantes
Os elaboradores de instrumentos referenciados por normas incluem deliberadamente itens de dificuldades variadas e eliminam itens que quase todos acertam ou erram. Alta discriminação entre estudantes é o objetivo de design. Um teste bem construído nessa perspectiva produz pontuações distribuídas ao longo de toda a escala. Esse princípio é adequado para fins de classificação, mas ativamente contraproducente para medir resultados de aprendizagem — itens que refletem o que foi ensinado tendem a ser acertados pela maioria dos alunos após uma boa instrução, reduzindo a variância e prejudicando o teste psicometricamente.
Testes Referenciados por Critérios Definem o Domínio Antes da Aplicação
A característica definidora da avaliação referenciada por critérios é que o padrão existe independentemente do desempenho dos estudantes. A pontuação de corte para a carteira de motorista (por exemplo, 70% de acerto no teste teórico) não se altera conforme o desempenho dos candidatos em um determinado dia. Isso exige a especificação deliberada dos objetivos de aprendizagem, dos domínios de conteúdo e dos padrões de desempenho antes da aplicação do teste. O trabalho de Robert Mager sobre objetivos comportamentais (1962) forneceu grande parte do arcabouço prático para esse design.
Ambos os Tipos Têm Usos Legítimos
Avaliações referenciadas por normas servem à seleção, ao rastreamento e a comparações diagnósticas entre populações. Elas respondem perguntas como: o desempenho em leitura desta escola está acima ou abaixo da média nacional? Quais estudantes têm maior probabilidade de precisar de intervenção intensiva? Avaliações referenciadas por critérios servem à instrução, à certificação e à prestação de contas em relação a padrões. Elas respondem: esse estudante aprendeu a calcular frações? Esse formando está pronto para exercer a profissão? Usar um instrumento referenciado por normas para decisões que exigem informação referenciada por critérios — ou vice-versa — produz conclusões enganosas.
Os Pontos de Corte em Testes Referenciados por Critérios Envolvem Julgamentos de Valor
Definir o limiar de proficiência em um teste referenciado por critérios é uma decisão de política, não puramente técnica. Métodos como o método Angoff, o método marcador e o método de grupos contrastantes são abordagens defensáveis, mas incorporam julgamentos sobre o que significa ser "proficiente". Robert Linn (2003) documentou extensamente como os pontos de corte de proficiência em avaliações estaduais variavam dramaticamente entre os estados norte-americanos, gerando conclusões inconsistentes sobre o desempenho dos alunos mesmo quando se media conteúdo semelhante.
Aplicação em Sala de Aula
Usando Avaliações Referenciadas por Critérios para o Planejamento da Instrução
Um professor de Matemática do 5º ano do Ensino Fundamental, ao planejar uma unidade sobre frações, escreve objetivos de aprendizagem específicos: os alunos deverão somar frações com denominadores diferentes, comparar frações usando frações de referência e resolver problemas contextualizados envolvendo adição de frações. A prova da unidade é elaborada diretamente a partir desses objetivos, com limiares claros de domínio (por exemplo, 80% de acerto dentro de cada cluster de objetivos).
Após a correção, o professor desagrega os resultados por objetivo, em vez de olhar apenas para as notas totais. Vários alunos dominaram a soma com denominadores diferentes, mas tiveram dificuldades com os problemas contextualizados; um grupo menor mostrou lacunas nas comparações com frações de referência. A retomada se dirige a essas lacunas específicas. As notas totais teriam obscurecido completamente essa informação instrucional.
Reconhecendo o Raciocínio Referenciado por Normas nas Notas Cotidianas
Um professor de Biologia do Ensino Médio aplica uma curva após uma prova difícil — a maior nota foi 78, então ele acrescenta 22 pontos à nota de todos os alunos. Essa é uma prática referenciada por normas inserida no contexto da sala de aula. A consequência: alunos que aprenderam pouco o conteúdo podem receber notas suficientes para passar, enquanto o professor não obtém informação confiável sobre quais conceitos precisam de retomada. A alternativa referenciada por critérios é examinar por que as notas foram baixas (A instrução foi suficiente? A prova estava alinhada ao que foi ensinado?) e tratar a causa subjacente, em vez de ajustar as pontuações.
Combinando as Duas Abordagens para Rastreamento e Instrução
Uma coordenadora de Língua Portuguesa de anos finais do Ensino Fundamental usa uma avaliação de leitura com normatização nacional três vezes por ano para identificar alunos com desempenho significativamente abaixo das normas para a série — uso referenciado por normas. Os alunos sinalizados recebem uma avaliação diagnóstica referenciada por critérios, vinculada a habilidades específicas de decodificação, fluência e compreensão leitora, para identificar os alvos da instrução. O instrumento referenciado por normas aponta quem precisa de atenção; o referenciado por critérios indica o que esses alunos precisam aprender. Nenhum dos dois instrumentos, isoladamente, daria conta das duas funções.
Evidências de Pesquisa
Os trabalhos fundacionais de Robert Glaser e Anthony Nitko estabeleceram o argumento psicométrico para a avaliação referenciada por critérios em contextos educacionais. O monógrafo de Nitko de 1980, Distinguishing the Many Varieties of Criterion-Referenced Tests, forneceu a primeira taxonomia abrangente das abordagens referenciadas por critérios, esclarecendo distinções que haviam se confundido na década seguinte ao artigo de Glaser de 1963.
A pesquisa de James Popham sobre a sensibilidade instrucional das avaliações — trabalho que ele sustentou dos anos 1970 até a década de 2010 — demonstrou que a maioria dos testes padronizados em larga escala, incluindo muitos testes de prestação de contas estaduais nominalmente classificados como referenciados por critérios, contém itens dominados pelo background socioeconômico dos alunos, e não pela qualidade da instrução. Seu conceito de testes "instrucionalmente insensíveis" (2007, Educational Researcher) desafiou a suposição de que testes alinhados a padrões medem automaticamente a eficácia do ensino.
W. James Popham e Eva Baker (1970) realizaram comparações empíricas iniciais entre as abordagens referenciadas por normas e por critérios, constatando que professores que recebiam dados de desempenho referenciados por critérios faziam ajustes instrucionais mais precisos do que aqueles que recebiam pontuações referenciadas por normas. Esse achado foi replicado em trabalhos mais recentes; Wiliam e Thompson (2007) em Ahead of the Curve revisaram a literatura sobre avaliação formativa e concluíram que o feedback baseado em critérios supera consistentemente o feedback comparativo para melhorar a aprendizagem dos alunos.
A análise de Robert Linn de 2003 no Educational Researcher, "Accountability: Responsibility and Reasonable Expectations", examinou duas décadas de dados de avaliações estaduais e constatou que os ganhos nas taxas de proficiência em testes estaduais referenciados por critérios frequentemente não se correlacionavam com os ganhos no NAEP (um instrumento com normatização nacional), levantando questões sobre se os pontos de corte estaduais haviam sido estabelecidos em níveis defensáveis. Seu trabalho ilustrou que a interpretação referenciada por critérios só é significativa quando a qualidade dos próprios critérios é sólida.
Equívocos Comuns
Equívoco 1: Testes padronizados são sempre referenciados por normas. Muitos testes padronizados são referenciados por critérios. "Padronizado" significa apenas que o teste é aplicado e corrigido em condições uniformes e consistentes. O SAEB e avaliações estaduais vinculadas à BNCC são padronizados e referenciados por critérios. O ENEM é padronizado e referenciado por normas em seu uso classificatório para o SISU. O termo "padronizado" descreve o procedimento de aplicação, não o referencial interpretativo.
Equívoco 2: Avaliações referenciadas por critérios são mais fáceis de construir. Como essas avaliações exigem padrões de aprendizagem explícitos e operacionalizados, com pontos de corte defensáveis, elas são com frequência mais difíceis de elaborar rigorosamente do que instrumentos referenciados por normas. Um teste referenciado por normas pode ser montado selecionando itens que maximizem a variância de pontuação em um grupo de referência. Um teste referenciado por critérios exige a especificação prévia exata do que os alunos devem ser capazes de fazer, como o desempenho será amostrado e qual limiar constitui domínio — decisões que exigem tanto expertise em conteúdo quanto trabalho deliberado de validade.
Equívoco 3: Avaliações referenciadas por normas não têm lugar na sala de aula. Para algumas decisões instrucionais, comparações normativas são genuinamente úteis. Um professor que quer saber se o desenvolvimento da escrita de sua turma está no caminho certo em relação a turmas semelhantes em nível nacional se beneficia de dados normatizados. Um orientador que identifica alunos que podem precisar de programas de altas habilidades precisa de comparações normativas. O problema não é a interpretação referenciada por normas em si, mas usá-la para decisões instrucionais que exigem informação referenciada por critérios — ou seja, o que exatamente esse aluno precisa aprender a seguir?
Conexão com a Aprendizagem Ativa
A escolha entre os referenciais por normas e por critérios molda como a aprendizagem ativa funciona em sala de aula. As metodologias de aprendizagem ativa — discussão em duplas, seminário socrático, investigação baseada em projetos — são projetadas para desenvolver competência genuína em habilidades específicas: análise, argumentação, resolução colaborativa de problemas. Esses resultados são referenciados por critérios por natureza. Um aluno desenvolveu ou não a capacidade de construir um argumento fundamentado em evidências. A classificação normativa nada acrescenta a essa questão.
A avaliação baseada em padrões operacionaliza os princípios referenciados por critérios no nível do registro de notas, substituindo notas percentuais por indicadores de domínio vinculados diretamente aos objetivos de aprendizagem. Professores que trabalham em sistemas baseados em padrões percebem que avaliações referenciadas por critérios se alinham naturalmente aos ciclos formativos: avaliar em relação ao padrão, identificar lacunas, oferecer prática direcionada, reavaliar. A atribuição de notas referenciada por normas interrompe esse ciclo, pois a nota do aluno depende parcialmente do desempenho dos colegas, não do seu próprio progresso em direção ao domínio.
A avaliação somativa ao final de uma unidade ou curso cumpre um propósito referenciado por critérios na maioria dos contextos instrucionais: o estudante atingiu os objetivos de aprendizagem? Quando as notas somativas recebem curva — ajuste referenciado por normas — perdem sua integridade diagnóstica e sua utilidade como evidência de competência para futuros professores ou empregadores. A avaliação diagnóstica no início de uma sequência de aprendizagem é quase sempre referenciada por critérios: os professores precisam saber especificamente o que os alunos já sabem e o que ainda não sabem, não como eles se classificam em relação aos colegas.
Para que a aprendizagem ativa funcione bem, os estudantes precisam de feedback referenciado por critérios. Pesquisas sobre aprendizagem autorregulada (Zimmerman, 2002) mostram que os alunos ajustam seu esforço e suas estratégias com base em informações sobre lacunas: "Ainda não dominei X" é acionável. "Estou no percentil 43" não é. Construir sistemas de avaliação em torno de critérios definidos dá aos alunos o feedback específico que sustenta a luta produtiva e a aprendizagem genuína.
Fontes
-
Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions. American Psychologist, 18(8), 519–521.
-
Popham, W. J., & Husek, T. R. (1969). Implications of criterion-referenced measurement. Journal of Educational Measurement, 6(1), 1–9.
-
Linn, R. L. (2003). Accountability: Responsibility and reasonable expectations. Educational Researcher, 32(7), 3–13.
-
Nitko, A. J. (1980). Distinguishing the many varieties of criterion-referenced tests. Research Report RR-80-9. Educational Testing Service.