Definición

Ante cualquier resultado de evaluación pueden formularse dos preguntas fundamentalmente distintas: «¿Cómo ha rendido este estudiante en comparación con los demás?» y «¿Cómo ha rendido este estudiante en relación con un estándar definido?». La primera pregunta produce una interpretación normativa; la segunda, una interpretación criterial.

Una evaluación normativa interpreta la puntuación de un estudiante en relación con un grupo normativo, generalmente una muestra amplia y representativa de estudiantes que realizaron la misma prueba. La puntuación en sí tiene menos significado que la posición del estudiante en la distribución. Una puntuación de 72 dice poco hasta que se sabe que sitúa al alumno en el percentil 88. Ejemplos clásicos son los test de inteligencia, muchos exámenes de acceso a la universidad y baterías de rendimiento normadas a nivel nacional.

Una evaluación criterial interpreta la puntuación de un estudiante en relación con un conjunto de criterios de aprendizaje predeterminados, independientemente de cómo rindan los demás. La pregunta es si el estudiante ha demostrado dominio de habilidades o contenidos específicos. Si todos los alumnos de la clase obtienen un 95 %, eso es un éxito, no una señal de que la prueba era demasiado fácil. Ejemplos de este tipo son los exámenes de conducción, los exámenes de habilitación profesional y las pruebas de aula construidas en torno a objetivos de aprendizaje.

La distinción no radica en la prueba en sí, sino en cómo se construyen e interpretan las puntuaciones. Las decisiones de diseño de la evaluación —dificultad de los ítems, comunicación de resultados, puntuaciones de corte— se derivan del propósito al que debe servir.

Contexto histórico

Las raíces intelectuales de la evaluación normativa se remontan al trabajo de Francis Galton sobre distribuciones estadísticas en la década de 1880. Galton introdujo el concepto de clasificar a los individuos en una curva normal, sentando las bases de la tradición psicométrica. Su alumno Karl Pearson formalizó la correlación y las herramientas estadísticas empleadas en la normalización de pruebas.

La era moderna de las pruebas normativas comenzó con los test Alpha y Beta del Ejército, desarrollados por Robert Yerkes y sus colaboradores durante la Primera Guerra Mundial (1917–1919). Ante la necesidad de clasificar rápidamente a 1,75 millones de reclutas, el ejército estadounidense precisaba instrumentos que ordenaran a las personas de forma eficiente. El test Alpha, para reclutas con alfabetización, y el test Beta, para reclutas analfabetos o no anglófonos, producían clasificaciones ordinales, no veredictos de dominio. Este modelo moldeó durante décadas la evaluación educativa en Estados Unidos.

El test de inteligencia Stanford-Binet de Lewis Terman (1916) y el desarrollo posterior del SAT por Carl Brigham en la década de 1920 extendieron el modelo normativo a la educación. A mediados del siglo XX, las pruebas estandarizadas normativas dominaban la escolarización estadounidense, especialmente a través de instrumentos producidos por editoriales como Educational Testing Service (ETS) y el programa de pruebas de Iowa.

La alternativa criterial emergió explícitamente en 1963, cuando el psicólogo Robert Glaser publicó «Instructional Technology and the Measurement of Learning Outcomes» en la revista American Psychologist. Glaser acuñó el término «medida referenciada por criterio» y argumentó que la medición educativa necesitaba un marco basado en objetivos conductuales específicos, no en clasificaciones comparativas. James Popham y T. R. Husek ampliaron el marco teórico en un artículo de 1969 publicado en el Journal of Educational Measurement, que sigue siendo un texto fundamental en la materia.

El movimiento de estándares de los años noventa, culminado con la Ley No Child Left Behind (2001) y más tarde con la Every Student Succeeds Act (2015), orientó decididamente la educación estadounidense hacia evaluaciones estatales criteriales vinculadas a estándares de contenido por nivel educativo, aunque los instrumentos normativos siguieron predominando en el acceso a la universidad y en la identificación de alumnos con altas capacidades.

Principios clave

El significado de la puntuación depende del marco de referencia

Una puntuación normativa responde a una pregunta comparativa: ¿cómo se sitúa este estudiante respecto a los demás? Una puntuación criterial responde a una pregunta sobre el dominio: ¿qué es capaz de hacer este estudiante? Estas son preguntas distintas, y confundirlas produce conclusiones distorsionadas. Un estudiante que obtiene el percentil 50 en una prueba normativa de lectura puede ser o no un lector competente: eso depende enteramente de lo que el propio grupo normativo sea capaz de hacer.

Las pruebas normativas están diseñadas para dispersar a los estudiantes

Los diseñadores de instrumentos normativos incluyen deliberadamente ítems de dificultad variable y eliminan aquellos que casi todos los estudiantes responden correcta o incorrectamente. El objetivo de diseño es maximizar la discriminación entre estudiantes. Una prueba normativa bien construida produce puntuaciones distribuidas a lo largo de toda la distribución. Este principio de diseño es adecuado para fines de clasificación, pero resulta contraproducente para medir resultados de aprendizaje: los ítems que reflejan lo que se ha enseñado tienden a ser respondidos correctamente por la mayoría de los estudiantes tras una buena instrucción, lo que reduce la varianza y «perjudica» psicométricamente a una prueba normativa.

Las pruebas criteriales definen el dominio antes de la evaluación

El rasgo definitorio de la evaluación criterial es que el estándar existe con independencia del rendimiento de los estudiantes. La puntuación de corte de un examen de conducción (por ejemplo, el 80 % de respuestas correctas en la prueba teórica) no varía según cómo rindan otros candidatos ese día. Esto exige una especificación deliberada de los objetivos de aprendizaje, los dominios de contenido y los estándares de rendimiento antes de administrar la prueba. El trabajo de Robert Mager sobre objetivos conductuales (1962) proporcionó gran parte del marco práctico para este enfoque de diseño.

Ambos tipos tienen usos legítimos

Las evaluaciones normativas sirven para la selección, el cribado y las comparaciones diagnósticas entre poblaciones. Responden a preguntas como: ¿está el rendimiento lector de este centro por encima o por debajo de la media nacional? ¿Qué estudiantes tienen más probabilidades de necesitar una intervención intensiva? Las evaluaciones criteriales sirven para la instrucción, la certificación y la rendición de cuentas respecto a estándares. Responden a: ¿ha aprendido este estudiante a multiplicar fracciones? ¿Está este graduado preparado para ejercer la abogacía? Utilizar un instrumento normativo para tomar decisiones criteriales, o viceversa, produce conclusiones engañosas.

Las puntuaciones de corte en las pruebas criteriales implican juicios de valor

Establecer el umbral de competencia en una prueba criterial es una decisión de política educativa, no puramente técnica. Métodos como el método Angoff, el método de los marcadores o el método de grupos contrastados son enfoques todos ellos defendibles, pero todos incorporan juicios sobre lo que significa ser «competente». Robert Linn (2003) documentó extensamente cómo las puntuaciones de corte de competencia en las evaluaciones estatales variaban de forma significativa entre estados, produciendo conclusiones inconsistentes sobre el rendimiento del alumnado aun cuando se medían contenidos similares.

Aplicación en el aula

Uso de evaluaciones criteriales para la planificación didáctica

Una maestra de quinto de primaria que diseña una unidad sobre fracciones redacta objetivos de aprendizaje específicos: los estudiantes sumarán fracciones con denominadores distintos, compararán fracciones utilizando fracciones de referencia y resolverán problemas verbales con suma de fracciones. La prueba de la unidad se construye directamente a partir de esos objetivos, con umbrales de dominio claros (por ejemplo, el 80 % de respuestas correctas dentro de cada grupo de objetivos).

Tras la corrección, la maestra desglosa los resultados por objetivo en lugar de examinar las puntuaciones totales. Varios estudiantes dominan la suma de denominadores distintos, pero tienen dificultades con los problemas verbales; un grupo más reducido muestra lagunas en la comparación mediante fracciones de referencia. El refuerzo se dirige a esas lagunas concretas. Las puntuaciones totales habrían ocultado por completo esta información didáctica.

Reconocer el pensamiento normativo en la calificación cotidiana

Un profesor de biología de secundaria ajusta las notas en curva después de un examen difícil: la puntuación más alta fue un 78, así que añade 22 puntos a la puntuación de todos los estudiantes. Esta es una práctica normativa integrada en el contexto del aula. La consecuencia: estudiantes que no han aprendido bien el contenido pueden recibir una calificación aprobada, mientras que el profesor no obtiene información fiable sobre qué conceptos necesitan refuerzo. La alternativa criterial consiste en examinar por qué las puntuaciones fueron bajas (¿fue suficiente la instrucción? ¿estaba la prueba alineada con lo enseñado?) y abordar la causa subyacente en lugar de ajustar las puntuaciones.

Combinar ambos enfoques para el cribado y la instrucción

Una coordinadora de lectoescritura en educación secundaria utiliza una evaluación de lectura normada a nivel nacional tres veces al año para identificar a los estudiantes con un rendimiento significativamente inferior a la norma de su nivel: un uso normativo. Los estudiantes identificados reciben una evaluación diagnóstica criterial, vinculada a estándares específicos de decodificación, fluidez y comprensión, para determinar los objetivos de instrucción. La evaluación normativa identifica quién necesita atención; la evaluación criterial determina qué instrucción necesitan. Ninguno de los dos instrumentos por sí solo realizaría bien ambas funciones.

Evidencia investigadora

El trabajo fundacional de Robert Glaser y Anthony Nitko estableció el argumento psicométrico a favor de la evaluación criterial en contextos educativos. La monografía de Nitko de 1980, Distinguishing the Many Varieties of Criterion-Referenced Tests, ofreció la primera taxonomía exhaustiva de los enfoques criteriales, aclarando distinciones que habían quedado difusas en la década posterior al artículo de Glaser de 1963.

La investigación de James Popham sobre la sensibilidad instruccional de las evaluaciones, trabajo que mantuvo desde los años setenta hasta los años diez del siglo XXI, demostró que la mayoría de las pruebas estandarizadas a gran escala, incluidas muchas pruebas estatales de rendición de cuentas nominalmente etiquetadas como criteriales, contienen ítems dominados por el nivel socioeconómico más que por la calidad de la instrucción. Su concepto de pruebas «insensibles a la instrucción» (2007, Educational Researcher) cuestionó el supuesto de que las pruebas alineadas con estándares miden automáticamente la eficacia docente.

W. James Popham y Eva Baker (1970) realizaron comparaciones empíricas tempranas entre enfoques normativos y criteriales, y constataron que los docentes que recibían datos de rendimiento criteriales realizaban ajustes didácticos más precisos que quienes recibían puntuaciones normativas. Este hallazgo se ha replicado en investigaciones más recientes: Wiliam y Thompson (2007) en Ahead of the Curve revisaron la literatura sobre evaluación formativa y concluyeron que la retroalimentación basada en criterios supera sistemáticamente a la retroalimentación comparativa para mejorar el aprendizaje del alumnado.

El análisis de Robert Linn de 2003 en Educational Researcher, «Accountability: Responsibility and Reasonable Expectations», examinó dos décadas de datos de evaluaciones estatales y constató que los aumentos en las tasas de competencia en las pruebas criteriales estatales frecuentemente no se correlacionaban con los avances en el NAEP (un instrumento normado a nivel nacional), lo que planteaba interrogantes sobre si las puntuaciones de corte estatales se habían establecido a niveles defendibles. Su trabajo ilustró que la interpretación criterial solo tiene valor en la medida en que los propios criterios sean de calidad.

Concepciones erróneas frecuentes

Concepción errónea 1: Las pruebas estandarizadas son siempre normativas. Muchas pruebas estandarizadas son criteriales. «Estandarizado» significa simplemente que se administra y corrige en condiciones uniformes y consistentes. Las pruebas estatales vinculadas a estándares de contenido (PARCC, SBAC, STAAR) son estandarizadas y criteriales. El SAT y el ACT son estandarizados y normativos. El término «estandarizado» describe el procedimiento de administración, no el marco interpretativo.

Concepción errónea 2: Las evaluaciones criteriales son más fáciles de construir. Dado que las evaluaciones criteriales exigen estándares de aprendizaje explícitos y operacionalizados, con puntuaciones de corte defendibles, a menudo son más difíciles de elaborar rigurosamente que los instrumentos normativos. Una prueba normativa puede ensamblarse seleccionando ítems que maximicen la varianza de puntuaciones en un grupo normativo. Una prueba criterial requiere especificar con antelación exactamente qué deben ser capaces de hacer los estudiantes, cómo se muestreará el rendimiento y qué umbral constituye el dominio, decisiones que exigen tanto experiencia en el contenido como un trabajo deliberado de validez.

Concepción errónea 3: Las evaluaciones normativas no tienen cabida en el aula. Para algunas decisiones didácticas, las comparaciones normativas son genuinamente útiles. Un docente que desea saber si el desarrollo de la escritura de su clase está en línea con el de estudiantes similares a nivel nacional se beneficia de los datos normados. Un orientador escolar que identifica a estudiantes que pueden necesitar servicios de altas capacidades requiere comparaciones normativas. El problema no es la interpretación normativa en sí, sino su uso para decisiones didácticas que requieren información criterial (es decir, ¿qué necesita aprender exactamente este estudiante a continuación?).

Conexión con el aprendizaje activo

La elección entre marcos normativos y criteriales determina cómo funciona el aprendizaje activo en el aula. Las metodologías de aprendizaje activo —pensar-emparejar-compartir, el seminario socrático, la indagación basada en proyectos— están diseñadas para desarrollar una competencia genuina en habilidades específicas: análisis, argumentación, resolución colaborativa de problemas. Estos resultados son criteriales por naturaleza. Un estudiante ha desarrollado o no la capacidad de construir un argumento razonado a partir de evidencias. La clasificación normativa no aporta nada a esa cuestión.

La calificación basada en estándares operacionaliza los principios criteriales a nivel de comunicación de resultados, sustituyendo las notas porcentuales por indicadores de dominio vinculados directamente a los objetivos de aprendizaje. Los docentes que trabajan en sistemas basados en estándares descubren que las evaluaciones criteriales se alinean de forma natural con los ciclos formativos: evaluar respecto al estándar, identificar lagunas, ofrecer práctica dirigida, volver a evaluar. La calificación normativa interrumpe este ciclo porque la nota de un estudiante depende en parte del rendimiento de sus compañeros, no de su propio progreso hacia el dominio.

La evaluación sumativa al final de una unidad o curso tiene un propósito criterial en la mayoría de los contextos de instrucción: ¿ha alcanzado el estudiante los objetivos de aprendizaje? Cuando las notas sumativas se ajustan en curva (un ajuste normativo), pierden su integridad diagnóstica y su utilidad como evidencia de competencia para futuros docentes o empleadores. La evaluación diagnóstica al inicio de una secuencia de aprendizaje es prácticamente siempre criterial: los docentes necesitan saber específicamente qué conocen ya los estudiantes y qué no saben todavía, no cómo se clasifican respecto a sus compañeros.

Para que el aprendizaje activo funcione bien, los estudiantes necesitan retroalimentación criterial. La investigación sobre el aprendizaje autorregulado (Zimmerman, 2002) demuestra que los estudiantes ajustan su esfuerzo y su estrategia a partir de información sobre la brecha: «Todavía no domino X» es procesable. «Estoy en el percentil 43» no lo es. Construir sistemas de evaluación en torno a criterios definidos proporciona a los estudiantes la retroalimentación específica que sostiene el esfuerzo productivo y el aprendizaje genuino.

Fuentes

  1. Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions. American Psychologist, 18(8), 519–521.

  2. Popham, W. J., & Husek, T. R. (1969). Implications of criterion-referenced measurement. Journal of Educational Measurement, 6(1), 1–9.

  3. Linn, R. L. (2003). Accountability: Responsibility and reasonable expectations. Educational Researcher, 32(7), 3–13.

  4. Nitko, A. J. (1980). Distinguishing the many varieties of criterion-referenced tests. Research Report RR-80-9. Educational Testing Service.