Definición

Ante cualquier resultado de evaluación se pueden plantear dos preguntas fundamentalmente diferentes: "¿Cómo se desempeñó este estudiante en comparación con los demás?" y "¿Cómo se desempeñó este estudiante respecto a un estándar definido?" La primera pregunta produce una interpretación normativa; la segunda, una interpretación criterial.

Una evaluación normativa interpreta la puntuación de un estudiante en relación con un grupo de referencia, normalmente una muestra representativa y amplia de estudiantes que realizaron la misma prueba. La puntuación en sí misma tiene poco significado aislada; lo que importa es la posición del estudiante dentro de la distribución. Un puntaje de 72 dice poco hasta que se sabe que ubica al estudiante en el percentil 88. Ejemplos clásicos son las pruebas de CI, muchos exámenes de ingreso universitario y baterías de rendimiento con normas nacionales como las Iowa Assessments.

Una evaluación criterial interpreta la puntuación de un estudiante frente a un conjunto predeterminado de criterios de aprendizaje, independientemente del desempeño de los demás. La pregunta es si el estudiante demostró dominio de habilidades o contenidos específicos. Si todos los estudiantes de la clase obtienen un 95%, eso es un éxito, no una señal de que la prueba era demasiado fácil. Ejemplos incluyen el examen de manejo, los exámenes de barra y las pruebas de aula construidas alrededor de objetivos de aprendizaje.

La distinción no radica en la prueba en sí, sino en cómo se construyen e interpretan las puntuaciones. Las decisiones de diseño de la evaluación, la dificultad de los ítems, la forma de reportar resultados y los puntajes de corte se derivan del propósito que la evaluación pretende cumplir.

Contexto Histórico

Las raíces intelectuales de la evaluación normativa se remontan al trabajo de Francis Galton sobre distribuciones estadísticas en la década de 1880. Galton introdujo el concepto de clasificar individuos en una curva normal, sentando las bases de la tradición psicométrica. Su alumno Karl Pearson formalizó la correlación y las herramientas estadísticas utilizadas en la normalización de pruebas.

La era moderna de las pruebas normativas comenzó con las pruebas Army Alpha y Beta desarrolladas por Robert Yerkes y sus colegas durante la Primera Guerra Mundial (1917–1919). Ante la necesidad de clasificar rápidamente a 1,75 millones de reclutas, el ejército estadounidense requería instrumentos que ordenaran a las personas de manera eficiente. La prueba Alpha, para reclutas alfabetizados, y la prueba Beta, para analfabetos o no angloparlantes, producían clasificaciones comparativas en lugar de veredictos de dominio. Este modelo moldeó las pruebas educativas estadounidenses durante décadas.

La prueba Stanford-Binet de CI de Lewis Terman (1916) y, posteriormente, el desarrollo del SAT por Carl Brigham en la década de 1920 extendieron el modelo normativo a la educación. A mediados del siglo XX, las pruebas estandarizadas normativas dominaban la escolarización estadounidense, especialmente a través de instrumentos producidos por editoriales como el Educational Testing Service (ETS) y el programa de pruebas de Iowa.

La alternativa criterial emergió explícitamente en 1963, cuando el psicólogo Robert Glaser publicó "Instructional Technology and the Measurement of Learning Outcomes" en la revista American Psychologist. Glaser acuñó el término "medición criterial" y argumentó que la medición educativa necesitaba un marco fundamentado en objetivos conductuales específicos, no en clasificaciones comparativas. James Popham y T.R. Husek ampliaron el marco teórico en un artículo de 1969 en el Journal of Educational Measurement, que sigue siendo un texto fundacional.

El movimiento de estándares de la década de 1990, culminando en la Ley No Child Left Behind (2001) y más tarde en la Every Student Succeeds Act (2015), orientó fuertemente la educación estadounidense hacia evaluaciones estatales criteriales vinculadas a estándares de contenido por grado, aunque los instrumentos normativos mantuvieron su predominio en las admisiones universitarias y la identificación de estudiantes con altas capacidades.

Principios Clave

El Significado de una Puntuación Depende del Marco de Referencia

Una puntuación normativa responde una pregunta comparativa: ¿dónde se ubica este estudiante en relación con los demás? Una puntuación criterial responde una pregunta de dominio: ¿qué puede hacer este estudiante? Son preguntas distintas, y mezclarlas produce conclusiones distorsionadas. Un estudiante que obtiene el percentil 50 en una prueba normativa de lectura puede ser o no un lector competente; eso depende enteramente de lo que el propio grupo de referencia sea capaz de hacer.

Las Pruebas Normativas Están Diseñadas para Diferenciar a los Estudiantes

Los diseñadores de instrumentos normativos incluyen deliberadamente ítems de dificultad variable y eliminan aquellos que casi todos responden correctamente o incorrectamente. El objetivo de diseño es lograr alta discriminación entre estudiantes. Una prueba normativa bien construida produce puntuaciones distribuidas en todo el rango de la distribución. Este principio de diseño es adecuado para propósitos de clasificación, pero resulta contraproducente para medir resultados de instrucción: los ítems que reflejan lo que se enseñó tienden a ser respondidos correctamente por la mayoría de los estudiantes tras una buena instrucción, lo que reduce la varianza y "perjudica" psicométricamente a una prueba normativa.

Las Pruebas Criteriales Definen el Dominio Antes de Evaluar

La característica definitoria de la evaluación criterial es que el estándar existe con independencia del desempeño de los estudiantes. El puntaje de corte para una licencia de conducir (por ejemplo, 80% de respuestas correctas en el examen teórico) no cambia según el desempeño de otros postulantes ese día. Esto requiere especificar de forma deliberada los objetivos de aprendizaje, los dominios de contenido y los estándares de desempeño antes de administrar la prueba. El trabajo de Robert Mager sobre objetivos conductuales (1962) proporcionó gran parte del marco práctico para este enfoque de diseño.

Ambos Tipos Tienen Usos Legítimos

Las evaluaciones normativas sirven para la selección, el cribado y las comparaciones diagnósticas entre poblaciones. Responden preguntas como: ¿está el desempeño lector de esta escuela por encima o por debajo del promedio nacional? ¿Qué estudiantes tienen más probabilidad de necesitar intervención intensiva? Las evaluaciones criteriales sirven para la instrucción, la certificación y la rendición de cuentas frente a estándares. Responden: ¿aprendió este estudiante a multiplicar fracciones? ¿Está este egresado listo para ejercer el derecho? Usar un instrumento normativo para tomar decisiones criteriales, o viceversa, produce conclusiones equívocas.

Los Puntajes de Corte en Pruebas Criteriales Involucran Juicios de Valor

Establecer el umbral de competencia en una prueba criterial es una decisión de política, no una cuestión puramente técnica. Métodos como el método Angoff, el método de marcador y el método de grupos contrastantes son todos enfoques defendibles, pero incorporan juicios sobre qué significa "competente". Robert Linn (2003) documentó extensamente cómo los puntajes de corte de competencia en las evaluaciones estatales variaban enormemente entre estados, generando conclusiones inconsistentes sobre el rendimiento estudiantil incluso al medir contenidos similares.

Aplicación en el Aula

Usar Evaluaciones Criteriales para la Planificación Instruccional

Una docente de quinto grado que diseña una unidad sobre fracciones redacta objetivos de aprendizaje específicos: los estudiantes sumarán fracciones con denominadores distintos, compararán fracciones usando fracciones de referencia y resolverán problemas de palabras con suma de fracciones. La prueba de la unidad se construye directamente a partir de esos objetivos, con umbrales de dominio claros (por ejemplo, 80% de respuestas correctas dentro de cada conjunto de objetivos).

Al revisar los resultados, la docente desagrega los datos por objetivo en lugar de fijarse en los puntajes totales. Varios estudiantes dominaron la suma con denominadores distintos, pero tuvieron dificultades con los problemas de palabras; un grupo más pequeño mostró brechas en las comparaciones con fracciones de referencia. La reenseñanza apunta a esas brechas específicas. Los puntajes totales habrían ocultado por completo esta información pedagógica.

Reconocer el Pensamiento Normativo en la Calificación Cotidiana

Un docente de biología de preparatoria califica en curva después de un examen difícil: la puntuación más alta fue 78, así que le suma 22 puntos a la puntuación de todos los estudiantes. Esta es una práctica normativa insertada en el contexto del aula. La consecuencia: estudiantes que aprendieron poco el contenido pueden obtener calificaciones aprobatorias, mientras que el docente no recibe información confiable sobre qué conceptos necesitan reenseñanza. Una alternativa criterial consiste en examinar por qué los puntajes fueron bajos (¿fue suficiente la instrucción? ¿estaba la prueba alineada con lo enseñado?) y abordar la causa subyacente en lugar de ajustar las puntuaciones.

Combinar Ambos Enfoques para el Cribado y la Instrucción

Una coordinadora de alfabetización de secundaria utiliza una evaluación de lectura con normas nacionales (por ejemplo, NWEA MAP) tres veces al año para identificar a los estudiantes que se ubican significativamente por debajo de las normas de su grado — un uso normativo. Los estudiantes identificados reciben una evaluación diagnóstica criterial (vinculada a estándares específicos de decodificación, fluidez y comprensión) para precisar los objetivos instruccionales. El cribado normativo identifica quién necesita atención; la evaluación criterial identifica qué instrucción necesitan. Ningún instrumento por sí solo haría bien ambas tareas.

Evidencia de Investigación

El trabajo fundacional de Robert Glaser y Anthony Nitko estableció el argumento psicométrico a favor de la evaluación criterial en contextos educativos. La monografía de Nitko de 1980, Distinguishing the Many Varieties of Criterion-Referenced Tests, ofreció la primera taxonomía comprehensiva de los enfoques criteriales, clarificando distinciones que habían quedado difusas en la década posterior al artículo de Glaser de 1963.

La investigación de James Popham sobre la sensibilidad instruccional de las evaluaciones, trabajo que mantuvo desde la década de 1970 hasta la de 2010, demostró que la mayoría de las pruebas estandarizadas a gran escala, incluidas muchas pruebas de rendición de cuentas estatales nominalmente etiquetadas como criteriales, contienen ítems determinados principalmente por el origen socioeconómico y no por la calidad de la instrucción. Su concepto de pruebas "instruccionalmente insensibles" (2007, Educational Researcher) cuestionó el supuesto de que las pruebas alineadas a estándares miden automáticamente la efectividad docente.

W. James Popham y Eva Baker (1970) realizaron comparaciones empíricas tempranas entre los enfoques normativo y criterial, y encontraron que los docentes que recibían datos de desempeño criteriales realizaban ajustes instruccionales más precisos que quienes recibían puntuaciones normativas. Este hallazgo se ha replicado en investigaciones más recientes: Wiliam y Thompson (2007), en Ahead of the Curve, revisaron la literatura sobre evaluación formativa y concluyeron que la retroalimentación basada en criterios supera consistentemente a la retroalimentación comparativa para mejorar el aprendizaje estudiantil.

El análisis de Robert Linn de 2003 en Educational Researcher, "Accountability: Responsibility and Reasonable Expectations", examinó dos décadas de datos de evaluaciones estatales y encontró que los aumentos en las tasas de competencia en las pruebas criteriales estatales frecuentemente no se correlacionaban con los avances en el NAEP (un instrumento con normas nacionales), lo que planteó interrogantes sobre si los puntajes de corte estatales se habían fijado a niveles defendibles. Su trabajo ilustró que la interpretación criterial solo es tan significativa como la calidad de los propios criterios.

Conceptos Erróneos Frecuentes

Concepto erróneo 1: Las pruebas estandarizadas siempre son normativas. Muchas pruebas estandarizadas son criteriales. "Estandarizado" simplemente significa que se administran y califican bajo condiciones consistentes y uniformes. Las pruebas estatales vinculadas a estándares de contenido (PARCC, SBAC, STAAR) son estandarizadas y criteriales. El SAT y el ACT son estandarizados y normativos. El término "estandarizado" describe el procedimiento de administración, no el marco interpretativo.

Concepto erróneo 2: Las evaluaciones criteriales son más fáciles de construir. Dado que las evaluaciones criteriales requieren estándares de aprendizaje explícitos y operacionalizados, con puntajes de corte defendibles, a menudo son más difíciles de construir rigurosamente que los instrumentos normativos. Una prueba normativa puede armarse seleccionando ítems que maximicen la varianza de puntuaciones en el grupo de referencia. Una prueba criterial requiere especificar de antemano exactamente qué deben ser capaces de hacer los estudiantes, cómo se muestreará el desempeño y qué umbral constituye el dominio — decisiones que exigen tanto conocimiento del contenido como un trabajo deliberado de validez.

Concepto erróneo 3: Las evaluaciones normativas no tienen lugar en el aula. Para algunas decisiones instruccionales, las comparaciones normativas son genuinamente útiles. Una docente que se pregunta si el desarrollo de escritura de su clase está en línea con el de estudiantes similares a nivel nacional se beneficia de datos normados. Un orientador escolar que identifica a estudiantes que podrían necesitar servicios para altas capacidades requiere comparaciones normativas. El problema no es la interpretación normativa en sí, sino usarla para decisiones instruccionales que requieren información criterial (es decir, ¿qué necesita aprender este estudiante ahora?).

Conexión con el Aprendizaje Activo

La elección entre marcos normativos y criteriales define cómo funciona el aprendizaje activo en el aula. Las metodologías de aprendizaje activo — pensar-compartir en parejas, el seminario socrático, la indagación basada en proyectos — están diseñadas para desarrollar competencia genuina en habilidades específicas: análisis, argumentación, resolución colaborativa de problemas. Estos resultados son criteriales por naturaleza. Un estudiante ha desarrollado o no la capacidad de construir un argumento razonado a partir de evidencia. La clasificación normativa no aporta nada a esa pregunta.

La calificación basada en estándares operacionaliza los principios criteriales a nivel de reporte, reemplazando las calificaciones porcentuales con indicadores de dominio vinculados directamente a los objetivos de aprendizaje. Los docentes que trabajan en sistemas basados en estándares encuentran que las evaluaciones criteriales se alinean naturalmente con los ciclos formativos: evaluar frente al estándar, identificar brechas, ofrecer práctica dirigida, reevaluar. La calificación normativa interrumpe este ciclo porque la calificación de un estudiante depende en parte del desempeño de sus compañeros, no de su propio progreso hacia el dominio.

La evaluación sumativa al final de una unidad o curso cumple un propósito criterial en la mayoría de los contextos instruccionales: ¿alcanzó el estudiante los objetivos de aprendizaje? Cuando las calificaciones sumativas se curvan (un ajuste normativo), pierden su integridad diagnóstica y su utilidad como evidencia de competencia para futuros docentes o empleadores. La evaluación diagnóstica al inicio de una secuencia de aprendizaje es casi siempre criterial: los docentes necesitan saber específicamente qué saben ya los estudiantes y qué aún no saben, no cómo se clasifican en relación con sus compañeros.

Para que el aprendizaje activo funcione bien, los estudiantes necesitan retroalimentación criterial. La investigación sobre el aprendizaje autorregulado (Zimmerman, 2002) muestra que los estudiantes ajustan su esfuerzo y sus estrategias a partir de información sobre brechas: "Aún no he dominado X" es accionable. "Estoy en el percentil 43" no lo es. Construir sistemas de evaluación en torno a criterios definidos le da a los estudiantes la retroalimentación específica que sostiene la lucha productiva y el aprendizaje genuino.

Fuentes

  1. Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions. American Psychologist, 18(8), 519–521.

  2. Popham, W. J., & Husek, T. R. (1969). Implications of criterion-referenced measurement. Journal of Educational Measurement, 6(1), 1–9.

  3. Linn, R. L. (2003). Accountability: Responsibility and reasonable expectations. Educational Researcher, 32(7), 3–13.

  4. Nitko, A. J. (1980). Distinguishing the many varieties of criterion-referenced tests. Research Report RR-80-9. Educational Testing Service.