Definición

La evaluación formativa es cualquier actividad de evaluación realizada durante el proceso de aprendizaje con el propósito explícito de informar la instrucción y mejorar el aprendizaje del estudiante antes de que este concluya. No es un examen ni una calificación: es una conversación continua entre docente y estudiante sobre el estado actual del aprendizaje y hacia dónde necesita avanzar.

La definición canónica proviene de la síntesis de Paul Black y Dylan Wiliam de 1998: una evaluación es formativa cuando la evidencia del aprendizaje del estudiante se elicita, interpreta y utiliza para tomar decisiones sobre los próximos pasos en la instrucción. Tres actores participan en ese ciclo de retroalimentación: el docente, los pares y el propio estudiante, y los tres pueden iniciarlo. Un docente que revisa boletas de salida en la puerta, dos estudiantes que comparan su razonamiento durante un think-pair-share, y un estudiante que verifica su borrador con una lista de criterios de éxito están todos poniendo en práctica la evaluación formativa.

La palabra "formativa" captura la lógica temporal: esta evaluación forma al estudiante mientras la formación aún es posible. En contraste, la evaluación sumativa mide lo que el estudiante logró después de que termina la instrucción. Ambas cumplen propósitos esenciales, pero confundirlas — calificar el trabajo formativo o tratar las calificaciones sumativas como retroalimentación accionable — debilita a las dos.

Contexto Histórico

La base intelectual de la evaluación formativa atraviesa varias décadas de investigación cognitiva y educativa, que comienza mucho antes de que el término mismo se volviera común.

El trabajo de Benjamin Bloom sobre el aprendizaje por dominio en 1969 introdujo la idea central: si los estudiantes reciben retroalimentación correctiva en puntos de revisión regulares durante la instrucción, el rendimiento mejora sustancialmente. Bloom observó que la tutoría individual producía resultados dos desviaciones estándar por encima de la instrucción convencional en el aula. Atribuyó esa brecha en gran medida al monitoreo constante y al ajuste en tiempo real del tutor. La evaluación formativa, en el marco de Bloom, era una aproximación en el aula al ciclo de retroalimentación del tutor.

Michael Scriven acuñó el término "evaluación formativa" en 1967, originalmente aplicado al desarrollo curricular y no a la evaluación estudiantil. Lee Cronbach extendió el concepto al aprendizaje de los estudiantes poco después. Pero fue el trabajo de Paul Black y Dylan Wiliam en el King's College London en 1998 el que elevó la evaluación formativa a una prioridad de investigación en la práctica en el aula. Su artículo de revisión "Inside the Black Box", publicado en el Phi Delta Kappan, sintetizó 250 estudios y encontró tamaños de efecto que van de 0.4 a 0.7, suficientes para mover a un estudiante promedio del percentil 50 al 70. La escala y accesibilidad de la revisión lo convirtieron en uno de los artículos más citados en la investigación educativa.

Wiliam continuó desarrollando el marco a través del Assessment Reform Group en el Reino Unido, y su libro de 2011 Embedded Formative Assessment tradujo la investigación en rutinas estructuradas de aula que los docentes podían adoptar sin revisar el currículo completo. El trabajo paralelo de John Hattie, cuyo metaanálisis de 2009 Visible Learning agregó hallazgos de 800 metaanálisis, confirmó de manera independiente la primacía de la retroalimentación: se ubicó entre las influencias de mayor efecto sobre el rendimiento en su síntesis.

Principios Clave

El Ciclo de Retroalimentación se Cierra

La evaluación formativa solo funciona cuando la evidencia del aprendizaje realmente cambia lo que sucede después. Recopilar datos y archivarlos es monitoreo, no evaluación formativa. La característica definitoria es que la información retroalimenta la instrucción: el docente vuelve a enseñar un concepto confuso, acelera el contenido que los estudiantes ya dominaron o rediseña una tarea que no generó el pensamiento esperado. Si el ciclo de retroalimentación no se cierra, la evaluación no fue formativa, independientemente de la herramienta utilizada.

La Retroalimentación Apunta a la Brecha

La retroalimentación formativa efectiva identifica la brecha entre la comprensión actual del estudiante y el objetivo de aprendizaje, y luego proporciona información que ayuda a cerrarla. Este es el marco articulado por Sadler (1989) y posteriormente sistematizado por el modelo de retroalimentación de Hattie y Timperley de 2007. La retroalimentación que simplemente marca una respuesta como incorrecta le da al estudiante un veredicto sin una dirección. La retroalimentación que nombra lo que el estudiante hizo, lo que el objetivo requiere y cómo se ve un próximo paso concreto le da tracción.

Los Objetivos de Aprendizaje Deben ser Transparentes

Los estudiantes no pueden autoevaluarse, responder a la retroalimentación ni aprender de sus pares si no saben a qué apuntan. La evaluación formativa depende de objetivos de aprendizaje claros, específicos y accesibles para los estudiantes. Cuando los docentes comparten no solo la tarea sino los criterios de éxito, y ayudan a los estudiantes a internalizar cómo se ve "cumplir con el estándar" a través de ejemplos trabajados o documentos ancla, la retroalimentación formativa se vuelve accionable en lugar de confusa.

La Coevaluación y la Autoevaluación Amplían la Retroalimentación

Ningún docente puede generar retroalimentación significativa e individualizada para cada estudiante en cada tarea. La coevaluación entre pares y la autoevaluación escalan el sistema de retroalimentación sin escalar la carga de trabajo docente, y tienen sus propios beneficios de aprendizaje. Cuando los estudiantes evalúan el trabajo de un compañero con base en criterios compartidos, practican el pensamiento analítico que el objetivo de aprendizaje requiere. Cuando los estudiantes evalúan su propio trabajo con honestidad, desarrollan la conciencia metacognitiva que predice el éxito académico a largo plazo (Zimmerman, 2002).

Las Bajas Apuestas Protegen la Evidencia Honesta

Si los estudiantes creen que sus respuestas formativas serán calificadas, actuarán en lugar de revelar su comprensión real. Las calificaciones aplicadas al trabajo formativo suprimen los errores honestos que son más útiles para un docente que ajusta la instrucción. La investigación muestra de manera consistente que eliminar las calificaciones de las actividades formativas, siendo explícitos con los estudiantes en que los errores son esperados y útiles, mejora tanto la calidad de la evidencia recopilada como la disposición de los estudiantes a tomar riesgos intelectuales (Butler, 1988).

Aplicación en el Aula

Primaria: La Revisión con Semáforo

Una docente de tercer grado de matemáticas presenta una nueva estrategia de multiplicación. En una pausa natural de la clase, pide a los estudiantes que levanten una tarjeta roja, amarilla o verde (o que muestren dedos): verde significa "lo entendí", amarillo significa "no estoy seguro", rojo significa "estoy perdido". Recorre el salón en segundos. Lleva a los estudiantes con tarjeta roja a un grupo pequeño para modelado adicional, mientras los de tarjeta verde trabajan en una extensión de desafío. Los de tarjeta amarilla se emparejan para comparar sus enfoques. La docente ha diferenciado la instrucción en menos de un minuto usando evidencia real del salón en lugar de intuición.

Secundaria: La Galería de Pizarrones para el Mapeo de Argumentos

Un docente de inglés de noveno grado pide a los estudiantes que escriban sus tesis en pizarrones individuales y las levanten simultáneamente. Recorre la fila y ve de inmediato que alrededor de un tercio de la clase escribió oraciones temáticas en lugar de afirmaciones argumentables. En lugar de marcar cada papel, selecciona tres ejemplos anónimos: uno sólido, uno parcial y uno poco desarrollado, y realiza un breve análisis colectivo. Los estudiantes revisan sus pizarrones. El docente recopiló evidencia de cada estudiante y redirigió la instrucción sin ninguna calificación.

Educación Superior y Desarrollo Profesional: El Papel de Un Minuto

Un facilitador de formación docente hace una pausa quince minutos antes del final del taller y plantea dos preguntas: "¿Cuál es la cosa más importante que aprendiste hoy?" y "¿Qué pregunta aún tienes?" Los participantes escriben durante dos minutos y entregan los papelitos. El facilitador los lee esa noche y abre la siguiente sesión abordando las tres preguntas pendientes más comunes. Los participantes aprenden que su confusión es anticipada y valorada; el facilitador aprende por dónde comenzar la próxima vez.

Las boletas de salida son una de las implementaciones más prácticas de este principio en todos los niveles educativos: un estímulo estructurado al final de la clase que genera evidencia accionable en menos de cinco minutos.

Evidencia de Investigación

La revisión de Black y Wiliam de 1998 estableció la base de evidencia fundamental. Al sintetizar aproximadamente 250 estudios, encontraron que la evaluación formativa bien implementada producía tamaños de efecto de entre 0.4 y 0.7, con los efectos más fuertes observados en estudiantes de bajo rendimiento. Esto es notable: la evaluación formativa no es una estrategia que beneficia principalmente a los estudiantes de alto rendimiento. Los mecanismos que identificaron incluyeron objetivos de aprendizaje más claros, retroalimentación más rica y mayor responsabilidad del estudiante sobre su propio aprendizaje.

El artículo de Hattie y Timperley de 2007 "The Power of Feedback", publicado en Review of Educational Research, metaanalizó 196 estudios con 6,972 tamaños de efecto y encontró un tamaño de efecto promedio de 0.79 para la retroalimentación, una de las influencias instruccionales más fuertes en toda la síntesis. De manera crítica, encontraron que la retroalimentación dirigida al yo ("eres un buen estudiante") era en gran medida ineficaz. La retroalimentación dirigida a la tarea, el proceso y las estrategias de autorregulación del estudiante produjo las ganancias más fuertes.

Kingsley y Grabner-Hagen (2015) examinaron herramientas digitales de evaluación formativa en aulas de K-12 y encontraron que la retroalimentación inmediata, disponible a través de sistemas de respuesta en el aula, produjo resultados de aprendizaje más sólidos que la retroalimentación escrita diferida cuando los estudiantes tenían orientación suficiente para actuar sobre lo que recibían. La velocidad de la retroalimentación importa, pero solo cuando se combina con claridad.

El metaanálisis de Kingston y Nash de 2011, publicado en Educational Measurement: Issues and Practice, vale la pena mencionar por su honestidad intelectual: encontró tamaños de efecto más pequeños (aproximadamente 0.20) que la síntesis de Black y Wiliam. Kingston y Nash atribuyeron la diferencia a la calidad de los estudios y a la fidelidad de implementación. La evaluación formativa con implementación débil produce resultados débiles. La investigación respalda la práctica, pero no de forma acrítica: la ejecución importa.

Conceptos Erróneos Comunes

La evaluación formativa significa aplicar exámenes frecuentes. Los exámenes de bajo riesgo pueden tener propósitos formativos, pero la evaluación formativa se define por lo que ocurre con la evidencia, no por el formato de la herramienta. Un docente que aplica un examen de cinco preguntas y luego continúa con la siguiente clase independientemente de los resultados ha realizado un examen, no una evaluación formativa. Por el contrario, una rica discusión en clase en la que el docente escucha atentamente y ajusta el rumbo del día en función de lo que dicen los estudiantes es altamente formativa, sin necesidad de ningún examen.

La evaluación formativa es solo responsabilidad del docente. Este concepto erróneo reduce la evaluación formativa a una tarea de monitoreo realizada sobre los estudiantes en lugar de un proceso colaborativo que los involucra. Cuando los estudiantes aprenden a evaluar su propia comprensión, establecer objetivos de aprendizaje y dar retroalimentación útil a sus pares, se convierten en participantes activos en el progreso de su propio aprendizaje. La coevaluación entre pares en particular genera retroalimentación en un volumen y frecuencia que ningún docente individual puede igualar, y el acto de evaluar el trabajo de otro profundiza la comprensión del propio evaluador.

Los resultados de la evaluación formativa deben ir al libro de calificaciones. Calificar el trabajo formativo confunde su propósito diagnóstico con el propósito evaluador de la evaluación sumativa. Cuando los estudiantes saben que cada respuesta será puntuada, protegen su promedio en lugar de revelar su pensamiento. La evidencia formativa más útil a menudo proviene de comprensiones incompletas, caminos equivocados e ideas a medio formar, precisamente lo que las calificaciones penalizan. Mantener separados los registros formativos y sumativos protege la seguridad psicológica que la evidencia formativa honesta requiere.

Conexión con el Aprendizaje Activo

La evaluación formativa y el aprendizaje activo son mutuamente reforzantes: el aprendizaje activo genera evidencia observable del pensamiento, y la evaluación formativa le da a los docentes y estudiantes un mecanismo para usar esa evidencia. Sin retroalimentación formativa, el aprendizaje activo puede ser atractivo pero sin dirección; sin estructuras de aprendizaje activo, la evaluación formativa carece de la evidencia rica que necesita para ser útil.

El think-pair-share es uno de los instrumentos de evaluación formativa más poderosos de uso común. Cuando los estudiantes se emparejan para discutir una pregunta antes de compartir con la clase, el docente circula y escucha, recopilando evidencia en tiempo real sobre lo que los estudiantes comprenden, lo que confunden y lo que encuentran genuinamente difícil. La fase de puesta en común revela qué ideas son generalizadas y cuáles son particulares. El docente puede ajustar la instrucción en el momento con base en lo que surgió en las parejas.

La galería de aprendizaje transforma la evidencia formativa en un artefacto físico que la clase puede examinar colectivamente. Cuando los grupos publican su trabajo en las paredes y rotan, tanto el docente como los estudiantes pueden ver el rango de respuestas en toda la clase. El docente obtiene datos de evaluación rápida del grupo completo; los estudiantes calibran su propia comprensión frente a la de sus pares. Las anotaciones que los estudiantes agregan durante la rotación son en sí mismas evidencia formativa.

El chalk talk, el protocolo de escritura colaborativa silenciosa, genera un registro visible del pensamiento de los estudiantes sin las presiones sociales de la discusión verbal. Los estudiantes escriben preguntas y respuestas directamente en papel compartido o en una pizarra. El docente puede fotografiar la conversación y revisarla como datos formativos, mientras los estudiantes ven dónde el pensamiento de sus pares converge y diverge del propio.

El concepto de evaluación para el aprendizaje proporciona el marco filosófico más amplio que une estas prácticas. Donde la evaluación formativa nombra la práctica técnica, la evaluación para el aprendizaje nombra la orientación: la evaluación utilizada no para clasificar o certificar, sino para apoyar al estudiante en su progreso.

Fuentes

  1. Black, P., & Wiliam, D. (1998). Inside the black box: Raising standards through classroom assessment. Phi Delta Kappan, 80(2), 139–148.
  2. Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81–112.
  3. Wiliam, D. (2011). Embedded Formative Assessment. Solution Tree Press.
  4. Sadler, D. R. (1989). Formative assessment and the design of instructional systems. Instructional Science, 18(2), 119–144.