Definición
La evaluación entre iguales es una práctica educativa estructurada en la que los estudiantes evalúan el trabajo, el rendimiento o la comprensión de sus compañeros utilizando criterios predefinidos. El estudiante evaluador produce comentarios escritos, valoraciones o ambas cosas, y el estudiante receptor utiliza esa retroalimentación para revisar o reflexionar. A diferencia de la retroalimentación informal entre compañeros — "me parece bien" —, la evaluación entre iguales estructurada requiere criterios explícitos, un proceso definido y, por lo general, algún tipo de responsabilidad.
El concepto se inscribe en el ámbito más amplio de la evaluación formativa: la evaluación cuya función principal es mejorar el aprendizaje en lugar de medirlo para asignar una calificación. Keith Topping, cuyo metaanálisis de 1998 en la Universidad de Dundee sigue siendo la revisión fundacional del campo, definió la evaluación entre iguales como "un acuerdo para que los estudiantes consideren y especifiquen el nivel, el valor o la calidad de un producto o rendimiento de otros estudiantes de igual estatus". La definición destaca dos características importantes: el juicio evaluativo que implica y la igualdad social entre evaluador y evaluado.
La evaluación entre iguales se distingue de la autoevaluación, en la que los estudiantes evalúan su propio trabajo, aunque ambas prácticas suelen ir de la mano. También se distingue del aprendizaje cooperativo, que estructura la interdependencia grupal para la creación conjunta de productos. La evaluación entre iguales puede producirse dentro de estructuras cooperativas, pero opera como un acto reflexivo específico, no como un mero componente del trabajo en grupo.
Contexto Histórico
Las raíces intelectuales de la evaluación entre iguales se remontan a las décadas de 1960 y 1970, cuando los psicólogos cognitivos empezaron a cuestionar el modelo pasivo de aprendizaje que predominaba en las escuelas. El modelo de aprendizaje para el dominio de Bloom (1968) estableció que la retroalimentación formativa dentro de los ciclos de aprendizaje era esencial para el progreso del alumnado, una premisa que convirtió la retroalimentación entre pares en una herramienta lógica.
La práctica obtuvo su primera base de investigación sistemática en la educación superior durante las décadas de 1980 y 1990. Nancy Falchikov, de la Universidad Napier, fue una de las primeras investigadoras en estudiar la calificación entre pares de forma sistemática, señalando en un artículo de 1986 que los estudiantes podían producir calificaciones fiablemente próximas a las del profesorado cuando se les formaba con criterios explícitos. La revisión de Keith Topping de 1998 en la Review of Educational Research consolidó la evidencia de 109 estudios, estableciendo que la evaluación entre iguales producía ganancias fiables en el rendimiento académico, la conciencia metacognitiva y la calidad de la retroalimentación escrita que los estudiantes podían generar.
La influyente revisión de Paul Black y Dylan Wiliam de 1998, "Inside the Black Box" (publicada en el Phi Delta Kappan), replanteó toda la conversación. Su análisis de 250 estudios concluyó que las prácticas de evaluación formativa, incluidas la evaluación entre iguales y la autoevaluación, producían algunos de los mayores tamaños del efecto jamás documentados en la investigación educativa, especialmente para los estudiantes con menor rendimiento. Su trabajo trasladó la evaluación entre iguales de una técnica de nicho en educación superior a la práctica escolar generalizada en todo el mundo.
David Nicol y Debra Macfarlane-Dick ampliaron esta base con un modelo teórico de 2006 publicado en Studies in Higher Education, argumentando que la retroalimentación entre pares es más valiosa no porque informe al receptor, sino porque desarrolla la capacidad del evaluador para supervisar y regular su propio aprendizaje.
Principios Clave
Los Criterios Deben Ser Explícitos Antes de Comenzar la Evaluación
La evaluación entre iguales produce retroalimentación fiable y útil únicamente cuando tanto el evaluador como el evaluado comprenden cómo es la calidad antes de que comience la evaluación. Los criterios presentados solo tras la entrega del trabajo funcionan como juicio a posteriori. Los criterios coconstruidos con los estudiantes antes de una tarea sirven como andamiaje de aprendizaje durante todo el proceso de producción. La investigación de Andrade y Du (2005) encontró que los estudiantes que participaron en el desarrollo de las rúbricas produjeron trabajos significativamente mejores que quienes recibieron la misma rúbrica de forma pasiva. El acto de articular la calidad es en sí mismo un acto de aprendizaje.
El Evaluador Aprende Tanto como el Receptor
Un malentendido persistente trata la evaluación entre iguales como un mecanismo de entrega de retroalimentación. La evidencia más sólida apunta en otra dirección: el trabajo cognitivo de aplicar criterios al trabajo de otra persona obliga al evaluador a comprometerse activamente con unos estándares que de otro modo pasaría por alto. El análisis de Topping de 1998 documentó este beneficio para el evaluador en múltiples áreas temáticas. Los estudiantes que deben evaluar un argumento han de construir primero un modelo mental de cómo es un argumento sólido — esa construcción es el aprendizaje.
La Formación y los Ejemplos Modelados Son Imprescindibles
Sin preparación, los estudiantes recurren a elogios vagos ("buen trabajo") o críticas directas sin explicación. Ninguno de los dos ayuda al receptor. Los programas eficaces de evaluación entre iguales invierten tiempo instructivo explícito en la alfabetización en retroalimentación: qué hace que una retroalimentación sea específica, qué la hace accionable, cómo distinguir la descripción de la evaluación. Una práctica habitual consiste en analizar ejemplos buenos y malos de retroalimentación entre pares antes de que los estudiantes escriban la propia.
El Anonimato Es una Herramienta, No un Requisito
La evaluación anónima entre iguales reduce la presión social y el sesgo de amistad en algunos contextos, especialmente cuando están en juego las calificaciones. Sin embargo, también elimina la responsabilidad y puede reducir el cuidado que los estudiantes ponen en sus comentarios escritos. Muchos profesionales con experiencia utilizan la retroalimentación entre pares identificada para el trabajo formativo, donde la relación entre quien da y quien recibe la retroalimentación puede convertirse en sí misma en una conversación de aprendizaje, y la revisión anónima cuando las puntuaciones contribuyen a las calificaciones.
La Frecuencia Importa Más que la Ocasión
La evaluación entre iguales practicada una vez por trimestre tiene un efecto duradero mínimo en la alfabetización en retroalimentación o en la autorregulación. Investigadores como Nicol y Macfarlane-Dick (2006) argumentan que el objetivo es que los estudiantes interioricen los estándares evaluativos, un proceso que requiere exposición repetida a través de diferentes tareas y áreas temáticas. Ciclos breves y frecuentes de revisión entre pares — incluso intercambios estructurados de 10 minutos — desarrollan el hábito con mayor eficacia que elaborados eventos puntuales.
Aplicación en el Aula
Educación Primaria: Listas de Verificación de Criterios para Escritores Principiantes
En los cursos de 2.º y 3.º de primaria, la evaluación entre iguales funciona mejor con criterios concretos y binarios que los estudiantes puedan marcar. Tras una breve tarea de escritura, los estudiantes intercambian sus trabajos y revisan una lista: "¿Empieza con mayúscula? ¿Tiene punto final? ¿Puedes encontrar una palabra descriptiva?" El evaluador marca o señala cada criterio. La retroalimentación es lo suficientemente estructurada como para ser accionable y lo suficientemente específica como para ser honesta sin requerir el lenguaje evaluativo matizado que los estudiantes más jóvenes aún no han desarrollado.
El papel del profesorado en esta etapa es modelar el proceso repetidamente con ejemplos para toda la clase, nombrando lo que observa y por qué cumple o no el criterio. Este modelado no es un andamiaje opcional — es la instrucción real en alfabetización en retroalimentación.
Educación Secundaria: Revisión entre Pares Estructurada de Escritura Argumentativa
Una clase de 4.º de ESO que escribe ensayos analíticos se beneficia de una estructura de revisión entre pares en dos pasadas. En la primera, cada estudiante lee el ensayo de su compañero y subraya la tesis y cada fragmento de evidencia. En la segunda, completan un marco de retroalimentación: "Tu argumento es más sólido cuando... Un punto donde la evidencia no respalda del todo tu afirmación es... Una revisión concreta que te sugeriría es..." El marco evita la retroalimentación vaga sin sobreescribir la respuesta.
Devolver el trabajo con la retroalimentación entre pares escrita antes de la entrega del borrador final ofrece a los estudiantes un objetivo de revisión concreto. Los estudios que comparan las condiciones con retroalimentación-y-revisión frente a las condiciones sin retroalimentación muestran consistentemente mejoras en la calidad de los borradores revisados.
Clase Completa: Galería de Exposición con Anotaciones entre Pares
Una adaptación de la galería de exposición para la evaluación entre iguales coloca el trabajo del alumnado por toda el aula. Cada estudiante circula con notas adhesivas de dos colores: uno para los puntos fuertes específicos ("uso sólido de datos en el panel 3"), otro para preguntas o sugerencias específicas ("¿cuál es la fuente del dato estadístico del segundo párrafo?"). Los estudiantes regresan a su trabajo con un conjunto de anotaciones de sus pares que representan múltiples perspectivas en lugar de la visión de un único revisor.
Este formato funciona especialmente bien para trabajos visuales y basados en proyectos, donde la propia exposición comunica algo sobre la organización y las decisiones de diseño que el texto escrito solo podría no transmitir.
Evidencia Investigadora
El metaanálisis de Topping de 1998 en la Review of Educational Research sintetizó 109 estudios de evaluación entre iguales en distintos niveles educativos y materias. La revisión encontró que la evaluación entre iguales producía efectos positivos consistentes en el rendimiento académico, con tamaños del efecto comparables a otras intervenciones formativas bien establecidas. De forma crucial, Topping encontró que los tamaños del efecto eran mayores cuando los criterios de evaluación eran explícitos, cuando los estudiantes habían sido formados en el proceso y cuando la evaluación entre iguales estaba integrada en el currículo en lugar de añadirse como actividad puntual.
Falchikov y Goldfinch (2000), también en la Review of Educational Research, realizaron un metaanálisis de 48 estudios que comparaban las calificaciones entre pares con las del profesorado. Encontraron que la concordancia entre ambas era significativamente mayor cuando la evaluación implicaba múltiples criterios (en lugar de una valoración holística única), cuando los criterios habían sido coconstruidos con los estudiantes y cuando el trabajo evaluado estaba bien estructurado. El hallazgo aborda una preocupación habitual: las calificaciones entre pares pueden ser fiables cuando las condiciones son las adecuadas.
Van Zundert, Sluijsmans y Van Merrienboer (2010), en Learning and Instruction, revisaron la investigación centrada en el proceso de evaluación entre iguales y encontraron evidencia sólida de que la calidad de la retroalimentación entre pares mejora cuando los evaluadores reciben formación, cuando las tareas requieren una evaluación específica en lugar de global y cuando la retroalimentación está vinculada a oportunidades de revisión. Los estudios que proporcionaban retroalimentación sin oportunidad de revisión mostraban ganancias de aprendizaje menores o insignificantes.
Una limitación que merece reconocerse: la mayor parte de la investigación sobre evaluación entre iguales se ha realizado en contextos de educación superior. La base de evidencia para la evaluación entre iguales estructurada en educación primaria es más escasa y heterogénea. La adecuación al nivel educativo, tanto en la complejidad de los criterios como en la dinámica social, requiere un juicio cuidadoso por parte del profesorado; la transferencia indiscriminada de los hallazgos universitarios a las aulas de primaria no está justificada.
Conceptos Erróneos Frecuentes
La evaluación entre iguales es un sustituto que ahorra tiempo respecto a la retroalimentación del profesorado. La retroalimentación entre pares no es retroalimentación del profesorado más barata o rápida — es un tipo diferente de actividad de aprendizaje. Cuando se utiliza como estrategia de reducción de carga de trabajo sin formación ni estructura, produce retroalimentación de baja calidad que frustra a los estudiantes y erosiona la confianza en el proceso. Su valor reside en el trabajo cognitivo que genera para el evaluador. Los docentes que implementan bien la evaluación entre iguales suelen invertir tiempo instructivo significativo al inicio en la formación del alumnado; el beneficio es el desarrollo a largo plazo del juicio evaluativo, no una reducción de la carga de corrección.
Los estudiantes no están cualificados para evaluar el trabajo de sus compañeros. Esta preocupación es comprensible, pero parte de una mala interpretación de lo que pide la evaluación entre iguales. No se pide a los evaluadores entre pares que emitan juicios sumativos sobre la capacidad de un compañero — se les pide que apliquen criterios explícitos a un trabajo específico. Cuando los criterios son claros y los estudiantes están formados, esta es una tarea dentro de sus competencias. El metaanálisis de Falchikov y Goldfinch de 2000 demostró correlaciones entre las calificaciones de pares y del profesorado superiores a 0,80 en estudios bien diseñados.
Las relaciones positivas entre compañeros inflarán las calificaciones y las negativas las deflactarán. Los efectos de amistad son reales, pero son contextuales y manejables. La investigación revisada por Topping (1998) encontró que los efectos de amistad eran más fuertes en tareas de evaluación holística no estructuradas y más débiles cuando múltiples criterios específicos requerían una justificación individual. La entrega anónima reduce la presión social en contextos de alta exigencia. Más importante aún, invertir en la cultura de retroalimentación — construir normas de clase en torno a la retroalimentación honesta y útil como forma de respeto — cambia el significado social de la evaluación entre iguales con el tiempo.
Conexión con el Aprendizaje Activo
La evaluación entre iguales es inherentemente un acto de aprendizaje activo. Aplicar criterios, generar justificaciones escritas y emitir juicios evaluativos requieren elaboración, análisis y síntesis — los niveles superiores de la taxonomía de Bloom —, en lugar de la recepción pasiva de los comentarios del profesorado.
La enseñanza entre iguales y la evaluación entre iguales comparten el mismo mecanismo subyacente: ambas requieren que los estudiantes se comprometan con el contenido o los criterios a una profundidad que la mera recepción no puede producir. En la enseñanza entre iguales, explicar un concepto obliga al que explica a identificar y resolver las lagunas en su propia comprensión. En la evaluación entre iguales, evaluar el trabajo obliga al evaluador a construir un modelo interno de calidad. Los docentes que combinan la enseñanza entre iguales con la revisión entre pares estructurada crean un bucle de refuerzo en el que los estudiantes enseñan contenido y evalúan la calidad de la aplicación del otro.
Las galerías de exposición proporcionan un contenedor natural para la evaluación entre iguales de trabajos en formato visual o expositivo. Los protocolos de anotación estructurada — que requieren comentarios específicos referenciados a criterios en lugar de reacciones generales — convierten la galería de exposición de una exhibición en un ciclo de retroalimentación.
El intercambio de ideas en carrusel puede adaptarse para la evaluación entre iguales de borradores escritos o argumentos estructurados. Los grupos rotan por el trabajo de los demás, añadiendo comentarios específicos en cada estación. El formato de múltiples revisores significa que cualquier trabajo recibe retroalimentación diversa, lo que reduce el peso de cualquier juicio individual entre pares.
La conexión con la retroalimentación en educación es directa: la evaluación entre iguales es uno de los contextos de mayor impacto para desarrollar la alfabetización en retroalimentación, porque los estudiantes deben generarla de forma activa en lugar de recibirla pasivamente. La investigación sobre retroalimentación encuentra de forma consistente que el acto de dar retroalimentación detallada mejora el trabajo propio posterior del que la da, un hallazgo que refuerza el argumento de integrar la evaluación entre iguales en los ciclos de instrucción regulares en lugar de tratarla como una actividad de enriquecimiento ocasional.
Fuentes
-
Topping, K.J. (1998). Peer assessment between students in colleges and universities. Review of Educational Research, 68(3), 249–276.
-
Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7–74.
-
Falchikov, N., & Goldfinch, J. (2000). Student peer assessment in higher education: A meta-analysis comparing peer and teacher marks. Review of Educational Research, 70(3), 287–322.
-
Nicol, D.J., & Macfarlane-Dick, D. (2006). Formative assessment and self-regulated learning: A model and seven principles of good feedback practice. Studies in Higher Education, 31(2), 199–218.