Definición
La evaluación entre pares es una práctica educativa estructurada en la que los estudiantes evalúan el trabajo, el desempeño o la comprensión de sus compañeros usando criterios predefinidos. El estudiante evaluador produce comentarios escritos, calificaciones o ambas cosas, y el estudiante receptor usa esa retroalimentación para revisar o reflexionar. A diferencia de la retroalimentación informal entre pares, como "me parece bien", la evaluación entre pares estructurada requiere criterios explícitos, un proceso definido y, por lo general, alguna forma de responsabilidad.
El concepto se inscribe en el dominio más amplio de la evaluación formativa: aquella cuya función principal es mejorar el aprendizaje y no medirlo para asignar una calificación. Keith Topping, cuyo metaanálisis de 1998 en la Universidad de Dundee sigue siendo la revisión fundacional del campo, definió la evaluación entre pares como "un arreglo mediante el cual los aprendices consideran y especifican el nivel, el valor o la calidad del producto o el desempeño de otros aprendices de igual estatus". La definición destaca dos características relevantes: el juicio evaluativo involucrado y la posición social equivalente entre evaluador y evaluado.
La evaluación entre pares es distinta de la autoevaluación, en la que los estudiantes evalúan su propio trabajo, aunque ambas prácticas se combinan con frecuencia. También es distinta del aprendizaje cooperativo, que estructura la interdependencia grupal para la creación conjunta de productos. La evaluación entre pares puede ocurrir dentro de estructuras cooperativas, pero funciona como un acto reflexivo propio, no como una mera característica del trabajo grupal.
Contexto histórico
Las raíces intelectuales de la evaluación entre pares se remontan a las décadas de 1960 y 1970, cuando los psicólogos cognitivos comenzaron a cuestionar el modelo pasivo de aprendizaje que dominaba las escuelas. El modelo de aprendizaje por dominio de Bloom (1968) estableció que la retroalimentación formativa dentro de los ciclos de aprendizaje era esencial para el progreso del estudiante, una premisa que convirtió a la retroalimentación entre pares en una herramienta lógica.
La práctica obtuvo su primera base de investigación sistemática en la educación superior durante las décadas de 1980 y 1990. Nancy Falchikov, de la Universidad de Napier, fue una de las primeras investigadoras en estudiar la calificación entre pares de forma sistemática, reportando en un artículo de 1986 que los estudiantes podían producir calificaciones confiablemente cercanas a las del docente cuando se los capacitaba con criterios explícitos. La revisión de Keith Topping de 1998 en la Review of Educational Research consolidó evidencia de 109 estudios y estableció que la evaluación entre pares producía ganancias confiables en rendimiento académico, conciencia metacognitiva y calidad de la retroalimentación escrita que los estudiantes podían generar.
La revisión histórica de Paul Black y Dylan Wiliam de 1998, "Inside the Black Box" (publicada en el Phi Delta Kappan), reencuadró toda la conversación. Su análisis de 250 estudios concluyó que las prácticas de evaluación formativa, incluidas la evaluación entre pares y la autoevaluación, producían algunos de los mayores tamaños de efecto jamás documentados en la investigación educativa, particularmente en estudiantes con bajo rendimiento. Su trabajo llevó la evaluación entre pares desde una técnica de nicho en la educación superior hacia la práctica escolar convencional en todo el mundo.
David Nicol y Debra Macfarlane-Dick construyeron sobre esta base con un modelo teórico de 2006 publicado en Studies in Higher Education, argumentando que la retroalimentación entre pares es más valiosa no porque informe al receptor, sino porque desarrolla la capacidad del evaluador para monitorear y regular su propio aprendizaje.
Principios clave
Los criterios deben ser explícitos antes de que comience la evaluación
La evaluación entre pares produce retroalimentación confiable y útil únicamente cuando tanto el evaluador como el evaluado comprenden cómo se ve la calidad antes de que comience la evaluación. Los criterios presentados solo después de entregar el trabajo funcionan como un juicio a posteriori. Los criterios co-construidos con los estudiantes antes de una tarea sirven como andamiaje del aprendizaje durante todo el proceso de producción. La investigación de Andrade y Du (2005) encontró que los estudiantes que ayudaron a desarrollar rúbricas produjeron trabajos significativamente mejores que quienes recibieron la misma rúbrica de forma pasiva. El acto de articular la calidad es en sí mismo un acto de aprendizaje.
El evaluador aprende tanto como quien recibe la retroalimentación
Un malentendido persistente trata la evaluación entre pares como un mecanismo de entrega de retroalimentación. La evidencia más sólida apunta en otra dirección: el trabajo cognitivo de aplicar criterios al trabajo de otra persona obliga al evaluador a involucrarse activamente con estándares que de otro modo podría pasar por alto. El análisis de Topping de 1998 documentó este beneficio para el evaluador en múltiples áreas de conocimiento. Los estudiantes a quienes se pide evaluar un argumento deben primero construir un modelo mental de cómo se ve un argumento sólido; esa construcción es el aprendizaje.
La capacitación y los ejemplos modelados no son negociables
Sin preparación, los estudiantes recurren a elogios vagos ("buen trabajo") o críticas directas sin explicación. Ninguna de las dos ayuda al receptor. Los programas efectivos de evaluación entre pares invierten tiempo instruccional explícito en la alfabetización en retroalimentación: qué hace que una retroalimentación sea específica, qué la hace accionable, cómo distinguir la descripción de la evaluación. Una práctica habitual consiste en analizar ejemplos fuertes y débiles de retroalimentación entre pares antes de que los estudiantes escriban la propia.
El anonimato es una herramienta, no un requisito
La evaluación entre pares anónima reduce la presión social y el sesgo de amistad en algunos contextos, especialmente cuando están en juego las calificaciones. Sin embargo, también elimina la responsabilidad y puede reducir el cuidado que los estudiantes ponen en sus comentarios escritos. Muchos profesionales con experiencia usan la retroalimentación identificada para el trabajo formativo, donde la relación entre quien da y quien recibe la retroalimentación puede convertirse en una conversación de aprendizaje, y la revisión anónima cuando los puntajes inciden en las calificaciones.
La frecuencia importa más que la ocasión
La evaluación entre pares practicada una vez por semestre tiene un efecto duradero mínimo sobre la alfabetización en retroalimentación o la autorregulación. Investigadores como Nicol y Macfarlane-Dick (2006) sostienen que el objetivo es que los estudiantes internalicen los estándares evaluativos, un proceso que requiere exposición repetida a lo largo de diferentes tareas y áreas de conocimiento. Ciclos breves y frecuentes de revisión entre pares, incluso intercambios estructurados de 10 minutos, construyen el hábito de manera más efectiva que elaborados eventos ocasionales.
Aplicación en el aula
Primaria: listas de verificación de criterios para escritores iniciales
En segundo y tercer grado, la evaluación entre pares funciona mejor con criterios concretos y binarios que los estudiantes puedan marcar. Después de una tarea de escritura breve, los estudiantes intercambian papeles y trabajan una lista de verificación: "¿Comienza con mayúscula? ¿Termina con punto? ¿Puedes encontrar una palabra descriptiva?" El evaluador marca o señala cada criterio. La retroalimentación es lo suficientemente estructurada para ser accionable y lo suficientemente específica para ser honesta, sin requerir el lenguaje evaluativo matizado que los estudiantes jóvenes aún no han desarrollado.
El rol del docente en esta etapa es modelar el proceso repetidamente con ejemplos de toda la clase, nombrando lo que observa y por qué cumple o no cumple el criterio. Este modelado no es un andamiaje opcional, sino la instrucción real en alfabetización en retroalimentación.
Secundaria: revisión entre pares estructurada de escritura argumentativa
Una clase de historia de décimo grado que escribe ensayos analíticos se beneficia de una estructura de revisión entre pares en dos pasos. En el primero, cada estudiante lee el ensayo de su compañero y subraya la tesis y cada pieza de evidencia. En el segundo, completan un marco de retroalimentación: "Tu argumento es más sólido cuando... Un lugar donde la evidencia no respalda completamente tu afirmación es... Una revisión específica que sugeriría es..." El marco evita la retroalimentación vaga sin sobre-guiar la respuesta.
Devolver el trabajo con retroalimentación escrita entre pares antes de la entrega del borrador final le da a los estudiantes un objetivo de revisión concreto. Los estudios que comparan condiciones de retroalimentación seguida de revisión versus sin retroalimentación muestran consistentemente mejoras en la calidad de los borradores revisados.
Grupo completo: galería con anotaciones entre pares
Una adaptación de la galería para la evaluación entre pares coloca el trabajo de los estudiantes alrededor del salón. Cada estudiante circula con notas adhesivas de dos colores: uno para fortalezas específicas ("uso sólido de datos en el panel 3"), otro para preguntas o sugerencias específicas ("¿cuál es la fuente de la estadística del párrafo 2?"). Los estudiantes regresan a su trabajo con un conjunto de anotaciones entre pares que representan múltiples perspectivas en lugar de la visión de un solo revisor.
Este formato funciona especialmente bien para trabajos visuales y basados en proyectos, donde la exhibición misma comunica algo sobre la organización y las decisiones de diseño que el texto escrito por sí solo podría no transmitir.
Evidencia de investigación
El metaanálisis de Topping de 1998 en la Review of Educational Research sintetizó 109 estudios de evaluación entre pares en distintos niveles educativos y materias. La revisión encontró que la evaluación entre pares producía efectos positivos consistentes en el rendimiento académico, con tamaños de efecto comparables a otras intervenciones formativas bien establecidas. De manera crítica, Topping encontró que los tamaños de efecto eran mayores cuando los criterios de evaluación eran explícitos, cuando los estudiantes estaban capacitados en el proceso y cuando la evaluación entre pares estaba integrada al currículo en lugar de añadirse como actividad aislada.
Falchikov y Goldfinch (2000), también en la Review of Educational Research, realizaron un metaanálisis de 48 estudios que comparaban las calificaciones entre pares con las del docente. Encontraron que la concordancia entre ambas era significativamente mayor cuando la evaluación involucraba múltiples criterios (en lugar de una valoración holística única), cuando los criterios eran co-construidos con los estudiantes y cuando el trabajo evaluado estaba bien estructurado. El hallazgo aborda una preocupación frecuente: las calificaciones entre pares pueden ser confiables cuando las condiciones son las adecuadas.
Van Zundert, Sluijsmans y Van Merrienboer (2010), en Learning and Instruction, revisaron investigación centrada en el proceso de evaluación entre pares y encontraron evidencia sólida de que la calidad de la retroalimentación mejora cuando los evaluadores reciben capacitación, cuando las tareas requieren evaluación específica en lugar de global y cuando la retroalimentación está vinculada a oportunidades de revisión. Los estudios que proporcionaron retroalimentación sin oportunidad de revisión mostraron ganancias de aprendizaje menores o insignificantes.
Vale reconocer una limitación: la mayor parte de la investigación sobre evaluación entre pares se ha realizado en entornos de educación superior. La base de evidencia para la evaluación entre pares estructurada en primaria es más escasa y mixta. La adecuación al nivel de grado, tanto en complejidad de criterios como en dinámicas sociales, requiere un juicio docente cuidadoso, y la transferencia global de hallazgos universitarios a aulas de primaria no está justificada.
Concepciones erróneas frecuentes
La evaluación entre pares es un sustituto que ahorra tiempo en comparación con la retroalimentación del docente. La retroalimentación entre pares no es una retroalimentación docente más barata o rápida, sino un tipo diferente de actividad de aprendizaje. Cuando se usa como estrategia de reducción de carga de trabajo sin capacitación ni estructura, produce retroalimentación de baja calidad que frustra a los estudiantes y erosiona la confianza en el proceso. Su valor radica en el trabajo cognitivo que genera para el evaluador. Los docentes que implementan bien la evaluación entre pares suelen invertir tiempo instruccional significativo al inicio en capacitar a los estudiantes; el beneficio es el desarrollo a largo plazo del juicio evaluativo, no una menor carga de corrección.
Los estudiantes no están calificados para evaluar el trabajo de sus compañeros. Esta preocupación es comprensible, pero parte de una mala lectura de lo que la evaluación entre pares pide a los estudiantes. Los evaluadores entre pares no están siendo llamados a emitir juicios sumativos sobre la capacidad de un compañero, sino a aplicar criterios explícitos a un trabajo específico. Cuando los criterios son claros y los estudiantes están capacitados, esta es una tarea dentro de su competencia. El metaanálisis de Falchikov y Goldfinch de 2000 demostró correlaciones entre calificaciones entre pares y del docente superiores a 0.80 en estudios bien diseñados.
Las relaciones positivas entre pares inflarán las calificaciones y las negativas las reducirán. Los efectos de amistad son reales, pero son contextuales y manejables. La investigación revisada por Topping (1998) encontró que los efectos de amistad eran más fuertes en tareas de evaluación holística no estructuradas y más débiles cuando múltiples criterios específicos requerían justificación individual. El envío anónimo reduce la presión social en contextos de alta exigencia. Más importante aún, invertir en la cultura de retroalimentación, construyendo normas de clase alrededor de la retroalimentación honesta y útil como forma de respeto, transforma el significado social de la evaluación entre pares con el tiempo.
Conexión con el aprendizaje activo
La evaluación entre pares es, en esencia, un acto de aprendizaje activo. Aplicar criterios, generar justificaciones escritas y emitir juicios evaluativos requiere elaboración, análisis y síntesis, los niveles superiores de la taxonomía de Bloom, en lugar de la recepción pasiva de los comentarios del docente.
La enseñanza entre pares y la evaluación entre pares comparten el mismo mecanismo subyacente: ambas requieren que los estudiantes se involucren con el contenido o los criterios a una profundidad que la recepción sola no puede producir. En la enseñanza entre pares, explicar un concepto obliga al explicador a identificar y resolver brechas en su propia comprensión. En la evaluación entre pares, evaluar el trabajo obliga al evaluador a construir un modelo interno de calidad. Los docentes que combinan la enseñanza entre pares con la revisión entre pares estructurada crean un ciclo de refuerzo en el que los estudiantes tanto enseñan contenido como evalúan la calidad de la aplicación de cada uno.
Las galerías ofrecen un contenedor natural para la evaluación entre pares de trabajos en formato visual o expositivo. Los protocolos de anotación estructurada, que requieren comentarios específicos referenciados a criterios en lugar de reacciones generales, transforman la galería de una exhibición en un ciclo de retroalimentación.
El trabajo en ronda puede adaptarse para la evaluación entre pares de borradores escritos o argumentos estructurados. Los grupos rotan por el trabajo de cada uno, añadiendo comentarios específicos en cada estación. El formato de revisores múltiples significa que cualquier trabajo individual recibe retroalimentación diversa, reduciendo el peso que tiene el juicio de un solo compañero.
La conexión con la retroalimentación en educación es directa: la evaluación entre pares es uno de los contextos de mayor influencia para desarrollar la alfabetización en retroalimentación, porque los estudiantes deben generar retroalimentación de forma activa en lugar de recibirla pasivamente. La investigación sobre retroalimentación encuentra consistentemente que el acto de dar retroalimentación detallada mejora el trabajo posterior propio del evaluador, un hallazgo que refuerza el argumento de integrar la evaluación entre pares en ciclos instruccionales regulares en lugar de tratarla como una actividad de enriquecimiento ocasional.
Fuentes
-
Topping, K.J. (1998). Peer assessment between students in colleges and universities. Review of Educational Research, 68(3), 249–276.
-
Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7–74.
-
Falchikov, N., & Goldfinch, J. (2000). Student peer assessment in higher education: A meta-analysis comparing peer and teacher marks. Review of Educational Research, 70(3), 287–322.
-
Nicol, D.J., & Macfarlane-Dick, D. (2006). Formative assessment and self-regulated learning: A model and seven principles of good feedback practice. Studies in Higher Education, 31(2), 199–218.