Skip to content
Tecnología · 2o de Preparatoria

Ideas de aprendizaje activo

Limpieza y Preprocesamiento de Datos

La limpieza y preprocesamiento de datos es un proceso abstracto para los estudiantes, pero se vuelve tangible cuando trabajan con datos reales que contienen errores visibles. Las actividades prácticas les permiten experimentar cómo pequeñas inconsistencias alteran resultados, reforzando la importancia de esta fase de manera inmediata y significativa.

Aprendizajes Esperados SEPSEP EMS: Análisis y Visualización de Información
20–40 minParejas → Toda la clase4 actividades

Actividad 01

Enseñanza entre Pares25 min · Parejas

Enseñanza entre Pares: Identificación de Datos Faltantes

Entrega un dataset con valores ausentes. En pares, identifiquen patrones de faltantes usando funciones de conteo, decidan imputar con medias o eliminar filas y registren cambios. Comparen resultados en una visualización simple antes y después.

¿Por qué la calidad de los datos es fundamental para obtener resultados de análisis confiables?

Consejo de FacilitaciónDurante la actividad de pares, entregue datasets con valores faltantes claramente marcados para que los estudiantes practiquen identificar patrones en los datos antes de discutir soluciones.

Qué observarEntregue a cada estudiante un pequeño fragmento de un dataset con errores (faltantes, duplicados, inconsistencias). Pida que identifiquen un tipo de problema y describan una estrategia específica que usarían para corregirlo en ese fragmento.

ComprenderAplicarAnalizarCrearAutogestiónHabilidades de Relación
Generar Clase Completa

Actividad 02

Sesión de Exploración al Aire Libre40 min · Grupos pequeños

Grupos Pequeños: Eliminación de Duplicados y Normalización

Asigna datasets con duplicados y escalas variadas a grupos pequeños. Usen comandos para remover duplicados, normalicen columnas numéricas y documenten el proceso en un informe compartido. Presenten hallazgos al grupo grande.

¿Qué estrategias son efectivas para manejar datos faltantes o inconsistentes?

Consejo de FacilitaciónEn la eliminación de duplicados y normalización, pida a cada grupo que documente cada paso de su proceso en un formato estructurado para facilitar la presentación posterior.

Qué observarPresente dos escenarios: uno donde se realizó un preprocesamiento exhaustivo y otro donde se usaron datos 'sucios'. Pregunte: ¿Qué diferencias esperan ver en los gráficos y conclusiones de cada escenario? ¿Cómo justificarían el tiempo invertido en el primer caso?

RecordarComprenderAnalizarConciencia SocialAutoconcienciaToma de Decisiones
Generar Clase Completa

Actividad 03

Clase Completa: Debate sobre Estrategias de Imputación

Proyecta un dataset con faltantes. La clase discute en pleno opciones como imputación media, mediana o eliminación, vota por la mejor según contexto y aplica colectivamente para ver impactos en un gráfico.

¿Cómo podemos justificar la inversión de tiempo en la fase de preprocesamiento de datos?

Consejo de FacilitaciónEn el debate sobre imputación, asigne roles específicos a los estudiantes (ej: defensor de imputar con media, defensor de eliminar) para garantizar participación equitativa y profundidad en el análisis.

Qué observarMuestre una tabla con una columna de 'Nivel de Estudios' que contenga variaciones como 'Licenciatura', 'lic.', 'Posgrado', 'Maestría'. Pida a los estudiantes que propongan cómo codificarían estas variables para un análisis y qué técnica usarían para estandarizar las entradas.

RecordarComprenderAnalizarConciencia SocialAutoconcienciaToma de Decisiones
Generar Clase Completa

Actividad 04

Individual: Transformación de Variables Categóricas

Cada estudiante recibe datos con categorías textuales. Codifiquen a numéricas usando one-hot encoding o labels, prueben en un análisis básico y reflexionen sobre ventajas en un párrafo corto.

¿Por qué la calidad de los datos es fundamental para obtener resultados de análisis confiables?

Consejo de FacilitaciónEn la transformación de variables categóricas, proporcione ejemplos variados (ej: abreviaturas, errores tipográficos) para que los estudiantes identifiquen todas las inconsistencias posibles.

Qué observarEntregue a cada estudiante un pequeño fragmento de un dataset con errores (faltantes, duplicados, inconsistencias). Pida que identifiquen un tipo de problema y describan una estrategia específica que usarían para corregirlo en ese fragmento.

RecordarComprenderAnalizarConciencia SocialAutoconcienciaToma de Decisiones
Generar Clase Completa

Plantillas

Plantillas que acompañan estas actividades de Tecnología

Úsalas, edítalas, imprímelas o compártelas.

Algunas notas para enseñar esta unidad

Enseñar limpieza de datos requiere que los estudiantes vivan la frustración de trabajar con datos imperfectos para valorar el proceso. Evite dar respuestas directas; en su lugar, guíelos con preguntas como '¿Qué pasaría si ignoramos estos valores?' o '¿Cómo afecta esto a nuestro análisis?'. La investigación en educación STEM sugiere que la metacognición durante el proceso mejora la retención, por lo que incluir momentos de reflexión escrita después de cada actividad es clave.

Al finalizar las actividades, los estudiantes reconocerán errores comunes en datasets, aplicarán técnicas específicas para corregirlos y podrán justificar sus decisiones con ejemplos concretos. La evidencia de aprendizaje incluye la identificación de problemas, la elección de métodos adecuados y la comparación de resultados antes y después del procesamiento.


Cuidado con estas ideas erróneas

  • During Identificación de Datos Faltantes, los estudiantes suelen pensar que los valores faltantes son aleatorios y no afectan el análisis.

    Durante Identificación de Datos Faltantes, pida a los estudiantes que grafiquen los datos antes y después de eliminar filas con valores faltantes para que observen cómo se distorsionan las tendencias o se pierden patrones importantes en el dataset.

  • During Eliminación de Duplicados y Normalización, algunos creen que eliminar duplicados siempre es suficiente para normalizar los datos.

    Durante Eliminación de Duplicados y Normalización, muestre una tabla donde los duplicados sean solo una parte del problema (ej: variaciones en mayúsculas o unidades inconsistentes) para que entiendan que la normalización requiere transformaciones adicionales como estandarización de formatos o escalas.

  • During Debate sobre Estrategias de Imputación, los estudiantes pueden asumir que imputar datos faltantes siempre mejora la precisión del análisis.

    Durante Debate sobre Estrategias de Imputación, proporcione dos versiones del mismo dataset: una con datos imputados y otra con los casos eliminados, y pida a los estudiantes que calculen métricas clave (ej: media, desviación estándar) en ambos para comparar el impacto real de cada método.


Metodologías usadas en este resumen