Skip to content

Preprocesamiento y Exploración de DatosActividades y Estrategias de Enseñanza

El preprocesamiento y exploración de datos requiere manipulación manual y observación crítica, habilidades que se desarrollan mejor con actividades prácticas. Los estudiantes necesitan experimentar con datos reales para entender por qué la limpieza y transformación son esenciales antes de cualquier análisis. El formato de estaciones y desafíos grupales motiva la participación activa y el aprendizaje colaborativo.

3o de PreparatoriaTecnología4 actividades30 min50 min

Objetivos de Aprendizaje

  1. 1Identificar y clasificar tipos de datos (numéricos, categóricos, ordinales) en un conjunto de datos dado.
  2. 2Aplicar técnicas de limpieza de datos para manejar valores faltantes, duplicados y atípicos en un conjunto de datos utilizando Python.
  3. 3Evaluar el impacto de la transformación de variables (normalización, codificación) en la distribución de los datos.
  4. 4Analizar patrones y relaciones en un conjunto de datos mediante el cálculo de estadísticas descriptivas y la generación de visualizaciones (histogramas, diagramas de dispersión).
  5. 5Criticar la calidad de un conjunto de datos y justificar las decisiones tomadas durante el preprocesamiento para mejorar su fiabilidad.

¿Quieres un plan de clase completo con estos objetivos? Generar una Misión

45 min·Grupos pequeños

Estaciones de Limpieza: Datos Sucios

Prepara cuatro estaciones con datasets problemáticos: valores faltantes, duplicados, atípicos y tipos erróneos. Los grupos rotan cada 10 minutos, aplican técnicas de limpieza en Python o Excel y registran cambios en un informe compartido. Al final, comparan resultados en plenaria.

Preparación y detalles

¿Cómo la limpieza de datos mejora la calidad y fiabilidad de los modelos de Machine Learning?

Consejo de Facilitación: Durante 'Estaciones de Limpieza', prepare datasets impresos con errores marcados en colores diferentes para que los estudiantes identifiquen patrones de problemas y no se enfoquen en detalles aislados.

Setup: Grupos en mesas con materiales del problema

Materials: Paquete del problema, Tarjetas de rol (facilitador, secretario, controlador de tiempo, relator), Hoja del protocolo de resolución de problemas, Rúbrica de evaluación de solución

AplicarAnalizarEvaluarCrearHabilidades de RelaciónToma de DecisionesAutogestión

Exploración Guiada: Histogramas y Correlaciones

Proporciona un dataset limpio de ventas o clima. En parejas, generan visualizaciones con bibliotecas como Pandas y Matplotlib, calculan estadísticas descriptivas e identifican tres patrones o anomalías. Presentan hallazgos en un tablero digital grupal.

Preparación y detalles

¿De qué manera la exploración de datos revela patrones, anomalías y relaciones entre variables?

Consejo de Facilitación: En 'Exploración Guiada', entregue una plantilla de preguntas guía para que las parejas discutan cómo interpretar histogramas y matrices de correlación antes de generar sus propios gráficos.

Setup: Grupos en mesas con materiales del problema

Materials: Paquete del problema, Tarjetas de rol (facilitador, secretario, controlador de tiempo, relator), Hoja del protocolo de resolución de problemas, Rúbrica de evaluación de solución

AplicarAnalizarEvaluarCrearHabilidades de RelaciónToma de DecisionesAutogestión
50 min·Grupos pequeños

Ingeniería de Features: Desafío Competitivo

Divide la clase en equipos para transformar un dataset crudo creando nuevas variables, como ratios o categorías. Evalúan impacto en un modelo simple de regresión. Votan por la mejor ingeniería basada en precisión.

Preparación y detalles

¿Por qué la ingeniería de características es crucial para el rendimiento de un modelo?

Consejo de Facilitación: Para el 'Desafío Competitivo', asigne roles específicos en cada equipo (ej. codificador, analista, presentador) y rotelos cada 10 minutos para asegurar participación equitativa.

Setup: Grupos en mesas con materiales del problema

Materials: Paquete del problema, Tarjetas de rol (facilitador, secretario, controlador de tiempo, relator), Hoja del protocolo de resolución de problemas, Rúbrica de evaluación de solución

AplicarAnalizarEvaluarCrearHabilidades de RelaciónToma de DecisionesAutogestión

Exploración Individual: Mi Dataset Personal

Cada estudiante selecciona un dataset público, lo limpia paso a paso y genera un reporte de exploración con gráficos. Comparte uno o dos insights en una galería de clase virtual.

Preparación y detalles

¿Cómo la limpieza de datos mejora la calidad y fiabilidad de los modelos de Machine Learning?

Consejo de Facilitación: En 'Exploración Individual', pida a los estudiantes que documenten cada paso de su exploración en un cuaderno de laboratorio para fomentar la metacognición y el registro de decisiones.

Setup: Grupos en mesas con materiales del problema

Materials: Paquete del problema, Tarjetas de rol (facilitador, secretario, controlador de tiempo, relator), Hoja del protocolo de resolución de problemas, Rúbrica de evaluación de solución

AplicarAnalizarEvaluarCrearHabilidades de RelaciónToma de DecisionesAutogestión

Enseñando Este Tema

Enseñe este tema con un enfoque basado en problemas: los estudiantes deben experimentar fallos para valorar el preprocesamiento. Evite explicar todas las técnicas antes de la práctica, ya que la necesidad de soluciones surgirá de los errores observados. La investigación guiada y el debate en parejas funcionan mejor que las clases expositivas. La repetición de limpieza en diferentes datasets ayuda a internalizar que no hay una solución única.

Qué Esperar

Al finalizar las actividades, los estudiantes demuestran habilidad para identificar errores en datos, justificar sus soluciones de limpieza y transformar variables para mejorar la calidad del dataset. También explican patrones mediante visualizaciones y correlaciones, usando lenguaje técnico preciso. La reflexión sobre el impacto de sus decisiones en el análisis final es clave.

Estas actividades son un punto de partida. La misión completa es la experiencia.

  • Guion completo de facilitación con diálogos del docente
  • Materiales imprimibles para el alumno, listos para la clase
  • Estrategias de diferenciación para cada tipo de estudiante
Generar una Misión

Cuidado con estas ideas erróneas

Idea errónea comúnDurante 'Estaciones de Limpieza', muchos estudiantes asumirán que los datos están correctos si no ven valores faltantes obvios.

Qué enseñar en su lugar

Pida a los estudiantes que comparen las estadísticas descriptivas antes y después de su limpieza, destacando cómo errores no evidentes (como duplicados o valores atípicos leves) distorsionan el promedio o la desviación estándar.

Idea errónea comúnDurante 'Exploración Guiada', algunos creerán que un histograma perfectamente simétrico indica datos limpios.

Qué enseñar en su lugar

Use el ejercicio para mostrar cómo valores atípicos en los extremos pueden deformar la simetría sin ser evidentes, y pida a los estudiantes que identifiquen estos casos en sus gráficos.

Idea errónea comúnDurante el 'Desafío Competitivo', los equipos pueden suponer que más datos siempre mejoran un modelo, incluso sin preprocesamiento.

Qué enseñar en su lugar

Exija a cada equipo que registre métricas de calidad del dataset (como varianza explicada o error de imputación) antes y después de sus transformaciones, para que vean evidencia cuantitativa de la mejora.

Ideas de Evaluación

Verificación Rápida

Después de 'Estaciones de Limpieza', recoja los datasets corregidos de cada grupo y evalúe la justificación escrita de sus soluciones, verificando que identifiquen correctamente valores faltantes, duplicados y atípicos, y propongan métodos de corrección adecuados.

Pregunta para Discusión

Durante 'Exploración Guiada', plantee la pregunta: 'Si encuentran una correlación fuerte entre dos variables pero una tiene muchos valores faltantes, ¿qué priorizarían investigar primero y por qué?' para evaluar su comprensión de la jerarquía de problemas en preprocesamiento.

Boleto de Salida

Al terminar cada actividad, entregue una tarjeta con una variable de un dataset y pida a los estudiantes que escriban qué técnica de transformación aplicarían (normalización, codificación, etc.) y por qué, usando ejemplos concretos de los datasets trabajados.

Extensiones y Apoyo

  • Challenge: Proponga un dataset con errores desconocidos y pida a los estudiantes que diseñen un informe técnico detallando cada problema encontrado y su impacto potencial en un modelo de ML.
  • Scaffolding: Para estudiantes que se pierden en la exploración, entregue una lista de preguntas clave (ej. ¿Qué variable parece más afectada por los valores faltantes?) y un ejemplo de matriz de correlación ya calculada.
  • Deeper: Invite a los estudiantes a comparar dos métodos de imputación en el mismo dataset y analizar cómo cada uno afecta la distribución de los datos y las correlaciones resultantes.

Vocabulario Clave

Valores Atípicos (Outliers)Son puntos de datos que se desvían significativamente del resto de las observaciones en un conjunto de datos. Pueden indicar errores o eventos inusuales.
Ingeniería de Características (Feature Engineering)Es el proceso de usar el conocimiento del dominio para crear variables predictivas (características) a partir de datos brutos. Mejora el rendimiento de los modelos.
NormalizaciónEs una técnica de escalado de datos que ajusta los valores de las variables numéricas para que se encuentren en una escala común, generalmente entre 0 y 1.
Codificación (Encoding)Es el proceso de convertir variables categóricas en un formato numérico que los algoritmos de Machine Learning puedan entender, como la codificación One-Hot.
Valores Faltantes (Missing Values)Son datos que no están registrados o presentes en un conjunto de datos. Su manejo adecuado es crucial para evitar sesgos en el análisis.

¿Listo para enseñar Preprocesamiento y Exploración de Datos?

Genera una misión completa con todo lo que necesitas

Generar una Misión