Ir al contenido
Tecnología · 3o de Preparatoria · Análisis de Datos e Inteligencia Artificial · IV Bimestre

Preprocesamiento y Exploración de Datos

Los estudiantes aprenden técnicas de limpieza, transformación y exploración de datos para preparar conjuntos de datos para el análisis y el Machine Learning.

Aprendizajes Esperados SEPSEP EMS: Análisis y Visualización de DatosSEP EMS: Preparación de Datos

Acerca de este tema

El preprocesamiento y exploración de datos introduce a los estudiantes en técnicas esenciales para preparar conjuntos de datos reales antes del análisis o el Machine Learning. Aprenden a identificar y corregir valores faltantes, duplicados y atípicos mediante limpieza; transformar variables con normalización o codificación; y explorar patrones con estadísticas descriptivas, histogramas y matrices de correlación. Estas habilidades responden directamente a los programas SEP de Análisis y Visualización de Datos y Preparación de Datos en Educación Media Superior.

En el contexto de la unidad de Análisis de Datos e Inteligencia Artificial, este tema fortalece el pensamiento crítico al revelar cómo datos sucios generan modelos inexactos, mientras la exploración descubre relaciones ocultas entre variables. Los estudiantes abordan preguntas clave como la importancia de la limpieza para la fiabilidad de modelos y el rol de la ingeniería de características en el rendimiento predictivo.

El aprendizaje activo beneficia particularmente este tema porque los estudiantes manipulan datos reales en herramientas como Python o Google Sheets, lo que hace visibles errores comunes y patrones emergentes. Actividades colaborativas fomentan la discusión de decisiones de preprocesamiento, consolidando conceptos abstractos en prácticas concretas y preparándolos para proyectos de IA auténticos.

Preguntas Clave

  1. ¿Cómo la limpieza de datos mejora la calidad y fiabilidad de los modelos de Machine Learning?
  2. ¿De qué manera la exploración de datos revela patrones, anomalías y relaciones entre variables?
  3. ¿Por qué la ingeniería de características es crucial para el rendimiento de un modelo?

Objetivos de Aprendizaje

  • Identificar y clasificar tipos de datos (numéricos, categóricos, ordinales) en un conjunto de datos dado.
  • Aplicar técnicas de limpieza de datos para manejar valores faltantes, duplicados y atípicos en un conjunto de datos utilizando Python.
  • Evaluar el impacto de la transformación de variables (normalización, codificación) en la distribución de los datos.
  • Analizar patrones y relaciones en un conjunto de datos mediante el cálculo de estadísticas descriptivas y la generación de visualizaciones (histogramas, diagramas de dispersión).
  • Criticar la calidad de un conjunto de datos y justificar las decisiones tomadas durante el preprocesamiento para mejorar su fiabilidad.

Antes de Empezar

Introducción a la Programación con Python

Por qué: Los estudiantes necesitan familiaridad con la sintaxis básica de Python y el uso de estructuras de datos como listas y diccionarios para manipular datos.

Conceptos Básicos de Estadística Descriptiva

Por qué: Es necesario comprender medidas como la media, mediana, moda y desviación estándar para poder interpretar los resultados de la exploración de datos.

Tipos de Datos y Estructuras de Datos

Por qué: Los estudiantes deben poder diferenciar entre tipos de datos (numéricos, texto) y entender estructuras básicas para trabajar con ellos.

Vocabulario Clave

Valores Atípicos (Outliers)Son puntos de datos que se desvían significativamente del resto de las observaciones en un conjunto de datos. Pueden indicar errores o eventos inusuales.
Ingeniería de Características (Feature Engineering)Es el proceso de usar el conocimiento del dominio para crear variables predictivas (características) a partir de datos brutos. Mejora el rendimiento de los modelos.
NormalizaciónEs una técnica de escalado de datos que ajusta los valores de las variables numéricas para que se encuentren en una escala común, generalmente entre 0 y 1.
Codificación (Encoding)Es el proceso de convertir variables categóricas en un formato numérico que los algoritmos de Machine Learning puedan entender, como la codificación One-Hot.
Valores Faltantes (Missing Values)Son datos que no están registrados o presentes en un conjunto de datos. Su manejo adecuado es crucial para evitar sesgos en el análisis.

Cuidado con estas ideas erróneas

Idea errónea comúnLos datos reales siempre están limpios y listos para analizar.

Qué enseñar en su lugar

La mayoría de datasets contienen errores que sesgan modelos; la limpieza es iterativa. Actividades de estaciones ayudan a los estudiantes a experimentar estos problemas directamente, comparando datos antes y después para apreciar su impacto en la fiabilidad.

Idea errónea comúnLa exploración de datos solo implica mirar promedios y sumas.

Qué enseñar en su lugar

La exploración revela patrones multivariables mediante visualizaciones y correlaciones. En parejas, generar gráficos fomenta discusiones que corrigen esta idea limitada, mostrando relaciones complejas que las estadísticas simples ocultan.

Idea errónea comúnMás datos siempre mejoran un modelo sin preparación.

Qué enseñar en su lugar

Datos no preparados generan ruido; la ingeniería de features es clave. Desafíos grupales permiten probar transformaciones y medir mejoras, ayudando a estudiantes a internalizar esta necesidad mediante evidencia cuantitativa.

Ideas de aprendizaje activo

Ver todas las actividades

Conexiones con el Mundo Real

  • Los científicos de datos en empresas de comercio electrónico como Mercado Libre utilizan técnicas de preprocesamiento para limpiar historiales de compras y datos de navegación de usuarios. Esto permite crear sistemas de recomendación más precisos que sugieren productos relevantes, mejorando la experiencia del cliente.
  • Los analistas financieros en bancos como Banamex aplican la exploración y limpieza de datos para identificar patrones en transacciones y detectar actividades fraudulentas. La correcta preparación de estos datos es fundamental para construir modelos que alerten sobre posibles fraudes en tiempo real.
  • Los investigadores médicos en instituciones como el Instituto Nacional de Salud Pública (INPS) preprocesan grandes conjuntos de datos de pacientes para identificar factores de riesgo de enfermedades. La limpieza y transformación de datos como historiales clínicos y resultados de laboratorio son pasos esenciales para desarrollar modelos predictivos de salud.

Ideas de Evaluación

Verificación Rápida

Presentar a los estudiantes un pequeño conjunto de datos (ej. 5 filas, 3 columnas) con errores evidentes (valores faltantes, duplicados, un valor atípico). Pedirles que identifiquen los problemas y propongan una solución específica para cada uno, justificando su elección.

Pregunta para Discusión

Plantear la siguiente pregunta al grupo: 'Si un modelo de Machine Learning predice resultados erróneos consistentemente, ¿cuáles son las primeras tres causas relacionadas con el preprocesamiento de datos que investigarían y por qué?' Fomentar la discusión y el debate sobre la jerarquía de problemas.

Boleto de Salida

Entregar a cada estudiante una tarjeta con el nombre de una técnica de preprocesamiento (ej. Imputación, Normalización, Codificación One-Hot). Pedirles que escriban una breve descripción de cuándo y por qué usarían esa técnica, y un ejemplo concreto de su aplicación.

Preguntas frecuentes

¿Cómo limpiar datos faltantes en preprocesamiento?
Imputa valores con medias, medianas o métodos avanzados como KNN, según el contexto. Elimina filas si son pocas, pero documenta decisiones. En práctica, usa Pandas fillna() tras análisis exploratorio para evitar sesgos, mejorando la calidad del modelo final en un 20-30% típico.
¿Por qué la exploración de datos revela anomalías?
Mediante boxplots, histogramas y scatterplots, se detectan outliers y distribuciones sesgadas que afectan modelos. Calcula correlaciones para relaciones inesperadas. Esta fase inicial ahorra tiempo en iteraciones y guía la ingeniería de features efectiva.
¿Cómo el aprendizaje activo ayuda en preprocesamiento de datos?
Actividades como rotación de estaciones o desafíos en parejas permiten manipular datasets reales, experimentando errores comunes y soluciones inmediatas. La colaboración discute decisiones éticas y técnicas, reteniendo conceptos mejor que lecturas pasivas y preparando para proyectos de IA reales en SEP.
¿Qué es ingeniería de características y por qué es crucial?
Crear nuevas variables de las originales, como polinomios o interacciones, optimiza modelos. Mejora precisión al capturar no linealidades. En high school, prueba con datasets simples midiendo R² antes/después para ver ganancias del 10-50%.