Preprocesamiento y Exploración de Datos
Los estudiantes aprenden técnicas de limpieza, transformación y exploración de datos para preparar conjuntos de datos para el análisis y el Machine Learning.
Acerca de este tema
El preprocesamiento y exploración de datos introduce a los estudiantes en técnicas esenciales para preparar conjuntos de datos reales antes del análisis o el Machine Learning. Aprenden a identificar y corregir valores faltantes, duplicados y atípicos mediante limpieza; transformar variables con normalización o codificación; y explorar patrones con estadísticas descriptivas, histogramas y matrices de correlación. Estas habilidades responden directamente a los programas SEP de Análisis y Visualización de Datos y Preparación de Datos en Educación Media Superior.
En el contexto de la unidad de Análisis de Datos e Inteligencia Artificial, este tema fortalece el pensamiento crítico al revelar cómo datos sucios generan modelos inexactos, mientras la exploración descubre relaciones ocultas entre variables. Los estudiantes abordan preguntas clave como la importancia de la limpieza para la fiabilidad de modelos y el rol de la ingeniería de características en el rendimiento predictivo.
El aprendizaje activo beneficia particularmente este tema porque los estudiantes manipulan datos reales en herramientas como Python o Google Sheets, lo que hace visibles errores comunes y patrones emergentes. Actividades colaborativas fomentan la discusión de decisiones de preprocesamiento, consolidando conceptos abstractos en prácticas concretas y preparándolos para proyectos de IA auténticos.
Preguntas Clave
- ¿Cómo la limpieza de datos mejora la calidad y fiabilidad de los modelos de Machine Learning?
- ¿De qué manera la exploración de datos revela patrones, anomalías y relaciones entre variables?
- ¿Por qué la ingeniería de características es crucial para el rendimiento de un modelo?
Objetivos de Aprendizaje
- Identificar y clasificar tipos de datos (numéricos, categóricos, ordinales) en un conjunto de datos dado.
- Aplicar técnicas de limpieza de datos para manejar valores faltantes, duplicados y atípicos en un conjunto de datos utilizando Python.
- Evaluar el impacto de la transformación de variables (normalización, codificación) en la distribución de los datos.
- Analizar patrones y relaciones en un conjunto de datos mediante el cálculo de estadísticas descriptivas y la generación de visualizaciones (histogramas, diagramas de dispersión).
- Criticar la calidad de un conjunto de datos y justificar las decisiones tomadas durante el preprocesamiento para mejorar su fiabilidad.
Antes de Empezar
Por qué: Los estudiantes necesitan familiaridad con la sintaxis básica de Python y el uso de estructuras de datos como listas y diccionarios para manipular datos.
Por qué: Es necesario comprender medidas como la media, mediana, moda y desviación estándar para poder interpretar los resultados de la exploración de datos.
Por qué: Los estudiantes deben poder diferenciar entre tipos de datos (numéricos, texto) y entender estructuras básicas para trabajar con ellos.
Vocabulario Clave
| Valores Atípicos (Outliers) | Son puntos de datos que se desvían significativamente del resto de las observaciones en un conjunto de datos. Pueden indicar errores o eventos inusuales. |
| Ingeniería de Características (Feature Engineering) | Es el proceso de usar el conocimiento del dominio para crear variables predictivas (características) a partir de datos brutos. Mejora el rendimiento de los modelos. |
| Normalización | Es una técnica de escalado de datos que ajusta los valores de las variables numéricas para que se encuentren en una escala común, generalmente entre 0 y 1. |
| Codificación (Encoding) | Es el proceso de convertir variables categóricas en un formato numérico que los algoritmos de Machine Learning puedan entender, como la codificación One-Hot. |
| Valores Faltantes (Missing Values) | Son datos que no están registrados o presentes en un conjunto de datos. Su manejo adecuado es crucial para evitar sesgos en el análisis. |
Cuidado con estas ideas erróneas
Idea errónea comúnLos datos reales siempre están limpios y listos para analizar.
Qué enseñar en su lugar
La mayoría de datasets contienen errores que sesgan modelos; la limpieza es iterativa. Actividades de estaciones ayudan a los estudiantes a experimentar estos problemas directamente, comparando datos antes y después para apreciar su impacto en la fiabilidad.
Idea errónea comúnLa exploración de datos solo implica mirar promedios y sumas.
Qué enseñar en su lugar
La exploración revela patrones multivariables mediante visualizaciones y correlaciones. En parejas, generar gráficos fomenta discusiones que corrigen esta idea limitada, mostrando relaciones complejas que las estadísticas simples ocultan.
Idea errónea comúnMás datos siempre mejoran un modelo sin preparación.
Qué enseñar en su lugar
Datos no preparados generan ruido; la ingeniería de features es clave. Desafíos grupales permiten probar transformaciones y medir mejoras, ayudando a estudiantes a internalizar esta necesidad mediante evidencia cuantitativa.
Ideas de aprendizaje activo
Ver todas las actividadesEstaciones de Limpieza: Datos Sucios
Prepara cuatro estaciones con datasets problemáticos: valores faltantes, duplicados, atípicos y tipos erróneos. Los grupos rotan cada 10 minutos, aplican técnicas de limpieza en Python o Excel y registran cambios en un informe compartido. Al final, comparan resultados en plenaria.
Exploración Guiada: Histogramas y Correlaciones
Proporciona un dataset limpio de ventas o clima. En parejas, generan visualizaciones con bibliotecas como Pandas y Matplotlib, calculan estadísticas descriptivas e identifican tres patrones o anomalías. Presentan hallazgos en un tablero digital grupal.
Ingeniería de Features: Desafío Competitivo
Divide la clase en equipos para transformar un dataset crudo creando nuevas variables, como ratios o categorías. Evalúan impacto en un modelo simple de regresión. Votan por la mejor ingeniería basada en precisión.
Exploración Individual: Mi Dataset Personal
Cada estudiante selecciona un dataset público, lo limpia paso a paso y genera un reporte de exploración con gráficos. Comparte uno o dos insights en una galería de clase virtual.
Conexiones con el Mundo Real
- Los científicos de datos en empresas de comercio electrónico como Mercado Libre utilizan técnicas de preprocesamiento para limpiar historiales de compras y datos de navegación de usuarios. Esto permite crear sistemas de recomendación más precisos que sugieren productos relevantes, mejorando la experiencia del cliente.
- Los analistas financieros en bancos como Banamex aplican la exploración y limpieza de datos para identificar patrones en transacciones y detectar actividades fraudulentas. La correcta preparación de estos datos es fundamental para construir modelos que alerten sobre posibles fraudes en tiempo real.
- Los investigadores médicos en instituciones como el Instituto Nacional de Salud Pública (INPS) preprocesan grandes conjuntos de datos de pacientes para identificar factores de riesgo de enfermedades. La limpieza y transformación de datos como historiales clínicos y resultados de laboratorio son pasos esenciales para desarrollar modelos predictivos de salud.
Ideas de Evaluación
Presentar a los estudiantes un pequeño conjunto de datos (ej. 5 filas, 3 columnas) con errores evidentes (valores faltantes, duplicados, un valor atípico). Pedirles que identifiquen los problemas y propongan una solución específica para cada uno, justificando su elección.
Plantear la siguiente pregunta al grupo: 'Si un modelo de Machine Learning predice resultados erróneos consistentemente, ¿cuáles son las primeras tres causas relacionadas con el preprocesamiento de datos que investigarían y por qué?' Fomentar la discusión y el debate sobre la jerarquía de problemas.
Entregar a cada estudiante una tarjeta con el nombre de una técnica de preprocesamiento (ej. Imputación, Normalización, Codificación One-Hot). Pedirles que escriban una breve descripción de cuándo y por qué usarían esa técnica, y un ejemplo concreto de su aplicación.
Preguntas frecuentes
¿Cómo limpiar datos faltantes en preprocesamiento?
¿Por qué la exploración de datos revela anomalías?
¿Cómo el aprendizaje activo ayuda en preprocesamiento de datos?
¿Qué es ingeniería de características y por qué es crucial?
Más en Análisis de Datos e Inteligencia Artificial
Introducción a Bases de Datos y Modelado de Datos
Los estudiantes comprenden los conceptos de bases de datos, sistemas de gestión de bases de datos (DBMS) y el modelado entidad-relación.
2 methodologies
Diseño de Bases de Datos Relacionales y Normalización
Los estudiantes aplican los principios de normalización (1FN, 2FN, 3FN) para diseñar bases de datos relacionales robustas y sin redundancia.
2 methodologies
Consultas SQL Básicas: SELECT, FROM, WHERE
Los estudiantes escriben consultas SQL para seleccionar, filtrar y recuperar datos de una o varias tablas.
2 methodologies
Consultas SQL Avanzadas: JOINs, Agregación y Subconsultas
Los estudiantes utilizan JOINs para combinar datos de múltiples tablas, funciones de agregación y subconsultas para resolver problemas complejos.
2 methodologies
Introducción a la Inteligencia Artificial y Machine Learning
Los estudiantes distinguen entre IA, Machine Learning y Deep Learning, comprendiendo sus aplicaciones y limitaciones.
2 methodologies
Tipos de Aprendizaje Automático: Supervisado y No Supervisado
Los estudiantes exploran los paradigmas de aprendizaje supervisado (regresión, clasificación) y no supervisado (clustering), y sus casos de uso.
2 methodologies