Ir al contenido
Tecnología · 2o de Preparatoria · Gestión y Análisis de Datos · IV Bimestre

Limpieza y Preprocesamiento de Datos

Los estudiantes aplican técnicas para limpiar, transformar y preparar datos para el análisis.

Aprendizajes Esperados SEPSEP EMS: Análisis y Visualización de Información

Acerca de este tema

La limpieza y preprocesamiento de datos consiste en aplicar técnicas para detectar errores, manejar valores faltantes, eliminar duplicados y transformar variables, preparando conjuntos para un análisis confiable. En 2° de preparatoria, los estudiantes usan herramientas como Python con pandas o hojas de cálculo para procesar datos reales, respondiendo a las preguntas clave del programa SEP: por qué la calidad de los datos es esencial, estrategias para inconsistencias y la justificación del tiempo en esta fase.

Este tema, dentro de Gestión y Análisis de Datos del IV bimestre, alinea con los estándares de Análisis y Visualización de Información. Los alumnos desarrollan competencias prácticas para identificar ruido en datos, normalizar escalas y codificar categóricas, habilidades vitales en contextos mexicanos como análisis de ventas en tianguis o datos de movilidad urbana. Así, fortalecen el pensamiento crítico y la toma de decisiones basada en evidencia.

El aprendizaje activo beneficia este tema porque los estudiantes experimentan en tiempo real cómo datos sucios distorsionan gráficos y predicciones. Actividades colaborativas con datasets locales hacen visibles los efectos de cada paso, fomentando discusiones que refinan técnicas y retienen conceptos a largo plazo.

Preguntas Clave

  1. ¿Por qué la calidad de los datos es fundamental para obtener resultados de análisis confiables?
  2. ¿Qué estrategias son efectivas para manejar datos faltantes o inconsistentes?
  3. ¿Cómo podemos justificar la inversión de tiempo en la fase de preprocesamiento de datos?

Objetivos de Aprendizaje

  • Identificar y clasificar tipos de datos (numéricos, categóricos, booleanos) en un conjunto de datos proporcionado.
  • Aplicar técnicas de manejo de valores faltantes (imputación, eliminación) y justificar la elección del método para un dataset específico.
  • Evaluar la calidad de un conjunto de datos identificando inconsistencias, duplicados y valores atípicos.
  • Transformar variables (escalado, codificación) para prepararlas para un análisis posterior, demostrando el impacto de la transformación.
  • Criticar la efectividad de diferentes estrategias de preprocesamiento de datos en la mejora de la fiabilidad de los resultados del análisis.

Antes de Empezar

Introducción a las Hojas de Cálculo y Tablas de Datos

Por qué: Los estudiantes deben estar familiarizados con la estructura de tablas, filas, columnas y celdas para manipular datos.

Tipos de Datos Básicos (Numéricos y Textuales)

Por qué: Es fundamental que los alumnos reconozcan la diferencia entre números y texto para aplicar las técnicas de limpieza y transformación adecuadas.

Vocabulario Clave

Datos faltantesValores que no están registrados o presentes en un conjunto de datos. Pueden ser manejados mediante eliminación o imputación.
Valores atípicos (outliers)Observaciones que se desvían significativamente de otras observaciones en un conjunto de datos. Pueden indicar errores o eventos inusuales.
Datos duplicadosRegistros idénticos o casi idénticos dentro de un conjunto de datos. Suelen eliminarse para evitar sesgos en el análisis.
Codificación de variables categóricasProceso de convertir variables cualitativas (como nombres de ciudades o tipos de productos) en formatos numéricos que los algoritmos puedan procesar.
Escalado de variablesTécnica para ajustar el rango de las variables numéricas, asegurando que todas tengan una escala similar para evitar que unas dominen sobre otras en el análisis.

Cuidado con estas ideas erróneas

Idea errónea comúnLos datos crudos siempre están listos para analizar sin cambios.

Qué enseñar en su lugar

La mayoría de datasets reales contienen errores que sesgan resultados. Actividades prácticas donde limpian datos y comparan visualizaciones antes y después ayudan a los estudiantes ver distorsiones concretas. Las discusiones en grupo refuerzan por qué invertir tiempo ahorra errores posteriores.

Idea errónea comúnEliminar filas con datos faltantes es la única y mejor opción.

Qué enseñar en su lugar

Imputar o predecir faltantes preserva información valiosa según el contexto. En exploraciones activas con datasets variados, los alumnos prueban métodos y evalúan impactos, desarrollando criterio para elegir estrategias. Esto fomenta toma de decisiones informada.

Idea errónea comúnEl preprocesamiento no afecta la precisión de los modelos finales.

Qué enseñar en su lugar

Datos limpios mejoran drásticamente la fiabilidad. Experimentos donde alteran datos sucios y miden cambios en métricas de modelos aclaran esta relación. El trabajo colaborativo acelera el descubrimiento de estos vínculos.

Ideas de aprendizaje activo

Ver todas las actividades

Conexiones con el Mundo Real

  • Un analista de datos en una tienda departamental en Polanco podría limpiar y preprocesar datos de ventas para identificar patrones de compra, eliminando transacciones duplicadas o corrigiendo entradas de productos inconsistentes antes de generar reportes para la gerencia.
  • Un investigador de movilidad urbana en la Ciudad de México utilizaría estas técnicas para preparar datos de encuestas de transporte público, manejando respuestas incompletas o categorizando de forma consistente las rutas de los usuarios para analizar la eficiencia del sistema.
  • Un científico de datos en una startup de tecnología financiera podría preprocesar datos de transacciones para detectar anomalías o valores atípicos que sugieran fraudes, asegurando que los modelos de riesgo crediticio se basen en información precisa.

Ideas de Evaluación

Boleto de Salida

Entregue a cada estudiante un pequeño fragmento de un dataset con errores (faltantes, duplicados, inconsistencias). Pida que identifiquen un tipo de problema y describan una estrategia específica que usarían para corregirlo en ese fragmento.

Pregunta para Discusión

Presente dos escenarios: uno donde se realizó un preprocesamiento exhaustivo y otro donde se usaron datos 'sucios'. Pregunte: ¿Qué diferencias esperan ver en los gráficos y conclusiones de cada escenario? ¿Cómo justificarían el tiempo invertido en el primer caso?

Verificación Rápida

Muestre una tabla con una columna de 'Nivel de Estudios' que contenga variaciones como 'Licenciatura', 'lic.', 'Posgrado', 'Maestría'. Pida a los estudiantes que propongan cómo codificarían estas variables para un análisis y qué técnica usarían para estandarizar las entradas.

Preguntas frecuentes

¿Por qué la calidad de los datos es fundamental en el análisis?
Datos de baja calidad generan conclusiones erróneas o sesgadas, como promedios inflados por duplicados. En preprocesamiento, técnicas como limpieza eliminan ruido, asegurando resultados confiables para decisiones en negocios o políticas públicas. Justifica el tiempo invertido al comparar análisis antes y después en clase.
¿Qué estrategias efectivas hay para datos faltantes o inconsistentes?
Para faltantes, usa imputación con media, mediana o KNN según distribución; para inconsistentes, estandariza formatos y valida rangos. En práctica, estudiantes prueban estas en datasets reales, miden impactos y eligen basados en contexto, alineado con SEP para análisis robusto.
¿Cómo usar aprendizaje activo en limpieza de datos?
Implementa rotaciones de estaciones con datasets sucios: una para duplicados, otra para faltantes, imputación y normalización. Grupos rotan, aplican técnicas y comparten hallazgos, experimentando efectos reales. Esto hace tangible el proceso, aumenta retención y desarrolla habilidades colaborativas en 40 minutos.
¿Cómo justificar la inversión de tiempo en preprocesamiento?
El 80% del tiempo en proyectos de datos se dedica a esto, pero evita costos mayores por errores. Muestra en clase cómo datos limpios mejoran precisión de visualizaciones en un 30-50%. Actividades cronometradas demuestran que pasos iniciales aceleran análisis posteriores y generan confianza en resultados.