Tecnología · 2o de Preparatoria · Gestión y Análisis de Datos · IV Bimestre

Limpieza y Preprocesamiento de Datos

Los estudiantes aplican técnicas para limpiar, transformar y preparar datos para el análisis.

En resumen:La limpieza y preprocesamiento de datos es un proceso abstracto para los estudiantes, pero se vuelve tangible cuando trabajan con datos reales que contienen errores visibles. Las actividades prácticas les permiten experimentar cómo pequeñas inconsistencias alteran resultados, reforzando la importancia de esta fase de manera inmediata y significativa.

Aprendizajes Esperados SEPSEP EMS: Análisis y Visualización de Información

Acerca de este tema

La limpieza y preprocesamiento de datos consiste en aplicar técnicas para detectar errores, manejar valores faltantes, eliminar duplicados y transformar variables, preparando conjuntos para un análisis confiable. En 2° de preparatoria, los estudiantes usan herramientas como Python con pandas o hojas de cálculo para procesar datos reales, respondiendo a las preguntas clave del programa SEP: por qué la calidad de los datos es esencial, estrategias para inconsistencias y la justificación del tiempo en esta fase.

Este tema, dentro de Gestión y Análisis de Datos del IV bimestre, alinea con los estándares de Análisis y Visualización de Información. Los alumnos desarrollan competencias prácticas para identificar ruido en datos, normalizar escalas y codificar categóricas, habilidades vitales en contextos mexicanos como análisis de ventas en tianguis o datos de movilidad urbana. Así, fortalecen el pensamiento crítico y la toma de decisiones basada en evidencia.

El aprendizaje activo beneficia este tema porque los estudiantes experimentan en tiempo real cómo datos sucios distorsionan gráficos y predicciones. Actividades colaborativas con datasets locales hacen visibles los efectos de cada paso, fomentando discusiones que refinan técnicas y retienen conceptos a largo plazo.

Preguntas Clave

¿Por qué la calidad de los datos es fundamental para obtener resultados de análisis confiables?
¿Qué estrategias son efectivas para manejar datos faltantes o inconsistentes?
¿Cómo podemos justificar la inversión de tiempo en la fase de preprocesamiento de datos?

Objetivos de Aprendizaje

Identificar y clasificar tipos de datos (numéricos, categóricos, booleanos) en un conjunto de datos proporcionado.
Aplicar técnicas de manejo de valores faltantes (imputación, eliminación) y justificar la elección del método para un dataset específico.
Evaluar la calidad de un conjunto de datos identificando inconsistencias, duplicados y valores atípicos.
Transformar variables (escalado, codificación) para prepararlas para un análisis posterior, demostrando el impacto de la transformación.
Criticar la efectividad de diferentes estrategias de preprocesamiento de datos en la mejora de la fiabilidad de los resultados del análisis.

Antes de Empezar

Introducción a las Hojas de Cálculo y Tablas de Datos

Por qué: Los estudiantes deben estar familiarizados con la estructura de tablas, filas, columnas y celdas para manipular datos.

Tipos de Datos Básicos (Numéricos y Textuales)

Por qué: Es fundamental que los alumnos reconozcan la diferencia entre números y texto para aplicar las técnicas de limpieza y transformación adecuadas.

Vocabulario Clave

Datos faltantes	Valores que no están registrados o presentes en un conjunto de datos. Pueden ser manejados mediante eliminación o imputación.
Valores atípicos (outliers)	Observaciones que se desvían significativamente de otras observaciones en un conjunto de datos. Pueden indicar errores o eventos inusuales.
Datos duplicados	Registros idénticos o casi idénticos dentro de un conjunto de datos. Suelen eliminarse para evitar sesgos en el análisis.
Codificación de variables categóricas	Proceso de convertir variables cualitativas (como nombres de ciudades o tipos de productos) en formatos numéricos que los algoritmos puedan procesar.
Escalado de variables	Técnica para ajustar el rango de las variables numéricas, asegurando que todas tengan una escala similar para evitar que unas dominen sobre otras en el análisis.

Cuidado con estas ideas erróneas

Idea errónea comúnLos datos crudos siempre están listos para analizar sin cambios.

Qué enseñar en su lugar

La mayoría de datasets reales contienen errores que sesgan resultados. Actividades prácticas donde limpian datos y comparan visualizaciones antes y después ayudan a los estudiantes ver distorsiones concretas. Las discusiones en grupo refuerzan por qué invertir tiempo ahorra errores posteriores.

Idea errónea comúnEliminar filas con datos faltantes es la única y mejor opción.

Qué enseñar en su lugar

Imputar o predecir faltantes preserva información valiosa según el contexto. En exploraciones activas con datasets variados, los alumnos prueban métodos y evalúan impactos, desarrollando criterio para elegir estrategias. Esto fomenta toma de decisiones informada.

Idea errónea comúnEl preprocesamiento no afecta la precisión de los modelos finales.

Qué enseñar en su lugar

Datos limpios mejoran drásticamente la fiabilidad. Experimentos donde alteran datos sucios y miden cambios en métricas de modelos aclaran esta relación. El trabajo colaborativo acelera el descubrimiento de estos vínculos.

Ideas de aprendizaje activo

Ver todas las actividades→

Enseñanza entre Pares

Identificación de Datos Faltantes

Entrega un dataset con valores ausentes. En pares, identifiquen patrones de faltantes usando funciones de conteo, decidan imputar con medias o eliminar filas y registren cambios. Comparen resultados en una visualización simple antes y después.

25 min·Parejas

Rotación por Estaciones

Grupos Pequeños: Eliminación de Duplicados y Normalización

Asigna datasets con duplicados y escalas variadas a grupos pequeños. Usen comandos para remover duplicados, normalicen columnas numéricas y documenten el proceso en un informe compartido. Presenten hallazgos al grupo grande.

40 min·Grupos pequeños

Rotación por Estaciones

Clase Completa: Debate sobre Estrategias de Imputación

Proyecta un dataset con faltantes. La clase discute en pleno opciones como imputación media, mediana o eliminación, vota por la mejor según contexto y aplica colectivamente para ver impactos en un gráfico.

30 min·Toda la clase

Conexiones con el Mundo Real

Un analista de datos en una tienda departamental en Polanco podría limpiar y preprocesar datos de ventas para identificar patrones de compra, eliminando transacciones duplicadas o corrigiendo entradas de productos inconsistentes antes de generar reportes para la gerencia.
Un investigador de movilidad urbana en la Ciudad de México utilizaría estas técnicas para preparar datos de encuestas de transporte público, manejando respuestas incompletas o categorizando de forma consistente las rutas de los usuarios para analizar la eficiencia del sistema.
Un científico de datos en una startup de tecnología financiera podría preprocesar datos de transacciones para detectar anomalías o valores atípicos que sugieran fraudes, asegurando que los modelos de riesgo crediticio se basen en información precisa.

Ideas de Evaluación

Boleto de Salida

Entregue a cada estudiante un pequeño fragmento de un dataset con errores (faltantes, duplicados, inconsistencias). Pida que identifiquen un tipo de problema y describan una estrategia específica que usarían para corregirlo en ese fragmento.

Pregunta para Discusión

Presente dos escenarios: uno donde se realizó un preprocesamiento exhaustivo y otro donde se usaron datos 'sucios'. Pregunte: ¿Qué diferencias esperan ver en los gráficos y conclusiones de cada escenario? ¿Cómo justificarían el tiempo invertido en el primer caso?

Verificación Rápida

Muestre una tabla con una columna de 'Nivel de Estudios' que contenga variaciones como 'Licenciatura', 'lic.', 'Posgrado', 'Maestría'. Pida a los estudiantes que propongan cómo codificarían estas variables para un análisis y qué técnica usarían para estandarizar las entradas.

Preguntas frecuentes

¿Por qué la calidad de los datos es fundamental en el análisis?

Datos de baja calidad generan conclusiones erróneas o sesgadas, como promedios inflados por duplicados. En preprocesamiento, técnicas como limpieza eliminan ruido, asegurando resultados confiables para decisiones en negocios o políticas públicas. Justifica el tiempo invertido al comparar análisis antes y después en clase.

¿Qué estrategias efectivas hay para datos faltantes o inconsistentes?

Para faltantes, usa imputación con media, mediana o KNN según distribución; para inconsistentes, estandariza formatos y valida rangos. En práctica, estudiantes prueban estas en datasets reales, miden impactos y eligen basados en contexto, alineado con SEP para análisis robusto.

¿Cómo usar aprendizaje activo en limpieza de datos?

Implementa rotaciones de estaciones con datasets sucios: una para duplicados, otra para faltantes, imputación y normalización. Grupos rotan, aplican técnicas y comparten hallazgos, experimentando efectos reales. Esto hace tangible el proceso, aumenta retención y desarrolla habilidades colaborativas en 40 minutos.

¿Cómo justificar la inversión de tiempo en preprocesamiento?

El 80% del tiempo en proyectos de datos se dedica a esto, pero evita costos mayores por errores. Muestra en clase cómo datos limpios mejoran precisión de visualizaciones en un 30-50%. Actividades cronometradas demuestran que pasos iniciales aceleran análisis posteriores y generan confianza en resultados.

Plantillas de planificación para Tecnología

Plan de Clase

STEM

Basada en el Proceso de Diseño de Ingeniería. Integra ciencias, tecnología y matemáticas mediante retos reales.

Más en Gestión y Análisis de Datos

Introducción a la Gestión de Datos

Los estudiantes comprenden la importancia de los datos como activo y los desafíos de su gestión.

8 methodologies

Bases de Datos Relacionales

Los estudiantes modelan datos y usan tablas para estructurar información de manera lógica y eficiente.

8 methodologies

Lenguaje SQL para Consulta de Datos

Los estudiantes aprenden a utilizar SQL para consultar, insertar, actualizar y eliminar datos en bases de datos relacionales.

8 methodologies

Normalización de Bases de Datos

Los estudiantes aplican principios de normalización para diseñar bases de datos eficientes y sin redundancias.

8 methodologies

Introducción al Análisis de Datos

Los estudiantes exploran las fases del proceso de análisis de datos, desde la recolección hasta la interpretación.

8 methodologies

Visualización de Datos

Los estudiantes transforman datos crudos en representaciones gráficas que faciliten su interpretación.

8 methodologies

Edited by Adriana Perusin, Editor-in-Chief, Flip Education