UT2: Calidad & Ética en Ingeniería de Datos¶
📋 Prácticas de la Unidad¶
Práctica 5: Missing Data Detective¶
Objetivo: Analizar patrones de datos faltantes y outliers en datasets reales - Detección de MCAR, MAR, MNAR - Estrategias de imputación apropiadas - Análisis de outliers con IQR y z-score - Documentación de decisiones éticas
Práctica 6: Feature Scaling & Anti-Leakage Pipeline¶
Objetivo: Crear pipelines robustos de escalado con datasets reales (Ames Housing) - Comparación de StandardScaler, MinMaxScaler y RobustScaler - Análisis del orden de transformaciones (outliers vs escalado) - Prevención de data leakage con sklearn.Pipeline - Log transforms para distribuciones sesgadas - Investigación independiente de transformadores avanzados
Práctica 7: Detectar y Corregir Sesgo con Fairlearn¶
Objetivo: Práctica completa de detección de sesgo + corrección automática con Fairlearn en dos casos de estudio - Parte I - Boston Housing: Sesgo racial histórico en variable 'B' + corrección con ExponentiatedGradient - Parte II - Titanic: Sesgo género/clase + aplicación de constraints de fairness - Comparación de técnicas entre diferentes tipos de sesgo
"Los datos son un reflejo del mundo, con todos sus sesgos y desigualdades. Como ingenieros de datos, tenemos la responsabilidad de ser conscientes de estos sesgos y trabajar activamente para mitigarlos."