UT3: Feature Engineering en Ingeniería de Datos¶
📋 Prácticas de la Unidad¶
Assignment 7: Feature Engineering con Pandas¶
Objetivo: Crear features derivadas relevantes y evaluar su importancia en modelos de ML - Creación de ratios y proporciones (precio/m², superficie/habitación) - Variables temporales (antigüedad, categorías de edad) - Transformaciones matemáticas (log, raíz cuadrada, potencias) - Evaluación con mutual information y random forest - Análisis de distribución y detección de outliers - Investigación libre con features de dominio
Assignment 8: Encoding Avanzado y Target Encoding¶
Objetivo: Dominar técnicas avanzadas de encoding categórico para alta cardinalidad - Análisis de cardinalidad de variables categóricas - Label, One-Hot y Ordinal Encoding (técnicas básicas) - Target Encoding con prevención de data leakage - Pipeline con branching usando ColumnTransformer - Comparación cuantitativa de métodos (accuracy, tiempo, dimensionalidad) - Técnicas avanzadas: frequency encoding, binary encoding, smoothing - Trade-offs entre performance, complejidad y escalabilidad
Assignment 10: PCA y Feature Selection¶
Objetivo: Dominar técnicas de reducción dimensional y selección de features - PCA: transformación a componentes principales y análisis de varianza explicada - Feature Selection basada en PCA Loadings (mantener features originales interpretables) - Filter Methods: F-test y Mutual Information para selección univariada - Wrapper Methods: Forward Selection y Backward Elimination con cross-validation - Embedded Methods: Random Forest Feature Importance y Lasso Regularization - Comparación cuantitativa entre métodos (RMSE, R², dimensionalidad reducida) - Trade-offs entre reducción dimensional, interpretabilidad y performance
Assignment 11: Temporal Feature Engineering¶
Objetivo: Dominar feature engineering con datos temporales y transaccionales - Lag features: shifts y rolling windows para capturar momentum - User aggregations: RFM analysis y time windows (7d, 30d, 90d) - External variables: calendar features, holidays, economic indicators (GDP, unemployment) - Time-based validation: TimeSeriesSplit y walk-forward validation - Data leakage prevention: técnicas correctas de agregación temporal - Feature importance analysis: impacto de temporal features en performance - Comparación: modelo con vs sin temporal features en e-commerce transaccional
"El feature engineering es el arte de transformar datos raw en insights accionables. Una buena feature puede hacer la diferencia entre un modelo mediocre y uno excepcional."
"En alta cardinalidad, la técnica de encoding puede ser la diferencia entre un modelo que explota dimensionalmente y uno que escala eficientemente."
"En datos temporales, respetar el orden temporal no es opcional: es la diferencia entre un modelo que predice el futuro y uno que simplemente memoriza el pasado."