Saltar a contenido

UT3: Feature Engineering en Ingeniería de Datos

📋 Prácticas de la Unidad

Assignment 7: Feature Engineering con Pandas

Objetivo: Crear features derivadas relevantes y evaluar su importancia en modelos de ML - Creación de ratios y proporciones (precio/m², superficie/habitación) - Variables temporales (antigüedad, categorías de edad) - Transformaciones matemáticas (log, raíz cuadrada, potencias) - Evaluación con mutual information y random forest - Análisis de distribución y detección de outliers - Investigación libre con features de dominio

Assignment 8: Encoding Avanzado y Target Encoding

Objetivo: Dominar técnicas avanzadas de encoding categórico para alta cardinalidad - Análisis de cardinalidad de variables categóricas - Label, One-Hot y Ordinal Encoding (técnicas básicas) - Target Encoding con prevención de data leakage - Pipeline con branching usando ColumnTransformer - Comparación cuantitativa de métodos (accuracy, tiempo, dimensionalidad) - Técnicas avanzadas: frequency encoding, binary encoding, smoothing - Trade-offs entre performance, complejidad y escalabilidad

Assignment 10: PCA y Feature Selection

Objetivo: Dominar técnicas de reducción dimensional y selección de features - PCA: transformación a componentes principales y análisis de varianza explicada - Feature Selection basada en PCA Loadings (mantener features originales interpretables) - Filter Methods: F-test y Mutual Information para selección univariada - Wrapper Methods: Forward Selection y Backward Elimination con cross-validation - Embedded Methods: Random Forest Feature Importance y Lasso Regularization - Comparación cuantitativa entre métodos (RMSE, R², dimensionalidad reducida) - Trade-offs entre reducción dimensional, interpretabilidad y performance


"El feature engineering es el arte de transformar datos raw en insights accionables. Una buena feature puede hacer la diferencia entre un modelo mediocre y uno excepcional."

"En alta cardinalidad, la técnica de encoding puede ser la diferencia entre un modelo que explota dimensionalmente y uno que escala eficientemente."