Unidad Temática 1 – Fundamentos, EDA y Portafolio¶
En esta unidad trabajamos los fundamentos de la asignatura, el flujo de trabajo con GitHub Classroom y prácticas de EDA con pandas y visualización.
Reglas globales (UT1)¶
- Alcance: solo exploración. Prohibido limpiar/imputar, FE avanzado o modelar. Dejar decisiones posibles para UT2.
- Estilo: tono directo/imperativo y estructura de objetivos, prerequisitos, pasos, checklist y errores comunes.
- Reproducibilidad: incluir versión de Python/libs, estructura de carpetas estándar, semilla si aplica, y cómo exportar artefactos (CSV/PNG/MD).
- Artefactos mínimos en
results/
:perfiles/
,visualizaciones/
,reportes/
. - Quality Gates: notebook corre de punta a punta; ≥2 visualizaciones útiles; ≥3 insights; data dictionary mínimo; fuentes/linaje documentado.
Prácticas (tiempos estimados)¶
- Práctica 1: Exploración del dataset Iris — 60 min
- Práctica 2: Publicar tu Portafolio con GitHub Pages — 30–40 min
- Práctica 3: EDA Netflix Dataset con pandas — 75–90 min
- Práctica 4: EDA multi‑fuentes y joins con pandas — 60–90 min
Criterios de evaluación (UT1)¶
- P1 (10 pts): datos/fuentes (2), perfilado (2), visuales (3), insights (3)
- P3 (15 pts): metodología Google (3), validación expectativas (4), visuales/interpretación (5), ydata-profiling + reflexión (3)
- P4 (15 pts): ingestión 3+ fuentes (5), normalización + esquema (4), joins con métricas (3), 2 visuales útiles (3)
Prerrequisitos¶
python --version
pip install pandas seaborn matplotlib
# Para P3 (Netflix): ydata-profiling
pip install ydata-profiling
# opcional: pyarrow para Parquet
Estructura mínima
<proyecto>/
data/
results/
perfiles/
visualizaciones/
reportes/
src/
Calendario y alcance¶
- Entregas y re‑entregas: ver Aula Virtual (fechas UT1).
- Recordatorio: UT1 = explorar y entender; UT2 = limpiar y transformar.