La actividad contempla una parte teórica y otra práctica con el programa R. El contenido se divide en cuatro bloques temáticos:
- Introducción a EDA y R (1 hora)
- Definición de Análisis Exploratorio de Datos (EDA) y su importancia. - Introducción a R y RStudio. - Importación de datos en R (CSV, Excel, bases de datos). - Exploración inicial de los datos con funciones básicas de R (head(), str()).
- Estadística Descriptiva (2 hora)
- Cálculo de medidas de tendencia central: Técnicas para calcular y analizar la media, mediana y moda como resúmenes principales de datos.
- Evaluación de la dispersión de los datos: Métodos para medir la variabilidad mediante desviación estándar, rango intercuartílico (IQR) y rango.
- Agrupamiento y análisis comparativo: Estrategias para resumir datos categorizados, comparando medidas de centralidad y dispersión entre diferentes grupos.
- Interpretación de tablas de resumen y análisis de patrones dentro y entre grupos.
- Análisis exploratorio de datos con el paquete ggplot2 (4 horas)
- Introducción a ggplot2 y la gramática de gráficos: conceptos clave para construir visualizaciones efectivas. - Análisis de distribuciones: Construcción e interpretación de histogramas para datos continuos, uso de diagramas de cajas (boxplots) para evaluar dispersión y detectar valores atípicos, gráficos de densidad y de violín para analizar distribuciones más suavizadas. - Análisis de relaciones entre variables: Gráficos de dispersión (scatter plots) para explorar correlaciones y tendencias; análisis de relaciones temporales o secuenciales con gráficos de líneas.
- Visualización para múltiples variables: Gráficos de pares (pair plots) para relaciones en conjuntos de variables continuas; facetado para explorar relaciones entre variables categóricas y continuas.
- Personalización avanzada: adaptación de colores, etiquetas y escalas para mejorar la interpretación; aplicación de temas para una presentación profesional de los gráficos.
- Manejo de Datos Faltantes y Outliers (3 horas)
- Exploración avanzada de los datos: técnicas para obtener un resumen descriptivo completo y detectar patrones de datos faltantes y valores atípicos.
- Estrategias para manejar datos faltantes: eliminación, imputación y sustitución con valores representativos.
- Opciones para manejar valores atípicos: exclusión, transformación o ajuste en función del contexto del análisis. |