EID - Universidad Rey Juan Carlos

ESCUELA INTERNACIONAL DE DOCTORADO

Tesis doctorales de la Escuela Internacional de Doctorado de la URJC desde el curso 2024/25

Interpretable Data Science Algorithms: Applications for Knowledge Management and Smart Decision
Autor	GÓMEZ TALAL, ISMAEL
Director	ROJO ÁLVAREZ, JOSÉ LUIS
Codirector	BOTE CURIEL, LUIS
Fecha de defensa	03-02-2026
Calificación	Sobresaliente cum laude
Programa	Tecnologías de la información y las Comunicaciones (TICs)
Mención internacional	Sí
Resumen	Antecedentes. La adopción de sistemas de aprendizaje automático (ML) en dominios sensibles (como por ejemplo salud, finanzas, industria, servicios públicos o educación, entre otros) exige no sólo alto rendimiento predictivo, sino también comprensión del comportamiento de los modelos por parte de personas expertas y responsables de la toma de decisiones (es decir, intentar obtener la intepretabilidad o explicabilidad de estos modelos). En este contexto, la Explainable Artificial Intelligence (XAI) ha emergido como un campo clave para dotar de transparencia, auditabilidad y utilidad humana a los modelos de ML. Entre las técnicas post-hoc, SHapley Additive exPlanations (SHAP) ha adquirido amplia difusión por su coherencia local y su aplicabilidad transversal; sin embargo, su coste computacional en datos de alta dimensionalidad o modelos complejos limita el uso iterativo y la exploración interactiva a gran escala. Paralelamente, las evaluaciones internacionales a gran escala, como el informe Programme for International Student Assessment (PISA), proporcionan un terreno empírico para examinar los factores determinantes del rendimiento educativo y el uso de las herramientas de interpretabilidad en un contexto necesario. PISA recoge información cognitiva y contextual extensa de estudiantes de 15 años, lo que permite abordar preguntas de política educativa (brechas por género y nivel socioeconómico, papel de recursos en el hogar, integración de Tecnologías de la Información en las aulas o prácticas docentes, entre otras) con métodos predictivos e interpretables. Esta Tesis Doctoral se sitúa en la intersección de ambos frentes: (1) aplica técnicas de XAI a PISA 2018 (España) para identificar factores que pueden afectar al rendimiento en Matemáticas y caracterizar disparidades entre subgrupos; (2) escala el análisis a PISA 2022 con modelos de ML robustos y la posibilidad de diseñar cuadros de mando (dashboards) orientados a poder facilitar el uso de estos modelos XAI y que puedan ser fácilmente utilizables; y (3) propone una contribución metodológica, Perturbation-Based Explanations (PeBEx), para aliviar los cuellos de botella computacionales de modelos XAI post-hoc sin sacrificar fidelidad local ni utilidad operativa. Esta tesis busca el gap encontrado en el marco teórico parra poder considerar la metodogología empleada en XAI en educación y, por otro lado, considerar la tranversalidad de los modelos de XAI en datasets sintéticos y públicos (salud, evaluación de crédito bancario, automoción y banca minorista). Este gap encontrado en las diferentes líneas nos define los diferentes objetivos de la tesis. Objetivos. El objetivo general de la presente Tesis Doctoral es diseñar y validar enfoques de ML explicable que mejoren la transparencia, la eficiencia computacional y la utilidad práctica de sistemas predictivos en educación, con foco en el informe PISA. Este propósito se concreta en cinco objetivos específicos: (SO-1) identificar y priorizar los determinantes del rendimiento en Matemáticas en PISA (España) y cuantificar las disparidades entre subgrupos (sexo, nivel socioeconómico, tipo de centro y Comunidades Autónomas), empleando SHAP como técnica de explicación del modelo predictivo; (SO-2) examinar factores socioeconómicos y contextuales que influyen en el aprendizaje, conectando las explicaciones de modelo con implicaciones en política educativa; (SO-3) derivar evidencia accionable sobre el rendimiento en PISA (2022) mediante modelos de ML explicados, y operativizarla en decisiones (como por ejemplo priorización de factores y perfiles de riesgo) a través de un dashboard interactivo validado con usuarios (docentes/gestores); (SO-4) evaluar la eficacia de SHAP en escenarios de gran escala y aprendizaje profundo, identificando ineficiencias (sobre todo computacionales) y sus implicaciones para la investigación educativa; y (SO-5) desarrollar y validar un método que reduzca el coste computacional del los modelos de referencia en XAI, posibilitando XAI a escala en modelos complejos. La estrategia empírica es secuencial y acumulativa: parte de un análisis nacional (PISA 2018, España) para fijar el flujo de interpretabilidad y estudiar disparidades; escala a PISA 2022 con meta modelos de ML ensamblados y visualizaciones fácilmente entendible para usuarios; y culmina con una contribución metodológica que resuelve los cuellos de botella detectados, con validación en datos sintéticos, conjuntos públicos y modelos de ML (lineales, basado en árboles, ensembles y aprendizaje profundo). Resultados. Esta Tesis Doctoral se presenta en modalidad de compendio de publicaciones compuesto por tres artículos revisados por pares y alineados con los objetivos específicos de la investigación. PISA 2018 (España) con interpretabilidad SHAP (Artículo I). Empleando un conjunto de algoritmos supervisados (regresión logística, basado en árboles y variantes de gradiente, redes neuronales) con validación cruzada homogénea, el estudio estima importancias y atribuciones locales mediante SHAP para explicar el rendimiento en Matemáticas. Los hallazgos globales y locales han sido coherentes entre sí y con la literatura previa y los informes oficiales de PISA: (1) los recursos educativos en el hogar (como por ejemplo el número de libros o el acceso a materiales, entre otras variables.) se asocian positivamente con un mayor rendimiento; (2) los indicadores de estatus socioeconómico y entorno familiar capturan una parte sustantiva de la variación; (3) diferentes variables de actitudes y procesos (como el growth mindset, la autopercepción frente a tareas analíticas y ciertas respuestas a ítems de alfabetización digital) muestran vínculos consistentes con el desempeño; (4) persisten patrones por género, con solapamientos importantes y contribuciones diferenciales en segmentos de alto rendimiento en Matemáticas; y (5) aparecen diferencias geográficas acordes con informes oficiales existentes (p. ej., concentraciones de bajo rendimiento en Matemáticas en algunas regiones y mejores resultados en otras). A nivel individual, las barras SHAP permiten perfilar casos y localizar palancas plausibles (recursos, apoyo académico adicional o prácticas de estudio, entre otras variables.). Metodológicamente, el estudio evidencia que las explicaciones locales, aunque informativas, deben triangularse con dispositivos globales (como por ejemplo Partial Dependence Plot (PDP) o Accumulated Local Effects (ALE), ambos métodos de interpretabilidad ampliamente usados) para no perder estructura de interacciones o patrones de subgrupos. PISA 2022 con ensamblados y dashboards para transferencia de conocimiento (Artículo II). El segundo estudio amplía el pipeline con ocho clasificadores base y un meta-modelo de ensamblado, manteniendo preprocesamiento y evaluación consistentes. Esta ampliación viene motivada por: (1) ganar robustez y estabilidad de resultados al reducir la dependencia de un único algoritmo; (2) capturar mejor no linealidades e interacciones presentes en PISA 2022 y su heterogeneidad por subgrupos; (3) mejorar la calibración y el rendimiento en escenarios desbalanceados; y (4) habilitar comparativas reproducibles que cuantifican el compromiso precisión–coste computacional de cara a la poda guiada por explicaciones y su transferencia a dashboards operativos. En esta poda guiada por explicaciones, primero ordenamos las variables según su importancia SHAP a nivel global. Después, volvemos a entrenar el modelo manteniendo solo las más relevantes y vamos aumentando el número poco a poco mientras dibujamos la curva de rendimiento. Nos quedamos con el tamaño mínimo de variables que mantiene el rendimiento prácticamente igual al del modelo original, o bien con el punto “de codo” donde añadir más variables ya no aporta mejoras claras. Además, comprobamos que el modelo siga bien calibrado, que trate de forma justa a los distintos subgrupos y que la explicación conserve al menos alrededor del 85 % de la cobertura SHAP. Según el informe PISA, las puntuaciones obtenidas por los estudiantes en Matemáticas, se pueden definir en diferentes niveles (7 niveles), con cortes definidos por puntuación en cada nivel. Estos a su vez, se pueden agrupar en tres niveles (Bajo, Medio y Alto). Los resultados muestran robustez predictiva en comparaciones Bajo–Alto, Medio–Alto y Bajo–Medio de rendimiento en Matemáticas. En todas ellas, las explicaciones resaltan variables recurrentes de alto impacto: condición de repetición, disponibilidad de dispositivos digitales, clases extra de Matemáticas y recursos del hogar. Tras una serie de experimentos eliminado las variables de menor relevancia y comparando con el rendimiento predictivo (lo que anteriormente se explicó como una poda guiada por explicaciones) que preservan exactitud, lo que facilita mantener la interpretabilidad con el menor número de variables. Sobre esta base se implementa un dashboard con reducción de dimensionalidad para exploración global, explicaciones por estudiante (barras SHAP), filtros geográficos (p. ej., Comunidades Autónomas), vistas por subgrupos y resúmenes de cohorte. El dashboard traduce salidas complejas en evidencia accionable para actores educativos: permite priorizar intervenciones (apoyo a repetidores, brecha digital), vigilar equidad por género y hacer seguimiento de sensibilidades de variables en distintos contextos. Desde el punto de vista de XAI, el estudio clarifica límites prácticos de SHAP en runtime al aumentar dimensionalidad, tamaño muestral o complejidad del modelo, lo que proporciona alternativas eficientes para mantener ciclos rápidos de iteración y análisis por subgrupos. PeBEx, explicaciones por perturbaciones eficientes y fieles localmente (Artículo III). Para responder a los cuellos de botella computacionales de los métodos de explicación post hoc, este estudio introduce PeBEx, un enfoque agnóstico al modelo que reinterpreta la explicación local como un análisis de sensibilidad controlado alrededor de cada caso. La idea del método propuesto es que partimos del caso que queremos explicar y generamos pequeñas variaciones realistas de sus características (``mini–cambios´´ en cada variable), respetando rangos plausibles y escalas. Evaluamos cómo cambia la predicción del modelo cuando aplicamos cada uno de esos mini–cambios y, con esa información, estimamos qué variables tienen más efecto en la salida del modelo y en qué dirección (si empujan la predicción hacia arriba o hacia abajo). Para cubrir el espacio de posibles mini–cambios de forma uniforme y sin desperdiciar cálculos, PeBEx utiliza diseños deterministas bien repartidos (por ejemplo, secuencias de baja discrepancia o muestreo hipercúbico latino), en lugar de variaciones completamente aleatorias. Además, agrupa las evaluaciones en micro–lotes y repite el proceso varias veces para obtener bandas de estabilidad por consenso, por lo tanto, si una variable aparece con efecto similar en repetidas rondas, ganamos confianza en su importancia. Este procedimiento tiene dos ventajas clave. Primero, la eficiencia, el coste crece de forma lineal con el número de mini–cambios que probamos y con el número de variables, lo que hace que los tiempos de ejecución sean predecibles y que el uso de memoria sea bajo. Segundo, la fidelidad local, al medir efectos directamente alrededor del caso analizado, las explicaciones reflejan con precisión cómo responde el modelo en ese entorno cercano. En comparativas con Local Interpretable Model-agnostic Explanations y variantes de SHAP sobre conjuntos públicos (Heart Disease, German Credit, Breast Cancer Wisconsin, Car Evaluation y Santander Customer Satisfaction), vemos un patrón claro. Cuando el modelo está basado en conjuntos de árboles, TreeSHAP sigue siendo muy rápido y fiable. Sin embargo, en tablas grandes y en redes profundas, las variantes kernel de SHAP pueden resultar muy costosas o incluso inviables; en esos escenarios, PeBEx ofrece una calidad de explicación local competitiva, con tamaños de explicación similares pero en mucho menos tiempo. Además, tiende a suprimir el ruido de rasgos poco informativos, produciendo explicaciones más concisas y manejables. PeBEx se posiciona como un complemento práctico a SHAP y LIME, donde mantiene la calidad explicativa necesaria para la toma de decisiones, pero con una eficiencia computacional que habilita diagnósticos interactivos y despliegues a gran escala en datos tabulares de alta dimensión. Síntesis transversal. Los tres trabajos, en conjunto, muestran que: (1) es posible extraer explicabilidad del rendimiento en Matemáticas con modelos XAI que preservan capacidad predictiva; (2) la traducción a herramientas (como un dashboard) incrementa la relevancia práctica y la trazabilidad de decisiones; y (3) la innovación metodológica (PeBEx) permite con un rendimiento computacional razonable, un análisis y despliegues a escala sin comprometer la explicabilidad local, particularmente cuando SHAP kernel es el cuello de botella. Conclusiones. Primero, la Tesis Doctoral ha confirmado que la XAI puede fortalecer la toma de decisiones basada en evidencia en educación, mediante explicaciones locales y resúmenes globales convergen en señalar palancas plausibles de mejora (como por ejemplo recursos del hogar, apoyo académico o equidad digital) y disparidades persistentes (por variables socioeconómicas, por género y por territorio), ofreciendo variables que puedan fortalecer políticas focalizadas. Segundo, ha mostrado que la transferencia de conocimiento desde modelos complejos a usuarios finales requiere un diseño de interfaz (como los dashboards que equilibran detalle y claridad), de modo que la explicabilidad sea operable en la práctica (consultas por subgrupo, iteración rápida o auditoría). Tercero, la contribución PeBEx resuelve de forma efectiva una tensión central (fidelidad, estabilidad y runtime) al ofrecer explicaciones fieles en vecindarios controlados y predecibles con un coste computacional razonable, lo cual habilita su uso repetido en datos de gran escala y en arquitecturas profundas. PeBEx no viene a reemplazar a SHAP, sino a acompañarlo o proponer una alternativa. Cuando necesitamos explicaciones más rápidas y ligeras, por ejemplo, con modelos grandes o muchos datos, en este caso PeBEx ofrece resultados útiles sin disparar el coste de cálculo. No obstante, el trabajo reconoce limitaciones: (1) la focalización en España (tanto en el informe PISA 2018 y 2022), que sugiere extender la validación a más países para robustecer validez externa; (2) el énfasis en explicaciones locales, que conviene equilibrar con herramientas globales y, cuando proceda, marcos causales; (3) las áreas de mejora en PeBEx (por ejemplo, calibrar umbrales adaptativos de perturbación, extender a regresión y multiclase, y formalizar garantías de estabilidad con bandas de confianza); y (4) la necesidad de evaluaciones de campo (usabilidad, impacto en decisiones y en equidad) para cerrar el ciclo entre analítica e intervención educativa. En perspectiva, se delinean diversas líneas de trabajo futuro: (1) armonizar variables entre ediciones de PISA y ampliar a comparativas fuera de España; (2) integrar dispositivos globales e inferencia causal, para pasar de asociaciones a ¿qué funciona para quién?; (3) ampliar el dashboard con estudios

Enlaces

Universidad Rey Juan Carlos

Escuela Internacional de Doctorado

Toda la actualidad de la EID

Agenda EID

Escuela Internacional de Doctorado

Universidad Rey Juan Carlos
Rectorado – Delegación Madrid
C/ Quintana, 2 - 2ª planta
28008, Madrid
914887056
Buzón de Ayuda al Doctorando

Conecta con nosotros