EID - Universidad Rey Juan Carlos

ESCUELA INTERNACIONAL DE DOCTORADO

Tesis doctorales de la Escuela Internacional de Doctorado de la URJC desde el curso 2024/25

Improving Model Generalization and Robustness through Generative Al
Autor	MADRUEÑO SIERRO, NATALIA
Director	MARTÍN DE DIEGO, ISAAC
Codirector	FERNÁNDEZ ISABEL, ALBERTO
Fecha de defensa	20-01-2026
Calificación	Sobresaliente cum laude
Programa	Tecnologías de la información y las Comunicaciones (TICs)
Mención internacional	Sí
Resumen	Las entidades financieras generan diariamente un volumen masivo de comunicaciones, incluyendo llamadas, correos electrónicos y chats. Estos registros deben almacenarse para garantizar el cumplimiento normativo, promover la transparencia y prevenir abusos de mercado. Más allá de su función regulatoria, constituyen un valioso activo estratégico cuyo análisis puede fortalecer tanto el cumplimiento normativo como la inteligencia de negocio. Sin embargo, la naturaleza no estructurada, el extenso volumen y la complejidad inherente de estas comunicaciones reguladas hacen inviable su análisis manual. En este contexto, resulta esencial emplear modelos y técnicas avanzadas de inteligencia artificial y procesamiento del lenguaje natural para posibilitar análisis automáticos a gran escala. No obstante, su aplicación enfrenta importantes desafíos relacionados con la escasez de datos etiquetados, la eficiencia computacional y la robustez de los sistemas empleados. Esta tesis aborda dichos desafíos en el marco de un doctorado industrial en colaboración con la empresa VoxSmart Trading S.L. Aprovechando los últimos avances en inteligencia artificial generativa (GenAI, por sus siglas en inglés) y modelos extensos del lenguaje (LLMs, por sus siglas en inglés), su objetivo es mejorar la capacidad de generalización y robustez de los modelos aplicados a comunicaciones reguladas en entidades financieras. Las capacidades generativas textuales de las LLMs basadas en decodificadores de Transformers pueden emplearse para ampliar automáticamente datos de entrenamiento, exponer vulnerabilidades y debilidades presentes en los modelos, así como fortalecer la robustez de los sistemas desplegados durante la inferencia. Para alcanzar estos objetivos, se presentan tres propuestas complementarias que conforman un marco integral de mejora de modelos tanto en la etapa de entrenamiento como en la de inferencia. La primera propuesta amplía de forma automática frases cortas relacionadas con la clasificación de intenciones en escenarios de dominio especializado. Esta propuesta se compone de dos etapas fundamentales. En primer lugar, una LLM genera paráfrasis generales que introducen variaciones sintácticas y léxicas de una frase de referencia. En segundo lugar, se aplica un reemplazamiento de sinónimos sobre estas paráfrasis para introducir diversidad léxica específica del dominio. Se proponen dos variantes de este reemplazo: una basada en LLMs y otra en modelos de word embeddings entrenados en el dominio, con el fin de introducir vocabulario especializado. El método propuesto captura tanto variaciones generales en la estructura sintáctica como en la elección de palabras, produciendo nuevas variantes especializadas en contextos específicos del dominio. La segunda propuesta genera ejemplos adversarios para modelos de tipo caja negra en los que solo se dispone de la predicción final junto a un valor de confianza asociado. Dicha propuesta consta de dos etapas fundamentales. En primer lugar, una LLM basada genera paráfrasis destinadas a iniciar el proceso de inducción de error en el modelo víctima. Si dichas perturbaciones a nivel de frase resultaran insuficientes, se introducen perturbaciones a nivel de carácter y de palabra. Para ello, se identifican los tokens más influyentes y se perturban de forma ordenada según su influencia en la predicción final. Utilizando una LLM, estos tokens son reemplazados por errores tipográficos o sinónimos, o bien se añaden palabras semánticamente neutras a su izquierda o derecha. Esta integración de perturbaciones textuales incrementa la probabilidad de provocar errores en el modelo víctima, a la vez que permite mantener el significado semántico original. En consecuencia, el enfoque propuesto facilita la identificación de vulnerabilidades presentes en los modelos. La tercera propuesta purifica el texto de entrada de perturbaciones ruidosas o adversarias durante la etapa de inferencia de los modelos en producción. Este mecanismo funciona como un paso de preprocesamiento adicional que transforma los textos de entrada antes de ser procesados por los modelos objetivo. En primer lugar, se recopilan pares de ejemplos benignos y adversarios que se emplean como demostraciones "few-shot" dentro de un "prompt". Posteriormente, una LLM utiliza estas demostraciones para orientar el proceso de transformación de los textos de entrada. Como resultado, cada texto se transforma para ajustarse en mayor medida con la distribución esperada por el modelo objetivo, incrementando la robustez de los sistemas desplegados sin necesidad de modificar sus parámetros internos. Para validar la efectividad de los anteriores métodos propuestos, se realizaron diversos experimentos que evidenciaron mejoras con respecto al estado del arte previamente analizado. En la propuesta de aumento de datos, se realizaron experimentos sobre tres problemas de clasificación de intenciones con distintos niveles de complejidad, que abarcaban tanto lenguaje general como vocabulario específico de dominio. Los resultados mostraron que el método propuesto mejora el rendimiento general de clasificación en múltiples modelos en comparación con los enfoques previamente evaluados. En cuanto a la técnica propuesta de generación de ejemplos adversarios, los experimentos se llevaron a cabo sobre dos problemas de clasificación de sentimiento que incluían tanto textos cortos como textos largos. Los resultados demostraron que el método propuesto induce al error a varios modelos víctima de manera más efectiva que los enfoques previamente analizados, manteniendo al mismo tiempo niveles comparables de preservación semántica. Finalmente, para la estrategia propuesta de purificación de perturbaciones adversarias, se realizaron experimentos con textos benignos y textos perturbados adversariamente sobre un problema de clasificación de sentimiento. Los resultados mostraron que el método propuesto preserva las predicciones correctas para las entradas previamente clasificadas de forma adecuada, así como mejora la clasificación para aquellas clasificadas incorrectamente en comparación con los enfoques previamente evaluados.

Enlaces

Universidad Rey Juan Carlos

Escuela Internacional de Doctorado

Toda la actualidad de la EID

Agenda EID

Escuela Internacional de Doctorado

Universidad Rey Juan Carlos
Rectorado – Delegación Madrid
C/ Quintana, 2 - 2ª planta
28008, Madrid
914887056
Buzón de Ayuda al Doctorando

Conecta con nosotros