Tesis doctorales de la Escuela Internacional de Doctorado de la URJC desde el curso 2024/25
Low-Rank Methods in Reinforcement Learning
Autor
ROZADA DOVAL, SERGIO
Director
GARCÍA MARQUÉS, ANTONIO
Fecha de defensa
21-03-2025
Calificación
Sobresaliente cum laude
Programa
Multimedia y Comunicaciones (interuniversitario)
Mención internacional
Sí
Resumen
La creciente complejidad de los sistemas modernos de toma de decisiones ha colocado al aprendizaje por refuerzo (RL, por sus siglas en inglés) en el centro de atención, ofreciendo un marco poderoso para el control adaptativo y la optimización en entornos de alta dimensionalidad. Sin embargo, el RL enfrenta desafíos significativos, entre los que destacan la "maldición de la dimensionalidad" y la alta complejidad muestral, que limitan su escalabilidad y eficiencia. Los métodos no paramétricos tradicionales no logran abordar adecuadamente estos problemas, lo que requiere enfoques novedosos que equilibren expresividad y factibilidad computacional. Esta disertación introduce metodologías basadas en matrices y tensores de bajo rango como un marco unificador para superar los principales desafíos en RL, particularmente en la aproximación de funciones de valor (VF, por sus siglas en inglés) y el aprendizaje de políticas. Al explotar estructuras de bajo rango, se proponen representaciones escalables que reducen las demandas computacionales, preservando el rigor teórico y la aplicabilidad práctica. Las contribuciones de esta tesis se organizan en cuatro partes principales.
En la primera parte, se aborda la aproximación de VF en procesos de decisión de Markov (MDPs, por sus siglas en inglés) de horizonte infinito, una piedra angular del RL. Se desarrollan algoritmos estocásticos para representaciones matriciales y tensoriales de bajo rango. La estimación no paramétrica clásica de VF sufre un crecimiento exponencial en complejidad a medida que aumentan las dimensiones de los espacios de estados y acciones. Para mitigar este problema, se propone el uso de tensores, los cuales se adaptan mejor a la naturaleza multidimensional de estos espacios. Para promover estructuras parsimoniosas, se emplean técnicas de bajo rango. La estimación de VF se realiza mediante métodos de descenso por gradiente por bloques a partir de muestras estocásticas del MDP. Los resultados teóricos y experimentales demuestran la eficacia de este enfoque en entornos RL clásicos y en problemas realistas, como redes de comunicación inalámbrica.
La segunda parte extiende estas ideas al aprendizaje de múltiples MDPs o tareas de manera concurrente. Se explotan similitudes entre tareas modelando las VF como un tensor conjunto de bajo rango. Dado que las tareas similares comparten patrones estructurales, esta aproximación permite inferir simultáneamente las similitudes entre tareas y estimar las VF, logrando un aprendizaje eficiente con datos limitados. Los métodos propuestos son evaluados en una colección de péndulos invertidos y redes de comunicación inalámbrica, demostrando robustez y escalabilidad.
En la tercera parte, se considera el caso de MDPs de horizonte finito, donde la no estacionaridad de las políticas complica la estimación de VF. Modelamos estas funciones como tensores de bajo rango, incorporando el tiempo como una dimensión adicional del tensor. Se desarrolla un marco de optimización basado en métodos de descenso por gradiente por bloques, con garantías teóricas de convergencia. Además, se extiende este marco a configuraciones estocásticas donde el aprendizaje se realiza a partir de trayectorias muestreadas. Experimentos numéricos en problemas de asignación de recursos, como redes de comunicación inalámbrica y carga de baterías, validan la eficiencia computacional y muestral del enfoque propuesto.
Finalmente, se investiga el uso de tensores de bajo rango en métodos de gradiente de políticas (PG, por sus siglas en inglés). Aunque las redes neuronales son ampliamente utilizadas para el aprendizaje de políticas, enfrentan desafíos como la redundancia en las representaciones estado-acción. Se proponen políticas basadas en tensores de bajo rango, donde los parámetros se estructuran de manera multilineal y se optimizan mediante técnicas tensoriales. Este enfoque reduce las complejidades computacionales y muestrales sin comprometer el rendimiento. Los resultados teóricos y experimentales destacan las ventajas de estas políticas en problemas estándar de RL y en redes de comunicación inalámbrica.
En resumen, esta disertación presenta un marco cohesivo para incorporar estructuras de bajo rango en RL, abordando desafíos fundamentales en la aproximación de VF, el aprendizaje de políticas y la optimización de tareas múltiples. Los hallazgos obtenidos evidencian que los métodos propuestos logran reducciones significativas en la complejidad computacional y muestral, mientras preservan la precisión y la escalabilidad. Estos resultados subrayan el potencial de las metodologías de bajo rango para habilitar sistemas prácticos de RL, allanando el camino hacia marcos de toma de decisiones más eficientes y adaptativos.