Tesis doctorales de la Escuela Internacional de Doctorado de la URJC desde el curso 2024/25
Diseño y aplicación de modelos de aprendizaje profundo al problema de la normalización y el reconocimiento de imágenes de documentos manuscritos
Autor
BARREIRO GARRIDO, ÁLVARO
Director
RUIZ PARRADO, VICTORIA
Codirector
VÉLEZ SERRANO, JOSÉ FRANCISCO
Fecha de depósito
28-04-2026
Periodo de exposición pública
29 de abril a 13 de mayo de 2026
Fecha de defensa
Sin especificar
Programa
Tecnologías de la información y las Comunicaciones (TICs)
Mención internacional
No
Resumen
Resumen
A continuación se resumen los contenidos de la presente tesis doctoral.
Antecedentes
El reconocimiento automático de texto manuscrito en imágenes digitales constituye uno de los problemas clásicos dentro del ámbito de la visión artificial, el reconocimiento de patrones y el procesamiento del lenguaje. A pesar de los avances experimentados en las últimas décadas, especialmente tras la consolidación de los métodos basados en deep learning, el reconocimiento de escritura manuscrita continúa planteando desafíos fundamentales. Muchos de estos desafíos se derivan de la elevada variabilidad caligráfica, la complejidad geométrica del trazo y la ambigüedad inherente al proceso de decodificación léxica, entre otros factores.
A diferencia del reconocimiento de texto impreso, donde las formas tipográficas presentan una estructura estandarizada y altamente regular, la escritura manuscrita depende de múltiples factores individuales: la morfología del trazo, la inclinación global del texto, la inclinación particular de los caracteres, la proporción entre ascendentes y descendentes, la presión ejercida durante la escritura o la velocidad del gesto gráfico. Esta variabilidad introduce una dispersión significativa dentro de cada clase de caracteres y entre clases distintas, dificultando la construcción de modelos robustos capaces de generalizar y reconocer texto manuscrito de individuos cuya escritura no se ha visto durante el entrenamiento.
En el problema offline, donde el sistema solo dispone de la imagen estática del texto sin información dinámica asociada al proceso de escritura, la dificultad aumenta considerablemente. Toda la información necesaria para la transcripción debe inferirse exclusivamente a partir de la señal visual bidimensional. No se dispone por tanto de información temporal ni de la secuencia de trazos, lo que obliga al modelo a reconstruir implícitamente dicha dinámica a partir de patrones espaciales. En este contexto offline, el reconocimiento a nivel de palabra sobre el que se desarrolla esta tesis representa un compromiso adecuado entre granularidad y complejidad estructural. Dicho nivel de análisis se ha consolidado en la literatura como un entorno experimental idóneo para evaluar nuevas arquitecturas de reconocimiento.
Por otro lado, más allá del diseño del reconocedor, la calidad y naturaleza de las imágenes de entrada desempeñan un papel determinante en el rendimiento final del sistema. Fenómenos geométricos como el slope (inclinación global de la línea base), el slant (inclinación cursiva de los caracteres), la irregularidad en el tamaño de las letras o la variabilidad en la altura de ciertos trazos introducen transformaciones que incrementan la complejidad de la tarea de clasificación secuencial. Tradicionalmente, estos problemas se han abordado mediante técnicas heurísticas de preprocesamiento: estimación de línea base, corrección afín de inclinaciones, normalización de tamaño, binarización adaptativa o filtrado de ruido. Si bien estas técnicas han demostrado su utilidad, presentan limitaciones claras: dependen de supuestos geométricos simplificadores, pueden ser sensibles a la calidad de la imagen y no siempre generalizan a estilos caligráficos muy heterogéneos.
La aparición de modelos de deep learning ha permitido reconsiderar el papel del preprocesamiento. Arquitecturas como redes convolucionales profundas, modelos sequence-to-sequence, redes generativas adversariales o Spatial Transformer Network permiten aprender transformaciones geométricas relevantes para la normalización del texto. En este nuevo marco, la normalización puede dejar de concebirse como un paso fijo previo al reconocimiento para convertirse en un módulo entrenable dentro de un sistema global.
Así, la hipótesis que articula esta tesis es que la normalización no debe entenderse como una etapa independiente, sino como un proceso optimizable de manera conjunta al reconocimiento. Integrar ambas tareas en un único modelo de extremo a extremo puede permitir que la transformación visual se adapte específicamente al objetivo final de minimizar el error de transcripción, en lugar de aproximar una noción heurística de “imagen normalizada”.
El uso de modelos generativos adversariales abre la posibilidad de aprender transformaciones imagen–imagen que reproduzcan o incluso mejoren las correcciones geométricas tradicionales. De forma complementaria, se plantea la transferencia de estilos como estrategia alternativa: en lugar de buscar una normalización estrictamente geométrica, transformar la escritura hacia estilos más homogéneos o legibles preservando el contenido textual podría facilitar la tarea de reconocimiento.
En este contexto, la presente tesis se sitúa en la intersección entre reconocimiento de texto manuscrito offline, modelado generativo y aprendizaje de extremo a extremo, proponiendo una reformulación conceptual del papel de la normalización y evaluando empíricamente su impacto sobre el rendimiento de sistemas modernos de reconocimiento.
Objetivos
Esta tesis doctoral pretende desarrollar un modelo de reconocimiento de texto manuscrito en imágenes a nivel de palabra. El modelo propuesto tiene por objetivo la transcripción de dicha palabra con independencia del autor o de la naturaleza del contenido. En paralelo, se explorará a su vez el problema de la normalización de las imágenes de texto con el objetivo de encontrar soluciones capaces de mejorar la tarea de reconocimiento, analizando el impacto que la propuesta de normalización tiene sobre el resultado final.
La metodología de la presente investigación se basa en la aplicación de propuestas dentro del marco del deep learning, propuestas que serán diseñadas, adaptadas y particularizadas con arreglo a las características específicas del reconocimiento de texto manuscrito en imágenes.
Los objetivos de esta tesis doctoral pueden resumirse en los siguientes puntos:
Llevar a cabo un estudio pormenorizado de las propuestas de normalización del texto manuscrito en el marco del HTR offline, incluyendo tanto estrategias heurísticas como soluciones modernas basadas en deep learning.
Realizar una revisión exhaustiva de la literatura sobre reconocimiento de texto manuscrito offline, con especial énfasis en los sistemas basados en deep learning.
Implementar un modelo sequence-to-sequence, o Seq2Seq, como arquitectura principal de reconocimiento de texto manuscrito.
Implementar un modelo generativo U-Net, y entrenarlo en el marco de una arquitectura Pix2Pix para corregir las inclinaciones (slope y slant) del texto, usando como referencia un ground truth generado heurísticamente.
Implementar una red convolucional (CNN) para corregir los trazos ascendentes y descendentes del texto manuscrito (ascenders y descenders).
Desarrollar soluciones integradas de normalización y reconocimiento en un único modelo entrenable de extremo a extremo. En particular, implementar un modelo que integre las arquitecturas CNN+U-Net y Seq2Seq como módulos de normalización y reconocimiento, respectivamente.
Analizar la mejora que el enfoque combinado normalización–reconocimiento aporta respecto a abordar ambas tareas por separado.
En el marco de las arquitecturas de extremo a extremo, explorar propuestas de normalización agnósticas a un ground truth de imágenes normalizadas heurísticamente. En particular, implementar una red Spatial Transformer Network como módulo de normalización.
Explorar la viabilidad de una transferencia de estilos que transforme contenido textual de imágenes a estilos sintéticos más legibles, utilizando modelos generativos adversariales en combinación con un reconocedor Seq2Seq.
Analizar los resultados de los sistemas de reconocimiento implementados sobre texto real y sobre imágenes de texto generadas sintéticamente.
Comparar los resultados de todas las propuestas anteriores entre sí y con los modelos que forman parte del estado del arte.
Metodología
La metodología desarrollada en la tesis se articula en torno a cuatro ejes principales: (1) implementación de un modelo base de reconocimiento, (2) desarrollo de un módulo de normalización aprendida mediante redes generativas adversariales, (3) integración extremo a extremo de ambas etapas y exploración de la transferencia de estilo manuscrito.
Modelo base de reconocimiento
Como punto de partida, se implementa una arquitectura sequence-to-sequence (Seq2Seq) compuesta por un extractor convolucional de características y un modelo recurrente encoder–decoder. El encoder transforma la imagen en una representación secuencial de alto nivel, mientras que el decoder genera la transcripción carácter a carácter. Este utiliza a su vez por un mecanismo de atención que permite modelar alineamientos flexibles entre regiones de la imagen de entrada y posiciones de la secuencia de salida en la etapa de decodificación. Este modelo constituye la línea base experimental. Su rendimiento se evalúa utilizando métricas estándar en reconocimiento de texto manuscrito, concretamente la precisión a nivel carácter (CA), la tasa de error de caracteres (CER) y la tasa de error de palabras (WER).
Normalización aprendida mediante Pix2Pix
El segundo bloque metodológico introduce un modelo generativo adversarial supervisado basado en la arquitectura Pix2Pix. Este modelo aprende una transformación imagen–imagen: a partir de una imagen manuscrita original produce una versión geométricamente normalizada. El esquema consta de un generador que realiza la transformación visual y un discriminador que distingue entre imágenes normalizadas reales —producidas mediante un método heurístico de referencia— e imágenes generadas por la red. La función de pérdida combina un término adversarial con un término de reconstrucción, garantizando tanto realismo visual como fidelidad estructural. Una vez entrenado el generador, las imágenes producidas se emplean como entrada del reconocedor Seq2Seq para evaluar su impacto en el reconocimiento.
Arquitecturas extremo a extremo
En una fase posterior, se explora la integración directa de la normalización dentro del modelo de reconocimiento. En este enfoque, el módulo de normalización no entrena para aproximar su salida a una imagen normalizada de referencia, sino para minimizar directamente el error de reconocimiento. Dentro de estas arquitecturas de extremo a extremo, se explora el uso de redes Spatial Transformer Network como módulos de normalización. Finalmente, se estudia la transferencia de estilos como mecanismo alternativo. En lugar de buscar una normalización estricta, se intenta transformar la escritura hacia estilos más legibles u homogéneos preservando el contenido textual. Este enfoque se apoya en modelos generativos adversariales y permite analizar si la mejora en la legibilidad de la imagen se traduce en reducciones cuantificables de CER y WER.
Resultados
Los resultados obtenidos a lo largo de la tesis ponen de manifiesto que el rendimiento de los sistemas de reconocimiento de texto manuscrito depende en gran medida del tratamiento de la variabilidad visual de las imágenes de entrada y de la forma en que dicho tratamiento se integra en el proceso de reconocimiento.
En primer lugar, los experimentos realizados con una arquitectura Seq2Seq de reconocimiento a nivel de palabra muestran que las modificaciones arquitectónicas de este modelo tienen un impacto limitado sobre el rendimiento final. Por el contrario, las mejoras más significativas se obtienen mediante estrategias de aumentado de datos, evidenciando que la diversidad de los datos de entrenamiento resulta más determinante que el aumento en la complejidad del reconocedor.
Asimismo, los experimentos realizados sobre escritura manuscrita histórica muestran una fuerte discrepancia entre dominios. El entrenamiento exclusivo sobre escritura contemporánea conduce a un rendimiento muy bajo cuando se evalúa sobre texto histórico, mientras que la inclusión de una pequeña proporción de muestras históricas durante el entrenamiento permite mejorar sustancialmente los resultados. Sin embargo, incrementar en exceso el peso del dominio histórico no aporta beneficios adicionales, lo que sugiere la existencia de un compromiso óptimo entre ambos tipos de datos.
En relación con la normalización del texto, los resultados demuestran que un modelo generativo adversarial supervisado basado en Pix2Pix es capaz de aprender transformaciones de normalización comparables a las obtenidas mediante métodos heurísticos clásicos. Tras ajustar el procedimiento para preservar la relación de aspecto de las palabras, el modelo genera imágenes normalizadas estables y coherentes. Desde un punto de vista cuantitativo, la normalización aprendida no solo replica la heurística de referencia, sino que presenta un comportamiento más robusto frente a degradaciones artificiales de las imágenes.
Los mejores resultados globales se obtienen mediante arquitecturas de extremo a extremo que integran explícitamente los módulos de normalización y reconocimiento. En este enfoque, la transformación visual deja de optimizarse para aproximar una imagen normalizada de referencia y se ajusta directamente al objetivo de transcripción. Las distintas variantes evaluadas muestran mejoras consistentes respecto al reconocedor aislado, siendo especialmente efectiva la utilización de funciones de pérdida basadas en transformadas distancia. Frente al modelo Seq2Seq en solitario, que obtuvo un 22,78 % en WER y un 7,85 % en CER, la mejor configuración de extremo a extremo alcanza un WER del 17,77 % y un CER del 5,63 %. Esto supone, por tanto, una mejora relativa del 22 % con respecto a la métrica WER y del 28,3 % en CER.
Finalmente, la transferencia de estilo manuscrito hacia dominios sintéticos más legibles se explora como una alternativa a la normalización clásica. Aunque el reconocimiento sobre texto sintético alcanza tasas de error muy bajas, la transferencia desde imágenes reales aún presenta limitaciones. La aparición de artefactos visuales en una fracción significativa de las imágenes generadas impide que este enfoque supere de forma consistente a las arquitecturas de normalización integradas. A pesar de ello, los resultados obtenidos en una gran cantidad del total de muestras indican que esta línea constituye una vía prometedora de investigación futura.
En conjunto, los resultados muestran que la normalización aprendida y su integración dentro de arquitecturas de extremo a extremo permiten reducir de forma significativa las tasas de error sin recurrir a modelos considerablemente más complejos ni a recursos externos durante la inferencia. El mejor modelo propuesto resulta competitivo frente a otras aproximaciones basadas en arquitecturas Seq2Seq e incluso con algunas arquitecturas Transformer recientes. A diferencia de estas últimos, la propuesta de esta tesis consigue resultados competitivos con un número de parámetros notablemente inferior y sin necesidad de un preentrenamiento masivo ni el uso de modelos de lenguaje o diccionarios en inferencia, lo que refuerza la validez del enfoque propuesto.
Conclusiones
La tesis demuestra que la normalización en reconocimiento de texto manuscrito debe reinterpretarse como un proceso entrenable bajo metodologías basadas en deep learning e integrable dentro del sistema de reconocimiento.
Las principales conclusiones son:
Las técnicas de deep learning permiten aprender transformaciones durante la normalización de las imágenes de texto que igualan o superan a los métodos heurísticos tradicionales.
La integración de las fases de normalización y reconocimiento en arquitecturas de extremo a extremo proporciona beneficios adicionales al alinear directamente la transformación visual con el objetivo final de transcripción.
La transferencia de estilos constituye una alternativa prometedora para mejorar la legibilidad y el rendimiento de los modelos de reconocimiento.
Las mejoras obtenidas no requieren incrementos desproporcionados de complejidad arquitectónica y númer