EID - Universidad Rey Juan Carlos

ESCUELA INTERNACIONAL DE DOCTORADO

Tesis doctorales de la Escuela Internacional de Doctorado de la URJC desde el curso 2024/25

Deep Learning for Photographic Enhancement
Autor	CUENCA JIMÉNEZ, PEDRO MANUEL
Director	CAÑAS PLAZA, JOSE MARÍA
Codirector	FERNÁNDEZ CONDE, JESÚS
Fecha de defensa	20-02-2026
Calificación	Sobresaliente
Programa	Tecnologías de la información y las Comunicaciones (TICs)
Mención internacional	No
Resumen	Introducción y Objetivos La edición fotográfica ha acompañado a la fotografía desde sus inicios. Hoy en día, millones de usuarios ajustan sus fotos digitalmente, pero las herramientas profesionales siguen exigiendo una curva de aprendizaje pronunciada y flujos de trabajo complejos. Esta situación ha motivado la búsqueda de métodos automáticos y accesibles que mejoren la calidad técnica de las fotografías sin comprometer la intención artística ni la fidelidad de la captura original. Esta tesis versa sobre la aplicación del aprendizaje profundo a la mejora fotográfica siguiendo tres principios rectores: (i) independencia de resolución, para que los resultados puedan aplicarse a imágenes de cualquier tamaño sin pérdida de calidad; (ii) interpretabilidad y control, favoreciendo métodos paramétricos no destructivos cuyos resultados puedan ajustarse tras la predicción; y (iii) viabilidad práctica en dispositivos de consumo, haciendo especial hincapié en la ejecución local por razones de privacidad, latencia y sostenibilidad. Sobre estos cimientos, la tesis presenta dos sistemas principales y una integración de ambos. En primer lugar, desarrollamos FilterNet, un sistema de mejora automática que no genera píxeles editados, sino que aprende a predecir valores de filtros fotográficos estándar (exposición, brillo, contraste, sombras, altas luces y temperatura de color). Este diseño hace que el proceso sea interpretable, editable por el usuario y aplicable a resolución arbitraria: el modelo infiere parámetros a partir de una miniatura y la aplicación los aplica sobre la fotografía original a máxima resolución. En segundo lugar, exploramos la segmentación guiada por texto como paso clave hacia ediciones locales. Para ello proponemos CocoGold, que reutiliza un modelo de difusión entrenado con millones de pares {texto, imagen}, modificándolo para identificar y segmentar objetos a partir de descripciones sencillas (por ejemplo, "gato" o "reloj"). A diferencia de los pipelines de detección y segmentación por etapas, CocoGold formula la tarea como generación condicionada: el modelo aprende a copiar la imagen de entrada resaltando en blanco las regiones que coinciden con el término expresado, de donde extraemos la máscara binaria con un posprocesado ligero. Por último, combinamos ambos enfoques en una prueba de concepto llamada Coconet: las máscaras de CocoGold permiten aplicar los parámetros de FilterNet de forma localizada. De este modo demostramos que la edición técnica basada en filtros puede adaptarse a regiones especificadas con lenguaje, manteniendo interpretabilidad e independencia de resolución en todos los componentes salvo la máscara de segmentación. El objetivo final de nuestro trabajo es contribuir a democratizar la edición fotográfica con soluciones prácticas, explicables y eficientes: un sistema capaz de proponer ajustes técnicos expresados con el mismo vocabulario utilizado en la edición fotográfica, capaz también de seleccionar áreas de interés mediante instrucciones naturales, y de ejecutarse en dispositivos móviles sin exigir infraestructuras especializadas ni comprometer la privacidad del usuario. Antecedentes La mejora automática de imágenes ha evolucionado desde técnicas algorítmicas a métodos de aprendizaje profundo capaces de aprender transformaciones a partir de datos. Frente a enfoques que generan directamente píxeles editados (difíciles de escalar a alta resolución y poco interpretables), una línea complementaria consiste en predecir ediciones como parámetros de filtros, favoreciendo independencia de resolución y control. La supervisión auto-generada mediante degradación sintética permite entrenar sin disponer de pares {original, editada}. En paralelo, el auge de modelos multimodales y de difusión ha abierto la puerta a tareas guiadas por texto; en particular, se pueden reutilizar grandes modelos texto-imagen para obtener señales espaciales con modificaciones mínimas, idea que motiva CocoGold. Metodología y Resultados FilterNet FilterNet parte de un extractor ResNet preentrenado y añade una cabeza predictiva que produce, de una sola pasada, seis valores en el rango normalizado 1: exposición, brillo, contraste, sombras, altas luces y temperatura de color. Para entrenar de extremo a extremo con backpropagation es necesario renderizar, dentro del propio modelo, una versión mejorada de la imagen usando filtros diferenciables. Implementamos la mayoría mediante curvas de tonos paramétricas aplicadas en espacio RGB lineal (10 bits) y combinadas con la imagen original. La temperatura de color se modela con matrices de ganancia 3×3, y la exposición con su definición fotométrica. Este diseño emula operaciones habituales en software de edición, evitando artefactos de formulaciones simplistas. El entrenamiento es auto-supervisado: a partir de fotos de alta calidad generamos versiones degradadas con combinaciones plausibles de los seis filtros, y el modelo aprende a recuperar la referencia. La pérdida combina un término en sRGB y componentes perceptuales (contenido/estilo) basados en VGG. Para mejorar estabilidad y generalización, cuidamos la inicialización de la cabeza de regresión y empleamos regímenes de degradación moderados que reducen saturaciones irrecuperables (clipping) y acercan el entrenamiento a escenarios reales. Evaluamos con métricas clásicas (PSNR, SSIM) y métricas perceptuales (p. ej., DISTS y contenido VGG). Observamos mejoras consistentes al incluir términos perceptuales y al operar en RGB lineal; en arquitectura, ResNet-50 rinde mejor que ResNet-34, y un breve ajuste del backbone aporta ganancias frente a congelarlo por completo. Exportamos el modelo a Core ML con cuantización a 16 bits, logrando inferencias por debajo del segundo incluso en móviles anteriores, e integrándolo en una aplicación de fotografía como validación práctica del enfoque local e interpretable. CocoGold: segmentación basada en difusión guiada por texto La edición local requiere identificar regiones de interés. CocoGold reutiliza Stable Diffusion 2 y reformula la tarea de segmentación como generación condicionada por imagen y texto: dada una imagen y un término expresado con texto (por ejemplo, "gato"), el modelo aprende a producir una copia de la imagen donde las regiones asociadas al término aparecen destacadas en blanco. Para ello concatenamos la representación latente de la imagen original y de la imagen objetivo, e introducimos ambas como entradas al sistema, adaptando la primera capa de la U-Net para aceptar 8 canales (correspondientes a 2 imágenes) en espacio latente. El resto de la arquitectura del modelo de difusión no necesita cambio alguno. El condicionamiento con texto utiliza el modelo CLIP, al igual que el modelo Stable Diffusion en su versión estándar. El entrenamiento se desarrolla sobre la U-Net; tanto CLIP como el codificador de imágenes (VAE) permanecen congelados. Nuestro dataset de entrenamiento se basa en COCO 2017. Creamos un iterador que, para cada muestra solicitada, proporciona un recorte aleatorio que contiene algún área perteneciente a una de las categorías de objetos de COCO. Como imagen objetivo, preparamos ese recorte con dicho área en color blanco. Puesto que COCO presenta fuertes desequilibrios entre categorías, seleccionamos para nuestro prototipo un subconjunto de 14 categorías con similar representación. El proceso de inferencia sigue el patrón estándar en Stable Diffusion: DDIM, con 50 pasos de reducción de ruido. El modelo, como se ha indicado, genera una copia aproximada de la imagen objetivo, con la máscara de segmentación sobrepuesta en color blanco. Gracias a un proceso de post-procesado (selección de umbrales de color, seguido de operaciones morfológicas para eliminar falsos positivos de pequeño tamaño), obtenemos la máscara binaria de segmentación. Para conseguir compatibilidad con escenas que contienen áreas blancas de forma natural (cielos sobresaturados, por ejemplo), aplicamos a la imagen original una desaturación selectiva, de modo que la copia generada no confunda áreas realmente saturadas con el color blanco a generar en las zonas de segmentación. Este pequeño truco permite al modelo trabajar con todo tipo de imágenes. Para la evaluación de resultados medimos IoU y precisión por píxel sobre el dataset de validación de COCO, bajo un protocolo acorde con la tarea formulada (clase única condicionada por texto, sin existencia de muestras negativas al utilizar siempre recortes que contienen la categoría objetivo). Observamos una mejora de generalización sobre clases no vistas durante el entrenamiento al aumentar la duración del mismo, aunque el rendimiento en este caso es manifiestamente inferior al de clases entrenadas. La agregación de varias predicciones aporta ganancias modestas. Sin embargo, observamos que métodos de inferencia de pocos pasos, tales como trailing DDIM, funcionan sin cambios sobre el modelo previamente entrenado, lo que nos permite utilizar inferencia de tan sólo 1 a 4 pasos para obtener resultados satisfactorios. Esto reduce enormemente el tiempo de latencia y la aplicabilidad práctica del método en hardware de consumo. Coconet: integración de FilterNet y CocoGold para edición local Partiendo de las máscaras de CocoGold exploramos dos integraciones simples de FilterNet: (A) predecir parámetros globales sobre la imagen completa, y aplicarlos en la zona segmentada; (B) aplicar FilterNet sobre un recorte alrededor del área segmentada para obtener parámetros más ajustados a dicha región, y aplicarlos igualmente sobre la máscara de segmentación. En ambos casos, un difuminado suave del contorno facilita transiciones naturales. A nivel práctico, este pipeline combinado respeta los píxeles fuera de la máscara (se toman del original) y preserva el carácter no destructivo e interpretable del proceso. La limitación principal es la resolución de la máscara de segmentación: mientras FilterNet es completamente agnóstico a la resolución, la segmentación produce una máscara binaria de tamaño fijo. Esta restricción puede mitigarse con técnicas de aumento de resolución guiadas por bordes, tales como las utilizadas en DiffDIS o en aplicaciones reales demostradas en la industria: es el caso del tratamiento de imágenes de profundidad en el iPhone, donde la máscara (de profundidad, en este caso) es de baja resolución pero se adapta a tamaño real mediante procesos especializados que respetan los bordes. Conclusiones En esta tesis mostramos que es posible acercar la calidad y flexibilidad de la edición profesional a experiencias cotidianas sin renunciar a interpretabilidad y eficiencia en dispositivos de consumo. Las contribuciones centrales son: - Un enfoque de mejora fotográfica basado en la predicción de parámetros de filtros fotográficos, en lugar de generar píxeles editados. Esta decisión hace al sistema independiente de la resolución, controlable por el usuario y fácil de implantar, incluso localmente. - Una arquitectura de filtros diferenciables que replica de forma realista operaciones fotográficas en espacio RGB lineal con 10 bits, con pérdidas perceptuales que conducen a resultados más acordes con la evaluación humana. - Una estrategia auto-supervisada de generación de datos que evita depender de pares editados, permitiendo entrenar con colecciones de fotos de alta calidad degradadas de forma plausible. - Validación, a través de CocoGold, de que los modelos de difusión preentrenados pueden reutilizarse eficazmente para segmentación guiada por texto con mínimas modificaciones, formulando la tarea como generación imagen a imagen. - Una integración (Coconet) que aplica los parámetros de FilterNet de forma localizada sobre las máscaras de CocoGold, habilitando ediciones no destructivas y semánticamente informadas a partir de instrucciones simples. Entre las limitaciones señalamos: (i) la resolución fija de las máscaras, que puede producir imprecisiones en detalles finos como el cabello y otras estructuras detalladas; (ii) la restricción, en esta primera versión, a términos de una sola palabra, lejos de descripciones ricas y expresiones identificativas que abundan en casos reales; y (iii) la latencia propia de los modelos de difusión, mitigable con procesos de eliminación de ruido como los indicados, destilación, o técnicas de entrenamiento diseñadas para pocos pasos de inferencia. Como líneas de trabajo futuras proponemos dos direcciones complementarias. La primera consiste en extender CocoGold a un verdadero escenario de vocabulario abierto y lenguaje natural, incorporando expresiones identificativas ("la persona de la izquierda con camisa roja"). Dado el fuerte alineamiento multimodal de los modelos de difusión, postulamos que esta ampliación depende más del currículo de datos que de cambios profundos de arquitectura. Paralelamente, explorar pérdidas y señales auxiliares sensibles a contornos podría mejorar la fidelidad de bordes sin sacrificar la simplicidad del sistema. La segunda dirección es complementar el enfoque con VLMs como predictores de parámetros de edición basados en intenciones expresadas por el usuario, en lugar de estimar parámetros automáticos tan sólo. Un VLM podría recibir una imagen y una instrucción en lenguaje natural ("haz el cielo más dramático", "ilumina la cara manteniendo el fondo") y devolver un vector interpretable de parámetros para conseguir tal efecto. Para entrenar un sistema de estas características planteamos la construcción de un dataset sintético utilizando LLMs para generar variabilidad y riqueza en las descripciones. En conjunto, FilterNet, CocoGold y su integración inicial en Coconet, marcan un camino pragmático hacia sistemas de edición fotográfica más intuitivos: automáticos cuando el usuario lo desea, ajustables cuando la intención artística requiere control fino, y siempre respetuosos con los datos originales. El equilibrio entre independencia de resolución, interpretabilidad y viabilidad en móviles convierte a estas propuestas en una base sólida sobre la que seguir construyendo experiencias de edición centradas en las personas y habilitadas por IA.

Enlaces

Universidad Rey Juan Carlos

Escuela Internacional de Doctorado

Toda la actualidad de la EID

Agenda EID

Escuela Internacional de Doctorado

Universidad Rey Juan Carlos
Rectorado – Delegación Madrid
C/ Quintana, 2 - 2ª planta
28008, Madrid
914887056
Buzón de Ayuda al Doctorando

Conecta con nosotros