ESCUELA INTERNACIONAL DE DOCTORADO Logos-Falcultades

 
Tesis doctorales de la Escuela Internacional de Doctorado de la URJC desde el curso 2024/25
Deep Learning for Photographic Enhancement
AutorCUENCA JIMÉNEZ, PEDRO MANUEL
DirectorCAÑAS PLAZA, JOSE MARÍA
CodirectorFERNÁNDEZ CONDE, JESÚS
Fecha de defensa20-02-2026
CalificaciónSobresaliente
ProgramaTecnologías de la información y las Comunicaciones (TICs)
Mención internacionalNo
ResumenIntroducción y Objetivos

La edición fotográfica ha acompañado a la fotografía desde sus inicios. Hoy en día, millones de usuarios ajustan sus
fotos digitalmente, pero las herramientas profesionales siguen exigiendo una curva de aprendizaje pronunciada y flujos
de trabajo complejos. Esta situación ha motivado la búsqueda de métodos automáticos y accesibles que mejoren la calidad
técnica de las fotografías sin comprometer la intención artística ni la fidelidad de la captura original.

Esta tesis versa sobre la aplicación del aprendizaje profundo a la mejora fotográfica siguiendo tres principios
rectores: (i) independencia de resolución, para que los resultados puedan aplicarse a imágenes de cualquier tamaño sin
pérdida de calidad; (ii) interpretabilidad y control, favoreciendo métodos paramétricos no destructivos cuyos resultados
puedan ajustarse tras la predicción; y (iii) viabilidad práctica en dispositivos de consumo, haciendo especial hincapié
en la ejecución local por razones de privacidad, latencia y sostenibilidad.

Sobre estos cimientos, la tesis presenta dos sistemas principales y una integración de ambos. En primer lugar,
desarrollamos FilterNet, un sistema de mejora automática que no genera píxeles editados, sino que aprende a predecir
valores de filtros fotográficos estándar (exposición, brillo, contraste, sombras, altas luces y temperatura de color).
Este diseño hace que el proceso sea interpretable, editable por el usuario y aplicable a resolución arbitraria: el
modelo infiere parámetros a partir de una miniatura y la aplicación los aplica sobre la fotografía original a máxima
resolución.

En segundo lugar, exploramos la segmentación guiada por texto como paso clave hacia ediciones locales. Para ello
proponemos CocoGold, que reutiliza un modelo de difusión entrenado con millones de pares {texto, imagen},
modificándolo para identificar y segmentar objetos a partir de descripciones sencillas (por ejemplo, "gato"
o "reloj"). A diferencia de los pipelines de detección y segmentación por etapas, CocoGold formula la tarea
como generación condicionada: el modelo aprende a copiar la imagen de entrada resaltando en blanco las regiones que
coinciden con el término expresado, de donde extraemos la máscara binaria con un posprocesado ligero.

Por último, combinamos ambos enfoques en una prueba de concepto llamada Coconet: las máscaras de CocoGold
permiten aplicar los parámetros de FilterNet de forma localizada. De este modo demostramos que la edición técnica basada
en filtros puede adaptarse a regiones especificadas con lenguaje, manteniendo interpretabilidad e independencia de
resolución en todos los componentes salvo la máscara de segmentación.

El objetivo final de nuestro trabajo es contribuir a democratizar la edición fotográfica con soluciones prácticas,
explicables y eficientes: un sistema capaz de proponer ajustes técnicos expresados con el mismo vocabulario utilizado en
la edición fotográfica, capaz también de seleccionar áreas de interés mediante instrucciones naturales, y de ejecutarse
en dispositivos móviles sin exigir infraestructuras especializadas ni comprometer la privacidad del usuario.

Antecedentes

La mejora automática de imágenes ha evolucionado desde técnicas algorítmicas a métodos de aprendizaje profundo capaces de
aprender transformaciones a partir de datos. Frente a enfoques que generan directamente píxeles editados (difíciles de
escalar a alta resolución y poco interpretables), una línea complementaria consiste en predecir ediciones como parámetros
de filtros, favoreciendo independencia de resolución y control. La supervisión auto-generada mediante degradación
sintética permite entrenar sin disponer de pares {original, editada}. En paralelo, el auge de modelos multimodales y de
difusión ha abierto la puerta a tareas guiadas por texto; en particular, se pueden reutilizar grandes modelos
texto-imagen para obtener señales espaciales con modificaciones mínimas, idea que motiva CocoGold.

Metodología y Resultados

FilterNet

FilterNet parte de un extractor ResNet preentrenado y añade una cabeza predictiva que produce, de una sola
pasada, seis valores en el rango normalizado 1: exposición, brillo, contraste, sombras, altas luces y
temperatura de color. Para entrenar de extremo a extremo con backpropagation es necesario renderizar, dentro
del propio modelo, una versión mejorada de la imagen usando filtros diferenciables. Implementamos la mayoría
mediante curvas de tonos paramétricas aplicadas en espacio RGB lineal (10 bits) y combinadas con la imagen original. La temperatura
de color se modela con matrices de ganancia 3×3, y la exposición con su definición fotométrica. Este diseño emula
operaciones habituales en software de edición, evitando artefactos de formulaciones simplistas.

El entrenamiento es auto-supervisado: a partir de fotos de alta calidad generamos versiones degradadas con combinaciones
plausibles de los seis filtros, y el modelo aprende a recuperar la referencia. La pérdida combina un término en sRGB y
componentes perceptuales (contenido/estilo) basados en VGG.

Para mejorar estabilidad y generalización, cuidamos la inicialización de la cabeza de regresión y empleamos regímenes de
degradación moderados que reducen saturaciones irrecuperables (clipping) y acercan el entrenamiento a escenarios reales.

Evaluamos con métricas clásicas (PSNR, SSIM) y métricas perceptuales (p. ej., DISTS y contenido VGG). Observamos mejoras
consistentes al incluir términos perceptuales y al operar en RGB lineal; en arquitectura, ResNet-50 rinde mejor que
ResNet-34, y un breve ajuste del backbone aporta ganancias frente a congelarlo por completo.

Exportamos el modelo a Core ML con cuantización a 16 bits, logrando inferencias por debajo del segundo incluso en móviles
anteriores, e integrándolo en una aplicación de fotografía como validación práctica del enfoque local e interpretable.

CocoGold: segmentación basada en difusión guiada por texto

La edición local requiere identificar regiones de interés. CocoGold reutiliza Stable Diffusion 2 y reformula la tarea de
segmentación como generación condicionada por imagen y texto: dada una imagen y un término expresado con texto (por
ejemplo, "gato"), el modelo aprende a producir una copia de la imagen donde las regiones asociadas al término aparecen
destacadas en blanco. Para ello concatenamos la representación latente de la imagen original y de la imagen objetivo, e
introducimos ambas como entradas al sistema, adaptando la primera capa de la U-Net para aceptar 8 canales
(correspondientes a 2 imágenes) en espacio latente. El resto de la arquitectura del modelo de difusión no necesita
cambio alguno. El condicionamiento con texto utiliza el modelo CLIP, al igual que el modelo Stable Diffusion en su
versión estándar. El entrenamiento se desarrolla sobre la U-Net; tanto CLIP como el codificador de imágenes (VAE)
permanecen congelados.

Nuestro dataset de entrenamiento se basa en COCO 2017. Creamos un iterador que, para cada muestra solicitada,
proporciona un recorte aleatorio que contiene algún área perteneciente a una de las categorías de objetos de COCO. Como
imagen objetivo, preparamos ese recorte con dicho área en color blanco. Puesto que COCO presenta fuertes desequilibrios
entre categorías, seleccionamos para nuestro prototipo un subconjunto de 14 categorías con similar representación. El
proceso de inferencia sigue el patrón estándar en Stable Diffusion: DDIM, con 50 pasos de reducción de ruido. El modelo,
como se ha indicado, genera una copia aproximada de la imagen objetivo, con la máscara de segmentación sobrepuesta en
color blanco. Gracias a un proceso de post-procesado (selección de umbrales de color, seguido de operaciones
morfológicas para eliminar falsos positivos de pequeño tamaño), obtenemos la máscara binaria de segmentación. Para
conseguir compatibilidad con escenas que contienen áreas blancas de forma natural (cielos sobresaturados, por ejemplo),
aplicamos a la imagen original una desaturación selectiva, de modo que la copia generada no confunda áreas realmente
saturadas con el color blanco a generar en las zonas de segmentación. Este pequeño truco permite al modelo trabajar con
todo tipo de imágenes.

Para la evaluación de resultados medimos IoU y precisión por píxel sobre el dataset
de validación de COCO, bajo un protocolo acorde con la tarea formulada (clase única condicionada por texto, sin
existencia de muestras negativas al utilizar siempre recortes que contienen la categoría objetivo). Observamos una
mejora de generalización sobre clases no vistas durante el entrenamiento al aumentar la duración del mismo, aunque el
rendimiento en este caso es manifiestamente inferior al de clases entrenadas. La agregación de varias predicciones
aporta ganancias modestas. Sin embargo, observamos que métodos de inferencia de pocos pasos, tales como trailing
DDIM, funcionan sin cambios sobre el modelo previamente entrenado, lo que nos permite utilizar inferencia de tan sólo 1
a 4 pasos para obtener resultados satisfactorios. Esto reduce enormemente el tiempo de latencia y la aplicabilidad
práctica del método en hardware de consumo.

Coconet: integración de FilterNet y CocoGold para edición local

Partiendo de las máscaras de CocoGold exploramos dos integraciones simples de FilterNet: (A) predecir parámetros
globales sobre la imagen completa, y aplicarlos en la zona segmentada; (B) aplicar FilterNet sobre un recorte alrededor
del área segmentada para obtener parámetros más ajustados a dicha región, y aplicarlos igualmente sobre la máscara de
segmentación. En ambos casos, un difuminado suave del contorno facilita transiciones naturales. A nivel práctico, este
pipeline combinado respeta los píxeles fuera de la máscara (se toman del original) y preserva el carácter no destructivo
e interpretable del proceso. La limitación principal es la resolución de la máscara de segmentación: mientras FilterNet
es completamente agnóstico a la resolución, la segmentación produce una máscara binaria de tamaño fijo. Esta restricción
puede mitigarse con técnicas de aumento de resolución guiadas por bordes, tales como las utilizadas en DiffDIS o en
aplicaciones reales demostradas en la industria: es el caso del tratamiento de imágenes de profundidad en el iPhone,
donde la máscara (de profundidad, en este caso) es de baja resolución pero se adapta a tamaño real mediante procesos
especializados que respetan los bordes.

Conclusiones

En esta tesis mostramos que es posible acercar la calidad y flexibilidad de la edición profesional a experiencias
cotidianas sin renunciar a interpretabilidad y eficiencia en dispositivos de consumo. Las contribuciones centrales son:

- Un enfoque de mejora fotográfica basado en la predicción de parámetros de filtros fotográficos, en lugar de generar
píxeles editados. Esta decisión hace al sistema independiente de la resolución, controlable por el usuario
y fácil de implantar, incluso localmente.
- Una arquitectura de filtros diferenciables que replica de forma realista operaciones fotográficas en espacio RGB lineal con
10 bits, con pérdidas perceptuales que conducen a resultados más acordes con la evaluación humana.
- Una estrategia auto-supervisada de generación de datos que evita depender de pares editados, permitiendo entrenar
con colecciones de fotos de alta calidad degradadas de forma plausible.
- Validación, a través de CocoGold, de que los modelos de difusión preentrenados pueden reutilizarse eficazmente
para segmentación guiada por texto con mínimas modificaciones, formulando la tarea como generación imagen a
imagen.
- Una integración (Coconet) que aplica los parámetros de FilterNet de forma localizada sobre las máscaras de
CocoGold, habilitando ediciones no destructivas y semánticamente informadas a partir de instrucciones simples.

Entre las limitaciones señalamos: (i) la resolución fija de las máscaras, que puede producir imprecisiones en detalles
finos como el cabello y otras estructuras detalladas; (ii) la restricción, en esta primera versión, a términos de una
sola palabra, lejos de descripciones ricas y expresiones identificativas que abundan en casos reales; y (iii) la
latencia propia de los modelos de difusión, mitigable con procesos de eliminación de ruido como los indicados,
destilación, o técnicas de entrenamiento diseñadas para pocos pasos de inferencia.

Como líneas de trabajo futuras proponemos dos direcciones complementarias. La primera consiste en extender CocoGold a un
verdadero escenario de vocabulario abierto y lenguaje natural, incorporando expresiones identificativas ("la persona de
la izquierda con camisa roja"). Dado el fuerte alineamiento multimodal de los modelos de difusión, postulamos que esta
ampliación depende más del currículo de datos que de cambios profundos de arquitectura. Paralelamente, explorar pérdidas
y señales auxiliares sensibles a contornos podría mejorar la fidelidad de bordes sin sacrificar la simplicidad del
sistema.

La segunda dirección es complementar el enfoque con VLMs como predictores de parámetros de edición basados en
intenciones expresadas por el usuario, en lugar de estimar parámetros automáticos tan sólo. Un VLM podría recibir una
imagen y una instrucción en lenguaje natural ("haz el cielo más dramático", "ilumina la cara manteniendo el fondo") y
devolver un vector interpretable de parámetros para conseguir tal efecto. Para entrenar un sistema de estas
características planteamos la construcción de un dataset sintético utilizando LLMs para generar variabilidad y riqueza
en las descripciones.

En conjunto, FilterNet, CocoGold y su integración inicial en Coconet, marcan un camino pragmático hacia sistemas de
edición fotográfica más intuitivos: automáticos cuando el usuario lo desea, ajustables cuando la intención artística
requiere control fino, y siempre respetuosos con los datos originales. El equilibrio entre independencia de resolución,
interpretabilidad y viabilidad en móviles convierte a estas propuestas en una base sólida sobre la que seguir
construyendo experiencias de edición centradas en las personas y habilitadas por IA.

 

 

Enlaces
Universidad Rey Juan Carlos
Escuela Internacional de Doctorado
Toda la actualidad de la EID
Agenda EID
Escuela Internacional de Doctorado
Universidad Rey Juan Carlos
Rectorado – Delegación Madrid
C/ Quintana, 2 - 2ª planta
28008, Madrid
914887056
Buzón de Ayuda al Doctorando
Conecta con nosotros