Tesis doctorales de la Escuela Internacional de Doctorado de la URJC desde el curso 2024/25
Scalability and Quality of Experience of WebRTC media servers for Large-Scale, Low-Latency Streaming
Autor
CHICANO CAPELO, IVÁN
Director
GORTÁZAR BELLAS, FRANCISCO DE ASIS
Codirector
GALLEGO CARRILLO, MICAEL
Fecha de depósito
24-03-2026
Periodo de exposición pública
25 de marzo a 15 de abril de 2026
Fecha de defensa
Sin especificar
Programa
Tecnologías de la información y las Comunicaciones (TICs)
Mención internacional
No
Resumen
Antecedentes: La comunicación multimedia en tiempo real se ha convertido en una tecnología fundamental en el panorama digital actual. La demanda explosiva de servicios de comunicación en tiempo real, impulsada por el auge del trabajo remoto, la educación en línea, el streaming de eventos y la videoconferencia, ha generado la necesidad imperativa de soluciones eficientes, escalables y de baja latencia. El streaming en vivo de baja latencia (LLLS, por sus siglas en inglés), que caracteriza los servicios de streaming interactivo donde espectadores pueden interactuar en tiempo real con los transmisores, se ha convertido en un pilar crítico para aplicaciones como eventos virtuales, plataformas de streaming personalizado, y sistemas de colaboración en tiempo real.
Web Real-Time Communication (WebRTC) ha emergido como una tecnología revolucionaria en este contexto. Originalmente diseñado para habilitar comunicación peer-to-peer directa entre navegadores web, WebRTC ofrece capacidades nativas de comunicación multimedia bidireccional en el navegador sin necesidad de complementos o software adicional. Su soporte nativo en navegadores modernos, su latencia sub-segundo, y su basamento en estándares abiertos lo hacen especialmente atractivo para escenarios que requieren interactividad de baja latencia. Grandes aplicaciones como Google Meet, Microsoft Teams y Discord han adoptado ampliamente WebRTC, demostrando su viabilidad para comunicaciones multimedia a escala.
Hipótesis y objetivos: La hipótesis fundamental de esta tesis es que WebRTC puede emplearse eficazmente en despliegues de LLLS a gran escala manteniendo una QoE aceptable, por medio del análisis de los límites de escalabilidad de los servidores multimedia basados en WebRTC y utilizando este conocimiento para interconectar eficazmente los servidores multimedia con el fin de distribuir la carga de manera eficiente.
A partir de esta hipótesis surgen el siguiente objetivo general: Analizar y mejorar la escalabilidad de los servidores multimedia basados en WebRTC para comunicaciones multimedia en tiempo real en escenarios de LLLS.
Para alcanzar el objetivo general, se establecieron tres objetivos de investigación específicos:
Primer objetivo: Estudiar y proponer estrategias de pruebas de carga para aplicaciones WebRTC, incluyendo enfoques tradicionales basados en navegadores y metodologías innovadoras que reduzcan el consumo de recursos.
Segundo objetivo: Estudiar la degradación de QoE en servidores multimedia basados en WebRTC bajo alta carga, integrando métricas de QoE en escenarios de pruebas de carga para comprender mejor el impacto del estrés en la calidad percibida por el usuario.
Tercer objetivo: Estudiar y proponer estrategias de escalabilidad horizontal basadas en la interconexión de servidores multimedia, analizando tanto la sobrecarga de latencia introducida por esta interconexión como los algoritmos óptimos para asignar usuarios a servidores y escalar dinámicamente el número de servidores en uso basándose en la demanda actual.
Metodologías y herramientas: Para abordar estos objetivos, se desarrolló un conjunto comprensivo de herramientas y se utilizaron diversas metodologías de investigación, combinando técnicas experimentales controladas, simulación de eventos discretos, y análisis estadístico de resultados.
Objetivo 1 - Estudio de estrategias para pruebas de carga: se comparan cinco estrategias: tres basadas en navegador (con grabación, sin grabación y headless) y dos no basadas en navegador (node-webrtc y kms-webrtc). Se implementan en la Herramienta de Pruebas de Carga de OpenVidu (OVLT), que orquesta VMs en AWS para inyectar carga. Métricas: usuarios máximos por VM, consumo de CPU/memoria según número de usuarios y coste monetario total. Se ejecutan campañas incrementales variando topologías (N:N; N:M) y se analizan recursos (CPU, memoria, ancho de banda) y estadísticas internas de WebRTC.
Objetivo 2 - Estudio de QoE bajo carga: caso de estudio con tres servidores multimedia: Kurento, Mediasoup y Pion (presentes en plataformas populares). Se desarrolla la Herramienta de Pruebas de Carga y QoE de OpenVidu (OQLT), que integra inyección de carga con grabación automática de audio/vídeo. Se configuran topologías representativas (todos publicadores; pocos publicadores y muchos suscriptores), se registran métricas de sistema (CPU, memoria, red) y estadísticas WebRTC (RTT, jitter, pérdida) y se aplican VMAF para vídeo y ViSQOL para audio. Se realizan repeticiones hasta detectar puntos de saturación y se correlaciona QoS (CPU, RTT, jitter, pérdida) con QoE (VMAF, ViSQOL), identificando umbrales de degradación.
Objetivo 3 - Estudio de escalabilidad horizontal: se usa experimentación para latencia de interconexión y simulación de eventos discretos para estrategias de escalado en línea. Se desarrolla MILA para orquestar múltiples VMs con Mediasoup en cadenas de 1–20 saltos dentro de la misma región y VPC de AWS, midiendo la latencia extremo a extremo entre cliente emisor y receptor. El simulador LLLS modela capacidad por servidor, costes operacionales, topologías dinámicas y escalado (creación/destrucción de servidores). Se proponen tres estrategias (A, B, C) con políticas de asignación y reserva de capacidad; se evalúan con trazas reales de producción, variando capacidades máximas y concurrencia de sesiones, y se ajustan parámetros con irace. Métricas: coste acumulado, utilización media y cumplimiento de capacidad.
Resultados principales: Los resultados de la investigación revelan hallazgos significativos y prácticos.
Respecto a estrategias de pruebas de carga en aplicaciones WebRTC, el análisis comparativo muestra diferencias dramáticas en eficiencia. Las estrategias no basadas en navegador, particularmente kms-webrtc (que aprovecha un servidor multimedia como cliente sintético), reduce costes de prueba hasta en un 96,6 % en comparación con enfoques basados en navegador tradicionales (navegador con o sin grabación). Más específicamente, kms-webrtc permite emular hasta 23 veces más usuarios por máquina que un navegador con grabación hasta saturar la CPU de la máquina virtual cliente, lo que reduce dramáticamente el número de máquinas virtuales requeridas y por consiguiente el coste total de operación. La estrategia node-webrtc, basada en la librería Node.js que implementa la pila de tecnologías WebRTC, muestra eficiencia intermedia, siendo mejor que estrategias basadas en navegadores pero peor que kms-webrtc. Estos hallazgos demuestran que es posible realizar pruebas de carga exhaustivas y reales de aplicaciones WebRTC de forma mucho más económica sin comprometer la validez de los resultados.
El análisis de QoE bajo carga revela patrones de degradación diferenciados y específicos a cada servidor multimedia investigado. Kurento muestra degradación de QoE principalmente en el audio (hasta -10 % en puntuación media de ViSQOL, con una variabilidad de un 177 %), impulsada principalmente por saturación de CPU del servidor. Cuando la CPU alcanza el 100 %, la calidad de audio comienza a degradarse significativamente, mientras que video permanece relativamente estable (-1 % en VMAF). El impacto se refleja principalmente en nuevos usuarios experimentando dificultades para conectarse al servidor cuando este está saturado, aunque usuarios existentes mantienen conexiones relativamente estables. Pion presenta un patrón similar pero con degradación más intensa en ambas dimensiones: cuando CPU llega a 100 %, video y audio se degradan sustancialmente (ambos -10 % en media, con aumentos de variabilidad de 342 % para VMAF y ViSQOL), incluso afectando a usuarios ya conectados que experimentan desconexiones frecuentes. Mediasoup exhibe un comportamiento fundamentalmente diferente y superior: mantiene QoE estable incluso en saturación de CPU (con decrementos de solo -1 % en VMAF y -3 % en ViSQOL), hasta que métricas de red específicas exceden umbrales críticos. Específicamente, la degradación de Mediasoup ocurre cuando RTT excede los 0,2 segundos y jitter excede los 0,04 segundos aproximadamente, no en función del porcentaje de CPU usado. Además, Mediasoup es significativamente más eficiente: puede soportar aproximadamente seis veces más usuarios antes de que ocurra degradación perceptible de QoE en comparación con Kurento (mejora de 501 %), y casi el doble en comparación con Pion (mejora de 86 %). Estos resultados proporcionan por primera vez umbrales cuantitativos específicos por servidor que operadores pueden monitorear en producción.
Respecto a escalabilidad horizontal mediante interconexión de servidores, el análisis de latencia muestra un hallazgo crítico: conectar múltiples máquinas virtuales ejecutando Mediasoup interconectados en cadenas de hasta veinte saltos dentro de la misma región en AWS y red virtual no introduce latencia adicional visible. Los valores de diferencia de RTT promedio (que representa la latencia incremental por cada salto adicional) se mantienen constantes y despreciables a través de diferentes configuraciones y a lo largo del tiempo, validando que el coste de interconexión por salto dentro de la misma región geográfica y red virtual de AWS es prácticamente nulo. Este hallazgo es crítico pues elimina una barrera arquitectónica significativa: nos permite diseñar estrategias de escalabilidad horizontal para LLLS con WebRTC sin necesidad de focalizarnos en optimizar la latencia introducida por interconexión de servidores multimedia, pudiendo centrar nuestra atención en otros aspectos más críticos como el coste de los servidores y la utilización de recursos de computación por servidor.
El análisis de estrategias de escalado dinámico comparó tres enfoques con complejidad creciente. Los resultados de simulación contra datos derivados de eventos de streaming en vivo del mundo real muestran que el alojamiento compartido de múltiples sesiones de streaming en el mismo servidor mejora dramáticamente la utilización de recursos, logrando ocupación de servidor superior al 90 % a lo largo del tiempo en la mayoría de experimentos. Más aún, estrategias que reservan deliberadamente espacios de capacidad en servidores para futura interconexión funcionan significativamente mejor que aquellas sin esta reserva, aumentando eficiencia en 15-25 % según configuración. La Estrategia C propuesta, que optimiza tanto la asignación de transmisiones y espectadores como la reserva de capacidad para interconexión, supera significativamente alternativas más simples en utilización de recursos (10-20 % de mejora) y costes monetarios absolutos (15-30 % de ahorro), logrando eficiencias que justifican completamente la complejidad algorítmica adicional.
Conclusiones: Los resultados de esta investigación validan la hipótesis fundamental y proporcionan un conjunto comprensivo de directrices prácticas, herramientas de código abierto, y conjuntos de datos realistas para diseñar plataformas de streaming de baja latencia basadas en WebRTC que escalen a grandes audiencias mientras mantienen una QoE aceptable.
Primero, la caracterización sistemática de límites de escalabilidad mediante herramientas como OVLT y OQLT proporciona fundamentos empíricos para planificación de capacidad. Los desarrolladores y operadores ahora pueden entender el comportamiento preciso de diferentes servidores multimedia WebRTC bajo carga, identificar puntos de saturación específicos, y tomar decisiones informadas respecto a qué servidor seleccionar para sus casos de uso particulares.
Segundo, la demostración de que interconexión de servidores multimedia introduce latencia despreciable dentro de regiones geográficas y redes compartidas justifica focalizar la atención en otros aspectos críticos para el escalado horizontal como el coste de la infraestructura. Esto elimina una barrera arquitectónica significativa al escalado de WebRTC.
Tercero, los algoritmos de escalado dinámico propuestos, especialmente la Estrategia C propuesta que optimiza tanto asignación de espectadores como reserva de capacidad, proporcionan un camino práctico hacia operación eficiente en costes de plataformas LLLS masivas usando WebRTC. La capacidad de compartir servidores multimedia entre múltiples transmisiones mientras se mantiene baja latencia representa un avance significativo en economía operacional.
En conjunto, esta tesis demuestra que WebRTC, con la infraestructura, herramientas, y estrategias correctas, es no solo viable sino muy eficiente para escenarios de transmisión en vivo de baja latencia a gran escala. La investigación proporciona tanto el conocimiento fundamental de límites de sistema como las herramientas prácticas necesarias para implementar soluciones de producción eficientes, escalables y económicas. Además, los conjuntos de datos y herramientas de código abierto desarrollados en este trabajo están disponibles para la comunidad investigadora y de desarrollo, facilitando futuras líneas de investigación y mejoras en el campo de la comunicación multimedia en tiempo real usando WebRTC.