Tesis doctorales de la Escuela Internacional de Doctorado de la URJC desde el curso 2024/25
Arquitectura Phi: Una arquitectura modular para el procesamiento híbrido de datos
Autor
CEREZO PEREZ, JUAN FELIPE
Director
VELA SÁNCHEZ, BELÉN
Codirector
CUESTA QUINTERO, CARLOS ENRIQUE
Fecha de depósito
09-07-2025
Periodo de exposición pública
9 a 23 de julio de 2025
Fecha de defensa
05-09-2025 - Salón de grados Departamental II Móstoles a las 11:00 horas
Modalidad
Presencial
Programa
Tecnologías de la información y las Comunicaciones (TICs)
Mención internacional
No
Resumen
El objetivo de esta tesis ha sido definir una arquitectura de procesamiento hibrido para entornos Big Data. A la misma se le ha dado el nombre de Arquitectura Phi.
Para la elaboración de la arquitectura Phi se han estudiado los siguientes elementos:
• Las arquitecturas Big Data existentes, tanto las más conocidas y usadas, como otras propuestas existentes en la literatura y en la industria
• Los problemas que presenta la arquitectura Lambda, que es la arquitectura de este tipo mas utilizada en la industria y la academia
• Las limitaciones en el paralelismo de algunas de las principales tecnologías de Big Data empleadas en la industria
• La evolución de un proyecto industrial de Big Data híbrido a lo largo de siete años
• Un mecanismo para conseguir disponer de consistencia extremo a extremo en sistemas Big Data en streaming
A partir de esos estudios se han desarrollado los elementos principales que componen la arquitectura:
• Un modelo funcional de bloques
• Un listado de los criterios de diseño, que son las pautas para construir un sistema Big Data hibrido
• Un mecanismo de trabajo para aplicar los criterios anterios de una manera coherente y ordenada
• Un listado con las propiedades que se obtienen empleado esos criterios
La arquitectura Phi se ha validado en un entorno muy similar a lo que sería el entorno de un proyecto industrial y se ha podido comprobar que la arquitectura:
• Facilita el desarrollo de sistemas que hagan un tratamiento masivo de datos
• Permite integrar de una manera sencilla pero efectiva el procesamiento en streaming y batch
• Ayuda a optimizar el uso de los recursos hardware del sistema
• Dispone de mecanismos que faciliten en control y la calidad de los datos procesados
• Proporciona criterios para manejar la complejidad y el paralelismo de las herramientas Big Data
• Facilita la operación y el control del sistema una vez en producción