Camele, Genaro

Aceleración del proceso de selección de características en entornos Big Data : aplicación en biomarcadores oncológicos - 2024 - 1 archivo (3,60 MB) : il. col.

Tesis (Doctorado en Ciencias Informáticas) - Universidad Nacional de La Plata. Facultad de Informática, 2024.

1. Introducción -- 1.1. Contexto -- 1.2. Motivación -- 1.3. Objetivos -- 1.4. Contribuciones derivadas de esta tesis -- 1.4.1. Concursos, honores y menciones -- 1.4.2. Publicaciones en revistas internacionales -- 1.4.3. Publicaciones en revistas nacionales -- 1.4.4. Publicaciones en congresos y workshops -- 1.4.5. Formación de recursos humanos -- 1.4.6. Desarrollo de herramientas -- 1.5. Organización del documento -- 2. Medicina de precisión -- 2.1. Biología del cáncer -- 2.2. Blancos terapéuticos -- 2.3. Descubrimiento de reguladores de expresión -- 2.4. Biomarcadores -- 2.4.1. Aplicaciones en la bioinformática -- 2.4.2. Análisis de supervivencia -- 2.5. Evaluación de biomarcadores -- 3. Selección de características -- 3.1. Motivación -- 3.2. Blind Search -- 3.3. Regresión de Cox penalizada -- 3.4. Metaheurísticas -- 3.4.1. Binary Black Hole -- 3.4.2. Algoritmos genéticos -- 3.4.3. Binary Particle Swarm Optimization -- 3.5. Trabajo previo -- 3.6. Ejecución distribuida de metaheurísticas -- 4. Multiomix -- 4.1. Descubrimiento de reguladores de expresión -- 4.2. Identificación de biomarcadores -- 4.2.1. Modelos entrenados -- 4.2.2. Validaciones estadísticas -- 4.2.3. Inferencia -- 4.2.4. Multiomix AWS-EMR -- 4.3. Abstracción en la obtención de datos -- 4.3.1. Modulector -- 4.3.2. BioAPI -- 4.3.3. Datos subidos por el usuario -- 4.3.4. cBioPortal -- 4.4. Democratización de la tecnología -- 4.5. Dificultades técnicas solventadas -- 5. Optimización de metaheurísticas en Spark -- 5.1. Apache Spark -- 5.2. Balance de carga -- 5.3. Estrategias de balance de carga propuestas -- 5.3.1. Modelo de predicción del tiempo de ejecución de tareas -- 5.3.2. Estrategia "Equally Distributed" -- 5.3.3. Estrategia "Distribution Based on Predictions" -- 5.3.4. Estrategia "Predictive Execution Load Algorithm with Delay Opti mization" -- 5.3.5. Generalización y aplicación del framework -- 6. Experimentación -- 6.1. Hardware y software -- 6.2. Mediciones de tiempos y métricas -- 6.3. Evaluación de las estrategias de balance de carga -- 6.3.1. Simulador de distribución de tareas -- 6.3.2. Experimentos -- 6.3.3. Conjuntos de datos -- 6.3.4. Metaheurísticas, modelos y métricas -- 6.3.5. Estrategias de balance de carga -- 6.3.6. Parámetros de PELADO y simulación -- 6.3.7. Resultados Experimento 1: validación sobre el simulador -- 6.3.8. Resultados Experimento 2: validación sobre Apache Spark -- 7. Conclusión y trabajo a futuro -- 7.1. Conclusiones generales -- 7.2. Líneas de trabajo futuras -- Bibliografía --

DIF-M8939


BIOINFORMÁTICA
FRAMEWORKS