Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
Material type:
Browsing Biblioteca de la Facultad de Informática shelves Close shelf browser (Hides shelf browser)
Trabajo Final Integrador (Especialización en Cómputo de Altas Prestaciones y Tecnología Grid) - Universidad Nacional de La Plata. Facultad de Informática, 2014.
1. Fallos transitorios -- 1.1. Introducción -- 1.2. Concepto -- 1.3. Causas de ocurrencia Fallo, error -- 1.4. Efectos de los fallos transitorios. Terminología -- 1.5. Métricas utilizadas -- 1.6. Algunos casos reales -- 1.7. Consecuencias de los fallos transitorios -- 1.8. Posibles errores debidos a fallos transitorios -- 1.8.1. Excepción por instrucción inválida -- 1.8.2. Error de paridad durante un ciclo de lectura -- 1.8.3. Violación en acceso a memoria -- 1.8.4. Cambio de un valor -- 1.9. Fallos transitorios en sistemas paralelos -- 1.9.1. Concepto de sistema paralelo -- 1.9.2. Características de aplicaciones paralelas científicas de paso de mensajes -- 1.9.3. Consecuencias de fallos transitorios en sistemas paralelos -- 2. Detección de Fallos Transitorios -- 2.1. Modelo de fallo -- 2.2. Objetivos de la detección -- 2.3. Propuestas basadas en hardware -- 2.4. Propuestas basadas en software -- 2.5. Esfera de Replicación (SoR) -- 2.6. Ventanas de vulnerabilidad -- 2.7. Fallos múltiples -- 2.8. Memoria compartida -- 2.9. Propuestas híbridas -- 3. Arquitectura cluster de multicores -- 3.1. Clusters -- 3.2. Clusters de multicores -- 4. Programación con paso de mensajes. Estándar MPI -- 4.1. Modelo de programación basado en paso de mensajes -- 4.2. Estándar de programación MPI -- 4.2.1. Comunicaciones no bloqueantes -- 4.2.2. Comunicadores -- 4.2.3. Comunicaciones colectivas -- 4.2.4. Tipos de datos -- 4.2.5. Ventajas y desventajas de MPI -- 5. Detección de fallos transitorios en cómputo paralelo -- 5.1. MPI/FT -- 5.1.1. El modelo de ejecución de aplicaciones Maestro/Esclavo -- 5.1.2. El modelo de ejecución de aplicaciones SPMD -- 5.1.3. Detección de fallos y notificación -- 5.2. FT-MPI -- 5.3. Evaluación de la viabilidad de la replicación de procesos en HPC -- 5.3.1. Replicación de procesos en aplicaciones de HPC con paso de mensajes -- 6. Metodología SMCV para detección de fallos transitorios -- 6.1. Fundamentación -- 6.1.1. Validación de contenidos de mensajes antes de enviar -- 6.1.2. Comparación de resultados finales -- 6.1.3. Aprovechamiento de recursos redundantes de hardware -- 6.2. Descripción de la operación -- 6.2.1. Caracterización de la sobrecarga de trabajo -- 6.2.2. SoR de SMCV y vulnerabilidad -- 6.2.3. Comportamiento frente a fallos -- 6.3. Implementación de la herramienta de detección SMCV -- 6.3.1. Funciones básicas -- 6.3.2. Utilización -- 6.4. Validación experimental -- 6.4.1. Arquitectura de prueba -- 6.4.2. Verificación de la eficacia de detección -- 6.4.3. Mediciones de overhead -- 6.4.3.1. Benchmarks utilizados -- 6.4.3.2. Pruebas realizadas -- 6.4.3.3. Resultados -- 6.5. Resumen de las características de la metodología -- 7. Conclusiones y trabajos futuros -- Bibliografía