Estudio e implementación de una técnica de clustering dinámico para trabajar con flujos de datos

Molina, Roberto Pedro

Estudio e implementación de una técnica de clustering dinámico para trabajar con flujos de datos - 2018 - 123 p. : il. col. + 1 DVD

Tesina (Licenciatura en Informática) - Universidad Nacional de La Plata. Facultad de Informática, 2018.

Capítulo 1 : Flujos de Datos -- Introducción -- Origen -- El Modelo de Flujos de datos -- Características como Restricciones -- Consultas sobre Flujos de datos -- Modelo general para un algoritmo de Data Streaming -- Ventanas de tiempo -- Enfoques Computacionales -- Aplicaciones -- Capítulo 2 : Apache Spark -- Introducción -- ¿Qué es Apache Spark? -- Componentes de Spark -- Arquitectura -- Modelo de procesamiento en paralelo: RDDs -- Funciones sobre RDD: Transformaciones y Acciones -- Transformaciones definidas en la API -- Acciones definidas en la API -- Evaluación lazy -- Persistencia y administración de memoria -- Tolerancia a Fallos -- Anatomía de una aplicación en Spark -- DAG -- Spark Streaming -- Arquitectura y Abstracción sobre Spark -- API DStream -- Transformaciones -- Operaciones Output -- Capítulo 3 : Clustering -- Data Stream Clustering -- BIRCH -- Clustering Feature (CF) -- CF Tree -- Algoritmo BIRCH -- Problemas con CF Tree -- ClusTree -- ClusTree: Micro Clusters e inserciones Anytime -- Definición de ClusTree -- Método para mantener actualizado los clusters -- Manejo de flujos muy rápidos: aceleración a través de la agregación -- Generación de Macro-Clusters -- CluStream -- Micro-clusters -- Pyramidal Time Frame -- Online Clustering con CluStream -- Offline Clustering con Clustream -- DenStream -- Core-micro-cluster -- Metodología de procesamiento -- Fase Online: Micro-clusters -- Fase Offline: Generación de resultados -- Capítulo 4 : D3CAS, Nuevo algoritmo para Streaming Clustering -- Análisis y Motivación -- Diseño -- Ventana de Tiempo -- Metodología Online-offline -- Online-offline sobre la arquitectura distribuida -- Online -- Formato de entrada -- Micro Clusters -- Modelo Micro-cluster -- Generación -- Offline -- Recolección -- Agrupación basa en densidad -- Actualización temporal -- Modelo de los resultados -- Implementación en Apache Spark Streaming -- Cuadro Comparativo -- Pseudo código D3CAS -- Capítulo 5 : Evaluación y comparación -- Conceptos para la validez de agrupaciones -- Silhouette -- Definición de Silhouette -- Evaluaciones y comparaciones -- Detección dinámica -- Comparación de resultados -- Comparación con clusters con formas arbitrarias (no-esféricos) -- Reducción del Flujo de datos -- Conclusión -- Trabajos Futuros -- Referencias bibliográficas

DIF-M7617


FLUJO DE DATOS
MINERÍA DE DATOS
PROGRAMACIÓN DISTRIBUIDA

aprendizaje no supervisado