Estudio de técnicas de agrupamiento en procesos de datos a gran escala : su aplicación en la descripción de casos de COVID-19 registrados en la República Argentina
Material type:
Item type | Home library | Collection | Call number | URL | Status | Date due | Barcode | |
---|---|---|---|---|---|---|---|---|
![]() |
Biblioteca de la Facultad de Informática | TES 22/31 (Browse shelf(Opens below)) | Available | DIF-05158 | ||||
![]() |
Biblioteca de la Facultad de Informática | Biblioteca digital | Link to resource | No corresponde | ||||
![]() |
Biblioteca de la Facultad de Informática | Biblioteca digital | Link to resource | No corresponde |
Trabajo Final Integrador (Especialización en Inteligencia de Datos Orientada a Big Data) - Universidad Nacional de La Plata. Facultad de Informática, 2022.
1. Introducción -- 1.1. Motivación -- 1.2. Objetivos -- 1.3. Trabajos relacionados -- 2. Conceptos preliminares -- 2.1. K-Means -- 2.1.1. Selección de centroides -- 2.1.2. El algoritmo -- 2.1.3. Problemas adicionales en la agrupación K-Means -- 2.1.4. Paralelismo de datos y resultados -- 2.2. Bisecting K-Means -- 2.3. Mezclas Gaussianas -- 2.4. Métodos de validación interna -- 2.4.1. Índice Silhouette -- 2.4.2. Medición de la validez del clúster a través de la correlación -- 2.4.3. Visualización de agrupamientos por su matriz de similitud -- 2.4.4. Evaluación no supervisada de la agrupación jerárquica -- 2.4.5. Determinación del número correcto de clústeres -- 3. Marco experimental -- 3.1. Origen de los datos -- 3.1.1. Descripción del conjunto de datos -- 3.1.2. Detalles del atributo Clasificación -- 3.2. Herramientas utilizadas para la exploración de datos y ensayos -- 3.2.1. Google Colab -- 3.2.2. PySpark -- 3.2.2.1. MLlib -- 3.2.3. Formato Parquet -- 3.2.4. QlikView -- 4. Preprocesamiento de datos -- 4.1. Selección de atributos -- 4.2. Limpieza y preparación de datos -- 4.2.1. Generación de vectores de características -- 4.3. Conjuntos de datos -- 4.4. Matriz de correlación -- 5. Experimentación -- 5.1. Tiempos de ejecución -- 5.2. Validación de los clústers -- 5.2.1. Índice Silhouette -- 5.2.1.1. Selección del número de agrupaciones según el índice Silhouette -- 5.2.2. Matriz de evidencia. -- 5.2.3. Matriz de similitud ideal -- 5.2.4. Coincidencia en la clasificación de casos por los 3 modelos -- 5.2.5. Distribución de casos por modelo, agrupación y predicción -- 5.3. Análisis de agrupamientos -- 5.3.1. Distribución de los casos por atributo -- 5.3.1.1. Distribución del atributo edad -- 5.3.2. Inclusión de las provincias -- 6. Conclusiones -- Bibliografía