Local cover image
Local cover image

Estudio de técnicas de agrupamiento en procesos de datos a gran escala : su aplicación en la descripción de casos de COVID-19 registrados en la República Argentina

By: Contributor(s): Material type: TextTextPublication details: 2022Description: 1 archivo (9,4 MB) : il. colSubject(s): Online resources:
Contents:
1. Introducción -- 1.1. Motivación -- 1.2. Objetivos -- 1.3. Trabajos relacionados -- 2. Conceptos preliminares -- 2.1. K-Means -- 2.1.1. Selección de centroides -- 2.1.2. El algoritmo -- 2.1.3. Problemas adicionales en la agrupación K-Means -- 2.1.4. Paralelismo de datos y resultados -- 2.2. Bisecting K-Means -- 2.3. Mezclas Gaussianas -- 2.4. Métodos de validación interna -- 2.4.1. Índice Silhouette -- 2.4.2. Medición de la validez del clúster a través de la correlación -- 2.4.3. Visualización de agrupamientos por su matriz de similitud -- 2.4.4. Evaluación no supervisada de la agrupación jerárquica -- 2.4.5. Determinación del número correcto de clústeres -- 3. Marco experimental -- 3.1. Origen de los datos -- 3.1.1. Descripción del conjunto de datos -- 3.1.2. Detalles del atributo Clasificación -- 3.2. Herramientas utilizadas para la exploración de datos y ensayos -- 3.2.1. Google Colab -- 3.2.2. PySpark -- 3.2.2.1. MLlib -- 3.2.3. Formato Parquet -- 3.2.4. QlikView -- 4. Preprocesamiento de datos -- 4.1. Selección de atributos -- 4.2. Limpieza y preparación de datos -- 4.2.1. Generación de vectores de características -- 4.3. Conjuntos de datos -- 4.4. Matriz de correlación -- 5. Experimentación -- 5.1. Tiempos de ejecución -- 5.2. Validación de los clústers -- 5.2.1. Índice Silhouette -- 5.2.1.1. Selección del número de agrupaciones según el índice Silhouette -- 5.2.2. Matriz de evidencia. -- 5.2.3. Matriz de similitud ideal -- 5.2.4. Coincidencia en la clasificación de casos por los 3 modelos -- 5.2.5. Distribución de casos por modelo, agrupación y predicción -- 5.3. Análisis de agrupamientos -- 5.3.1. Distribución de los casos por atributo -- 5.3.1.1. Distribución del atributo edad -- 5.3.2. Inclusión de las provincias -- 6. Conclusiones -- Bibliografía
Dissertation note: Trabajo Final Integrador (Especialización en Inteligencia de Datos Orientada a Big Data) - Universidad Nacional de La Plata. Facultad de Informática, 2022.
Star ratings
    Average rating: 0.0 (0 votes)
Holdings
Item type Home library Collection Call number URL Status Date due Barcode
Tesis de posgrado Tesis de posgrado Biblioteca de la Facultad de Informática TES 22/31 (Browse shelf(Opens below)) Available DIF-05158
Tesis de posgrado Tesis de posgrado Biblioteca de la Facultad de Informática Biblioteca digital Link to resource No corresponde
Tesis de posgrado Tesis de posgrado Biblioteca de la Facultad de Informática Biblioteca digital Link to resource No corresponde

Trabajo Final Integrador (Especialización en Inteligencia de Datos Orientada a Big Data) - Universidad Nacional de La Plata. Facultad de Informática, 2022.

1. Introducción -- 1.1. Motivación -- 1.2. Objetivos -- 1.3. Trabajos relacionados -- 2. Conceptos preliminares -- 2.1. K-Means -- 2.1.1. Selección de centroides -- 2.1.2. El algoritmo -- 2.1.3. Problemas adicionales en la agrupación K-Means -- 2.1.4. Paralelismo de datos y resultados -- 2.2. Bisecting K-Means -- 2.3. Mezclas Gaussianas -- 2.4. Métodos de validación interna -- 2.4.1. Índice Silhouette -- 2.4.2. Medición de la validez del clúster a través de la correlación -- 2.4.3. Visualización de agrupamientos por su matriz de similitud -- 2.4.4. Evaluación no supervisada de la agrupación jerárquica -- 2.4.5. Determinación del número correcto de clústeres -- 3. Marco experimental -- 3.1. Origen de los datos -- 3.1.1. Descripción del conjunto de datos -- 3.1.2. Detalles del atributo Clasificación -- 3.2. Herramientas utilizadas para la exploración de datos y ensayos -- 3.2.1. Google Colab -- 3.2.2. PySpark -- 3.2.2.1. MLlib -- 3.2.3. Formato Parquet -- 3.2.4. QlikView -- 4. Preprocesamiento de datos -- 4.1. Selección de atributos -- 4.2. Limpieza y preparación de datos -- 4.2.1. Generación de vectores de características -- 4.3. Conjuntos de datos -- 4.4. Matriz de correlación -- 5. Experimentación -- 5.1. Tiempos de ejecución -- 5.2. Validación de los clústers -- 5.2.1. Índice Silhouette -- 5.2.1.1. Selección del número de agrupaciones según el índice Silhouette -- 5.2.2. Matriz de evidencia. -- 5.2.3. Matriz de similitud ideal -- 5.2.4. Coincidencia en la clasificación de casos por los 3 modelos -- 5.2.5. Distribución de casos por modelo, agrupación y predicción -- 5.3. Análisis de agrupamientos -- 5.3.1. Distribución de los casos por atributo -- 5.3.1.1. Distribución del atributo edad -- 5.3.2. Inclusión de las provincias -- 6. Conclusiones -- Bibliografía

Click on an image to view it in the image viewer

Local cover image