Clasificación de datos desbalanceados : su aplicación en la predicción de bajas de beneficiarios de un servicio de salud privado
Material type:
Item type | Home library | Collection | Call number | URL | Status | Date due | Barcode | |
---|---|---|---|---|---|---|---|---|
![]() |
Biblioteca de la Facultad de Informática | TES 22/34 (Browse shelf(Opens below)) | Available | DIF-05164 | ||||
![]() |
Biblioteca de la Facultad de Informática | Biblioteca digital | Link to resource | No corresponde | ||||
![]() |
Biblioteca de la Facultad de Informática | Biblioteca digital | Link to resource | No corresponde |
Trabajo Final Integrador (Especialización en Inteligencia de Datos Orientada a Big Data) - Universidad Nacional de La Plata. Facultad de Informática, 2022.
Capítulo I Introducción -- 1.1 Objetivo -- 1.2 Definición del problema -- 1.3 Antecedentes -- Capítulo II Aprendizaje automático -- 2.1 Conceptos preliminares -- 2.1.1 Aprendizaje no supervisado -- 2.1.2 Aprendizaje supervisado -- 2.1.3 Clasificación -- 2.1.4 Subajuste y Sobreajuste -- 2.1.5 Descubrimiento de conocimiento en bases de datos (KDD) -- 2.2 Árboles de decisión -- 2.2.1 Estructura -- 2.2.2 Partición -- 2.2.3 Bondad de la división -- 2.2.4 Entropía -- 2.2.5 Ganancia de información -- 2.2.6 Índice de GINI -- 2.2.7 Criterio de parada -- 2.2.8 Poda y reestructuración -- 2.2.9 Ventajas y desventajas de Árboles de decisión -- 2.2.10 Algoritmos de Árboles de decisión -- 2.2.11 Bosques Aleatorios (Random Forest) -- 2.3 Redes Neuronales Artificiales -- 2.3.1 Funcionamiento -- 2.3.2 Arquitectura -- 2.3.3 Aprendizaje -- 2.3.4 Redes de propagación hacia atrás (Backpropagation) -- 2.3.5 Redes convolucionales -- 2.3.6 Autocodificadores (Autoencoders) -- 2.3.7 Ventajas y desventajas de una RNA -- 2.3.8 Aplicaciones -- Capítulo III Métodos de balanceo de clases -- 3.1 Muestreo de datos -- 3.1.1 Submuestreo -- 3.1.1.1 Algoritmos de Submuestreo -- 3.1.1.2 Submuestreo aleatorio (RUS) -- 3.1.1.3 Tomek links -- 3.1.1.4 Vecinos cercanos (NearMiss) -- 3.1.2 Sobremuestreo -- 3.1.2.1 Algoritmos de Sobremuestreo -- 3.1.2.2 Sobremuestreo aleatorio (ROS) -- 3.1.2.3 Sobremuestreo Sintético (SMOTE) -- 3.1.2.4 Muestreo Sintético Adaptativo (ADASYN) -- 3.1.3 Algoritmos Híbridos -- 3.2 Aprendizaje sensible al costo -- 3.3 Métodos de ensamble -- 3.4 Autoencoders -- Capítulo IV Experimentación -- 4.1 Diseño experimental -- 4.2 Selección -- 4.3 Preprocesamiento y limpieza -- 4.3.1 Análisis del conjunto de datos -- 4.3.2 Datos faltantes -- 4.3.3 Duplicados -- 4.3.4 Boxplot -- 4.3.5 Matriz de correlación -- 4.3.6 Transformaciones -- 4.3.7 Estandarización -- 4.3.8 Vista minable -- 4.4 Aplicación de técnicas de balanceo -- 4.5 Minería de datos -- 4.5.1 Red neuronal -- 4.5.2 Random Forest -- 4.5.3 Autoencoders -- 4.6 Interpretación y evaluación -- 4.6.1 Matriz de Confusión -- 4.6.2 Exactitud (Accuracy) -- 4.6.3 Precisión (Precision) -- 4.6.4 Sensibilidad (Recall) -- 4.6.5 F1 - Measure -- 4.6.6 Especificidad -- 4.6.7 Tasa de Falsos Positivos (TFP) -- 4.6.8 Tasa de Falsos Negativos (TFN) -- 4.6.9 Espacio ROC -- Capítulo V Resultados -- 5.1 Sin balancear -- 5.2 Random Oversampling -- 5.3 NearMiss -- 5.4 SMOTE -- 5.5 Autoencoders -- 5.6 Resumen -- Capítulo VI Conclusiones -- Capítulo VII Bibliografía -- Capítulo VIII Apéndice