Pincay Ponce, Jorge Iván

Análisis de datos educativos aplicado en el estudio de la incidencia de factores socioeconómicos en el rendimiento escolar - 2023 - 1 archivo (10,3 MB) : il. col.

Tesis (Doctorado en Ciencias Informáticas) - Universidad Nacional de La Plata. Facultad de Informática, 2023.

1. Introducción -- 1.1. Motivación -- 1.1.1. El problema del rendimiento escolar -- 1.1.2. Análisis de datos educativos -- 1.1.3. Aprendizaje Automático, Minería de Datos -- 1.2. Objetivos -- 1.3. Alcance -- 1.4. Metodología -- 1.4.1. Tipo de investigación -- 1.4.2. Ciclo de vida de los modelos de Aprendizaje Automático -- 1.4.3. Conjuntos de datos -- 1.4.4. Niveles de análisis de datos -- 1.4.5. Consideraciones éticas -- 1.5. Contribuciones -- 1.6. Publicaciones -- 1.7. Organización de la tesis -- 2. Marco teórico -- 2.1. Minería de datos educativos -- 2.1.1. Campos de aplicación -- 2.1.2. Objetivos generales de la minería de datos educativos -- 2.1.3. Tipos de datos usados con frecuencia en el contexto escolar -- 2.2. Delimitación del término rendimiento académico -- 2.3. Factores de riesgo del rendimiento -- 2.4. Abandono y deserción escolar -- 2.5. Aprendizaje automático -- 2.5.1. Parámetros e hiperparámetros generales -- 2.5.2. Modelos supervisados -- 2.5.2.1. Máquinas de soporte vectorial (SVM) -- 2.5.2.2. Análisis discriminante lineal -- 2.5.2.3. Método de Bayes -- 2.5.2.4. Vecino más cercano, KNN -- 2.5.2.5. Árboles de decisión -- 2.5.2.6. Regresión lineal -- 2.5.2.7. Regresión logística -- 2.5.2.8. Aprendizaje en conjunto -- 2.5.2.8.1. ADA Boost -- 2.5.2.8.2. Gradient Boosting -- 2.5.2.8.3. XG Boost -- 2.5.2.8.4. XG Boost Random Forest -- 2.5.2.8.5. CatBoost -- 2.5.2.8.6. Random Forests -- 2.5.2.9. Redes neuronales -- 2.5.2.10. Descenso de gradiente estocástico, SGD -- 2.5.2.11. Métricas de evaluación de modelos supervisados -- 2.5.2.11.1. Matriz de confusión -- 2.5.2.11.2. Precisión -- 2.5.2.11.3. Exactitud (Accuracy)3 -- 2.5.2.11.4. Recuerdo (Recall) -- 2.5.2.11.5. F1 Score -- 2.5.2.11.6. Especificidad -- 2.5.2.11.7. Curva ROC -- 2.5.2.11.8. Error cuadrático medio, MSE -- 2.5.2.11.9. Error cuadrático medio de la raíz, RMSE -- 2.5.2.11.10. Error absoluto medio, MAE -- 2.5.2.11.11. R cuadrado, R2 -- 2.5.2.11.12. N Error cuadrático medio de la raíz, NRMSE -- 2.5.3. Modelos no supervisados -- 2.5.3.1. Patrones frecuentes, FP-Growth -- 2.5.3.2. K-Means -- 2.5.3.3. Clúster jerárquico -- 2.5.3.4. Reglas de asociación -- 2.5.3.5. Análisis de componentes principales -- 3. Desarrollo -- 3.1. Fase 1. Comprensión del aprovechamiento escolar -- 3.1.1. Sobre las escuelas y el rendimiento académico -- 3.1.2. Sobre los objetivos escolares -- 3.1.3. Sobre la situación actual -- 3.1.4. Sobre los objetivos de análisis de datos -- 3.1.5. Sobre planificación del modelado de datos -- 3.2. Fase 2. Comprensión de los datos -- 3.2.1. Recopilación inicial de datos -- 3.2.2. Descripción del conjunto de datos -- 3.2.3. Exploración de datos -- 2.3.3.1. Con base en la cantidad de alumnos -- 2.3.3.2. Con base en los registros de notas de cada materia -- 2.3.3.3. Correlaciones -- 2.3.3.4. Ganancia de Información e Información Mutua -- 2.3.3.5. Análisis confirmatorio -- 3.3. Fase 3. Preparación de los datos -- 3.3.1. Selección de los datos -- 3.3.2. Limpieza de los datos -- 3.3.3. Construcción de nuevos datos -- 3.3.4. Aumento de datos -- 3.3.5. Reducción de la dimensionalidad -- 3.3.6. Formato de datos -- 3.4. Fase 4. Modelado -- 3.4.1. Generalidades -- 3.4.2. Parámetros e hiperparámetros -- 3.4.3. Aprendizaje no supervisado -- 3.4.4. Aprendizaje supervisado -- 3.4.4.1. Support Vector Machine -- 3.4.4.2. Análisis discriminante lineal, LDA -- 2.4.4.3. Método de Bayes -- 3.4.4.4. KNN -- 3.4.4.5. Árbol de decisión, C4.5 -- 2.4.4.6. Regresión lineal -- 2.4.4.7. Regresión Logística -- 2.4.4.8. Métodos de aprendizaje en conjunto o ensamblados -- 2.4.4.9. Redes neuronales -- 2.4.4.10. Descenso del gradiente estocástico, SGD -- 3.5. Fase 5. Evaluación -- 3.5.1. Modelos de clasificación considerando notas intermedias -- 3.5.2. Modelos de clasificación sin considerar notas intermedias -- 3.5.3. Modelos de regresión sin considerar notas intermedias -- 3.5.4. Modelos de clasificación con PCA, Smote ponderado y sin considerar notas intermedias -- 3.6. Fase 6. Despliegue -- 4. Resultados -- 5. Conclusiones, limitaciones y trabajos futuros -- 5.1. Respecto del objetivo de reconocer las aplicaciones de análisis de datos en los problemas del contexto educativo escolar -- 5.2. Respecto del objetivo de preparar los datos de acuerdo con la dimensionalidad a un número efectivo de características -- 5.3. Respecto del objetivo de estudiar comparativamente la idoneidad de los algoritmos de minería de datos -- 5.4. Respecto del objetivo de establecer parámetros e hiperparámetros que pueden ser apropiados a los datos y los modelos -- 5.5. Respecto del objetivo de interpretar los resultados del conocimiento descubierto y su eficiencia según métricas pertinentes a los modelos -- 5.6. Limitaciones y trabajos futuros -- 6. Referencias

DIF-M8727


MINERÍA DE DATOS
EDUCACIÓN

rendimiento académico