Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/20.500.12104/110394Registro completo de metadatos
| Campo DC | Valor | Lengua/Idioma |
|---|---|---|
| dc.contributor.advisor | Gutiérrez Pulido, Humberto | |
| dc.contributor.advisor | Meda Campaña, María Elena | |
| dc.contributor.advisor | Valdéz Dávila, Ma. Guadalupe | |
| dc.contributor.advisor | Sánchez García, Jesús Eladio | |
| dc.contributor.author | Hernández Chavez, Gisel | |
| dc.date.accessioned | 2025-12-04T21:43:10Z | - |
| dc.date.available | 2025-12-04T21:43:10Z | - |
| dc.date.issued | 2025-03-19 | |
| dc.identifier.uri | https://wdg.biblio.udg.mx | |
| dc.identifier.uri | https://hdl.handle.net/20.500.12104/110394 | - |
| dc.description.abstract | El abandono universitario a nivel mundial alcanza niveles superiores al 30%. Este problema implica pérdidas económicas para las familias, las instituciones y las naciones, así como menores oportunidades de empleo, entre otras consecuencias negativas. Como parte de la solución para su mitigación, las universidades deben detectar los factores de abandono y realizar predicciones tempranas de los alumnos en riesgo. Esta investigación contribuye con esas soluciones demostrando, a través de un estudio de caso, que en el abandono influyen variables asociadas al alumno, a la familia y al sistema educativo y que un modelo de aprendizaje automático puede superar en precisión a los modelos estadísticos. Apliqué una metodología de minería de datos y métodos de análisis de supervivencia utilizando información de 12 930 alumnos de una universidad privada mexicana, que ingresaron entre el 2006 y el 2014, con seguimiento de 12 semestres. Los datos provinieron de los sistemas administrativos de la universidad y de datos abiertos de gobierno. Realicé estimaciones con modelos de Kaplan Meier y Nelson Aalen y pruebas de rango logarítmico, encontrando que los perfiles con más riesgo son los de alumnos que: son de sexo masculino; ingresan con 21 años o más; estudian ingeniería o administración; hacen examen de ingreso por no tener alto promedio y no provenir de preparatorias exentas de ello; tienen promedio de preparatoria menor a 80; no tienen becas o créditos e ingresan en primavera. En cuanto a las preparatorias de procedencia, tienen más riesgo las localizadas fuera de la zona metropolitana, las que obtienen bajos resultados en pruebas nacionales y las que tienen mayor promedio histórico de exalumnos que han abandonado la universidad estudiada. Empleé modelos de Cox tradicionales y regularizados, así como Bosques de Supervivencia Aleatorios, demostrando que con los últimos se pueden obtener predicciones más precisas en cuanto al índice de concordancia c (0.704) y mejores calibraciones con puntuación integrada de Brier (0.133). Sin embargo, aunque el Área Bajo la Curva (AUC) dependiente del tiempo promedio también fue el mejor, entre los semestres 3 y 11 fue superado por un modelo de Cox; resaltando la importancia de la utilización de varias métricas para la selección de modelos. Las variables que resultaron importantes, los modelos construidos y la metodología seguida pueden facilitar esfuerzos posteriores, sobre todo de universidades privadas mexicanas con semejante estructura y población y guiar los esfuerzos de la institución estudiada para mejorar la retención. | |
| dc.description.tableofcontents | Índice de Principales Abreviaturas ................................................................................. iv Lista de figuras ................................................................................................................ v Lista de tablas ................................................................................................................. vii Resumen ........................................................................................................................ viii Introducción ..................................................................................................................... 1 1 Modelos de abandono universitario ............................................................................ 9 1.1 Modelos Teóricos de Capital Humano y sus Derivados ..................................... 10 1.2 Otros Modelos Teóricos de Abandono ............................................................... 12 1.3 Aporte de Modelos Teóricos a la Identificación de Predictores en el Caso de Estudio ......................................................................................................................... 15 2 Análisis de Supervivencia (AS) ................................................................................. 17 2.1 Definiciones ....................................................................................................... 17 2.1.1 Tiempos, Eventos de Interés y Censura ..................................................... 17 2.1.2 Tipos de Censura y Truncamiento .............................................................. 19 2.1.3 Riesgos Relativos, Razón de posibilidades y Razón de la Tasa de Riesgo 25 2.1.4 Tiempo de Supervivencia Continuo y Discreto ............................................ 27 2.1.5 Funciones para Describir la Supervivencia y el Riesgo ............................... 28 2.1.6 Covariables e Interacciones entre ellas ...................................................... 30 2.1.7 Estadísticos Descriptivos a partir de una Tabla de Vida ............................. 31 2.1.8 Intervalo de Confianza y Nivel de Confianza de las Estimaciones .............. 33 2.1.9 Valor p ........................................................................................................ 35 2.2 Requisitos de los Datos en el AS ....................................................................... 35 2.2.1 Datos atípicos ............................................................................................. 36 2.2.2 Tamaño de Muestra, Potencia Estadística y Tamaño del Efecto en AS ...... 38 2.3 Métodos de AS de un solo riesgo y tiempo continuo .......................................... 39 2.3.1 Taxonomía de los métodos ......................................................................... 39 2.4 Conclusiones sobre los Métodos de AS ............................................................. 47 3 Trabajos Relacionados con Predicción de Abandono de Programas con AS ............ 49 3.1 Preguntas de investigación de la revisión y palabras claves derivadas .............. 49 3.2 Plataformas de Búsqueda .................................................................................. 50 3.3 Palabras claves para las búsquedas ................................................................. 50 3.4 Criterios de inclusión y exclusión ....................................................................... 51 3.5 Resultados de la búsqueda ............................................................................... 52 3.6 Hallazgos en Revisiones de Literatura ............................................................... 53 3.7 Características de los Trabajos Primarios Relacionados ................................... 56 3.7.1 Procedencia de los Estudios ....................................................................... 57 3.7.2 Fuentes de los Datos .................................................................................. 58 3.7.3 Poblaciones y Tamaño de muestra ............................................................. 58 3.7.4 Momento de la Predicción .......................................................................... 59 3.7.5 Variables Independientes Consideradas ..................................................... 60 3.7.6 Métodos de Modelado Aplicados ................................................................ 63 3.7.7 Tareas de Aseguramiento de Calidad de los Datos y las Predicciones ....... 66 3.7.8 Tiempo de seguimiento y Manejo de la Censura ........................................ 68 3.8 Conclusiones sobre Modelos Empíricos ............................................................ 69 4 Métodos para un solo Riesgo y Tiempos Continuos Aplicados ................................. 71 4.1 Métodos MEPo aplicados .................................................................................. 71 4.1.1 KM .............................................................................................................. 71 4.1.2 NA y sus Diferencias con KM ..................................................................... 72 4.1.3 Métodos para comparar grupos .................................................................. 73 4.2 Métodos Predictivos Estadísticos y de AA aplicados ......................................... 75 4.2.1 Método Estadístico semi paramétrico de CPH y sus derivados .................. 76 4.2.2 RSF ............................................................................................................ 89 4.3 Selección de variables para un modelo de AS ................................................... 92 4.3.1 Métodos de Filtrado .................................................................................... 94 4.3.2 Métodos de Envoltorios .............................................................................. 94 4.3.3 Métodos Integrados .................................................................................... 95 4.4 Evaluación e Interpretación del Desempeño de MPre-nC en AS ....................... 98 4.4.1 Bondad de Ajuste en AS ............................................................................. 99 4.4.2 Precisión Predictiva .................................................................................. 106 4.4.3 Validación Cruzada y bootstrap ................................................................ 107 4.4.4 Robustez de los Modelos ......................................................................... 110 4.4.5 Interpretación de las Predicciones ............................................................ 110 5 Preprocesamiento y Estimaciones de Abandono a Nivel de Subpoblaciones ......... 112 5.1 Fase 1. Inicio, Planeación y Comprensión del Problema ................................. 114 5.1.1 Proceso de la Fase 1 ................................................................................ 114 5.1.2 Aplicación de la Fase 1 ............................................................................. 115 5.2 Fase 2. Análisis Exploratorio y Preparación de Datos para Modelado ............. 116 5.2.1 Proceso de la Fase 2 ................................................................................ 116 5.2.2 Aplicación de la Fase 2 ............................................................................. 119 5.3 Fase 3. Estimación de Supervivencia y Riesgo para la Universidad y sus Subpoblaciones .......................................................................................................... 141 5.3.1 Proceso de la Fase 3 ................................................................................ 141 5.3.2 Aplicación de la Fase 3 ............................................................................. 142 5.3.3 Discusión de los Hallazgos ....................................................................... 148 6 Construcción, Evaluación y Selección de Modelos Predictivos ............................... 154 6.1 Fase 4. Selección de Variables y Modelado Predictivo .................................... 154 6.1.1 Proceso de la Fase 4 ................................................................................ 154 6.1.2 Aplicación de la Fase 4 ............................................................................. 158 6.2 Fase 5. Evaluación, Selección de Modelos e Interpretación de Resultados ..... 184 6.2.1 Proceso de la Fase 5 ................................................................................ 184 6.2.2 Aplicación de la Fase 5 ............................................................................. 186 7 Conclusiones .......................................................................................................... 190 7.1 Limitaciones..................................................................................................... 194 7.2 Amenazas de Validez ...................................................................................... 194 7.3 Trabajo futuro .................................................................................................. 195 8 Apéndices ............................................................................................................... 197 8.1 Revisiones de Literatura sobre Métodos para Predicción de Abandono Universitario ............................................................................................................... 197 8.2 Estudios empíricos seleccionados para comparación ...................................... 199 8.3 Descripción de archivos de datos csv .............................................................. 201 8.4 Notebooks de Jupyter resultantes de las fases 2, 3, 4 y 5 ............................... 206 8.5 Algoritmo para generar tiempos y eventos con observación de 12 semestres . 212 8.6 Ranking de modelos CPH con una sola variable ............................................. 213 8.7 Variables Predictoras de los Modelos .............................................................. 214 8.8 Razones de riesgo estimados por covariable en model18a por semestre ........ 215 8.9 Fase 6. Implementación y Mejora Continua ..................................................... 216 | |
| dc.format | application/PDF | |
| dc.language.iso | spa | |
| dc.publisher | Biblioteca Digital wdg.biblio | |
| dc.publisher | Universidad de Guadalajara | |
| dc.rights.uri | https://www.riudg.udg.mx/info/politicas.jsp | |
| dc.subject | Bosques De Supervivencia | |
| dc.subject | Abandono Universitario | |
| dc.title | Aplicación de Bosques de Supervivencia Aleatorios a la Predicción de Abandono Universitario | |
| dc.type | Tesis de Doctorado | |
| dc.rights.holder | Universidad de Guadalajara | |
| dc.rights.holder | Hernández Chavez, Gisel | |
| dc.coverage | ZAPOPAN, JALISCO | |
| dc.type.conacyt | doctoralThesis | |
| dc.degree.name | DOCTORADO EN TECNOLOGIAS DE INFORMACION | |
| dc.degree.department | CUCEA | |
| dc.degree.grantor | Universidad de Guadalajara | |
| dc.rights.access | openAccess | |
| dc.degree.creator | DOCTOR EN TECNOLOGIAS DE INFORMACION | |
| dc.contributor.director | López Martín, Cuauhtémoc | |
| Aparece en las colecciones: | CUCEA | |
Ficheros en este ítem:
| Fichero | Tamaño | Formato | |
|---|---|---|---|
| DCUCEA10193FT.pdf | 6.3 MB | Adobe PDF | Visualizar/Abrir |
Los ítems de RIUdeG están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.