Técnicas de minería de datos para determinar la deserción escolar
Keywords:
machine learning, knowledge extraction (KDD), student dropout, student segmentationSynopsis
The objective of this research was to determine the data mining techniques and the associated factors that allow the segmentation of students at risk of dropping out at the Instituto Superior Tecnológico Privado ISTEPSA, in Andahuaylas (Peru). For this purpose, Automatic Learning and Data Mining techniques implemented in WEKA software were applied: The CfsSubsetEval evaluation method and the BestFirst search method were applied to select the most significant factors, to establish the patterns the association algorithm A was used. priori and to segment, the Expected Value Maximization algorithm "Expectation Maximissation" (EM) and Kohonen's self-organizing maps (Self Organizing Maps, SOM) were used. The following results were obtained: 06 significant factors: Motivation of sessions, Laboratories and Classrooms of the Institution, Acceptance of the professional career, Repeated Courses in the school and Academic Semester; For dropout patterns, 100% of students who dropout rate motivation, classrooms, and laboratories as deficient; In addition, 96% consider the professional career they are studying to be deficient and 90% of those who withdraw are from the fourth semester; In the segmentation, 3 groups have been constructed with the EM algorithm and 4 groups for the SOM algorithm, where it is observed that the academic factors are decisive for the dropout of students.
References
Aranciaga, J. & Ccanto, E. (2021). Factores asociados a la deserción de estudiantes en un instituto de educación superior privado de Lima. https://cutt.ly/zMq4ybq
Arcila Calderón, C., Barbosa Caro, E., & Cabezuelo Lorenzo, F. (2016). Técnicas de Big Data: Análisis de textos a gran escala para la investigación científica y periodística. https://cutt.ly/WMq4pcF
Baviera, T. (2016), Técnicas para el análisis del sentimiento en Twitter: Aprendizaje Automático Supervisado y SentiStrength. Revista Dígitos. https://revistadigitos.com/index.php/digitos/article/view/ 74/39.
Belamate, D., Cassani, M. & Ricci, C. (2016). Aplicación de reglas de asociación para la detección de patrones de comportamiento en sistema académico universitario. Universidad Tecnológica Nacional. Argentina. http:// cytal.frvm.utn.edu.ar/q/tf/7/62
Beron, E., Mejía, D., Castrillón O. (2020). Principales causas de ausentismo laboral: una aplicación desde la minería de datos. https://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-07642021000200011.
Castillo, P. (2017). Aplicación de Aprendizaje Automático para la Predicción de Clientes Potenciales en Procesos de Mercadotecnia (Tesis de posgrado). Centro de Investigación en Matemáticas, A.C., Guanajuato, México.
Cestero, E., & Caballero, A. (2018). Data Science y Redes Complejas. Madrid, España: Editorial Universitaria Ramón Areces S.A.
Cifuentes, F. (2016). Clasificación Automática de Tweets Utilizando K-NN y K-Means como Algoritmos de Clasificación Automática, Aplicando TF-IDF y TF-RFL para las Ponderaciones (Tesis de pregrado). Pontificia Universidad Católica de Valparaíso, Valparaíso, Chile.
Dash, M., Liu, H., & Motoda, H. (2000, April). Consistency based feature selection. In Pacific-Asia conference on knowledge discovery and data mining (pp. 98-109). Springer, Berlin, Heidelberg.
De la Cruz, K. (2017). Segmentación de clientes con Inteligencia Analítica para personalizar las Ventas de los Servicios de las Agencias Turísticas (Tesis de posgrado). Universidad Peruana Unión, Lima, Perú.
Díaz, P. (2008). Modelo conceptual para la deserción estudiantil universitaria Chilena, Universidad Católica de la Santísima Concepción – Chile.
Echevarría, R. (2003). El coaching ontológico posee tres premisas básicas: Los seres humanos seres lingüísticos, el lenguaje es generativo de realidades en nuestro entorno y los seres humanos se crean así mismo en el lenguaje. Chile: Lom Ediciones S.A.
Eckert, K. B., & Suénaga, R. (2015). Análisis de deserción-permanencia de estudiantes universitarios utilizando técnica de clasificación en minería de datos. Formación universitaria, 8(5), 03-12.
Gil, C. (2018). Análisis de componentes principales (PCA). https://rpubs.com/Cristina_Gil/PCA.
Ginzberg, Axelrad y Hermán. (1951). Teoría sobre la elección de carrera y su relación con la deserción. https://cutt.ly/GMq4ZkL
Grinder, R. (2001). Adolescencia. Editorial Limusa. México D.F. https://cutt.ly/YMq4N8f
Hall, M. A., y Smith, L. A. (1998). Practical feature subset selection for machine learning. Department of Computer Science, University of Waikato, Hamilton, New Zealand.
Hamilton LC. (1992). Regression With GRAPHICS. A second course in applied statistics. Belmont, Duxbury.
Hernández C., J. (2011). Descubrimiento de conocimiento en la base de datos académica de una institución de educación superior usando redes neuronales. Universidad Santo Tomás, Bucaramanga, Colombia.
Himansu, S., Janmenjoy, N., Bighnaraj N. y Ajith A. (2018), Computational Intelligence in Data Mining. Singapur: Editorial Springer.
Holgado, L. (2018), Detección de Patrones de Bajo Rendimiento Académico Mediante Técnicas de Minería De Datos de los Estudiantes de la Universidad Nacional Amazónica de Madre de Dios 2018. http://repositorio.unap.edu.pe/handle/UNAP/9815.
Hoyos J. G. & Aponte F. A. (2019). Caracterización de los estudiantes de una Institución de Educación Superior Mediante Big Data. https://www.redalyc.org/journal/852/85263724001/85263724001.pdf.
Jara Tuesta, B. A. (2017). Factores que conducen a la deserción en estudiantes de una universidad privada de Lima Norte (Tesis de maestría). Universidad Cesar Vallejo. https://cutt.ly/2Mq7iXs
Jordan, M. I., & Jacobs, R. A. (1994). Hierarchical mixtures of experts and the EM algorithm. Neural computation, 6(2), 181-214.
Kira, K., Renedell, L. (1992). A practical approach to feature selection. Proceedings of the Ninth International Conference on Machine Learning. Aberdeen Scotland. Morgan Kaufmann. pp. 249–256.
Koller & Sahami (1996). Toward Optimal Feature Selection. http://ilpubs.stanford.edu:8090/208/1/1996-77.pdf.
Ley Peruana N° 30512 (2016). Ley de Institutos y Escuelas de Educación Superior y de la Carrera Pública de sus Docentes, Recuperado el 28 de Abril del 2019. https://www.gob.pe/institucion/minedu/normas-legales/118500-30512.
Linares, A. (2019). Predicción de Renuncia de Socios de una Cooperativa Utilizando Técnicas Supervisadas de Aprendizaje Automático. https://cutt.ly/bMq7mwG
Mandrekar, J. (2010). Receiver Operating Characteristic Curve in Diagnostic Test Assessment. Journal of Thoracic Oncology, 5(9), 1315-1316. https://doi.org/10.1097/JTO.0b013e3181ec173d.
Mathivet, V. (2018). Inteligencia Artificial para Desarrolladores. Barcelona, España: Editorial ENI.
McCarthy, J. (2007). What is artificial intelligence? Standford University, California, EE.UU.
Miranda, M. & Guzmán, J. (2017). Análisis de la Deserción de Estudiantes Universitarios usando Técnicas de Minería de Datos. https://www.redalyc.org/articulo.oa?id=373551306007.
Moerland, P. (1997). Some methods for training mixtures of experts. Informe técnico, Dalle Molle Institute for Perceptive Artificial Intelligence.
Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2018). Foundations of machine learning. Cambridge, MA : The MIT Press.
Mollo, N. (2018). Análisis Predictivo de la Deserción Estudiantil Utilizando Data Warehouse y Minería de Datos en la Universidad Nacional Jorge Basadre Grohmann – Tacna, 2012-2018. http://repositorio.unjbg.edu.pe/handle/UNJBG/3506.
Ochoa, L. (2016). Estudio Comparativo de Técnicas no Supervisadas de Minería de Datos Para Segmentación de Alumnos. (Tesis de Pregrado). Universidad Católica de Santa María, Arequipa, Perú.
Pacco, R. (2015). Análisis Predictivo Basado en Redes Neuronales no Supervisadas Aplicando Algoritmo de K-Medias y CRISP-DM para Pronóstico de Riesgo de Morosidad de los Alumnos en la Universidad Nacional Peruana Unión. (Tesis de Posgrado). Universidad Peruana Unión, Lima, Perú.
Pavón, F. (2016). Generación de Conocimiento Basado en Aprendizaje Automático y Aplicación en Diferentes Sectores. (Tesis de Posgrado). Escuela Técnica Superior de Ingeniería Informática (ETSI) Universidad Nacional de Educación a Distancia (UNED), Madrid, España.
Pérez G. (2020). Comparación de Técnicas de Minería de Datos Para Identificar Indicios de Deserción Estudiantil, a Partir del Desempeño Académico. https://www.redalyc.org/journal/5537/553768131019/553768131019.pdf
Pérez, M., Norma, P., Aguilar, C., Jorge, R., Zamora, R., Rosa, A., & Miguel, J. (2018). Diseño de un modelo predictivo aplicando minería de datos para identificar causas de deserción estudiantil universitaria. México.
Quezada, N. (2017). K-vecinos más Próximos en una Aplicación de Clasificación y Predicción en el Poder Judicial del Perú. (Tesis de Posgrado). Universidad Nacional Mayor de San Marcos, Lima, Perú.
Redondo, M. (2016). Simulación de Redes Neuronales como Herramienta Big Data en el Ámbito Sanitario. https://cutt.ly/2Mq5a0S
Riquelme S., J. C., Ruiz, R., y Gilbert, K. (2006). Minería de datos: Conceptos y tendencias. Inteligencia Artificial: Revista Iberoamericana de Inteligencia Artificial, 10 (29), 11-18.
Rivera, M. (2016). Los Factores determinantes y su relación con la deserción escolar en los alumnos del primero al sexto grado del nivel primaria de la x, de Monzón, 2010 al 2015. https://renati.sunedu.gob.pe/handle/sunedu/1799018.
Ruiz-Ramírez, R., García-Cué, J. L., & Pérez-Olvera, M. A. (2014). Causas y consecuencias de la deserción escolar en el bachillerato: Caso Universidad Autónoma de Sinaloa. Ra Ximhai, 10(5), 51-74.
Russell, S., y Norvig, P. (2010). Artificial Intelligence a Modern Approach. New Jersey: Pearson Education.
Saito, T. and Rehmsmeier, M. (2015). The Precision-Recall Plot is More Informative than the ROC Plot when Evaluating Binary Classifiers on Imbalanced Datasets. PLoS ONE, 10(3). 1-21. https://doi.org/10.1371/journal.pone.0118432
Sancho, Q. (2000). Sistemas Modulares, Mezcla de Expertos y Sistemas Híbridos. Informe Técnico DI-2000-001 Departamento de Informática. Universidad de Valladolid, España.
Super, D. (1953). Teoría de Super. Blog Orientación vocacional y educativa. http://orientacion-morelos.blogspot.pe/2010/02/teoria-desuper.html
Tan, Steinbach & Kumar (2006). Introducción a la minería de datos. https://cutt.ly/bMq5TUy
Terrones, A. (2018). Inteligencia Artificial y Ética de la Responsabilidad. Cuestiones de Filosofía, 4(22), 141-170. Páginas.
Timaran, R., Jiménez, J. (2014). Detección de patrones de deserción estudiantil en programas de pregrado de instituciones de educación superior con CRISP-DM. Congreso Iberoamericano de Ciencia, Tecnología, Innovación y Educación.
Torres, M. (2018). Segmentación demográfica y relación con los clientes en la empresa Hotel Cielo, Distrito de Tarapoto, 2018. https://repositorio.ucv.edu.pe/handle/20.500.12692/51256.
Urbina, A.B., Camino, J.C. & Cruz, R. (2020). Deserción Escolar Universitaria: Patrones Para Prevenirla Aplicando Minería de Datos Educativa. https://www.redalyc.org/journal/916/91664838013/91664838013.pdf.
Villamarín V., J. H. (2017). Análisis de la deserción estudiantil en la FCECEP utilizando Machine Learning específicamente Mapas Auto Organizados de Kohonen. Universidad Autónoma de Occidente Posgrado de la Facultad de Ingeniería-Santiago de Cali, Colombia.
WEKA3 (2019). WEKA3. https://www.cs.waikato.ac.nz/~ml/weka/
Yamao, E. (2018). Predicción del Rendimiento Académico Mediante Minería de Datos en Estudiantes del Primer Ciclo de la Escuela Profesional de Ingeniería de Computación y Sistemas, Universidad de San Martín de Porres. https://repositorio.usmp.edu.pe/handle/20.500.12727/3555.
Zavala, J. (2017). Pronóstico de la Exportación Pesquera por Redes Neuronales y Modelos Arima (Tesis de pregrado). Universidad Nacional de Trujillo, Trujillo, Perú.