Técnicas de minería de datos para determinar la deserción escolar

Authors

Alejandro Apaza-Tarqui
Universidad Nacional del Altiplano
https://orcid.org/0000-0003-1622-8862
Walter Borda-Navedos
Universidad Nacional del Altiplano
https://orcid.org/0000-0003-1916-3638
Noemí Cayo
Universidad Nacional del Altiplano
https://orcid.org/0000-0002-9690-3006
Jhon Huanca-Suaquita
Universidad Nacional de Juliaca
https://orcid.org/0000-0001-6683-8859

Keywords:

machine learning, knowledge extraction (KDD), student dropout, student segmentation

Synopsis

The objective of this research was to determine the data mining techniques and the associated factors that allow the segmentation of students at risk of dropping out at the Instituto Superior Tecnológico Privado ISTEPSA, in Andahuaylas (Peru). For this purpose, Automatic Learning and Data Mining techniques implemented in WEKA software were applied: The CfsSubsetEval evaluation method and the BestFirst search method were applied to select the most significant factors, to establish the patterns the association algorithm A was used. priori and to segment, the Expected Value Maximization algorithm "Expectation Maximissation" (EM) and Kohonen's self-organizing maps (Self Organizing Maps, SOM) were used. The following results were obtained: 06 significant factors: Motivation of sessions, Laboratories and Classrooms of the Institution, Acceptance of the professional career, Repeated Courses in the school and Academic Semester; For dropout patterns, 100% of students who dropout rate motivation, classrooms, and laboratories as deficient; In addition, 96% consider the professional career they are studying to be deficient and 90% of those who withdraw are from the fourth semester; In the segmentation, 3 groups have been constructed with the EM algorithm and 4 groups for the SOM algorithm, where it is observed that the academic factors are decisive for the dropout of students.

Author Biographies

Alejandro Apaza-Tarqui, Universidad Nacional del Altiplano

Ingeniero de Sistemas e Informática, Estadístico colegiado con registro N° 48099, segunda especialización en Ingeniería Informática, Magíster Scientiae en Computación e Informática y Doctorado en Ciencias de la Computación. Miembro fundador del Instituto de Ciencia de Datos (ICD) y Director de relaciones interinstitucionales del Instituto de Investigación y Desarrollo Andino Amazónico (IIDEAA) de la Universidad Nacional del Altiplano, docente Universitario en la categoría de profesor principal, desempeñó el cargo de Director de Telecomunicaciones de la Región de Puno.

Walter Borda-Navedos, Universidad Nacional del Altiplano

Ing. de Sistemas de profesión, Magister en Tecnologías de Información y Comunicaciones, actualmente docente de la Universidad Nacional San Antonio de Abad del Cusco y CETPRO INNOVATEC Andahuaylas

Noemí Cayo, Universidad Nacional del Altiplano

Licenciado en Turismo. Segunda Especialidad en Administración en Turismo, Hotelería y Gastronomía M.Sc. en Economía, mención Proyectos de inversión, D.Sc. en Ciencia, Tecnología y Medio Ambiente

Líneas de investigación: Administración de empresas turísticas, Gestión de Destinos turísticos, Sistemas de gestión de Calidad, medio ambiente, Gestión de emprendimientos y negocios turísticos y Desarrollo turístico regional

Jhon Huanca-Suaquita, Universidad Nacional de Juliaca

Ingeniero Estadístico e Informático, Magister Scientiae en Informática, Doctor en Estadística e Informática por la Universidad Nacional del Altiplano, con estudios concluidos del programa de doctorado en Ciencias de la Computación de la Universidad Nacional del Altiplano, especializado en desarrollo de sistemas de seguridad informática y ciencia de datos; Investigador, Docente y asesor de tesis de pregrado y posgrado en Maestrías-Doctorados en distintas Universidades del país. Editor, escritor de textos académicos y desarrollador de nuevas tecnologías a nivel de software.

References

Aranciaga, J. & Ccanto, E. (2021). Factores asociados a la deserción de estudiantes en un instituto de educación superior privado de Lima. https://cutt.ly/zMq4ybq

Arcila Calderón, C., Barbosa Caro, E., & Cabezuelo Lorenzo, F. (2016). Técnicas de Big Data: Análisis de textos a gran escala para la investigación científica y periodística. https://cutt.ly/WMq4pcF

Baviera, T. (2016), Técnicas para el análisis del sentimiento en Twitter: Aprendizaje Automático Supervisado y SentiStrength. Revista Dígitos. https://revistadigitos.com/index.php/digitos/article/view/ 74/39.

Belamate, D., Cassani, M. & Ricci, C. (2016). Aplicación de reglas de asociación para la detección de patrones de comportamiento en sistema académico universitario. Universidad Tecnológica Nacional. Argentina. http:// cytal.frvm.utn.edu.ar/q/tf/7/62

Beron, E., Mejía, D., Castrillón O. (2020). Principales causas de ausentismo laboral: una aplicación desde la minería de datos. https://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-07642021000200011.

Castillo, P. (2017). Aplicación de Aprendizaje Automático para la Predicción de Clientes Potenciales en Procesos de Mercadotecnia (Tesis de posgrado). Centro de Investigación en Matemáticas, A.C., Guanajuato, México.

Cestero, E., & Caballero, A. (2018). Data Science y Redes Complejas. Madrid, España: Editorial Universitaria Ramón Areces S.A.

Cifuentes, F. (2016). Clasificación Automática de Tweets Utilizando K-NN y K-Means como Algoritmos de Clasificación Automática, Aplicando TF-IDF y TF-RFL para las Ponderaciones (Tesis de pregrado). Pontificia Universidad Católica de Valparaíso, Valparaíso, Chile.

Dash, M., Liu, H., & Motoda, H. (2000, April). Consistency based feature selection. In Pacific-Asia conference on knowledge discovery and data mining (pp. 98-109). Springer, Berlin, Heidelberg.

De la Cruz, K. (2017). Segmentación de clientes con Inteligencia Analítica para personalizar las Ventas de los Servicios de las Agencias Turísticas (Tesis de posgrado). Universidad Peruana Unión, Lima, Perú.

Díaz, P. (2008). Modelo conceptual para la deserción estudiantil universitaria Chilena, Universidad Católica de la Santísima Concepción – Chile.

Echevarría, R. (2003). El coaching ontológico posee tres premisas básicas: Los seres humanos seres lingüísticos, el lenguaje es generativo de realidades en nuestro entorno y los seres humanos se crean así mismo en el lenguaje. Chile: Lom Ediciones S.A.

Eckert, K. B., & Suénaga, R. (2015). Análisis de deserción-permanencia de estudiantes universitarios utilizando técnica de clasificación en minería de datos. Formación universitaria, 8(5), 03-12.

Gil, C. (2018). Análisis de componentes principales (PCA). https://rpubs.com/Cristina_Gil/PCA.

Ginzberg, Axelrad y Hermán. (1951). Teoría sobre la elección de carrera y su relación con la deserción. https://cutt.ly/GMq4ZkL

Grinder, R. (2001). Adolescencia. Editorial Limusa. México D.F. https://cutt.ly/YMq4N8f

Hall, M. A., y Smith, L. A. (1998). Practical feature subset selection for machine learning. Department of Computer Science, University of Waikato, Hamilton, New Zealand.

Hamilton LC. (1992). Regression With GRAPHICS. A second course in applied statistics. Belmont, Duxbury.

Hernández C., J. (2011). Descubrimiento de conocimiento en la base de datos académica de una institución de educación superior usando redes neuronales. Universidad Santo Tomás, Bucaramanga, Colombia.

Himansu, S., Janmenjoy, N., Bighnaraj N. y Ajith A. (2018), Computational Intelligence in Data Mining. Singapur: Editorial Springer.

Holgado, L. (2018), Detección de Patrones de Bajo Rendimiento Académico Mediante Técnicas de Minería De Datos de los Estudiantes de la Universidad Nacional Amazónica de Madre de Dios 2018. http://repositorio.unap.edu.pe/handle/UNAP/9815.

Hoyos J. G. & Aponte F. A. (2019). Caracterización de los estudiantes de una Institución de Educación Superior Mediante Big Data. https://www.redalyc.org/journal/852/85263724001/85263724001.pdf.

Jara Tuesta, B. A. (2017). Factores que conducen a la deserción en estudiantes de una universidad privada de Lima Norte (Tesis de maestría). Universidad Cesar Vallejo. https://cutt.ly/2Mq7iXs

Jordan, M. I., & Jacobs, R. A. (1994). Hierarchical mixtures of experts and the EM algorithm. Neural computation, 6(2), 181-214.

Kira, K., Renedell, L. (1992). A practical approach to feature selection. Proceedings of the Ninth International Conference on Machine Learning. Aberdeen Scotland. Morgan Kaufmann. pp. 249–256.

Koller & Sahami (1996). Toward Optimal Feature Selection. http://ilpubs.stanford.edu:8090/208/1/1996-77.pdf.

Ley Peruana N° 30512 (2016). Ley de Institutos y Escuelas de Educación Superior y de la Carrera Pública de sus Docentes, Recuperado el 28 de Abril del 2019. https://www.gob.pe/institucion/minedu/normas-legales/118500-30512.

Linares, A. (2019). Predicción de Renuncia de Socios de una Cooperativa Utilizando Técnicas Supervisadas de Aprendizaje Automático. https://cutt.ly/bMq7mwG

Mandrekar, J. (2010). Receiver Operating Characteristic Curve in Diagnostic Test Assessment. Journal of Thoracic Oncology, 5(9), 1315-1316. https://doi.org/10.1097/JTO.0b013e3181ec173d.

Mathivet, V. (2018). Inteligencia Artificial para Desarrolladores. Barcelona, España: Editorial ENI.

McCarthy, J. (2007). What is artificial intelligence? Standford University, California, EE.UU.

Miranda, M. & Guzmán, J. (2017). Análisis de la Deserción de Estudiantes Universitarios usando Técnicas de Minería de Datos. https://www.redalyc.org/articulo.oa?id=373551306007.

Moerland, P. (1997). Some methods for training mixtures of experts. Informe técnico, Dalle Molle Institute for Perceptive Artificial Intelligence.

Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2018). Foundations of machine learning. Cambridge, MA : The MIT Press.

Mollo, N. (2018). Análisis Predictivo de la Deserción Estudiantil Utilizando Data Warehouse y Minería de Datos en la Universidad Nacional Jorge Basadre Grohmann – Tacna, 2012-2018. http://repositorio.unjbg.edu.pe/handle/UNJBG/3506.

Ochoa, L. (2016). Estudio Comparativo de Técnicas no Supervisadas de Minería de Datos Para Segmentación de Alumnos. (Tesis de Pregrado). Universidad Católica de Santa María, Arequipa, Perú.

Pacco, R. (2015). Análisis Predictivo Basado en Redes Neuronales no Supervisadas Aplicando Algoritmo de K-Medias y CRISP-DM para Pronóstico de Riesgo de Morosidad de los Alumnos en la Universidad Nacional Peruana Unión. (Tesis de Posgrado). Universidad Peruana Unión, Lima, Perú.

Pavón, F. (2016). Generación de Conocimiento Basado en Aprendizaje Automático y Aplicación en Diferentes Sectores. (Tesis de Posgrado). Escuela Técnica Superior de Ingeniería Informática (ETSI) Universidad Nacional de Educación a Distancia (UNED), Madrid, España.

Pérez G. (2020). Comparación de Técnicas de Minería de Datos Para Identificar Indicios de Deserción Estudiantil, a Partir del Desempeño Académico. https://www.redalyc.org/journal/5537/553768131019/553768131019.pdf

Pérez, M., Norma, P., Aguilar, C., Jorge, R., Zamora, R., Rosa, A., & Miguel, J. (2018). Diseño de un modelo predictivo aplicando minería de datos para identificar causas de deserción estudiantil universitaria. México.

Quezada, N. (2017). K-vecinos más Próximos en una Aplicación de Clasificación y Predicción en el Poder Judicial del Perú. (Tesis de Posgrado). Universidad Nacional Mayor de San Marcos, Lima, Perú.

Redondo, M. (2016). Simulación de Redes Neuronales como Herramienta Big Data en el Ámbito Sanitario. https://cutt.ly/2Mq5a0S

Riquelme S., J. C., Ruiz, R., y Gilbert, K. (2006). Minería de datos: Conceptos y tendencias. Inteligencia Artificial: Revista Iberoamericana de Inteligencia Artificial, 10 (29), 11-18.

Rivera, M. (2016). Los Factores determinantes y su relación con la deserción escolar en los alumnos del primero al sexto grado del nivel primaria de la x, de Monzón, 2010 al 2015. https://renati.sunedu.gob.pe/handle/sunedu/1799018.

Ruiz-Ramírez, R., García-Cué, J. L., & Pérez-Olvera, M. A. (2014). Causas y consecuencias de la deserción escolar en el bachillerato: Caso Universidad Autónoma de Sinaloa. Ra Ximhai, 10(5), 51-74.

Russell, S., y Norvig, P. (2010). Artificial Intelligence a Modern Approach. New Jersey: Pearson Education.

Saito, T. and Rehmsmeier, M. (2015). The Precision-Recall Plot is More Informative than the ROC Plot when Evaluating Binary Classifiers on Imbalanced Datasets. PLoS ONE, 10(3). 1-21. https://doi.org/10.1371/journal.pone.0118432

Sancho, Q. (2000). Sistemas Modulares, Mezcla de Expertos y Sistemas Híbridos. Informe Técnico DI-2000-001 Departamento de Informática. Universidad de Valladolid, España.

Super, D. (1953). Teoría de Super. Blog Orientación vocacional y educativa. http://orientacion-morelos.blogspot.pe/2010/02/teoria-desuper.html

Tan, Steinbach & Kumar (2006). Introducción a la minería de datos. https://cutt.ly/bMq5TUy

Terrones, A. (2018). Inteligencia Artificial y Ética de la Responsabilidad. Cuestiones de Filosofía, 4(22), 141-170. Páginas.

Timaran, R., Jiménez, J. (2014). Detección de patrones de deserción estudiantil en programas de pregrado de instituciones de educación superior con CRISP-DM. Congreso Iberoamericano de Ciencia, Tecnología, Innovación y Educación.

Torres, M. (2018). Segmentación demográfica y relación con los clientes en la empresa Hotel Cielo, Distrito de Tarapoto, 2018. https://repositorio.ucv.edu.pe/handle/20.500.12692/51256.

Urbina, A.B., Camino, J.C. & Cruz, R. (2020). Deserción Escolar Universitaria: Patrones Para Prevenirla Aplicando Minería de Datos Educativa. https://www.redalyc.org/journal/916/91664838013/91664838013.pdf.

Villamarín V., J. H. (2017). Análisis de la deserción estudiantil en la FCECEP utilizando Machine Learning específicamente Mapas Auto Organizados de Kohonen. Universidad Autónoma de Occidente Posgrado de la Facultad de Ingeniería-Santiago de Cali, Colombia.

WEKA3 (2019). WEKA3. https://www.cs.waikato.ac.nz/~ml/weka/

Yamao, E. (2018). Predicción del Rendimiento Académico Mediante Minería de Datos en Estudiantes del Primer Ciclo de la Escuela Profesional de Ingeniería de Computación y Sistemas, Universidad de San Martín de Porres. https://repositorio.usmp.edu.pe/handle/20.500.12727/3555.

Zavala, J. (2017). Pronóstico de la Exportación Pesquera por Redes Neuronales y Modelos Arima (Tesis de pregrado). Universidad Nacional de Trujillo, Trujillo, Perú.

Downloads

Published

November 9, 2022

License

Creative Commons License

This work is licensed under a Creative Commons Attribution 4.0 International License.

How to Cite

Apaza-Tarqui, A., Borda-Navedos, W., Cayo, N., & Huanca-Suaquita, J. (2022). Técnicas de minería de datos para determinar la deserción escolar. Instituto Universitario de Innovación Ciencia y Tecnología Inudi Perú. https://doi.org/10.35622/inudi.b.053