Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumen
Con el objetivo de determinar los patrones del entorno que impactan en la deserción de los
estudiantes de la Universidad Nacional Tecnológica de Lima Sur (Untels), se elabora una base de
datos socioeconómica y académica de los estudiantes de la cohorte 2007-I a 2011-I, que incluye
los casos de deserción como variable dependiente. Se elaboran seis modelos utilizando el operador
Decision Tree de RapidMiner, con y sin validación cruzada, y con parámetros modificados y la im-
plementación de la herramienta Weka, W-J48. Los modelos desarrollados se comparan por su preci-
sión y por la medida F-score. La implementación W-J48 con parámetros modificados y análisis de
sensibilidad mediante proporción de ganancia de información y sistema de validación cruzada de
10 particiones, ofreció la precisión más alta, así como un árbol simple de uso y de interpretación.
El modelo final detectó las siguientes características o patrones del entorno que impactan en
la deserción de los estudiantes de la Untels: Número de matrículas en los cuatro semestres conse-
cutivos a su ingreso, Promedio en su segunda matrícula, Edad de ingreso, Promedio en su cuarta
matrícula, Año de ingreso, Número de personas dependientes, Semestre de ingreso y Número de
cursos aprobados en su primera matrícula. Se logró un 90.10% de clasificación correcta, con una
desviación estándar de 2.08%. El principal patrón detectado para los desertores, es que el número
de matrículas en los cuatro semestres consecutivos a su ingreso sea menor o igual que 3, con una
precisión de 88%.
Palabras claves: Deserción universitaria. Integración académica. Integración social. Minería de
datos. Modelo predictivo. Árboles de decisión.
Abstract
In order to determine the environment that impact the students desertion at Untels, a socio-eco-
nomic and academic database is elaborated students in the cohort 2007-I to 2011-I, which the
includes cases of desertion as dependent variable. Six models are developed using the Decision
Tree of RapidMiner operator, with and without cross-validation, and modified parameters and im-
plementation of Weka, W-J48 tool. The developed models are compared through their accuracy
and F-score measure. The W-J48 implementation with modified parameters and sensitivity analysis
using information of gain ratio and cross-validation of 10 partitions, offered the highest accuracy as
well a simple tree use and interpretation.
1
Universidad Nacional Tecnológica de Lima Sur (Untels)
Modelo predictivo para la identificación de patrones de la deserción estudiantil en la Untels
The final model detected the following characteristics or environment patterns that impact the
students desertion at Untels: Number of enrolled students in the four consecutive semesters since
their income, average enrollment in its second, Age of entry, in its fourth Average tuition Year of
income, number of dependents, income and Semester Number of approved courses in their first
enrollment. So 90.10% correct classification was achieved, with a standard deviation of 2.08%.
The main pattern detected for deserters, is that the number of enrollments in the four consecutive
semesters of your income is less than or equal to 3, with an accuracy of 88%.
Key words: University desertion. Academic integration. Social integration. Data mining. Predicti-
ve model. Decision trees.
madamente 5 miembros, el ingreso de los estu- registraron dos matrículas, también desertaron,
diantes va desde 0 (no trabaja) hasta S/. 4500.00 para aquellos que registraron sus cuatro ma-
La mayoría de los estudiantes (71%) pertenecen trículas consecutivas no observamos informa-
al sexo masculino, el 97% de los estudiantes es ción relevante, por lo que sospechamos que el
soltero, el 53% de los estudiantes vive en el dis- número de matrículas en los cuatro semestres
trito de Villa El Salvador, el 79% de los estu- consecutivos a su ingreso si es determinante. Si
diantes proviene de un colegio nacional, el 64% comparamos el comportamiento según carrera
de los estudiantes ingresó por la modalidad de profesional, no se observan diferencias impor-
Examen Ordinario, el 56% de los estudiantes tantes.
se preparó en el Centro Preuniversitario de la Aquellos alumnos que hasta su cuarta ma-
Untels, el 35% de los estudiantes proviene de trícula aprobaron aproximadamente más de 30
una familia nuclear, el 89% de los estudiantes créditos, no desertaron. Se observan similares
proviene de una familia funcional, el 30% de comportamientos en las cuatro carreras. El atri-
los papás de los estudiantes son trabajadores buto Número de créditos aprobados hasta su
no calificados de los servicios, peones, vende- cuarta matrícula podría ser un atributo impor-
dores ambulantes y otros afines (chofer, taxista, tante sobre la deserción. Cabe explicar que los
zapatero, seguridad, entre otros), el 47% de las jóvenes que pertenecen a la carrera de Ingenie-
madres de los estudiantes se dedican a las labo- ría Ambiental son aquellos que han hecho tras-
res de ama de casa, no exceptuándose que mu- lado interno.
chas de ellas realizan alguna actividad en dicho La mayoría de desertores son aquellos que
ambiente como bodega, venta de productos de ingresaron en el año 2007 y 2008, cabe preci-
belleza, entre otros. En caso de enfermedad, el sar que la mayoría de estudiantes de las últimas
50% de los estudiantes se atiende en un área de promociones (2009, 2010, 2011) todavía no han
salud/posta médica, el 72% de los estudiantes concluido su periodo de estudios. Se sospecha
no cuenta con seguro de salud, el 81% de los que el atributo año de ingreso podría ser una
estudiantes se alimenta principalmente en su variable importante sobre la deserción.
hogar. Respecto a las variables de salud, todas Muchos de los estudiantes que ingresaron
ellas tienen como moda el «No presenta dicha a temprana edad no han desertado. La Edad de
enfermedad», tanto para el estudiante como ingreso podría ser un atributo a tener en cuenta.
para el familiar siendo el porcentaje más bajo El grupo de jóvenes que ingresaron en el año
81% y llegando en varios casos al 100%. El 2008 y pertenecen a la carrera profesional de
98% de los estudiantes no ha realizado traslado Ingeniería Ambiental, han hecho cambio de ca-
interno. rrera. Esta cambio podría ser el factor que hizo
Realizando un análisis exploratorio se en- que no deserten, sin embargo los casos registra-
contró que en la segunda matrícula un 6% ya dos a la fecha son pocos por lo que se sugiere
no se matriculó, el porcentaje es de 9% en la hacer el seguimiento.
tercera matrícula y de 12% en la cuarta matrí- El tipo de colegio no parece ser un factor
cula. En general, podemos decir que desde los relevante para la deserción puesto que se obser-
primeros ciclos se va percibiendo el fenómeno van comportamientos similares según tipo de
de la deserción estudiantil con una posible ten- colegio de procedencia. Al parecer los estudian-
dencia creciente. tes que ingresaron por la modalidad de Centro
Se encontró deserción en todos los estudian- Preuniversitario presentan menos deserción que
tes que en los cuatro semestres consecutivos a aquellos que ingresaron por otras modalidades,
su ingreso registraron solamente una matrícula; asimismo, aquellos jóvenes que no saben cuál
la mayoría de aquellos que en el mismo periodo es el grado de instrucción de sus papás tienden a
no desertar. Se observa que los estudiantes que la poda (C) fue de 0.25 y el mínimo número de
tienen menos de siete cursos aprobados hasta instancias permitido en cada hoja (M) fue de 2,
su cuarta matrícula, son candidatos a desertar. como resultado se obtuvo un árbol muy grande;
No se observan diferencias según semestre de con la finalidad de reducirlo se construyó el mo-
ingreso. delo Nº 6 con C=0.20 y M=12. Otros paráme-
No se puede decir que algún género en par- tros de configuración fueron: U: Use un árbol
ticular tenga mayor predisposición a desertar sin podar: Falso, R: Utilice error de poda redu-
que otro, ni que algún Tipo de familia en par- cido: Falso, N: Número de particiones: 10, B:
ticular genere mayor predisposición a desertar Cortes para las ramas binarios: Falso y Q: Se-
que otro. No se observan diferencias según si- milla para tomar los datos al azar: 1. Una vista
tuación laboral del estudiante. rápida (gráfica) del modelo Nº 6 se muestra en
Fase 3: Fase de minería de datos la Figura 1 y en la Figura 2 se muestra la vista
En esta fase se generaron los modelos. La del árbol en forma de texto, de donde con mu-
clasificación se realizó
mediante un árbol de
decisión con el ope-
rador Decision Tree
y la implementación
W-J48. Se crearon va-
rios árboles de prueba,
presentando un resu-
men de seis de ellos en
la Tabla 1.
El modelo Nº 5 se
construyó con los pa-
rámetros por defecto,
entre los cuales el um-
bral de confianza para Figura 1. Vista gráfica del Modelo Nº 6.
Modelo 2 X X X
Modelo 3 X X X
Modelo 4 X X X
Modelo 5 X X X
Modelo 6 X X X
Clase N-E
Hoja N E E/N (N-E)/N Según los dos
Deserción (Correctos)
1 SÍ 148 18 130 12% 88% criterios anteriores,
encontramos que
2 NO 17.05 6.05 11 35% 65%
de entre los seis
3 SÍ 31.14 8.05 23.09 26% 74% modelos propues-
4 NO 21.75 2.75 19 13% 87% tos, el que tiene
5 SÍ 35.31 10 25.31 28% 72% mejor rendimiento
6 NO 21.61 4.45 17.16 21% 79% es el modelo Nº 6,
7 SÍ 12.31 5 7.31 41% 59% éste es el modelo
predictivo, que uti-
8 NO 65.02 0 65.02 0% 100% lizando técnicas de
9 NO 860.83 36.04 824.79 4% 96% minería de datos
Total 1213.02 90.34 1122.68 determina las ca-
racterísticas o pa-
Donde: trones del entorno
N: Suma de casos que llegan hasta la hoja. que impactan en la
E: Número de casos mal clasificados. deserción de los es-
tudiantes de la Untels. En orden de importan- encontró que los cuatro factores (socioeconómi-
cia se encontraron ocho atributos asociados a la cos, institucionales, individuales, académicos)
deserción estudiantil en la Untels: Número de en conjunto inciden sobre la deserción; coinci-
matrículas en los cuatro semestres consecutivos dimos en la importancia de la integración aca-
a su ingreso, Promedio en su segunda matrí- démica, con respecto al estudio de la ANUIES
cula, Edad de ingreso, Promedio en su cuarta (México) se comparte el hecho de la deserción
matrícula, Año de ingreso, Número de personas en los primeros años [2], uno de los elemen-
dependientes, Semestre de ingreso y Número de tos explicativos de la deserción enunciada por
cursos aprobados en su primera matrícula. El Romo y Fresán [2] es «la falta de personalidad
modelo conceptual obtenido a partir del modelo y madurez intelectual del estudiante» que de al-
Nº 6, se muestra en la Figura 3. guna manera equivale a la edad del ingresante,
por lo que coinci-
dimos en ese as-
pecto, los resulta-
dos de Lopera [28]
(Colombia) mues-
tran que los estu-
diantes de sexo
masculino, la vin-
culación de los es-
tudiantes al merca-
do laboral, la edad
y los estudiantes
provenientes de
otras regiones, tie-
nen mayor riesgo
de deserción. Sólo
coincidimos con la
edad.
Figura 3. Modelo Conceptual Final Con respecto
a la investigación titulada «Aplicación de téc-
nicas de minería de datos para predecir deser-
ción» [3], encontró que los alumnos desertan
Discusión por tres casusas principales: la edad, los ingre-
Margarita Latiesa de la Universidad de Gra- sos familiares para aquellos cuya edad sea me-
nada-España [22] incide en que la diferencia de nor o igual a 18 años y el nivel de inglés, para
deserción existente entre carreras es enorme, aquellos alumnos cuya edad sea mayor de 18
sobre todo es en el primer año donde se da la años. Coincidimos con el factor edad.
mayor tasa de abandono, éste segundo resultado Uno de los resultados más relevantes del
se observa también en nuestro estudio, Sanabria estudio de López, Gonzáles y otros (Repúbli-
(Perú) [23] concluye que el factor vocacional, ca Dominicana) es que existen diferencias en la
económico y académico son los factores de deserción según sexo y carreras. Ninguno de los
mayor peso sobre la deserción, respecto a ello resultados es similar al nuestro [14].
coincidimos con el factor académico, mas no En Colombia [30] la deserción se da so-
con el económico, en Colombia, Castaño [25] bre todo en el primer semestre, teniendo como
por el Centro Interuniversitario de Desarro- sil 2005-2009 Informe Nacional. [en línea]
llo (CINDA). Disponible en: http://www. Chile: Centro Interuniversitario de Desa-
cinda.cl/download/Brunner2011-Educa- rrollo; 2011 [accesado 7 Jul 2012]. Dispo-
cionSuperior.pdf [consulta: 7 Jul 2012] nible en: http://www.cinda.cl/htm/es.htm
[2] Huesca Ramírez MGE, Ramírez G, [8] Zapata G, Tejeda I, Rojas A, editores. Edu-
Castaño Corvo MB. Causas de deser- cación Superior en Chile 2005-2009. In-
ción de alumnos de primeros semestres forme nacional. [en línea] Chile: Centro
de una universidad privada. Rev Mex Interuniversitario de Desarrollo; 2011 [ac-
Orient Educ [en línea] 2007 Jul-Oct [ac- cesado 7 Jul 2012]. Disponible en: http://
cesado 6 Jul 2012]; V(12):[7 p.] Dispo- www.cinda.cl/htm/es.htm
nible en: http://164.73.2.147/alfaguia/ [9] Macaya Trejos G, Román Forastelli M, edi-
files/1319582164causas%20de%20deser- tores. Educación superior en Costa Rica
cion%20en%20una%20universidad%20 2005-2009. Informe nacional. [en línea]
privada.pdf Chile: Centro Interuniversitario de Desa-
[3] Valero Orea S, Salvador Vargas A, García rrollo; 2011 [accesado 7 Jul 2012]. Dispo-
Alonso M. Minería de datos: predicción de nible en: http://www.cinda.cl/htm/es.htm
la deserción escolar mediante el algoritmo [10] Duriez Gonzáles M, Coca Palacios L, edi-
de árboles de decisión y el algoritmo de los tores. Educación superior en El Salvador
k vecinos más cercanos. Recursos digitales 2005-2009. Informe nacional. [en línea]
para la Educación y la Cultura [en línea] Chile: Centro Interuniversitario de Desa-
2010 [accesado 10 Jul 2012]; KAAMBAL rrollo; 2011 [accesado 7 Jul 2012]. Dispo-
[7 p.] Disponible en: http://ccita2011.its- nible en: http://www.cinda.cl/htm/es.htm
motul.edu.mx/documentos/Recursos_digi- [11] Duriez González M, Sándigo Martínez C,
tales.pdf Coca Palacios L, editores. Educación supe-
[4] Observatorio Universitario de las Innova- rior en Guatemala 2005-2009. Informe na-
ciones [en línea]. México: Universidad de cional. [en línea] Chile: Centro Interuniver-
Colima; Nov 2006 [accesado 6 Jul 2012]. sitario de Desarrollo; 2011. [accesado 7 Jul
La deserción en la educación superior. Dis- 2012]. Disponible en: http://www.cinda.
ponible en: http://www.ucol.mx/observato- cl/htm/es.htm
rio/comunicados/Comunicado7.pdf [12] Duriez González M, Sándigo Martínez C,
[5] Espí Lacomba N, Cruz González E, Mar- editoras. Educación Superior en Honduras
tín Sabina E, Iñigo Bajos E, Tristá Pérez B, 2005-2009. Informe nacional. [en línea]
López Rodríguez A, et al, editores. Educa- Chile: Centro Interuniversitario de Desa-
ción superior en Cuba 2005-2009. Informe rrollo; 2011. [accesado 7 Jul 2012]. Dispo-
nacional. [en línea] Chile: Centro Interuni- nible en: http://www.cinda.cl/htm/es.htm
versitario de Desarrollo; 2011 [accesado 7 [13] De Escobar V, editora. Educación Superior
Jul 2012]. Disponible en: http://www.cin- en Panamá 2005-2009. Informe nacional.
da.cl/htm/es.htm [en línea] Chile: Centro Interuniversitario
[6] Pereira E, editor. Educación Superior en de Desarrollo; 2011. [accesado 7 Jul 2012].
Portugal 2005-2009. Informe Nacional. Disponible en: http://www.cinda.cl/htm/
[en línea] Chile: Centro Interuniversitario es.htm
de Desarrollo; 2011 [accesado 7 Jul 2012]. [14] López A, Mejía R, editores. Educación
Disponible en: http://www.cinda.cl/htm/ Superior en República Dominicana 2005-
es.htm 2009. Informe nacional. [en línea] Chile:
[7] Leal R, editor. Educación Superior en Bra- Centro Interuniversitario de Desarrollo;
te árboles de decisión y reglas de clasifi- [50] Liu B. Web data mining: exploring hyper-
cación. Madrid: Editorial Complutense; links, contents, and usage data. USA:
2007. Springer; 2007; p. 55 – 116 (Data-Centric
[49] Russell S, Norvig P. Inteligencia artificial. Systems and Applications)
México: Prentice-Hall; 1996.