Escolar Documentos
Profissional Documentos
Cultura Documentos
SOLUCIÓN AL PROBLEMA DE
SELECCIÓN DE POSTULANTES A
PROGRAMAS ACADEMICOS
BUSINESS INTELLIGENCE
21/06/2017
Profesores: Jaime Miranda – Jonathan Vásquez
Tomás Chávez – Valentina Jorquera – Josué Salinas – Eugenio Zamora
I
ÍNDICE DE CONTENIDOS
1. Introducción ................................................................................................................................................................. 1
Variables ......................................................................................................................................................................... 10
RESTRICCIONES .............................................................................................................................................................. 10
Bibliografía........................................................................................................................................................................... 25
9. Anexos ........................................................................................................................................................................ 27
II
RESUMEN EJECUTIVO
En presente informe surge de la necesidad de seleccionar adecuadamente a los postulantes que ingresaran a los
diferentes programas de estudio que ofrece una prestigiosa Universidad, debido a que ha cambiado el contexto
en el que se encuentra lo que la ha obligado a buscar alternativas de selección que no se basen en un solo
indicador que en este momento está midiendo solo conocimientos.
De esta manera, este trabajo tiene como objetivo reducir la deserción de los estudiantes, ya que esto genera
costos a la institución y al país como son la pérdida de un profesional que puede entregar su trabajo al país,
problemas en las familias de los estudiantes, costos de mantención del estudiante que deserta, entre otros,
entregando un conjunto de postulantes que deben ser seleccionados bajo distintas condiciones, para así poder
realizar una selección basada en distintas variables que ayuden a reducir el número de estudiantes que dejan la
carrera. Para lo anterior, se tiene una base de datos históricos del año 2012 a 2016 de los distintos alumnos que
entrega distintos datos personales, estudiantiles y familiares de cada uno de ellos, además de una base de
postulantes a los diferentes programas que imparte la Universidad. Sobre esta información proporcionada por la
Universidad, se realizará el proceso de minería de datos KDD (Knowledge Discovery in Databases) probando
distintos modelos como Redes Neuronales, Regresión Lineal y Regresión Logística para obtener una predicción de
deserción. Luego se formulará un problema de programación lineal que ayude a minimizar el número de
desertores de esta casa de estudios considerando distintas restricciones como el porcentaje de mujeres en cada
programa, porcentaje de alumnos de colegios municipales y particulares subvencionados y porcentaje de
alumnos que califiquen como indicador para Igualdad de Oportunidades entre otras, y finalmente entregar un
grupo de estudiantes seleccionados en su Programa académico 1 (P1) y su Programa académico 2 (P2).
Luego de realizar el procedimiento anterior, las principales conclusiones del trabajo son las siguientes:
• El mejor modelo para predecir es Redes Neuronales para el Programa 1 y Regresión lineal para el Programa
2.
• Los postulantes seleccionados tienen como características: Porcentaje de mujeres 40% para P1 y 45% para
P2, Porcentaje de provenientes de colegios municipales 30% para P1 y ,30% para P2, provenientes de
colegios particulares subvencionados 30% para P1 y 30% para P2, Igualdad oportunidades 20% para P1 y
10% para P2, provenientes de regiones 30% para P1 y 30% para P2 y deportistas 5% para P1.
Pg. 1
1. INTRODUCCIÓN
En la actualidad, el ingreso a la educación superior está determinado por una prueba de selección universitaria, la
cual mide conocimientos en las áreas de matemática, lenguaje, ciencias e historia, además de un ranking de notas
ordenado de acuerdo al colegio del que proviene cada alumno. Lo anterior logra medir un aspecto importante a
la hora de escoger un estudiante que son los conocimientos duros en estas áreas, complementado por el ranking
de notas que proporciona información respecto al desempeño del estudiante en su contexto particular de la
institución educacional a la que pertenecía durante sus últimos 4 años de educación secundaria.
Sin embargo, se ha podido ver que existen falencias de este sistema, las que en ocasiones se ven reflejadas en la
deserción universitaria. Este es un problema que enfrentan todas las instituciones de educación superior y que
puede estar provocado, entre otras cosas, por el método de selección actual, lo que genera una serie de costos
monetarios y no monetarios tanto para el país, como para cada entidad educacional al perder recursos en aquellos
estudiantes que desertan y sin duda también, trae consecuencias negativas a los propios estudiantes que no
finalizan su proceso educacional.
El presente informe nace del trabajo realizado en respuesta a la necesidad de una prestigiosa Universidad de
seleccionar a sus estudiantes por medio de criterios distintos a los actuales que ayude a disminuir el número de
desertores y así reducir estos costos provocados por esta situación. Debido a lo anterior, el propósito de este
informe es entregar un grupo de estudiantes seleccionados bajo distintos escenarios, que ayude a la Universidad
a disminuir la deserción.
Para poder resolver el problema de deserción, se cuenta con una base entregada por la casa de estudios que
consta de dos partes, la primera son datos históricos de 2135 alumnos desde 2012 a 2016 y la segunda parte son
548 postulantes del año 2017 a la Universidad. Los datos entregados en cada planilla consisten en información
respecto a datos del alumno; como fecha de nacimiento, nacionalidad, estado civil y sexo entre otros, datos
estudiantiles; como promedio de notas, carrera anterior, rama educacional del colegio que egresó, datos
familiares como quién financia la carrera, si viven o no los padres, ingreso bruto del grupo familiar entre otros.
Además, en la primera planilla de datos históricos se conoce si el estudiante desertó o no desertó, estando esta
columna sin completar en la planilla de postulantes al año 2017 por razones obvias del trabajo.
Pg. 2
Considerando lo anterior y para poder abordar el problema de este informe, se resolverá por medio de la división
del problema en partes para poder solucionarlo de mejor manera y resolviendo paso a paso el problema de
selección de alumnos para disminuir la deserción.
Lo primero es realizar un análisis exploratorio de los datos para conocer a priori si existe algún indicio de enfoque
del problema, para posteriormente realizar minería de datos utilizando el proceso KDD (Knowledge Discovery in
Databases) y finalmente se formulará un Problema de Programación Lineal para resolver el problema final del
informe y entregar un conjunto de estudiantes seleccionados.
Este documento cuenta con 9 secciones partiendo con la Introducción actual, seguida de siete secciones donde
se desarrolla la totalidad del informe. Adicionalmente y finalizando el informe, se incorpora la bibliografía y anexos
relevantes. A continuación, se explica cada una de las siete secciones mencionadas.
Se realiza una descripción de la base de datos, detallando la cantidad de datos presenten en la base, mostrando
tablas resumen de las variables presentes en la base e información relevante encontrada del comportamiento de
los datos históricos,
Se muestra la formulación del problema de programación lineal, específicamente los índices, parámetros y
variables además de la función objetivo. Adicionalmente se explican detalladamente las restricciones del
problema.
• Predicción de la deserción
Acá se explica el modelo utilizado para realizar la predicción de la deserción de alumnos y sus configuraciones,
comparando los métodos de Redes Neuronales, Regresión Lineal y Regresión Logística para luego mostrar los
resultados obtenidos.
Acá se resuelve el problema de programación lineal y se muestran sus resultados. Además, se muestra el conjunto
de alumnos seleccionados y sus características principales como porcentaje de mujeres, provenientes de colegios
municipales y subvencionados, etiquetados como igualdad de oportunidad, de regiones y deportistas destacados.
En esta sección se muestra una comparación de la selección de alumnos mediante el método manual y la
metodología propuesta en este informe.
En esta sección se dan a conocer los supuestos utilizados para el desarrollo del trabajo, y se hace un análisis de la
diferencia en la resolución del problema sin estos análisis.
• Conclusiones y recomendaciones
Esta sección logra concluir lo aprendido durante el trabajo, haciendo una recopilación de lo que se hizo con la base
entregada por la Universidad para poder llegar a la selección final de los alumnos además de recomendaciones
finales a la Universidad respecto a su proceso de selección de postulantes.
Pg. 4
En esta sección se presentarán los análisis preliminares realizados a los datos contenidos en la hoja
“DatosHistóricos” de la base de datos proporcionada.
El objetivo de este análisis es poder determinar, a priori, si existen variables que sean determinantes a la hora de
identificar a un alumno que abandonara un programa.
En primer lugar, se analizó completamente la base de datos históricos, identificando en ella 33 columnas
compuestas por un código de identificación de cada estudiante, seguido por la variable que determina si el
estudiante desertó de la carrera o no. Las 31 columnas restantes corresponden a variables que permiten crear el
perfil de cada estudiante, entre las que encontramos su nacionalidad, sexo, puntajes de ingreso, nivel
socioeconómico, entre otras.
La base está poblada por un total de 2134 filas, cada una correspondiente a un estudiante en particular que se
incorporó a la casa de estudios entre los años 2012 y 2016.
Los datos contenidos en cada una de las 2134 filas poseen distintos formatos, configuraciones e interpretaciones.
Por lo tanto, para el mejor entendimiento de estos, se cuenta con una hoja llamada “Metadata”, la cual contiene
el nombre, descripción y posibles valores que pueden tomar cada uno de los 33 atributos de la hoja
“DatosHistóricos”.
Una vez revisada la base de datos y comprendida su estructura y configuración, se dio paso a un proceso analítico
más exhaustivo con el fin de cumplir con el objetivo mencionado al comienzo de esta sección. Para ello, en primer
lugar, se realizó un análisis a las variables que, según estudios del Centro de Estudios del Ministerio de Educación,
son características que poseen los alumnos con menores índices de deserción.
Entendiendo adicionalmente que las características de los dos programas impartidos por la casa de estudios son
distintos, los análisis estadísticos y exploratorios se realizaron diferenciando a los alumnos según el programa al
que pertenecen y a las distintas variables seleccionadas, obteniendo los siguientes resultados:
En primer lugar, se analizó la variable “sexo”, esto porque de acuerdo al Ministerio de Educación las mujeres
presentan menores índices de deserción, premisa que podríamos definir como cierta al ver los resultados de la
Tabla 1 obtenidos del análisis de los datos históricos, donde tanto para el Programa 1 (P1) como para el Programa
2 (P2), la tasa de deserción es menor en mujeres que en hombres. Se podría argumentar a priori que el índice está
Pg. 5
condicionado a que la cantidad de mujeres que ingresan a cada programa es inferior al de hombres, sin embargo,
esta relación se mantiene al analizar cada grupo por separado, siendo de igual manera las mujeres menos
desertoras que los hombres.
En segundo lugar, el Ministerio de Educación indica que los alumnos provenientes de colegios particulares
pagados podrían presentar menores índices de deserción. Esta hipótesis no se condice con los resultados
obtenidos y presentados en la Tabla 2. Como se puede observar, para el programa 1 no existe un Grupo
Dependencia que evidencien mayores deserciones en términos relativos (esto es, la cantidad de desertores en
relación al total de ingresos de la misma categoría). Si bien es cierto, los alumnos que desertan, provenientes de
colegios particulares superan ampliamente a los de las otras dos categorías, esto puede estar condicionado por el
total de alumnos que pertenecen a esta categoría que ingresan al programa, el cual también es ampliamente
superior a los otros grupos.
Para el caso del programa 2 los resultados son más claros, donde se puede ver una predominancia de desertores
pertenecientes a colegios particulares en términos relativos y totales (esto es, la cantidad de desertores con
respecto al número total de ingresos para el programa).
Esto confirma la premisa realizada al comienzo de esta sección, donde se indica que las características de los dos
programas son distintas, por lo que el análisis debe realizarse de manera independiente.
Pg. 6
Continuando con el análisis, otra característica que poseen los alumnos con menores índices de deserción, según
estudios del Ministerio de Educación, es pertenecer a un grupo con ingresos familiares altos.
Para el caso de la universidad en estudio y de acuerdo a lo que se puede observar en la Tabla 3 y Tabla 4, no es
posible confirmar la hipótesis planteada, para ninguno de los dos programas.
En ninguno de los dos casos se obtuvieron resultados categóricos que pudieran indicar una menor tasa de
deserción en los alumnos pertenecientes a los grupos con mayores ingresos familiares (10 - 11 - 12).
Finalmente, aquellos alumnos con padres que cuentan con un nivel alto de educación presentan menores índices
de deserción, según el estudio realizado por el Ministerio de Educación.
Con el fin de comprobar esta relación, realizamos el análisis de los datos, centrándonos la variable “Educación de
los Padres”, la que se divide en 12 categorías, según el avance de los estudios.
La categoría Alto Nivel Est que se puede ver en la tabla (educa), contempla la educación completa en los Centros
de Formación Técnica, Institutos Profesionales y Universidades. Del mismo modo, la categoría Bajo Nivel Est
contempla todos los niveles inferiores a los ya mencionados, sin considerar los datos desconocidos o faltantes.
Los resultados obtenidos indican que para el caso del programa 1 no existe una relación clara entre el nivel
educacional de los padres y la deserción de los estudiantes. Para el caso del programa 2 en cambio, se pueden ver
cifras un poco más claras, donde cerca de la mitad de los estudiantes que ingresan a este programa y sus padres
poseen un nivel educacional alto, toman la decisión de desertar.
Pg. 8
Esto último contrasta absolutamente con lo indicado por el Ministerio de Educación, evidenciando que tal vez
puedan existir otros elementos, para esta universidad y en particular para estos programas de estudio, que
afecten en la decisión de desertar por parte de los estudiantes.
Entendiendo este último punto, se amplió el análisis exploratorio y estadístico de los datos disponibles, con el
objetivo de poder identificar otras variables que pudieran ser determinantes a la hora de clasificar a un estudiante
más propenso a desertar de alguno de los dos programas universitarios.
Siguiente esta lógica, se seleccionaron otras variables en base a la correlación existente y detectada, entendiendo
sin embargo el problema de no correlación de la base.
Entre las variables detectadas encontramos por ejemplo la Edad del postulante, Conformación del grupo familiar
y el promedio de notas de la enseñanza media. Estas variables fueron incluidas en el proceso de predicción
descrito más adelante, y fueron modificadas acorde a cada programa.
Pg. 9
Postulantes: i ∈ {1, …. ,548} Dimensión referente a los postulantes del año 2017.
β Constante de testeo fija para cada prueba del modelo, pero varía entre 0,1 y 3 para cada prueba realizada.
En términos de programación, funciona como un parámetro con dimensionalidad j, la cual determina el número
de ejecuciones o pruebas de modelos.
1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑒𝑠 𝑚𝑢𝑗𝑒𝑟
𝑠𝑒𝑥𝑜𝑖 = {
0 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
𝑟𝑑𝑖 ∈ [0,1] ∀𝑖 = Ranking de probabilidad de deserción del postulante i. Mientras menor la probabilidad de
deserción, mayor el valor de rd.
𝑟𝑝𝑖 ∈ [0,1] ∀𝑖 = Ranking de puntaje del postulante i. Mientras mayor el puntaje del postulante i, mayor el valor
de rp.
VARIABLES
FUNCIÓN OBJETIVO
max 𝑧 = 𝛽𝑑 + 𝑝
RESTRICCIONES
Programa 2 ∑𝑖 𝑦𝑖 = 80 (2)
Lado izquierdo: La sumatoria representa la suma total de los postulantes i al programa 1 (o al programa 2), los
cuales pueden ser seleccionados y tomar valor 1, o en caso contrario tomar valor 0.
Lado derecho: El número 120 en la ecuación 1 y el 80 en la ecuación 2 representa el límite de postulantes que
pueden ser aceptados en el Programa 1 y Programa 2 respectivamente.
Pg. 11
La relación es de igualdad ya que se desea que los postulantes i al programa 1 y programa 2 aceptados sean
exactamente 120 y 80 respectivamente.
Lado izquierdo: Muestra la multiplicación entre los postulantes i al programa 1 o 2 y si el postulante optó por el
programa 1 o no.
Es una relación de igualdad porque debe existir coherencia entre la aceptación del postulante i al programa 1 o 2
y si este postulante i optó por dicho programa.
3 – Cuotas de género
∑𝑖 𝑥𝑖 ·𝑠𝑒𝑥𝑜𝑖
Programa 1 40% ≤ 120
≤ 50% (5)
∑𝑖 𝑦𝑖 ·𝑠𝑒𝑥𝑜𝑖
Programa 2 40% ≤ 80
≤ 50% (6)
Lado izquierdo y derecho de la ecuación: El porcentaje de la izquierda 40%, representa el mínimo de mujeres que
deben ser seleccionadas, mientras que el lado derecho 50% es el porcentaje máximo de mujeres que deben ser
seleccionadas.
Ecuación central: Es la sumatoria de la multiplicación entre los postulantes i al programa 1 o programa 2 y el sexo
del postulante i. Se divide por 120 en la ecuación 5 y por 80 en la ecuación 6 ya que este es el número total de
postulantes seleccionados al programa 1 y 2 respectivamente para obtener el porcentaje de mujeres.
La relación entre la ecuación central y la parte izquierda del problema es que esta última debe ser menor o igual
al porcentaje de mujeres seleccionadas, y la ecuación central debe ser menor o igual al lado derecho de la
ecuación, obteniendo un rango entre 40% y 50% de mujeres seleccionadas al Programa 1 y el Programa 2.
Pg. 12
4 – Cuotas de equidad
∑𝑖 𝑥𝑖 ·𝑚𝑢𝑛𝑖𝑖
Programa 1 120
≥ 30% (7)
∑𝑖 𝑥𝑖 ·𝑐𝑝𝑠𝑖
120
≥ 30% (8)
∑𝑖 𝑥𝑖 ·𝑖𝑜𝑖
120
≥ 20% (9)
∑𝑖 𝑦𝑖 ·𝑚𝑢𝑛𝑖𝑖
Programa 2 80
≥ 30% (10)
∑𝑖 𝑦𝑖 ·𝑐𝑝𝑠𝑖
≥ 30% (11)
80
∑𝑖 𝑦𝑖 ·𝑖𝑜𝑖
≥ 10% (12)
80
Lado derecho: corresponde a 30% que es el porcentaje de alumnos seleccionados que deben pertenecer a
colegios municipales.
El operador lógico es mayor o igual ya que el porcentaje de alumnos seleccionados provenientes de colegios
municipales debe ser como mínimo 30% de acuerdo a lo que solicita la Universidad.
Lado derecho: Es el 30% que es el porcentaje de alumnos seleccionados que deben pertenecer a colegios
particulares subvencionados.
Pg. 13
El operador lógico es mayor o igual ya que el porcentaje de alumnos seleccionados que deben pertenecer a
colegios particulares subvencionados debe ser como mínimo 30% para cada programa de acuerdo a lo que solicita
la Universidad.
Lado izquierdo: Muestra la sumatoria de la multiplicación entre el postulante i al programa 1 o 2 y si éste califica
dentro del indicador de igualdad de oportunidades o no. La sumatoria de todos ellos está dividido por 120 en la
ecuación 9 y por 80 en la ecuación 12, que corresponde al número total de postulantes seleccionados al programa
1 y 2 respectivamente.
El operador lógico es mayor o igual ya que el porcentaje de alumnos seleccionados que deben calificar en el
indicador de igualdad de oportunidades debe ser como mínimo 20% y 10 % para el Programa 1 y 2
respectivamente, según lo que solicita la Universidad.
∑𝑖 𝑥𝑖 ·𝑛𝑜𝑟𝑚𝑖
Programa 1 ≥ 30% (13)
120
∑𝑖 𝑥𝑖 ·𝑑𝑒𝑝𝑜𝑟𝑡𝑒𝑖
120
≥ 5% (14)
∑𝑖 𝑦𝑖 ·𝑛𝑜𝑟𝑚𝑖
Programa 2 80
≥ 30% (15)
Alumnos de Región.
Lado izquierdo: Representa la sumatoria de la multiplicación entre los postulantes seleccionados al Programa 1 o
2 y si el alumno es de región o no. Esto está dividido por 120 en la ecuación 13 y 80 en la ecuación 15 ya que este
es el número total de alumnos que se seleccionaron para el Programa 1 y 2 respectivamente
Lado derecho: Corresponde a un 30% que es el porcentaje solicitado por la Universidad de alumnos de región que
deben ser seleccionados para cada uno de sus programas académicos
Pg. 14
El operador lógico es mayor o igual ya que la Universidad solicita un mínimo de estudiantes de región
seleccionados para cada uno de los programas.
Alumnos Deportistas.
Lado izquierdo: Representa la sumatoria de los estudiantes seleccionados al programa 1 y si éste es deportista o
no. Está dividido por 120 en la ecuación 14 que es el número total de alumnos seleccionados para el Programa 1.
Lado derecho: Corresponde a un 5% que es el porcentaje solicitado por la Universidad de alumnos deportistas
seleccionados a su Programa 1.
El operador lógico es mayor o igual ya que la Universidad solicita un mínimo de estudiantes deportistas
seleccionados para su Programa 1.
𝑝 ≤ 𝑥𝑖 · 𝑟𝑝𝑖 + (1 − 𝑥𝑖 ) · 𝑀 ∀𝑖 (17)
𝑝 ≤ 𝑦𝑖 · 𝑟𝑝𝑖 + (1 − 𝑦𝑖 ) · 𝑀 ∀𝑖 (19)
Ecuación 16 y 18.
Lado izquierdo: d es la variable auxiliar que queremos que sea maximizada y, por ende, fuerce la más alta
probabilidad de deserción de entre los seleccionados hacia abajo cosa que parece contra intuitiva, pero se explica
a continuación.
Lado derecho: Ya que al maximizar d queremos empujar hacia abajo la más alta probabilidad de deserción de
entre los seleccionados, se requiere invertir el comportamiento de esta última, lo cual se logra utilizando un
ranking invertido en donde 0 implica que se trata del postulante con mayor probabilidad de deserción, y 1 apunta
al postulante que presenta la menor probabilidad de deserción dentro de la lista total de postulantes. Con esto
en mano, se utiliza el mecanismo de selección para activar dicho ranking en el caso de los seleccionados y, por el
contrario, la antítesis de este mecanismo para que junto a la constante M se elevan drásticamente los rankings
Pg. 15
de quienes no son seleccionados, a modo de que el mínimo de todo lo anterior sea igual al peor ranking de
deserción de entre los seleccionados, el cual se pretende maximizar posteriormente.
Operador lógico: Ya que esta es una variable que será maximizada y se plantea como que empujara por debajo
yendo hacia arriba al resto de la inecuación, es que se utiliza el operador menor o igual que.
Ecuación 17 y 19.
Lado izquierdo: p es la variable que representa el puntaje de corte, el cual se maximizará en la función objetivo.
Lado derecho: Representa el mínimo puntaje dentro de los seleccionados. Se utiliza el mecanismo de selección
para activar aquellos puntajes, y su antítesis para elevar por sobre los seleccionados los puntajes de los que no
son convocados, a modo de que el mínimo de todo lo anterior sea efectivamente el puntaje de corte. La lógica de
esta restricción se mantiene respecto a la deserción en lo que respecta a la utilización de un ranking (1 es el mejor
y 0 es el peor puntaje de todos los postulantes).
Operador lógico: Este es menor o igual que el lado derecho de la inecuación, pues se intenta maximizar dicho
lado, que es la definición del puntaje de corte.
𝑑, 𝑝 ∈ ℝ (21)
𝑑, 𝑝 ∈ ℝ (22)
Estas restricciónes fija el dominio de cada tipo de variable definida en el modelo, mostrando que la primera
variable debe ser binaria y solo tomar valor 1 en el caso que la decisión sea positiva y 0 en caso contrario (tal como
se muestra con mayor detalle en la sección de “Variables”). Por otro lado, las variables p y r pueden tomar valores
reales.
Pg. 16
4. PREDICCIÓN DE LA DESERCIÓN
En esta sección se describe el proceso para la construcción del modelo de predicción de la deserción de los
postulantes del año 2017, donde se utilizó el proceso de Minería de Datos KDD (Knowledge Discovery in
Databases), que consiste en el descubrimiento de conocimiento e información relevante en la base de datos
proporcionada, donde se puede obtener relaciones entre un gran número de datos. Este proceso consta de los
siguientes pasos:
• Selección: Luego del análisis estadístico y exploratorio de los datos, no se pudo obtener a priori qué variables
eran determinantes a la hora de predecir si un alumno deserta o no. Sin embargo, la correlación de ciertas
variables con la variable target fue utilizada como criterio de selección. Las variables seleccionadas, junto con
su coeficiente de correlación se pueden ver en la Tabla 6 y 7 a continuación.
Coef. De
Parámetro
Correlación
AÑO_EGRESO_ENSEÑANZA_MEDIA 0,128187772
FinanciamientoTRABAJOPERSONAL1 0,09706187
TipoIngresoDEPORTISTA 0,096403096
EducacionMadreSINESTUDIOS2 0,087016953
MASCULINO 0,08249893
FEMENINO 0,08249893
Edad 0,077512382
FECHA_NACIMIENTO 0,076469347
EducacionMadreBASICAIMCOMPLETA2 0,075014497
FinanciamientoPRESTAMO1 0,072376298
METROPOLITANA 0,071805711
REGION 0,071805711
TrabajoMadreNOTRABAJA2 0,071024625
ConQuienViveFAMILIARES 0,067570672
SinteticaNOTRABAJA 0,066722605
SinteticaTRABAJA 0,066722605
TipoIngresoREGULAR 0,064002765
SinteticaNOREGULAR 0,064002765
TrabajoPadreJUBILADOPENSIONADO1 0,060058541
Tabla 6 - Programa 1
Pg. 17
Coef. De
Parámetro
Correlación
GrupoDependenciaPRIVADO 0,160995001
MASCULINO 0,139599419
FEMENINO 0,139599419
RegimenREGMFEM 0,128249561
GrupoDependenciaSUBVENCIONADO 0,126992041
INGRESO_BRUTO_FAMILIAR 0,119580236
RegimenREGMASC 0,106606117
PTJE_CIENCIAS 0,097545839
PTJE_HISTORIA_Y_CIENCIAS_SOCIALES 0,095326885
EducacionPadreBASICACOMPLETA1 0,089081968
EducacionPadreUCOMPLETO1 0,086560207
SinteticaMEducacionSuperior 0,072897064
SinteticaMEducacionBasica 0,072897064
EducacionMadreUCOMPLETO2 0,07000593
RamaEducacionalHUMCIENTNOCTURNO 0,069164165
FinanciamientoPRESTAMO2 0,066741424
EstadoCivilSOLTERO 0,065812713
PROMEDIO_NOTAS 0,065441485
TrabajoPadreNOTRABAJA1 0,063764034
RamaEducacionalTECPROFCOM 0,061179751
JEFEFAMILIAR 0,060227937
Tabla 7 - Programa 2
subvencionados y municipales. Para lograr incorporar esta información al modelo, se separó la variable en
múltiples subvariables pertenecientes a cada elemento de la variable inicial. Es decir, cada grupo
dependencia fue convertido en una variable única dummy. Para esto se creó una base de datos con la planilla
Excel entregada y se realizaron las modificaciones asociadas con el software SQL Management.
Luego, para encontrar la mejor predicción se utilizaron tres modelos predictivos que son: Redes Neuronales,
Regresión Logística y Regresión lineal. A continuación, se explica en detalle cada una de ellas para luego mostrar
la elección del mejor modelo.
Redes Neuronales: El primer modelo que se probó fue el de Redes Neuronales que recibe su nombre debido a la
similitud con el funcionamiento neuronal del ser humano, ya que consiste en una amplia red de unidades
interconectadas que generan una gran red. Al aplicar este modelo en la base de datos históricos se obtuvo los
resultados de la Tabla 8 para el Programa 1 y de la Tabla 9 para el Programa 2.
Regresión Lineal: Este modelo permite hallar el valor de una variable aleatoria, cuando las variables
independientes toman cierto valor. Al aplicar este modelo en la base de datos históricos se obtuvo los resultados
de la Tabla 10 para el Programa 1 y de la Tabla 11 para el Programa 2.
Regresión logística: Este modelo se utiliza cuando se desea predecir la presencia o ausencia de una característica
según los valores de un conjunto de predictores y está diseñado para modelos donde la variable dependiente es
dicotómica. Al aplicar este modelo en la base de datos históricos se obtuvo los resultados de la Tabla 12 para el
Programa 1 y de la Tabla 13 para el Programa 2.
De acuerdo a los resultados obtenidos, se escogió el mejor modelo de predicción para cada programa académico
de acuerdo a los criterios de precisión de cada modelo y por medio de una matriz de confusión, se dio más
importancia a aquellos modelos que predicen de mejor manera cuando un alumno será desertor. De acuerdo a
lo anterior, se obtuvo como resultado que el mejor modelo de predicción para el Programa 1 es Redes Neuronales,
y para el Programa 2 Regresión Lineal
Pg. 20
En esta sección se muestra los resultados obtenidos de la resolución del modelo de programación lineal utilizando
la herramienta Gams (ver Anexo 1 para conocer el código ejecutado).
Los resultados obtenidos se muestran en la Tabla 14 para el programa 1 y Tabla 15 para el programa 2.
Programa 1
Criterio % Seleccionado
Mujer 40%
Municipal 30%
Particular Subvencionado 30%
Igualdad de Oportunidad 20%
De regiones 30%
Deportista 5%
Tabla 14 - Programa 1
Programa 2
Criterio % Seleccionado
Mujer 45,0%
Municipal 30,0%
Particular Subvencionado 30,0%
Igualdad de Oportunidad 10,0%
De regiones 30,0%
Tabla 15 - Programa 2
Acá se muestra que se cumplieron todas las restricciones solicitadas por la Universidad para cada programa
académico, tales como porcentaje de mujeres, porcentaje de alumnos provenientes de colegios municipales,
porcentaje de alumnos provenientes de colegios particulares subvencionados, porcentaje de alumnos que
califican como igualdad de oportunidades, porcentaje de alumnos que vienen de regiones y porcentaje de
alumnos que son deportistas.
Pg. 21
Si se hace una solución manual (bajo el supuesto de que no se aplican técnicas de inteligencia de negocios), solo
se hace factible en términos prácticos hacer un corte por ordenamiento de puntajes ponderados. Así se tiene que
no se cumplen las restricciones de cuotas para los diferentes programas. Por el lado positivo, podemos destacar
que el puntaje de corte para cada programa sube moderadamente. Sin embargo, la deserción del conjunto de
seleccionados empeora en alrededor de un 30% analizándolo en torno a ambas formulaciones. A continuación,
se pueden observar los rendimientos de los indicadores rd el programa 2 en lo que es solución manual y solución
por enfoque de inteligencia de negocios. Nótese que a menor cada número, peor el rendimiento en dicho aspecto.
rd Manual B.I.
Programa 2 0.47 0.67
Pg. 22
Para la realización de este trabajo, se determinaron diferentes supuestos que se mantuvieron a lo largo de la
investigación y que fueron necesarios para la resolución del problema de selección de los postulantes al año 2017.
A continuación, se da detalle de cada uno de ellos y algunas conclusiones respecto a qué ocurriría si estos
supuestos se dejaran de considerar.
Al momento de realizar la predicción se dio como supuesto que el comportamiento de los datos históricos a lo
largo de los años es el mismo. Esto quiere decir que por ejemplo la generación 2015, tiene el mismo
comportamiento y las mismas características que la generación 2016. Lo anterior fue necesario para la resolución
del problema de selección de postulantes ya que se simplificó la realidad para poder utilizar las herramientas
tecnológicas disponibles
Si no se hubiese determinado este supuesto, habría surgido la necesidad de utilizar un modelo que detectase las
variables que mejor predicen en cada generación, y de esta manera obtener un modelo predictivo más certero
en cada generación.
La segunda parte para seleccionar los postulantes corresponde a un Problema de Programación Lineal, que se
formula bajo el supuesto de que la predicción entregada por el proceso de minería de datos es certera en un
100%. Esto quiere decir que el Problema de Programación Lineal no considera errores en la predicción y por ende
calcula un óptimo suponiendo certeza. De no tener este supuesto, se debería establecer una función objetivo que
incluyese por ejemplo probabilidades relacionadas con la certeza de la predicción.
Pg. 23
8. CONCLUSIONES Y DISCUSIONES
La actual selección de postulantes para la Universidad estudiada provoca distintos problemas para la institución
debido a la deserción de sus alumnos que provocan costos para ésta y para el país. Los procesos de minería de
datos junto con un Problema de Programación Lineal son capaces de realizar una selección que ayude a disminuir
estos índices de deserción obteniendo mejores resultados que un proceso manual de selección como se mostró
en ese trabajo.
A modo de conclusión de esta investigación, se analizan las decisiones y herramientas analíticas escogidas para
desarrollar este estudio para luego entregar recomendaciones respecto a la implementación de las soluciones
encontradas
En primer lugar, se puede concluir que, al aplicar distintos modelos de predicción, se deben establecer los distintos
criterios con los que se evaluará la decisión de escoger la mejor predicción, y luego considerar el trade-off de
escoger por ejemplo un modelo que tenga menor precisión pero que detecte mejor aquellos alumnos que
desertaron puede ser una buena alternativa de elección. Con esto se pudo determinar que el mejor modelo para
el Programa 1 fue el de Redes Neuronales y el mejor modelo para el Programa 2 fue Regresión Lineal.
Además, el objetivo de minimizar el número de desertores debía complementarse con maximizar el puntaje de
corte del último seleccionado. Para esto, luego de analizar de posibles pesos donde se testearon y de acuerdo a
los resultados obtenidos y bajo juicio experto del equipo de trabajo, se dio peso a esos objetivos para obtener la
selección final de alumnos.
Por otro lado, se recomienda ir actualizando constantemente los datos históricos ya que en este modelo se dio
como supuesto que los datos eran iguales para todas las generaciones. Esto podría ayudar a tener predicciones
más precisas y seleccionar de acuerdo a las características reales de los estudiantes cada año.
Además de lo anterior, es inevitable que cada año exista la predicción de que algunos alumnos seleccionados van
a desertar, sin embargo, se pueden tomar acciones en este aspecto como por ejemplo realizar un seguimiento de
Pg. 24
aquellos alumnos que se predice puedan desertar como por ejemplo programas de apoyo académico, apoyo
psicológico y apoyo en otros aspectos relevantes del alumno. Con esto también se podría disminuir el índice de
deserción y lograr disminuir los costos que esto implica
Pg. 25
BIBLIOGRAFÍA
Vásquez, J. (s.f.). “Modelo Predictivo para estimar la deserción de estudiantes en una institución de educación
superior”.
Pg. 26
(Vásquez)
Pg. 27
9. ANEXOS
SET
SCALARS
PARAMETERS
rd(i) ranking invertido de pbb. de desercion del postulante i y a menor pbb. de desercion sera mayor rd
rp(i) ranking invertido de puntaje del postulante i y a mayor puntaje sera mayor rp
Pg. 28
$include "inc\p1.inc";
$include "inc\sexo.inc";
$include "inc\muni.inc";
$include "inc\cps.inc";
$include "inc\io.inc";
$include "inc\norm.inc";
$include "inc\deporte.inc";
$include "inc\rd.inc";
$include "inc\rp.inc";
$include "inc\beta.inc";
VARIABLES
z F.O
Pg. 29
BINARY VARIABLES
POSITIVE VARIABLES
d,p
EQUATIONS
rest_6_2x(i) Relacion p x
rest_6_2y(i) Relacion p y
;
Pg. 31
*Normalizada
*Normalizada
FA_FO_d.. z =E= d;
FA_FO_p.. z =E= p;
*F1
*******************ORDEN DE OPERACIONES*******************
*Ejecutar en X y luego en Y
* Testear y pre-normalizar
*Iterar en J
* Ejecutar en X y luego en Y
******************/ORDEN DE OPERACIONES*******************
******************RESOLUCION DE MODELOS*******************
*Resolver F1A_d
Pg. 35
put AD_1X;
*Resolver F1A_p
put AP_1X;
*Resolver F2A_d
put AD_2X;
*Resolver F2A_p
put AP_2X;
*Resolver F1A_d
put AD_1Y;
*Resolver F1A_p
put AP_1Y;
*Resolver F2A_d
put AD_2Y;
*Resolver F2A_p
put AP_2Y;
***Iterar en J
Loop(j,
B=beta(j);
* Resolver F1
put F_1X;
put "Corrida #" j.tl / "z=" z.l / "B=" B / "d=" d.l / "p=" p.l / "Valor x_i" / ;
loop(i,
put x.l(i) /;
);
put / /;
* Resolver F2
put F_2X;
put "Corrida #" j.tl / "z=" z.l / "B=" B / "d=" d.l / "p=" p.l / "Valor x_i" / ;
loop(i,
Pg. 38
put x.l(i) /;
);
put / /;
* Resolver F1
put F_1Y;
put "Corrida #" j.tl / "z=" z.l / "B=" B / "d=" d.l / "p=" p.l / "Valor y_i" / ;
loop(i,
put y.l(i) /;
);
put / /;
* Resolver F2
put F_2Y;
put "Corrida #" j.tl / "z=" z.l / "B=" B / "d=" d.l / "p=" p.l / "Valor y_i" / ;
loop(i,
put y.l(i) /;
);
put / /;
);