Selección de Postulantes A Universidades A Través de La Inteligencia de Negocios

Pg.
SOLUCIÓN AL PROBLEMA DE
SELECCIÓN DE POSTULANTES A
PROGRAMAS ACADEMICOS
BUSINESS INTELLIGENCE
21/06/2017
Profesores: Jaime Miranda – Jonathan Vásquez
Tomás Chávez – Valentina Jorquera – Josué Salinas – Eugenio Zamora
I
ÍNDICE DE CONTENIDOS
Resumen ejecutivo ................................................................................................................................................................II
1. Introducción ................................................................................................................................................................. 1
Aproximación hacia el problema y su solución ............................................................................................................ 1
Estructura del documento .............................................................................................................................................. 2
2. análisis estadístico y exploratorio de los datos ........................................................................................................ 4
3. FORMULACIÓN DEL MODELO MATEMÁTICO ......................................................................................................... 9
Índice (Aplica tanto para Programa 1 y Programa 2)................................................................................................... 9
Constantes (Aplican todas tanto para Programa 1 y Programa 2)............................................................................. 9
Parámetros (aplican para programa 1 y programa 2, excepto parametro “) ........................................................... 9
Variables ......................................................................................................................................................................... 10
función objetivo ............................................................................................................................................................. 10
RESTRICCIONES .............................................................................................................................................................. 10
4. PREDICCIÓN DE LA DESERCIÓN ............................................................................................................................... 16
5. SOLUCIÓN DEL MODELO MATEMATICO................................................................................................................ 20
6. cOMPARACIÓN METODO DE SELECCIÓN MANUAL Y ENFOQUE PROPUESTO................................................. 21
7. DISCUSIONES DE LOS SUPUESTOS UTILIZADOS .................................................................................................... 22
8. Conclusiones y discusiones ...................................................................................................................................... 23
Bibliografía........................................................................................................................................................................... 25
9. Anexos ........................................................................................................................................................................ 27
II
RESUMEN EJECUTIVO
En presente informe surge de la necesidad de seleccionar adecuadamente a los postulantes que ingresaran a los
diferentes programas de estudio que ofrece una prestigiosa Universidad, debido a que ha cambiado el contexto
en el que se encuentra lo que la ha obligado a buscar alternativas de selección que no se basen en un solo
indicador que en este momento está midiendo solo conocimientos.
De esta manera, este trabajo tiene como objetivo reducir la deserción de los estudiantes, ya que esto genera
costos a la institución y al país como son la pérdida de un profesional que puede entregar su trabajo al país,
problemas en las familias de los estudiantes, costos de mantención del estudiante que deserta, entre otros,
entregando un conjunto de postulantes que deben ser seleccionados bajo distintas condiciones, para así poder
realizar una selección basada en distintas variables que ayuden a reducir el número de estudiantes que dejan la
carrera. Para lo anterior, se tiene una base de datos históricos del año 2012 a 2016 de los distintos alumnos que
entrega distintos datos personales, estudiantiles y familiares de cada uno de ellos, además de una base de
postulantes a los diferentes programas que imparte la Universidad. Sobre esta información proporcionada por la
Universidad, se realizará el proceso de minería de datos KDD (Knowledge Discovery in Databases) probando
distintos modelos como Redes Neuronales, Regresión Lineal y Regresión Logística para obtener una predicción de
deserción. Luego se formulará un problema de programación lineal que ayude a minimizar el número de
desertores de esta casa de estudios considerando distintas restricciones como el porcentaje de mujeres en cada
programa, porcentaje de alumnos de colegios municipales y particulares subvencionados y porcentaje de
alumnos que califiquen como indicador para Igualdad de Oportunidades entre otras, y finalmente entregar un
grupo de estudiantes seleccionados en su Programa académico 1 (P1) y su Programa académico 2 (P2).
Luego de realizar el procedimiento anterior, las principales conclusiones del trabajo son las siguientes:
• El mejor modelo para predecir es Redes Neuronales para el Programa 1 y Regresión lineal para el Programa
2.
• Los postulantes seleccionados tienen como características: Porcentaje de mujeres 40% para P1 y 45% para
P2, Porcentaje de provenientes de colegios municipales 30% para P1 y ,30% para P2, provenientes de
colegios particulares subvencionados 30% para P1 y 30% para P2, Igualdad oportunidades 20% para P1 y
10% para P2, provenientes de regiones 30% para P1 y 30% para P2 y deportistas 5% para P1.
Pg. 1
1. INTRODUCCIÓN
En la actualidad, el ingreso a la educación superior está determinado por una prueba de selección universitaria, la
cual mide conocimientos en las áreas de matemática, lenguaje, ciencias e historia, además de un ranking de notas
ordenado de acuerdo al colegio del que proviene cada alumno. Lo anterior logra medir un aspecto importante a
la hora de escoger un estudiante que son los conocimientos duros en estas áreas, complementado por el ranking
de notas que proporciona información respecto al desempeño del estudiante en su contexto particular de la
institución educacional a la que pertenecía durante sus últimos 4 años de educación secundaria.
Sin embargo, se ha podido ver que existen falencias de este sistema, las que en ocasiones se ven reflejadas en la
deserción universitaria. Este es un problema que enfrentan todas las instituciones de educación superior y que
puede estar provocado, entre otras cosas, por el método de selección actual, lo que genera una serie de costos
monetarios y no monetarios tanto para el país, como para cada entidad educacional al perder recursos en aquellos
estudiantes que desertan y sin duda también, trae consecuencias negativas a los propios estudiantes que no
finalizan su proceso educacional.
El presente informe nace del trabajo realizado en respuesta a la necesidad de una prestigiosa Universidad de
seleccionar a sus estudiantes por medio de criterios distintos a los actuales que ayude a disminuir el número de
desertores y así reducir estos costos provocados por esta situación. Debido a lo anterior, el propósito de este
informe es entregar un grupo de estudiantes seleccionados bajo distintos escenarios, que ayude a la Universidad
a disminuir la deserción.
APROXIMACIÓN HACIA EL PROBLEMA Y SU SOLUCIÓN
Para poder resolver el problema de deserción, se cuenta con una base entregada por la casa de estudios que
consta de dos partes, la primera son datos históricos de 2135 alumnos desde 2012 a 2016 y la segunda parte son
548 postulantes del año 2017 a la Universidad. Los datos entregados en cada planilla consisten en información
respecto a datos del alumno; como fecha de nacimiento, nacionalidad, estado civil y sexo entre otros, datos
estudiantiles; como promedio de notas, carrera anterior, rama educacional del colegio que egresó, datos
familiares como quién financia la carrera, si viven o no los padres, ingreso bruto del grupo familiar entre otros.
Además, en la primera planilla de datos históricos se conoce si el estudiante desertó o no desertó, estando esta
columna sin completar en la planilla de postulantes al año 2017 por razones obvias del trabajo.
Pg. 2
Considerando lo anterior y para poder abordar el problema de este informe, se resolverá por medio de la división
del problema en partes para poder solucionarlo de mejor manera y resolviendo paso a paso el problema de
selección de alumnos para disminuir la deserción.
Lo primero es realizar un análisis exploratorio de los datos para conocer a priori si existe algún indicio de enfoque
del problema, para posteriormente realizar minería de datos utilizando el proceso KDD (Knowledge Discovery in
Databases) y finalmente se formulará un Problema de Programación Lineal para resolver el problema final del
informe y entregar un conjunto de estudiantes seleccionados.
ESTRUCTURA DEL DOCUMENTO
Este documento cuenta con 9 secciones partiendo con la Introducción actual, seguida de siete secciones donde
se desarrolla la totalidad del informe. Adicionalmente y finalizando el informe, se incorpora la bibliografía y anexos
relevantes. A continuación, se explica cada una de las siete secciones mencionadas.
• Análisis estadístico y exploratorio de los datos
Se realiza una descripción de la base de datos, detallando la cantidad de datos presenten en la base, mostrando
tablas resumen de las variables presentes en la base e información relevante encontrada del comportamiento de
los datos históricos,
• Formulación del modelo matemático
Se muestra la formulación del problema de programación lineal, específicamente los índices, parámetros y
variables además de la función objetivo. Adicionalmente se explican detalladamente las restricciones del
problema.
• Predicción de la deserción
Acá se explica el modelo utilizado para realizar la predicción de la deserción de alumnos y sus configuraciones,
comparando los métodos de Redes Neuronales, Regresión Lineal y Regresión Logística para luego mostrar los
resultados obtenidos.
• Solución del modelo matemático

Pg. 3
Acá se resuelve el problema de programación lineal y se muestran sus resultados. Además, se muestra el conjunto
de alumnos seleccionados y sus características principales como porcentaje de mujeres, provenientes de colegios
municipales y subvencionados, etiquetados como igualdad de oportunidad, de regiones y deportistas destacados.
• Comparación método de selección manual y modelo propuesto
En esta sección se muestra una comparación de la selección de alumnos mediante el método manual y la
metodología propuesta en este informe.
• Discusiones de supuestos utilizados
En esta sección se dan a conocer los supuestos utilizados para el desarrollo del trabajo, y se hace un análisis de la
diferencia en la resolución del problema sin estos análisis.
• Conclusiones y recomendaciones
Esta sección logra concluir lo aprendido durante el trabajo, haciendo una recopilación de lo que se hizo con la base
entregada por la Universidad para poder llegar a la selección final de los alumnos además de recomendaciones
finales a la Universidad respecto a su proceso de selección de postulantes.
Pg. 4
2. ANÁLISIS ESTADÍSTICO Y EXPLORATORIO DE LOS DATOS
En esta sección se presentarán los análisis preliminares realizados a los datos contenidos en la hoja
“DatosHistóricos” de la base de datos proporcionada.
El objetivo de este análisis es poder determinar, a priori, si existen variables que sean determinantes a la hora de
identificar a un alumno que abandonara un programa.
En primer lugar, se analizó completamente la base de datos históricos, identificando en ella 33 columnas
compuestas por un código de identificación de cada estudiante, seguido por la variable que determina si el
estudiante desertó de la carrera o no. Las 31 columnas restantes corresponden a variables que permiten crear el
perfil de cada estudiante, entre las que encontramos su nacionalidad, sexo, puntajes de ingreso, nivel
socioeconómico, entre otras.
La base está poblada por un total de 2134 filas, cada una correspondiente a un estudiante en particular que se
incorporó a la casa de estudios entre los años 2012 y 2016.
Los datos contenidos en cada una de las 2134 filas poseen distintos formatos, configuraciones e interpretaciones.
Por lo tanto, para el mejor entendimiento de estos, se cuenta con una hoja llamada “Metadata”, la cual contiene
el nombre, descripción y posibles valores que pueden tomar cada uno de los 33 atributos de la hoja
“DatosHistóricos”.
Una vez revisada la base de datos y comprendida su estructura y configuración, se dio paso a un proceso analítico
más exhaustivo con el fin de cumplir con el objetivo mencionado al comienzo de esta sección. Para ello, en primer
lugar, se realizó un análisis a las variables que, según estudios del Centro de Estudios del Ministerio de Educación,
son características que poseen los alumnos con menores índices de deserción.
Entendiendo adicionalmente que las características de los dos programas impartidos por la casa de estudios son
distintos, los análisis estadísticos y exploratorios se realizaron diferenciando a los alumnos según el programa al
que pertenecen y a las distintas variables seleccionadas, obteniendo los siguientes resultados:
En primer lugar, se analizó la variable “sexo”, esto porque de acuerdo al Ministerio de Educación las mujeres
presentan menores índices de deserción, premisa que podríamos definir como cierta al ver los resultados de la
Tabla 1 obtenidos del análisis de los datos históricos, donde tanto para el Programa 1 (P1) como para el Programa
2 (P2), la tasa de deserción es menor en mujeres que en hombres. Se podría argumentar a priori que el índice está
Pg. 5
condicionado a que la cantidad de mujeres que ingresan a cada programa es inferior al de hombres, sin embargo,
esta relación se mantiene al analizar cada grupo por separado, siendo de igual manera las mujeres menos
desertoras que los hombres.
Programa Ingreso Sexo Total Desertores % % del Total

P1 MASCULINO 921 221 24% 15%
P1 FEMENINO 536 91 17% 6%
P2 MASCULINO 364 171 47% 25%
P2 FEMENINO 313 104 33% 15%
Tabla 1 – Clasificación de desertores según sexo.
En segundo lugar, el Ministerio de Educación indica que los alumnos provenientes de colegios particulares
pagados podrían presentar menores índices de deserción. Esta hipótesis no se condice con los resultados
obtenidos y presentados en la Tabla 2. Como se puede observar, para el programa 1 no existe un Grupo
Dependencia que evidencien mayores deserciones en términos relativos (esto es, la cantidad de desertores en
relación al total de ingresos de la misma categoría). Si bien es cierto, los alumnos que desertan, provenientes de
colegios particulares superan ampliamente a los de las otras dos categorías, esto puede estar condicionado por el
total de alumnos que pertenecen a esta categoría que ingresan al programa, el cual también es ampliamente
superior a los otros grupos.
Para el caso del programa 2 los resultados son más claros, donde se puede ver una predominancia de desertores
pertenecientes a colegios particulares en términos relativos y totales (esto es, la cantidad de desertores con
respecto al número total de ingresos para el programa).
Esto confirma la premisa realizada al comienzo de esta sección, donde se indica que las características de los dos
programas son distintas, por lo que el análisis debe realizarse de manera independiente.
Pg. 6
Programa Ingreso Grupo Dependencia Total Desertores % % del Total

P1 Particular 953 197 21% 14%
P1 Subvencionado 296 60 20% 4%
P1 Municipal 208 55 26% 4%
P2 Particular 219 114 52% 17%
P2 Subvencionado 270 89 33% 13%
P2 Municipal 188 72 38% 11%
Tabla 2 – Clasificación de desertores según grupo dependencia.
Continuando con el análisis, otra característica que poseen los alumnos con menores índices de deserción, según
estudios del Ministerio de Educación, es pertenecer a un grupo con ingresos familiares altos.
Para el caso de la universidad en estudio y de acuerdo a lo que se puede observar en la Tabla 3 y Tabla 4, no es
posible confirmar la hipótesis planteada, para ninguno de los dos programas.
En ninguno de los dos casos se obtuvieron resultados categóricos que pudieran indicar una menor tasa de
deserción en los alumnos pertenecientes a los grupos con mayores ingresos familiares (10 - 11 - 12).
Ingreso Bruto Total Desertores % % del Total

1 68 20 29% 1,4%
2 185 45 24% 3,1%
3 137 31 23% 2,1%
4 89 24 27% 1,6%
5 78 13 17% 0,9%
6 127 22 17% 1,5%
7 65 9 14% 0,6%
8 206 46 22% 3,2%
9 19 4 21% 0,3%
10 19 6 32% 0,4%
11 24 5 21% 0,3%
12 440 87 20% 6,0%
Tabla 3 – Clasificación de desertores Programa 1 según ingreso familiar.
Pg. 7
Ingreso Bruto Total Desertores % % del Total

1 69 28 41% 4,1%
2 151 55 36% 8,1%
3 105 40 38% 5,9%
4 61 21 34% 3,1%
5 56 16 29% 2,4%
6 37 18 49% 2,7%
7 49 22 45% 3,2%
8 41 16 39% 2,4%
9 9 3 33% 0,4%
10 7 3 43% 0,4%
11 21 12 57% 1,8%
12 71 41 58% 6,1%
Tabla 4 – Clasificación de desertores Programa 2 según ingreso familiar.
Finalmente, aquellos alumnos con padres que cuentan con un nivel alto de educación presentan menores índices
de deserción, según el estudio realizado por el Ministerio de Educación.
Con el fin de comprobar esta relación, realizamos el análisis de los datos, centrándonos la variable “Educación de
los Padres”, la que se divide en 12 categorías, según el avance de los estudios.
La categoría Alto Nivel Est que se puede ver en la tabla (educa), contempla la educación completa en los Centros
de Formación Técnica, Institutos Profesionales y Universidades. Del mismo modo, la categoría Bajo Nivel Est
contempla todos los niveles inferiores a los ya mencionados, sin considerar los datos desconocidos o faltantes.
Los resultados obtenidos indican que para el caso del programa 1 no existe una relación clara entre el nivel
educacional de los padres y la deserción de los estudiantes. Para el caso del programa 2 en cambio, se pueden ver
cifras un poco más claras, donde cerca de la mitad de los estudiantes que ingresan a este programa y sus padres
poseen un nivel educacional alto, toman la decisión de desertar.
Pg. 8
Programa Ingreso Nivel Educacional Total Desertores % % del Total

P1 Alto Nivel Est 830 176 21% 14%
P1 Bajo Nivel Est 397 93 23% 8%
P2 Alto Nivel Est 267 118 44% 20%
P2 Bajo Nivel Est 325 123 38% 21%
Tabla 5 – Clasificación de desertores según nivel educacional de los padres.
Esto último contrasta absolutamente con lo indicado por el Ministerio de Educación, evidenciando que tal vez
puedan existir otros elementos, para esta universidad y en particular para estos programas de estudio, que
afecten en la decisión de desertar por parte de los estudiantes.
Entendiendo este último punto, se amplió el análisis exploratorio y estadístico de los datos disponibles, con el
objetivo de poder identificar otras variables que pudieran ser determinantes a la hora de clasificar a un estudiante
más propenso a desertar de alguno de los dos programas universitarios.
Siguiente esta lógica, se seleccionaron otras variables en base a la correlación existente y detectada, entendiendo
sin embargo el problema de no correlación de la base.
Entre las variables detectadas encontramos por ejemplo la Edad del postulante, Conformación del grupo familiar
y el promedio de notas de la enseñanza media. Estas variables fueron incluidas en el proceso de predicción
descrito más adelante, y fueron modificadas acorde a cada programa.
Pg. 9
3. FORMULACIÓN DEL MODELO MATEMÁTICO
Para poder resolver el problema de la Universidad de la selección de alumnos, se genera un Problema de

Programación Lineal (PPL) que busca minimizar el número de desertores, y además maximizar el puntaje de corte
del último seleccionado. Los elementos que conforman este modelo son índices, constantes, parámetros,
variables, restricciones y por último una función objetivo, relacionada con el propósito final planteado en este
informe. Además, el problema es separado en dos partes, la primera parte es para el Programa 1, y la segunda
parte es para el Programa 2. A continuación se muestra la formulación del PPL y se especifica a cuál programa se
aplica. Cabe destacar que, por motivos de la brevedad de este informe, se muestran juntas las fórmulas para el
programa 1 y programa 2, pero estos pertenecen a PPL separados.
ÍNDICE (APLICA TANTO PARA PROGRAMA 1 Y PROGRAMA 2)
Postulantes: i ∈ {1, …. ,548}  Dimensión referente a los postulantes del año 2017.
CONSTANTES (APLICAN TODAS TANTO PARA PROGRAMA 1 Y PROGRAMA 2)
M = 1000  Constante auxiliar para la formulación de algunas restricciones.
β  Constante de testeo fija para cada prueba del modelo, pero varía entre 0,1 y 3 para cada prueba realizada.
En términos de programación, funciona como un parámetro con dimensionalidad j, la cual determina el número
de ejecuciones o pruebas de modelos.
PARÁMETROS (APLICAN PARA PROGRAMA 1 Y PROGRAMA 2, EXCEPTO PARAMETRO “)
1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 ℎ𝑎 𝑜𝑝𝑡𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑝𝑟𝑜𝑔𝑟𝑎𝑚𝑎 1

𝑝1𝑖 = {
0 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑒𝑠 𝑚𝑢𝑗𝑒𝑟
𝑠𝑒𝑥𝑜𝑖 = {
1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑝𝑟𝑜𝑣𝑖𝑒𝑛𝑒 𝑑𝑒 𝑢𝑛 𝑐𝑜𝑙𝑒𝑔𝑖𝑜 𝑚𝑢𝑛𝑖𝑐𝑖𝑝𝑎𝑙

𝑚𝑢𝑛𝑖𝑖 = {
1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑝𝑟𝑜𝑣𝑖𝑒𝑛𝑒 𝑑𝑒 𝑢𝑛 𝑐𝑜𝑙𝑒𝑔𝑖𝑜 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑟 𝑠𝑢𝑏𝑣𝑒𝑛𝑐𝑖𝑜𝑛𝑎𝑑𝑜

𝑐𝑝𝑠𝑖 = {
1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑐𝑎𝑙𝑖𝑓𝑖𝑐𝑎 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒𝑙 𝑖𝑛𝑑𝑖𝑐𝑎𝑑𝑜𝑟 𝑑𝑒 𝑖𝑔𝑢𝑎𝑙𝑑𝑎𝑑 𝑑𝑒 𝑜𝑝𝑜𝑟𝑡𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠

𝑖𝑜𝑖 = {
Pg. 10
1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑝𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒 𝑎 𝑢𝑛𝑎 𝑟𝑒𝑔𝑖ó𝑛 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑎 𝑎 𝑙𝑎 𝑀𝑒𝑡𝑟𝑜𝑝𝑜𝑙𝑖𝑡𝑎𝑛𝑎

𝑛𝑜𝑟𝑚𝑖 = {
1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑒𝑠 𝑑𝑒𝑝𝑜𝑟𝑡𝑖𝑠𝑡𝑎 𝑑𝑒𝑠𝑡𝑎𝑐𝑎𝑑𝑜

𝑑𝑒𝑝𝑜𝑟𝑡𝑒𝑖 = {
𝑟𝑑𝑖 ∈ [0,1] ∀𝑖 = Ranking de probabilidad de deserción del postulante i. Mientras menor la probabilidad de
deserción, mayor el valor de rd.
𝑟𝑝𝑖 ∈ [0,1] ∀𝑖 = Ranking de puntaje del postulante i. Mientras mayor el puntaje del postulante i, mayor el valor
de rp.
VARIABLES
1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 ℎ𝑎 𝑠𝑖𝑑𝑜 𝑎𝑐𝑒𝑝𝑡𝑎𝑑𝑜 𝑒𝑛 𝑒𝑙 𝑝𝑟𝑜𝑔𝑟𝑎𝑚𝑎 1

𝑋𝑖 = {
𝑑 ∈ ℝ = Variable auxiliar para ponderación de la deserción en la función objetivo.
𝑝 ∈ ℝ = Variable auxiliar para ponderación de los puntajes en la función objetivo.
FUNCIÓN OBJETIVO
max 𝑧 = 𝛽𝑑 + 𝑝
Donde 𝛽 = 2,6 para el Programa 1 y 𝛽 = 1,3 para el Programa 2.
RESTRICCIONES
1 – Límite de postulantes aceptados
Programa 1  ∑𝑖 𝑥𝑖 = 120 (1)
Programa 2  ∑𝑖 𝑦𝑖 = 80 (2)
Lado izquierdo: La sumatoria representa la suma total de los postulantes i al programa 1 (o al programa 2), los
cuales pueden ser seleccionados y tomar valor 1, o en caso contrario tomar valor 0.
Lado derecho: El número 120 en la ecuación 1 y el 80 en la ecuación 2 representa el límite de postulantes que
pueden ser aceptados en el Programa 1 y Programa 2 respectivamente.
Pg. 11
La relación es de igualdad ya que se desea que los postulantes i al programa 1 y programa 2 aceptados sean
exactamente 120 y 80 respectivamente.
2 – Selección adecuada de postulantes y programas
Programa 1  ∑𝑖 𝑥𝑖 · 𝑝1𝑖 = 120 (3)
Programa 2  ∑𝑖 𝑦𝑖 · (1 − 𝑝1𝑖 ) = 80 (4)
Lado izquierdo: Muestra la multiplicación entre los postulantes i al programa 1 o 2 y si el postulante optó por el
programa 1 o no.
Lado derecho: El número 120 en la ecuación 3 y el número 80 en la ecuación 4 representan el número de

postulantes que debieron ser aceptados en el Programa 1 y 2 respectivamente.
Es una relación de igualdad porque debe existir coherencia entre la aceptación del postulante i al programa 1 o 2
y si este postulante i optó por dicho programa.
3 – Cuotas de género
∑𝑖 𝑥𝑖 ·𝑠𝑒𝑥𝑜𝑖
Programa 1  40% ≤ 120
≤ 50% (5)
∑𝑖 𝑦𝑖 ·𝑠𝑒𝑥𝑜𝑖
Programa 2  40% ≤ 80
≤ 50% (6)
Lado izquierdo y derecho de la ecuación: El porcentaje de la izquierda 40%, representa el mínimo de mujeres que
deben ser seleccionadas, mientras que el lado derecho 50% es el porcentaje máximo de mujeres que deben ser
seleccionadas.
Ecuación central: Es la sumatoria de la multiplicación entre los postulantes i al programa 1 o programa 2 y el sexo
del postulante i. Se divide por 120 en la ecuación 5 y por 80 en la ecuación 6 ya que este es el número total de
postulantes seleccionados al programa 1 y 2 respectivamente para obtener el porcentaje de mujeres.
La relación entre la ecuación central y la parte izquierda del problema es que esta última debe ser menor o igual
al porcentaje de mujeres seleccionadas, y la ecuación central debe ser menor o igual al lado derecho de la
ecuación, obteniendo un rango entre 40% y 50% de mujeres seleccionadas al Programa 1 y el Programa 2.
Pg. 12
4 – Cuotas de equidad
∑𝑖 𝑥𝑖 ·𝑚𝑢𝑛𝑖𝑖
Programa 1  120
≥ 30% (7)
∑𝑖 𝑥𝑖 ·𝑐𝑝𝑠𝑖
120
≥ 30% (8)
∑𝑖 𝑥𝑖 ·𝑖𝑜𝑖
120
≥ 20% (9)
∑𝑖 𝑦𝑖 ·𝑚𝑢𝑛𝑖𝑖
Programa 2  80
≥ 30% (10)
∑𝑖 𝑦𝑖 ·𝑐𝑝𝑠𝑖
≥ 30% (11)
80
∑𝑖 𝑦𝑖 ·𝑖𝑜𝑖
≥ 10% (12)
80
Alumnos de colegios municipales.
Lado izquierdo: Muestra la sumatoria de la multiplicación entre el postulante i al programa 1 o 2 y si el estudiante

i proviene de colegio municipal o no. La sumatoria de todos ellos está dividida por 120 en la ecuación 7 y por 80
en la ecuación 10, que corresponde al número total de postulantes seleccionados al programa 1 y 2
respectivamente.
Lado derecho: corresponde a 30% que es el porcentaje de alumnos seleccionados que deben pertenecer a
colegios municipales.
El operador lógico es mayor o igual ya que el porcentaje de alumnos seleccionados provenientes de colegios
municipales debe ser como mínimo 30% de acuerdo a lo que solicita la Universidad.
Alumnos de colegios particulares subvencionados.
Lado izquierdo: Muestra la sumatoria de la multiplicación entre el postulante i al programa 1 o 2 y si el estudiante

i proviene de colegio particular subvencionado o no. La sumatoria de todos ellos está dividida por 120 en la
ecuación 8 y por 80 en la ecuación 11, que corresponde al número total de postulantes seleccionados al programa
1 y 2 respectivamente.
Lado derecho: Es el 30% que es el porcentaje de alumnos seleccionados que deben pertenecer a colegios
particulares subvencionados.
Pg. 13
El operador lógico es mayor o igual ya que el porcentaje de alumnos seleccionados que deben pertenecer a
colegios particulares subvencionados debe ser como mínimo 30% para cada programa de acuerdo a lo que solicita
la Universidad.
Alumnos con indicador para Igualdad de Oportunidades.
Lado izquierdo: Muestra la sumatoria de la multiplicación entre el postulante i al programa 1 o 2 y si éste califica
dentro del indicador de igualdad de oportunidades o no. La sumatoria de todos ellos está dividido por 120 en la
ecuación 9 y por 80 en la ecuación 12, que corresponde al número total de postulantes seleccionados al programa
1 y 2 respectivamente.
Lado derecho: El 20% de la ecuación 9 y el 10 % de la ecuación 12 corresponden al porcentaje de alumnos

seleccionados que deben calificar dentro del indicador de igualdad de oportunidades para el Programa 1 y el
Programa 2 respectivamente.
El operador lógico es mayor o igual ya que el porcentaje de alumnos seleccionados que deben calificar en el
indicador de igualdad de oportunidades debe ser como mínimo 20% y 10 % para el Programa 1 y 2
respectivamente, según lo que solicita la Universidad.
5 – Cuotas de deportistas y gente de regiones
∑𝑖 𝑥𝑖 ·𝑛𝑜𝑟𝑚𝑖
Programa 1  ≥ 30% (13)
120
∑𝑖 𝑥𝑖 ·𝑑𝑒𝑝𝑜𝑟𝑡𝑒𝑖
120
≥ 5% (14)
∑𝑖 𝑦𝑖 ·𝑛𝑜𝑟𝑚𝑖
Programa 2  80
≥ 30% (15)
Alumnos de Región.
Lado izquierdo: Representa la sumatoria de la multiplicación entre los postulantes seleccionados al Programa 1 o
2 y si el alumno es de región o no. Esto está dividido por 120 en la ecuación 13 y 80 en la ecuación 15 ya que este
es el número total de alumnos que se seleccionaron para el Programa 1 y 2 respectivamente
Lado derecho: Corresponde a un 30% que es el porcentaje solicitado por la Universidad de alumnos de región que
deben ser seleccionados para cada uno de sus programas académicos
Pg. 14
El operador lógico es mayor o igual ya que la Universidad solicita un mínimo de estudiantes de región
seleccionados para cada uno de los programas.
Alumnos Deportistas.
Lado izquierdo: Representa la sumatoria de los estudiantes seleccionados al programa 1 y si éste es deportista o
no. Está dividido por 120 en la ecuación 14 que es el número total de alumnos seleccionados para el Programa 1.
Lado derecho: Corresponde a un 5% que es el porcentaje solicitado por la Universidad de alumnos deportistas
seleccionados a su Programa 1.
El operador lógico es mayor o igual ya que la Universidad solicita un mínimo de estudiantes deportistas
seleccionados para su Programa 1.
6 – Relación entre variables auxiliares y variables de selección
Programa 1  𝑑 ≤ 𝑥𝑖 · 𝑟𝑑𝑖 + (1 − 𝑥𝑖 ) · 𝑀 ∀𝑖 (16)
𝑝 ≤ 𝑥𝑖 · 𝑟𝑝𝑖 + (1 − 𝑥𝑖 ) · 𝑀 ∀𝑖 (17)
Programa 2  𝑑 ≤ 𝑦𝑖 · 𝑟𝑑𝑖 + (1 − 𝑦𝑖 ) · 𝑀 ∀𝑖 (18)
𝑝 ≤ 𝑦𝑖 · 𝑟𝑝𝑖 + (1 − 𝑦𝑖 ) · 𝑀 ∀𝑖 (19)
Ecuación 16 y 18.
Lado izquierdo: d es la variable auxiliar que queremos que sea maximizada y, por ende, fuerce la más alta
probabilidad de deserción de entre los seleccionados hacia abajo cosa que parece contra intuitiva, pero se explica
a continuación.
Lado derecho: Ya que al maximizar d queremos empujar hacia abajo la más alta probabilidad de deserción de
entre los seleccionados, se requiere invertir el comportamiento de esta última, lo cual se logra utilizando un
ranking invertido en donde 0 implica que se trata del postulante con mayor probabilidad de deserción, y 1 apunta
al postulante que presenta la menor probabilidad de deserción dentro de la lista total de postulantes. Con esto
en mano, se utiliza el mecanismo de selección para activar dicho ranking en el caso de los seleccionados y, por el
contrario, la antítesis de este mecanismo para que junto a la constante M se elevan drásticamente los rankings
Pg. 15
de quienes no son seleccionados, a modo de que el mínimo de todo lo anterior sea igual al peor ranking de
deserción de entre los seleccionados, el cual se pretende maximizar posteriormente.
Operador lógico: Ya que esta es una variable que será maximizada y se plantea como que empujara por debajo
yendo hacia arriba al resto de la inecuación, es que se utiliza el operador menor o igual que.
Ecuación 17 y 19.
Lado izquierdo: p es la variable que representa el puntaje de corte, el cual se maximizará en la función objetivo.
Lado derecho: Representa el mínimo puntaje dentro de los seleccionados. Se utiliza el mecanismo de selección
para activar aquellos puntajes, y su antítesis para elevar por sobre los seleccionados los puntajes de los que no
son convocados, a modo de que el mínimo de todo lo anterior sea efectivamente el puntaje de corte. La lógica de
esta restricción se mantiene respecto a la deserción en lo que respecta a la utilización de un ranking (1 es el mejor
y 0 es el peor puntaje de todos los postulantes).
Operador lógico: Este es menor o igual que el lado derecho de la inecuación, pues se intenta maximizar dicho
lado, que es la definición del puntaje de corte.
7 – Naturaleza de las variables
Programa 1  𝑥𝑖 ∈ {0,1} ∀𝑖 (20)
𝑑, 𝑝 ∈ ℝ (21)
Programa 2  𝑦𝑖 ∈ {0,1} ∀𝑖 (21)
𝑑, 𝑝 ∈ ℝ (22)
Estas restricciónes fija el dominio de cada tipo de variable definida en el modelo, mostrando que la primera
variable debe ser binaria y solo tomar valor 1 en el caso que la decisión sea positiva y 0 en caso contrario (tal como
se muestra con mayor detalle en la sección de “Variables”). Por otro lado, las variables p y r pueden tomar valores
reales.
Pg. 16
4. PREDICCIÓN DE LA DESERCIÓN
En esta sección se describe el proceso para la construcción del modelo de predicción de la deserción de los
postulantes del año 2017, donde se utilizó el proceso de Minería de Datos KDD (Knowledge Discovery in
Databases), que consiste en el descubrimiento de conocimiento e información relevante en la base de datos
proporcionada, donde se puede obtener relaciones entre un gran número de datos. Este proceso consta de los
siguientes pasos:
• Selección: Luego del análisis estadístico y exploratorio de los datos, no se pudo obtener a priori qué variables
eran determinantes a la hora de predecir si un alumno deserta o no. Sin embargo, la correlación de ciertas
variables con la variable target fue utilizada como criterio de selección. Las variables seleccionadas, junto con
su coeficiente de correlación se pueden ver en la Tabla 6 y 7 a continuación.
Coef. De
Parámetro
Correlación
AÑO_EGRESO_ENSEÑANZA_MEDIA 0,128187772
FinanciamientoTRABAJOPERSONAL1 0,09706187
TipoIngresoDEPORTISTA 0,096403096
EducacionMadreSINESTUDIOS2 0,087016953
MASCULINO 0,08249893
FEMENINO 0,08249893
Edad 0,077512382
FECHA_NACIMIENTO 0,076469347
EducacionMadreBASICAIMCOMPLETA2 0,075014497
FinanciamientoPRESTAMO1 0,072376298
METROPOLITANA 0,071805711
REGION 0,071805711
TrabajoMadreNOTRABAJA2 0,071024625
ConQuienViveFAMILIARES 0,067570672
SinteticaNOTRABAJA 0,066722605
SinteticaTRABAJA 0,066722605
TipoIngresoREGULAR 0,064002765
SinteticaNOREGULAR 0,064002765
TrabajoPadreJUBILADOPENSIONADO1 0,060058541
Tabla 6 - Programa 1
Pg. 17
Coef. De
Parámetro
Correlación
GrupoDependenciaPRIVADO 0,160995001
MASCULINO 0,139599419
FEMENINO 0,139599419
RegimenREGMFEM 0,128249561
GrupoDependenciaSUBVENCIONADO 0,126992041
INGRESO_BRUTO_FAMILIAR 0,119580236
RegimenREGMASC 0,106606117
PTJE_CIENCIAS 0,097545839
PTJE_HISTORIA_Y_CIENCIAS_SOCIALES 0,095326885
EducacionPadreBASICACOMPLETA1 0,089081968
EducacionPadreUCOMPLETO1 0,086560207
SinteticaMEducacionSuperior 0,072897064
SinteticaMEducacionBasica 0,072897064
EducacionMadreUCOMPLETO2 0,07000593
RamaEducacionalHUMCIENTNOCTURNO 0,069164165
FinanciamientoPRESTAMO2 0,066741424
EstadoCivilSOLTERO 0,065812713
PROMEDIO_NOTAS 0,065441485
TrabajoPadreNOTRABAJA1 0,063764034
RamaEducacionalTECPROFCOM 0,061179751
JEFEFAMILIAR 0,060227937
• Preprocesamiento: En el preprocesamiento, solo se encontró un valor en negativo para el puntaje de

matemática. Este, por simplicidad, fue reemplazado por el promedio de toda la base, ya que, al no ser un
alumno desertor, el dato no tenía mayor relevancia. Se detectan también otras inconsistencias en la base
como, por ejemplo, financiamiento de padres cuando se detectan ambos muertos, pero para mantener la
consistencia de la base no se modificaron más elementos. Queda propuesta la reformulación de la base y la
validación de los datos obtenidos.
• Transformación: Las variables que provienen de los archivos E y G de la base PSU se encuentran usualmente
codificadas, una variable contiene información de elementos distintos. Por ejemplo, la variable “tipo colegio”
o “grupo dependencia” contenía en si misma tres valores diferentes, considerando los colegios particulares,
Pg. 18
subvencionados y municipales. Para lograr incorporar esta información al modelo, se separó la variable en
múltiples subvariables pertenecientes a cada elemento de la variable inicial. Es decir, cada grupo
dependencia fue convertido en una variable única dummy. Para esto se creó una base de datos con la planilla
Excel entregada y se realizaron las modificaciones asociadas con el software SQL Management.
Luego, para encontrar la mejor predicción se utilizaron tres modelos predictivos que son: Redes Neuronales,
Regresión Logística y Regresión lineal. A continuación, se explica en detalle cada una de ellas para luego mostrar
la elección del mejor modelo.
Redes Neuronales: El primer modelo que se probó fue el de Redes Neuronales que recibe su nombre debido a la
similitud con el funcionamiento neuronal del ser humano, ya que consiste en una amplia red de unidades
interconectadas que generan una gran red. Al aplicar este modelo en la base de datos históricos se obtuvo los
resultados de la Tabla 8 para el Programa 1 y de la Tabla 9 para el Programa 2.
NN -P1 true D true NoD

pred. D 39 22
pred. NoD 273 1123
NN - P2 true D true NoD

pred. D 98 120
pred. NoD 177 282
Regresión Lineal: Este modelo permite hallar el valor de una variable aleatoria, cuando las variables
independientes toman cierto valor. Al aplicar este modelo en la base de datos históricos se obtuvo los resultados
de la Tabla 10 para el Programa 1 y de la Tabla 11 para el Programa 2.
RL - P1 true D true NoD

pred. D 16 5
pred. NoD 296 1140
Pg. 19
RL - P2 true D true NoD

pred. D 48 57
pred. NoD 227 345
Regresión logística: Este modelo se utiliza cuando se desea predecir la presencia o ausencia de una característica
según los valores de un conjunto de predictores y está diseñado para modelos donde la variable dependiente es
dicotómica. Al aplicar este modelo en la base de datos históricos se obtuvo los resultados de la Tabla 12 para el
Programa 1 y de la Tabla 13 para el Programa 2.
RLOG - P1 true D true NoD

pred. D 15 10
pred. NoD 297 1135
RLOG - P2 true D true NoD

pred. D 12 22
pred. NoD 263 380
Elección del mejor modelo:
De acuerdo a los resultados obtenidos, se escogió el mejor modelo de predicción para cada programa académico
de acuerdo a los criterios de precisión de cada modelo y por medio de una matriz de confusión, se dio más
importancia a aquellos modelos que predicen de mejor manera cuando un alumno será desertor. De acuerdo a
lo anterior, se obtuvo como resultado que el mejor modelo de predicción para el Programa 1 es Redes Neuronales,
y para el Programa 2 Regresión Lineal
Pg. 20
5. SOLUCIÓN DEL MODELO MATEMATICO
En esta sección se muestra los resultados obtenidos de la resolución del modelo de programación lineal utilizando
la herramienta Gams (ver Anexo 1 para conocer el código ejecutado).
Los resultados obtenidos se muestran en la Tabla 14 para el programa 1 y Tabla 15 para el programa 2.
Programa 1
Criterio % Seleccionado
Mujer 40%
Municipal 30%
Particular Subvencionado 30%
Igualdad de Oportunidad 20%
De regiones 30%
Deportista 5%
Programa 2
Criterio % Seleccionado
Mujer 45,0%
Municipal 30,0%
Particular Subvencionado 30,0%
Igualdad de Oportunidad 10,0%
De regiones 30,0%
Acá se muestra que se cumplieron todas las restricciones solicitadas por la Universidad para cada programa
académico, tales como porcentaje de mujeres, porcentaje de alumnos provenientes de colegios municipales,
porcentaje de alumnos provenientes de colegios particulares subvencionados, porcentaje de alumnos que
califican como igualdad de oportunidades, porcentaje de alumnos que vienen de regiones y porcentaje de
alumnos que son deportistas.
Pg. 21
6. COMPARACIÓN METODO DE SELECCIÓN MANUAL Y ENFOQUE PROPUESTO
Si se hace una solución manual (bajo el supuesto de que no se aplican técnicas de inteligencia de negocios), solo
se hace factible en términos prácticos hacer un corte por ordenamiento de puntajes ponderados. Así se tiene que
no se cumplen las restricciones de cuotas para los diferentes programas. Por el lado positivo, podemos destacar
que el puntaje de corte para cada programa sube moderadamente. Sin embargo, la deserción del conjunto de
seleccionados empeora en alrededor de un 30% analizándolo en torno a ambas formulaciones. A continuación,
se pueden observar los rendimientos de los indicadores rd el programa 2 en lo que es solución manual y solución
por enfoque de inteligencia de negocios. Nótese que a menor cada número, peor el rendimiento en dicho aspecto.
rd Manual B.I.
Programa 2 0.47 0.67
Pg. 22
7. DISCUSIONES DE LOS SUPUESTOS UTILIZADOS
Para la realización de este trabajo, se determinaron diferentes supuestos que se mantuvieron a lo largo de la
investigación y que fueron necesarios para la resolución del problema de selección de los postulantes al año 2017.
A continuación, se da detalle de cada uno de ellos y algunas conclusiones respecto a qué ocurriría si estos
supuestos se dejaran de considerar.
• Supuesto 1: Homogeneidad en las generaciones
Al momento de realizar la predicción se dio como supuesto que el comportamiento de los datos históricos a lo
largo de los años es el mismo. Esto quiere decir que por ejemplo la generación 2015, tiene el mismo
comportamiento y las mismas características que la generación 2016. Lo anterior fue necesario para la resolución
del problema de selección de postulantes ya que se simplificó la realidad para poder utilizar las herramientas
tecnológicas disponibles
Si no se hubiese determinado este supuesto, habría surgido la necesidad de utilizar un modelo que detectase las
variables que mejor predicen en cada generación, y de esta manera obtener un modelo predictivo más certero
en cada generación.
• Supuesto 2: PPL se plantea suponiendo que la Minería de Datos es 100% certera.
La segunda parte para seleccionar los postulantes corresponde a un Problema de Programación Lineal, que se
formula bajo el supuesto de que la predicción entregada por el proceso de minería de datos es certera en un
100%. Esto quiere decir que el Problema de Programación Lineal no considera errores en la predicción y por ende
calcula un óptimo suponiendo certeza. De no tener este supuesto, se debería establecer una función objetivo que
incluyese por ejemplo probabilidades relacionadas con la certeza de la predicción.
Pg. 23
8. CONCLUSIONES Y DISCUSIONES
La actual selección de postulantes para la Universidad estudiada provoca distintos problemas para la institución
debido a la deserción de sus alumnos que provocan costos para ésta y para el país. Los procesos de minería de
datos junto con un Problema de Programación Lineal son capaces de realizar una selección que ayude a disminuir
estos índices de deserción obteniendo mejores resultados que un proceso manual de selección como se mostró
en ese trabajo.
A modo de conclusión de esta investigación, se analizan las decisiones y herramientas analíticas escogidas para
desarrollar este estudio para luego entregar recomendaciones respecto a la implementación de las soluciones
encontradas
En primer lugar, se puede concluir que, al aplicar distintos modelos de predicción, se deben establecer los distintos
criterios con los que se evaluará la decisión de escoger la mejor predicción, y luego considerar el trade-off de
escoger por ejemplo un modelo que tenga menor precisión pero que detecte mejor aquellos alumnos que
desertaron puede ser una buena alternativa de elección. Con esto se pudo determinar que el mejor modelo para
el Programa 1 fue el de Redes Neuronales y el mejor modelo para el Programa 2 fue Regresión Lineal.
Además, el objetivo de minimizar el número de desertores debía complementarse con maximizar el puntaje de
corte del último seleccionado. Para esto, luego de analizar de posibles pesos donde se testearon y de acuerdo a
los resultados obtenidos y bajo juicio experto del equipo de trabajo, se dio peso a esos objetivos para obtener la
selección final de alumnos.
A modo de recomendación para la Universidad y en el proceso de selección de alumnos, se pudo encontrar

distintas características de los estudiantes seleccionados mostrados en la sección “Solución del Modelo
Matemático”. Esto ayudaría a obtener un menor número de desertores y por consecuencia disminuir los costos
que genera esta situación tanto para el estudiante y su familia como para el país y la Universidad.
Por otro lado, se recomienda ir actualizando constantemente los datos históricos ya que en este modelo se dio
como supuesto que los datos eran iguales para todas las generaciones. Esto podría ayudar a tener predicciones
más precisas y seleccionar de acuerdo a las características reales de los estudiantes cada año.
Además de lo anterior, es inevitable que cada año exista la predicción de que algunos alumnos seleccionados van
a desertar, sin embargo, se pueden tomar acciones en este aspecto como por ejemplo realizar un seguimiento de
Pg. 24
aquellos alumnos que se predice puedan desertar como por ejemplo programas de apoyo académico, apoyo
psicológico y apoyo en otros aspectos relevantes del alumno. Con esto también se podría disminuir el índice de
deserción y lograr disminuir los costos que esto implica
Pg. 25
BIBLIOGRAFÍA
Vásquez, J. (s.f.). “Modelo Predictivo para estimar la deserción de estudiantes en una institución de educación
superior”.
Pg. 26
(Vásquez)
Pg. 27
9. ANEXOS
Anexo 1 (Código Gams Ejecutado)
SET
i conjunto de postulantes /1*548/
j conjunto de valores a testear en constante parametrizada beta /1*30/
SCALARS
M auxiliar natural /1000/
B peso de variable d en funciones objetivos el cual varia segun iteracion en j /1/
PARAMETERS
p1(i) 1 si postulante i ha postulado al programa 1
sexo(i) 1 si postulante i es mujer
muni(i) 1 si el postulante i viene de colegio municipal
cps(i) 1 si el postulante i viene de colegio particular subvencionado
io(i) 1 si el postulante i califica dentro de indicador de igualdad de oportunidad
norm(i) 1 si el postulante i viene de una region que NO es RM
deporte(i) 1 si el postulante i es deportista destacado
rd(i) ranking invertido de pbb. de desercion del postulante i y a menor pbb. de desercion sera mayor rd
rp(i) ranking invertido de puntaje del postulante i y a mayor puntaje sera mayor rp
Pg. 28
beta(j) constante parametrizada para pesos en funcion objetivo
$include "inc\p1.inc";
$include "inc\sexo.inc";
$include "inc\muni.inc";
$include "inc\cps.inc";
$include "inc\io.inc";
$include "inc\norm.inc";
$include "inc\deporte.inc";
$include "inc\rd.inc";
$include "inc\rp.inc";
*Beta son 30 valores, que van desde 0.1 a 3.0
$include "inc\beta.inc";
VARIABLES
x(i) 1 si el postulante i ha sido aceptado en el programa 1
y(i) 1 si el postulante i ha sido aceptado en el programa 2
d variable auxiliar para la ponderacion de la desercion en la funcion objetivo
p variable auxiliar para la ponderacion del puntaje en la funcion objetivo
z F.O
Pg. 29
BINARY VARIABLES
POSITIVE VARIABLES
d,p
EQUATIONS
rest_1x Limite de postulantes aceptados x
rest_1y Limite de postulantes aceptados y
rest_2x Seleccion adecuada de postulantes y programas x
rest_2y Seleccion adecuada de postulantes y programas y
rest_3_1x Cuotas de genero 40 x
rest_3_1y Cuotas de genero 40 y
rest_3_2x Cuotas de genero 50 x
rest_3_2y Cuotas de genero 50 y

Pg. 30
rest_4_1x Cuotas equidad muni x
rest_4_1y Cuotas equidad muni y
rest_4_2x Cuotas equidad cps x
rest_4_2y Cuotas equidad cps y
rest_4_3x Cuotas equidad io x
rest_4_3y Cuotas equidad io y
rest_5_1x Cuotas especiales norm x
rest_5_1y Cuotas especiales norm y
rest_5_2x Cuotas especiales deporte
F1_rest_6_1x(i) Relacion d para formulacion 1 x
F1_rest_6_1y(i) Relacion d para formulacion 1 y
F2A_rest_6_1x Relacion d para formulacion 2 previa a normalizacion x
F2A_rest_6_1y Relacion d para formulacion 2 previa a normalizacion y
F2_rest_6_1x Relacion d para formulacion 2 posterior a normalizacion x
F2_rest_6_1y Relacion d para formulacion 2 posterior a normalizacion y
rest_6_2x(i) Relacion p x
rest_6_2y(i) Relacion p y
FA_FO_d Funcion objetivo formulaciones de testeo o normalizacion para d
FA_FO_p Funcion objetivo formulaciones de testeo o normalizacion para p
FO Funcion objetivo final
;
Pg. 31
rest_1x.. sum(i, x(i)) =E= 120;
rest_1y.. sum(i, y(i)) =E= 80;
rest_2x.. sum(i, x(i)*p1(i)) =E= 120;
rest_2y.. sum(i, y(i)*(1-p1(i))) =E= 80;
rest_3_1x.. sum(i, x(i)*sexo(i))/120 =G= 0.4;
rest_3_1y.. sum(i, y(i)*sexo(i))/80 =G= 0.4;
rest_3_2x.. sum(i, x(i)*sexo(i))/120 =L= 0.5;
rest_3_2y.. sum(i, y(i)*sexo(i))/80 =L= 0.5;
rest_4_1x.. sum(i, x(i)*muni(i))/120 =G= 0.3;
rest_4_1y.. sum(i, y(i)*muni(i))/80 =G= 0.3;
rest_4_2x.. sum(i, x(i)*cps(i))/120 =G= 0.3;
rest_4_2y.. sum(i, y(i)*cps(i))/80 =G= 0.3;
rest_4_3x.. sum(i, x(i)*io(i))/120 =G= 0.2;
rest_4_3y.. sum(i, y(i)*io(i))/80 =G= 0.1;
rest_5_1x.. sum(i, x(i)*norm(i))/120 =G= 0.3;
rest_5_1y.. sum(i, y(i)*norm(i))/80 =G= 0.3;
rest_5_2x.. sum(i, x(i)*deporte(i))/120 =G= 0.05;
F1_rest_6_1x(i).. d =L= x(i)*rd(i)+(1-x(i))*M;
F1_rest_6_1y(i).. d =L= y(i)*rd(i)+(1-y(i))*M;

Pg. 32
F2A_rest_6_1x.. d =E= sum(i, x(i)*rd(i));
F2A_rest_6_1y.. d =E= sum(i, y(i)*rd(i));
*Normalizada
F2_rest_6_1x.. d =E= 0.18*(((sum(i, x(i)*rd(i)))-16.03)/46.61);
*Normalizada
F2_rest_6_1y.. d =E= 0.68*(((sum(i, y(i)*rd(i)))-61.29)/10.51);
rest_6_2x(i).. p =L= x(i)*rp(i)+(1-x(i))*M;
rest_6_2y(i).. p =L= y(i)*rp(i)+(1-y(i))*M;
FA_FO_d.. z =E= d;
FA_FO_p.. z =E= p;
FO.. z =E= B*d + p;
*Bases para todos los modelos
model basex Modelo base para programa 1 /

rest_1x,rest_2x,rest_3_1x,rest_3_2x,rest_4_1x,rest_4_2x,rest_4_3x,rest_5_1x,rest_5_2x/;
model basey Modelo base para programa 2 /

rest_1y,rest_2y,rest_3_1y,rest_3_2y,rest_4_1y,rest_4_2y,rest_4_3y,rest_5_1y /;
*F1A - Para cada componente, testeo y comprobacion de logica del modelo
model F1Ax_d Formulacion 1 d programa 1 / basex, F1_rest_6_1x,rest_6_2x,FA_FO_d /;
model F1Ax_p Formulacion 1 p programa 1 / basex, F1_rest_6_1x,rest_6_2x,FA_FO_p /;
model F1Ay_d Formulacion 1 d programa 2 / basey, F1_rest_6_1y,rest_6_2y,FA_FO_d /;
model F1Ay_p Formulacion 1 p programa 1 / basey, F1_rest_6_1y,rest_6_2y,FA_FO_p /;

Pg. 33
*F1
model F1x Formulacion 1 programa 1 / basex, F1_rest_6_1x,rest_6_2x,FO /;
model F1y Formulacion 1 programa 2 / basey, F1_rest_6_1y,rest_6_2y,FO /;
*F2A - Pre normalizacion
model F2Ax_d Formulacion 2 pre normalizacion d programa 1 / basex, F2A_rest_6_1x,FA_FO_d /;
model F2Ax_p Formulacion 2 pre normalizacion p programa 1 / basex, rest_6_2x,FA_FO_p /;
model F2Ay_d Formulacion 2 pre normalizacion d programa 2 / basey, F2A_rest_6_1y,FA_FO_d /;
model F2Ay_p Formulacion 2 pre normalizacion p programa 2 / basey, rest_6_2y,FA_FO_p /;
*F2 - Post normalizacion
model F2x Formulacion 2 programa 1 / basex, F2_rest_6_1x,rest_6_2x,FO /;
model F2y Formulacion 2 programa 2 / basey, F2_rest_6_1y,rest_6_2y,FO /;
*Hacer archivos para exponer resultados
file AD_1X /"out\X\tests\D_1.txt"/;
file AP_1X /"out\X\tests\P_1.txt"/;
file AD_1Y /"out\Y\tests\D_1.txt"/;
file AP_1Y /"out\Y\tests\P_1.txt"/;
file AD_2X /"out\X\tests\D_2.txt"/;
file AP_2X /"out\X\tests\P_2.txt"/;
file AD_2Y /"out\Y\tests\D_2.txt"/;

Pg. 34
file AP_2Y /"out\Y\tests\P_2.txt"/;
file F_1X /"out\X\1.txt"/;
file F_2X /"out\X\2.txt"/;
file F_1Y /"out\Y\1.txt"/;
file F_2Y /"out\Y\2.txt"/;
*******************ORDEN DE OPERACIONES*******************
*Ejecutar en X y luego en Y
* Testear y pre-normalizar
* Optimizar F1A (MAX), obteniendo valores de d,p
* Optimizar F2A (MIN y MAX), obteniendo valores de d,p
*Modificar F2, codificando normalizacion
*Iterar en J
* Ejecutar en X y luego en Y
* Optimizar F1, obteniendo valores de d,p,x|y
* Optimizar F2, obteniendo valores de d,p,x|y
******************/ORDEN DE OPERACIONES*******************
******************RESOLUCION DE MODELOS*******************
***Etapa testeo y pre-normalizacion (X)
*Resolver F1A_d
Pg. 35
solve F1Ax_d USING MIP MAX z;
put AD_1X;
put "MAX d" / "z=" z.l / /;
*Resolver F1A_p
solve F1Ax_p USING MIP MAX z;
put AP_1X;
put "MAX p" / "z=" z.l / /;
*Resolver F2A_d
solve F2Ax_d USING MIP MAX z;
put AD_2X;
put "MAX d" / "z=" z.l / /;
solve F2Ax_d USING MIP MIN z;
put "MIN d" / "z=" z.l / /;
*Resolver F2A_p
solve F2Ax_p USING MIP MAX z;
put AP_2X;
put "MAX p" / "z=" z.l / /;
solve F2Ax_p USING MIP MIN z;
put "MIN p" / "z=" z.l / /;

Pg. 36
***Etapa testeo y pre-normalizacion (Y)
*Resolver F1A_d
solve F1Ay_d USING MIP MAX z;
put AD_1Y;
put "MAX d" / "z=" z.l / /;
*Resolver F1A_p
solve F1Ay_p USING MIP MAX z;
put AP_1Y;
put "MAX p" / "z=" z.l / /;
*Resolver F2A_d
solve F2Ay_d USING MIP MAX z;
put AD_2Y;
put "MAX d" / "z=" z.l / /;
solve F2Ay_d USING MIP MIN z;
put "MIN d" / "z=" z.l / /;
*Resolver F2A_p
solve F2Ay_p USING MIP MAX z;
put AP_2Y;
put "MAX p" / "z=" z.l / /;
solve F2Ay_p USING MIP MIN z;
put "MIN p" / "z=" z.l / /;

Pg. 37
***F2 debe tener codificada la normalizacion desde ahora en adelante
***Iterar en J
Loop(j,
B=beta(j);
** Etapa de obtencion de resultados de convocatoria (X)
* Resolver F1
solve F1x USING MIP MAX z;
put F_1X;
put "Corrida #" j.tl / "z=" z.l / "B=" B / "d=" d.l / "p=" p.l / "Valor x_i" / ;
loop(i,
put x.l(i) /;
);
put / /;
* Resolver F2
solve F2x USING MIP MAX z;
put F_2X;
put "Corrida #" j.tl / "z=" z.l / "B=" B / "d=" d.l / "p=" p.l / "Valor x_i" / ;
loop(i,
Pg. 38
put x.l(i) /;
);
put / /;
** Etapa de obtencion de resultados de convocatoria (Y)
* Resolver F1
solve F1y USING MIP MAX z;
put F_1Y;
put "Corrida #" j.tl / "z=" z.l / "B=" B / "d=" d.l / "p=" p.l / "Valor y_i" / ;
loop(i,
put y.l(i) /;
);
put / /;
* Resolver F2
solve F2y USING MIP MAX z;
put F_2Y;
put "Corrida #" j.tl / "z=" z.l / "B=" B / "d=" d.l / "p=" p.l / "Valor y_i" / ;
loop(i,
put y.l(i) /;
);
put / /;
);

Selección de Postulantes A Universidades A Través de La Inteligencia de Negocios

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Selección de Postulantes A Universidades A Través de La Inteligencia de Negocios

Enviado por

Direitos autorais:

Formatos disponíveis

Pg.

Resumen ejecutivo ................................................................................................................................................................II

Aproximación hacia el problema y su solución ............................................................................................................ 1

Estructura del documento .............................................................................................................................................. 2

2. análisis estadístico y exploratorio de los datos ........................................................................................................ 4

3. FORMULACIÓN DEL MODELO MATEMÁTICO ......................................................................................................... 9

Índice (Aplica tanto para Programa 1 y Programa 2)................................................................................................... 9

Constantes (Aplican todas tanto para Programa 1 y Programa 2)............................................................................. 9

Parámetros (aplican para programa 1 y programa 2, excepto parametro “) ........................................................... 9

función objetivo ............................................................................................................................................................. 10

4. PREDICCIÓN DE LA DESERCIÓN ............................................................................................................................... 16

5. SOLUCIÓN DEL MODELO MATEMATICO................................................................................................................ 20

6. cOMPARACIÓN METODO DE SELECCIÓN MANUAL Y ENFOQUE PROPUESTO................................................. 21

7. DISCUSIONES DE LOS SUPUESTOS UTILIZADOS .................................................................................................... 22

8. Conclusiones y discusiones ...................................................................................................................................... 23

APROXIMACIÓN HACIA EL PROBLEMA Y SU SOLUCIÓN

ESTRUCTURA DEL DOCUMENTO

• Análisis estadístico y exploratorio de los datos

• Formulación del modelo matemático

• Solución del modelo matemático

• Comparación método de selección manual y modelo propuesto

• Discusiones de supuestos utilizados

2. ANÁLISIS ESTADÍSTICO Y EXPLORATORIO DE LOS DATOS

Programa Ingreso Sexo Total Desertores % % del Total

Programa Ingreso Grupo Dependencia Total Desertores % % del Total

Ingreso Bruto Total Desertores % % del Total

Ingreso Bruto Total Desertores % % del Total

Programa Ingreso Nivel Educacional Total Desertores % % del Total

3. FORMULACIÓN DEL MODELO MATEMÁTICO

Para poder resolver el problema de la Universidad de la selección de alumnos, se genera un Problema de

ÍNDICE (APLICA TANTO PARA PROGRAMA 1 Y PROGRAMA 2)

CONSTANTES (APLICAN TODAS TANTO PARA PROGRAMA 1 Y PROGRAMA 2)

M = 1000  Constante auxiliar para la formulación de algunas restricciones.

PARÁMETROS (APLICAN PARA PROGRAMA 1 Y PROGRAMA 2, EXCEPTO PARAMETRO “)

1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 ℎ𝑎 𝑜𝑝𝑡𝑎𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑝𝑟𝑜𝑔𝑟𝑎𝑚𝑎 1

1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑝𝑟𝑜𝑣𝑖𝑒𝑛𝑒 𝑑𝑒 𝑢𝑛 𝑐𝑜𝑙𝑒𝑔𝑖𝑜 𝑚𝑢𝑛𝑖𝑐𝑖𝑝𝑎𝑙

1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑝𝑟𝑜𝑣𝑖𝑒𝑛𝑒 𝑑𝑒 𝑢𝑛 𝑐𝑜𝑙𝑒𝑔𝑖𝑜 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑟 𝑠𝑢𝑏𝑣𝑒𝑛𝑐𝑖𝑜𝑛𝑎𝑑𝑜

1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑐𝑎𝑙𝑖𝑓𝑖𝑐𝑎 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒𝑙 𝑖𝑛𝑑𝑖𝑐𝑎𝑑𝑜𝑟 𝑑𝑒 𝑖𝑔𝑢𝑎𝑙𝑑𝑎𝑑 𝑑𝑒 𝑜𝑝𝑜𝑟𝑡𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠

1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑝𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒 𝑎 𝑢𝑛𝑎 𝑟𝑒𝑔𝑖ó𝑛 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑎 𝑎 𝑙𝑎 𝑀𝑒𝑡𝑟𝑜𝑝𝑜𝑙𝑖𝑡𝑎𝑛𝑎

1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 𝑒𝑠 𝑑𝑒𝑝𝑜𝑟𝑡𝑖𝑠𝑡𝑎 𝑑𝑒𝑠𝑡𝑎𝑐𝑎𝑑𝑜

1 𝑠𝑖 𝑒𝑙 𝑝𝑜𝑠𝑡𝑢𝑙𝑎𝑛𝑡𝑒 𝑖 ℎ𝑎 𝑠𝑖𝑑𝑜 𝑎𝑐𝑒𝑝𝑡𝑎𝑑𝑜 𝑒𝑛 𝑒𝑙 𝑝𝑟𝑜𝑔𝑟𝑎𝑚𝑎 1

𝑑 ∈ ℝ = Variable auxiliar para ponderación de la deserción en la función objetivo.

𝑝 ∈ ℝ = Variable auxiliar para ponderación de los puntajes en la función objetivo.

Donde 𝛽 = 2,6 para el Programa 1 y 𝛽 = 1,3 para el Programa 2.

1 – Límite de postulantes aceptados

Programa 1  ∑𝑖 𝑥𝑖 = 120 (1)

2 – Selección adecuada de postulantes y programas

Programa 1  ∑𝑖 𝑥𝑖 · 𝑝1𝑖 = 120 (3)

Programa 2  ∑𝑖 𝑦𝑖 · (1 − 𝑝1𝑖 ) = 80 (4)

Lado derecho: El número 120 en la ecuación 3 y el número 80 en la ecuación 4 representan el número de

Alumnos de colegios municipales.

Lado izquierdo: Muestra la sumatoria de la multiplicación entre el postulante i al programa 1 o 2 y si el estudiante

Alumnos de colegios particulares subvencionados.

Lado izquierdo: Muestra la sumatoria de la multiplicación entre el postulante i al programa 1 o 2 y si el estudiante

Alumnos con indicador para Igualdad de Oportunidades.

Lado derecho: El 20% de la ecuación 9 y el 10 % de la ecuación 12 corresponden al porcentaje de alumnos

5 – Cuotas de deportistas y gente de regiones

6 – Relación entre variables auxiliares y variables de selección

Programa 1  𝑑 ≤ 𝑥𝑖 · 𝑟𝑑𝑖 + (1 − 𝑥𝑖 ) · 𝑀 ∀𝑖 (16)

Programa 2  𝑑 ≤ 𝑦𝑖 · 𝑟𝑑𝑖 + (1 − 𝑦𝑖 ) · 𝑀 ∀𝑖 (18)

7 – Naturaleza de las variables

Programa 1  𝑥𝑖 ∈ {0,1} ∀𝑖 (20)

Programa 2  𝑦𝑖 ∈ {0,1} ∀𝑖 (21)