Escolar Documentos
Profissional Documentos
Cultura Documentos
ANáLISIS DEL CREDIT SCORING
ANáLISIS DEL CREDIT SCORING
RESUMEN
El problema de la morosidad está cobrándose una gran obvia en este tipo de estudios. Además proponemos la
importancia en los países desarrollados. En este trabajo distinción de tres tipos de solicitudes dependiendo de
realizamos un análisis de la capacidad predictiva de dos su probabilidad cumplimiento: conceder, no conceder
modelos paramétricos y uno no paramétrico abordando, (de forma automática), y dudoso y, por consiguiente,
en este último, el problema del sobreaprendizaje me- proceder a su estudio manual por parte del personal
diante la validación cruzada que, muy habitualmente, se bancario.
PALABRAS CLAVE: Clasificación crediticia, logit, análisis discriminante, árboles de clasificación, validación cruzada.
Resumo O problema dos atrasos em pagamentos vem adquirindo grande importância nos países desenvolvidos. Neste trabalho, realizamos
uma análise da capacidade preditiva de dois modelos paramétricos e de um não paramétrico, abordando, neste último, o problema da
sobreaprendizagem mediante a validação cruzada, o qual é muito frequentemente negligenciado nesse tipo de estudo. Além disso, propomos
a distinção de três tipos de pedido conforme sua probabilidade de cumprimento – conceder, não conceder (de forma automática) e duvidoso
– e, por conseguinte, realizar seu estudo manual por parte do pessoal bancário.
Palavras-chave: Classificação de crédito, logit, análise discriminante, árvores de classificação, validação cruzada.
Abstract The problem of unpaid bank debts is becoming increasingly important in developed countries. Many empirical works are being published in an
attempt to find a model capable of determining as accurately as possible whether an individual requesting a loan will be able to pay it back. This paper
analyses the predicting capability of one non-parametric and two parametric models. As regards the former, the often-overlooked problem of overlearning is
also tackled using the cross-validation technique. Furthermore, a three-level grading of loan applications is proposed depending on their likely performance:
grant, refuse, or doubtful hence subject to manual consideration by bank staff.
Keywords: Credit scoring, logit, discriminant analysis, classification trees, cross-validation.
un crédito: conceder o rechazar de forma automática hipótesis de partida cuando se utilizan muestras de
la solicitud presentada, o estudiar de forma manual. tamaño reducido.
En este último caso, el programa informático no otorga Con objeto de salvar ésta y otras limitaciones, se
un nivel de probabilidad de cumplimiento o incum- emplean los denominados modelos no paramétricos,
plimiento que permita aceptar o rechazar la solicitud conocidos también como métodos de distribución
con un alto grado de certeza. Por lo que se recomien- libre, debido a que no se encuentran sujetos a ningu-
da al analista estudiar individualmente la información na forma funcional. Dichos modelos presentan pocas
aportada por el cliente, con objeto de determinar la restricciones, por lo que en ocasiones resultan más
conveniencia o no de conceder dicho crédito. fáciles de aplicar que los paramétricos y permiten
En segundo lugar, pensamos que muchos de los «reconstruir» la función de distribución en todo tipo
estudios realizados no abordan con suficiente cui- de situaciones, incluidas aquellas en las que la forma
dado el dilema del aprendizaje-generalización carac- funcional sea sencilla y conocida.
terístico de los modelos no paramétricos, es decir, Así pues, la diferencia fundamental entre los mo-
muestran los resultados en una situación particular delos paramétricos y no paramétricos es la siguiente.
para la cual el modelo en cuestión ofrece una bue- Supongamos que la variable dependiente Y puede ser
na capacidad predictiva. Como es lógico, esta no es explicada mediante la expresión:
la situación real a la que uno se enfrenta, en la que
un determinado decisor debe elegir el modelo más Y = f(x1, x2, ..., xk) + e (1)
adecuado antes de disponer de las observaciones
que empleará para validarlo. En el presente trabajo Donde: xi son las variables explicativas
acometemos tal problema mediante el empleo de la e es la perturbación aleatoria
validación cruzada. f=(x) determina la relación existente entre las va-
La estructura seguida en el desarrollo de nues- riables utilizadas
tro estudio es la siguiente: en la sección segunda se
explican los fundamentos teóricos de las técnicas Los modelos paramétricos suponen conocida la
paramétricas y no paramétricas. En la sección tercera forma funcional de f(x), reduciéndose el problema
se presenta la metodología utilizada en un problema a determinar los parámetros que la definen. Por su
de credit scoring: Análisis Discriminante (AD), Logit, parte, los modelos no paramétricos emplean formas
Árboles de Clasificación (CART) y validación cruzada. funcionales flexibles que permiten formular una fun-
En la sección cuarta presentamos el trabajo empírico ción , de manera, que sea una buena aproximación
realizado, para finalizar en la sección quinta con las de f(x). Es decir, el problema consiste en calcular los
principales conclusiones obtenidas. parámetros de una función , y no los parámetros
de una función conocida. En ambos casos es necesario
estimar los parámetros de los que depende la forma
funcional. Sin embargo, en el caso de los modelos
MODELOS DE CLASIFICACIÓN paramétricos, la elección de dicha forma funcional se
PARAMÉTRICOS Y NO PARAMÉTRICOS establece a priori, por lo que una elección inadecuada
se traducirá en un modelo que no ajuste los datos (por
Como es sabido, los problemas de estimación y pre- ejemplo, supuesta una relación lineal entre las varia-
dicción pueden ser tratados por una gran variedad bles, dicha función presentará un mal ajuste cuando
de técnicas estadísticas que, dependiendo del cono- la respuesta es, entre otras, cuadrática).
cimiento o no de la forma funcional que explica la Dadas las características del problema que nos
variable dependiente, se clasifican en paramétricos y proponemos analizar, donde es difícil suponer una
no paramétricos. Los modelos paramétricos parten de relación funcional clara entre las variables del pro-
una función de distribución conocida, y reducen el blema, los modelos paramétricos podrían parecer, a
problema a estimar los parámetros que mejor ajusten priori, que no poseen la flexibilidad suficiente para
las observaciones de la muestra. Dichos modelos re- ajustarse a todo tipo de situaciones. Por otra parte, y
sultan muy potentes cuando el proceso generador de en lo que respecta a su capacidad predictiva, existen
datos sigue la distribución propuesta, aunque pueden algunos estudios que demuestran su inferioridad frente
llegar a ser muy sensibles frente a la violación de las a los modelos no paramétricos (TAM Y KIANG, 1992;
ALTMAN y otros, 1994). Como modelos no paramé- cación se centra en estimar la función que permita
tricos encontramos el algoritmo CART, C4.5, MARS ajustar con la máxima exactitud las observaciones de
y las redes neuronales, entre otros. En el trabajo de la muestra, de manera que el error incurrido en la
Bonilla y otros (2003) se realiza un análisis compara- predicción sea mínimo. Dependiendo de que la forma
tivo entre diversos modelos de clasificación crediticia, funcional, f(x), sea conocida o desconocida estare-
demostrando que las redes neuronales mejoran sig- mos ante modelos paramétricos o no paramétricos,
nificativamente los resultados. Sin embargo, uno de como hemos indicado anteriormente. El problema
los mayores inconvenientes de esta técnica es la gran que estamos analizando conlleva una decisión no
cantidad de tiempo necesaria para correcto desarrollo estructurada, ya que no existe ningún patrón estan-
de la aplicación, pues en caso contrario podría alcan- darizado que establezca qué variables utilizar, a lo
zarse un mínimo local que desvirtuaría los resultados. que se añade la dificultad de tener que especificar a
En el análisis empírico hemos utilizado el AD, el priori una forma funcional.
Logit y el algoritmo CART, modelos que, recientemen- A pesar de esta gran limitación, y de las inheren-
te, han sido utilizados con éxito en problemas de cla- tes a cada uno de los modelos que analizaremos a
sificación (CARDONA, 2004; DE SOUZA y OLIVIERA, continuación, los modelos estadísticos ofrecen, gene-
2009; XU y ZHANG, 2009, entre otros). En el artículo ralmente, buenos resultados, por lo que estas técnicas
pretendemos estudiar la precisión de los mismos con estadísticas, tanto paramétricas como no paramétricas,
objeto de determinar su potencia en la concesión o son consideradas herramientas de gran utilidad para
no de los créditos solicitados. la adecuada toma de decisiones en la empresa.
Análisis discriminante
METODOLOGÍA El análisis discriminante (FISHER, 1936) es una técnica
estadística multivariante que permite estudiar de forma
Los modelos de credit scoring, como hemos indicado, simultánea el comportamiento de un conjunto de varia-
tratan de obtener, a partir la relación existente entre bles independientes, con objeto de clasificar un colec-
diversas variables que definen tanto al solicitante como tivo en una serie de grupos previamente determinados
a la operación, una regla general que permita deter- y excluyentes. El método presenta la gran ventaja de
minar, con rapidez y fiabilidad, la probabilidad de poder contemplar conjuntamente las características que
fallido de una determinada solicitud. Por tanto, resulta definen el perfil de cada grupo, así como las distintas
imprescindible estudiar las relaciones existentes entre interacciones que pudieran existir entre ellas.
la información recogida de cada una de los créditos Las variables independientes representan las ca-
concedidos en el pasado y los impagos observados. racterísticas diferenciadoras de cada individuo, siendo
Realizado este análisis, y utilizando un sistema de éstas las que permiten realizar la clasificación. In-
puntuación establecido en función de las caracterís- distintamente se denominan variables clasificadoras,
ticas del cliente, se podrá determinar la probabilidad discriminantes, predictivas, o variables explicativas.
de que éste pueda o no afrontar sus obligaciones de De este modo se puede establecer que el objetivo
pago. Así, el problema al que nos enfrentamos puede del AD es doble:
especificarse mediante la siguiente expresión:
• Obtener las mejores combinaciones lineales de va-
P = f(x1, x2,..., xk) + e (2) riables independientes que maximicen la diferen-
cia entre los grupos. Estas combinaciones lineales
Donde: reciben el calificativo de funciones discriminantes,
xi serán los atributos del sujeto • Predecir, en base a las variables independientes, la
e la perturbación aleatoria pertenencia de un individuo a uno de los grupos
f(x) la función que determina la relación existente establecidos a priori. De este modo se evalúa la
entre las variables utilizadas potencia discriminadora del modelo.
P la probabilidad de que el crédito resulte fallido.
Para el logro de estos objetivos, la muestra
El objetivo principal de los modelos de clasifi- de observaciones se divide aleatoriamente en dos
submuestras: una primera, conocida como muestra de a sus obligaciones crediticias. Si se presentara una
entrenamiento, que se utilizará para la obtención de situación en la que el sujeto tuviera que elegir en-
las funciones discriminantes, y una segunda, denomi- tre tres o más alternativas mutuamente excluyentes
nada muestra de test, que servirá para determinar la (modelos de elección múltiple), tan sólo se tendría
capacidad predictiva del modelo obtenido. que generalizar el proceso.
Por tanto, el objetivo del AD consiste en encontrar El modelo Logit queda definido por la siguiente
las combinaciones lineales de variables independien- función de distribución logística obtenida a partir de
tes que mejor discriminen los grupos establecidos, de la probabilidad a posteriori aplicada al AD mediante
manera que el error cometido sea mínimo. Para ello el teorema de Bayes,
será necesario maximizar la diferencia entre los grupos
(variabilidad entre grupos) y minimizar las diferencias (3)
en los grupos (variabilidad intragrupos), obteniendo
así el vector de coeficientes de ponderación que haga Donde:
máxima la discriminación. b0 representa los desplazamientos laterales de la
Con objeto de asegurar la potencia discriminadora función logística
del modelo es necesario establecer fuertes hipótesis b es el vector de coeficientes que pondera las
de partida que van a suponer una limitación para el variables independientes y del que depende la
análisis de cualquier problema de clasificación que se dispersión de la función
presente. Éstas son: X es la matriz de variables independientes.
• Las K variables independientes tiene una distribu- Al igual que el modelo discriminante, el Logit es
ción normal multivariante. un modelo multivariante paramétrico en el que existen
• Igualdad de la matriz de varianzas-covarianzas variables categóricas tanto en el conjunto de variables
de las variables independientes en cada uno de explicativas como en de las variables dependientes.
los grupos. Frente al AD presenta la gran ventaja de que no va a
• El vector de medias, las matrices de covarianzas, ser necesario establecer ninguna hipótesis de partida:
las probabilidades a priori, y el coste de error son no plantea restricciones ni con respecto a la norma-
magnitudes todas ellas conocidas. lidad de la distribución de variables, ni a la igualdad
• La muestra extraída de la población es una mues- de matrices de varianzas-covarianzas. Ahora bien, co-
tra aleatoria. rresponde señalar que, en caso de verificarse dichas
hipótesis, el modelo discriminante obtendría mejores
Tan sólo bajo estas hipótesis la función discrimi- estimadores que el Logit, pues según afirma Efron
nante obtenida será óptima. Las dos primeras hipótesis (1975) «...bajo estas circunstancias, los estimadores
(la normalidad y de igualdad de la matriz de varianzas logísticos resultan bastante menos eficientes que los
y covarianzas) difícilmente se verifican en muestras de la función discriminante».
de carácter financiero, cuestión que no impide al AD La mayoría de los problemas financieros con los
obtener buenas estimaciones, aunque realmente éstas que nos enfrentamos utilizan alguna variable cuali-
no puedan considerarse óptimas. tativa, imposibilitando de este modo el cumplimien-
to de la hipótesis de normalidad, siendo el modelo
Logit con los estimadores de máxima verosimilitud
Modelo Logit claramente preferible. En este sentido, Press y Wilson
El modelo Logit permite calcular la probabilidad (1978) enumeran los distintos argumentos existentes
de que un individuo pertenezca o no a uno de los en contra de la utilización de los estimadores de la
grupos establecidos a priori. La clasificación se re- función discriminante, presentando, asimismo, dos
alizará en función del comportamiento de una serie problemas de clasificación cuyas variables violan dicha
de variables independientes que son características restricción. Ambos problemas se resolvieron mediante
de cada individuo. Se trata de un modelo de elecci- el AD y el Logit quedando claramente demostrada la
ón binaria en el que la variable dependiente tomará superioridad de este último.
valores 1 ó 0. En nuestro problema el valor depen- A pesar de estas limitaciones, la literatura sigue
derá de que el individuo haya hecho o no frente avalando la utilización de ambos modelos linea-
les (LENNOX, 1999; CALVO-FLORES y otros, 2006; El modelo, como vemos en la Figura 1, se estruc-
BEAVER y otros, 2008). tura en forma de árbol compuesto de una sucesión
de nodos y ramas que constituyen, respectivamente,
los grupos y divisiones que se van realizando de la
Método de partición recursiva: árboles de muestra original. Cada uno de los nodos terminales
clasificación y regresión (CART) representa aquel grupo cuyo coste esperado de error
Los árboles de decisión son una técnica no paramé- sea menor, es decir, aquellos que presenten menor
trica que reúne las características del modelo clásico riesgo. El riesgo total del árbol se calcula sumando los
univariante y las propias de los sistemas multivarian- correspondientes a cada uno de los nodos terminales.
tes. Originariamente fueron propuestos para separar En definitiva, el algoritmo de partición recursiva
las observaciones que componen la muestra asignán- puede resumirse en los siguientes cuatro pasos:
dolas a grupos establecidos a priori, de forma que se
minimizara el coste esperado de los errores cometidos. 1. Estudiar todas y cada una de las variables expli-
Esta técnica fue presentada por Friedman en 1977, cativas para determinar para cuál de ellas y para
pero originariamente sus aplicaciones a las finanzas qué valor es posible incrementar la homogeneidad
no fueron muy numerosas, si bien corresponde des- de los subgrupos. Existen diversos criterios para
tacar dos estudios pioneros: Frydman y otros (1985) seleccionar la mejor división de cada nodo, todos
en el que utilizan el modelo para clasificar empresas, ellos buscan siempre aquella división que reduzca
comparando su capacidad predictiva con el AD, y más la impureza del nodo, definida ésta mediante
Marais y otros (1984) que, por el contrario, lo aplican la siguiente expresión,
a préstamos bancarios. En ambos trabajos se ha lle-
gado a demostrar la gran potencia que presenta este i(t) = - ∑ p(j/t) . log [ p(j/t) ] (4)
algoritmo como técnica de clasificación.
El modelo CART supone esencialmente que las siendo p(j/t) la proporción de la clase j en el nodo
observaciones son extraídas de una distribución f t. Como medida de la homogeneidad o impureza
en L x X, donde L es el espacio de categorías, y X el se utiliza una extensión del índice de Gini para
espacio de características. Las densidades condicio- respuestas categóricas. El algoritmo optará por
nales f(x|l) difieren al variar l, y las probabilidades aquella división que mejore la impureza, mejora
marginales f(l) son conocidas. El proceso utiliza la que se mide comparando la que presenta el nodo
muestra S como conjunto de entrenamiento para la de procedencia con la correspondiente a las dos
estimación no paramétrica de una regla de clasificación regiones obtenidas en la partición.
que permita particionar directamente el espacio X de 2. El paso anterior se repite hasta que, o bien re-
características. Para cada l de L, el subconjunto St del sulte imposible mejorar la situación realizando
conjunto de entrenamiento S constituye una muestra otra división, o bien el nodo obtenido presente
aleatoria de la distribución condicional f(x|l) en X. el tamaño mínimo. En esta fase del algoritmo se
Así pues, el proceso consiste en dividir sucesiva- obtiene el árbol máximo en el cual cada uno de
mente la muestra original en submuestras, sirviéndose sus nodos interiores es una división del eje de
para ello de reglas univariantes que buscarán aquella características.
variable independiente que permita discriminar mejor Ahora bien, este procedimiento, tal y como ha
la división. Con ello, se pretende obtener grupos com- sido expuesto, presenta un grave problema, el
puestos por observaciones que presenten un alto grado sobreaprendizaje: el modelo memoriza las obser-
de homogeneidad, incluso superior a la existente en vaciones de la muestra siendo incapaz de extraer
el grupo de procedencia (denominado nodo madre). las características más importantes, lo que le im-
Con objeto de encontrar la mejor regla de división, pedirá «generalizar adecuadamente», obteniendo
el algoritmo estudiará cada una de las variables expli- resultados erróneos en los casos no contemplados
cativas, analizando los puntos de corte para, de este con anterioridad. Para evitarlo Friedman (1977)
modo, poder elegir aquella que mayor homogeneidad propuso la siguiente solución: desarrollar el árbol
aporte a los nuevos subgrupos. El proceso finaliza al máximo, y posteriormente ir podándolo elimi-
cuando resulte imposible realizar una nueva división nando las divisiones y, por lo tanto, los nodos que
que mejore la homogeneidad existente. presenten un mayor coste de complejidad, hasta
encontrar el tamaño óptimo, que será aquel que tructura que, como ya hemos indicado, fácilmente
minimice el coste de complejidad. puede desembocar en el sobreaprendizaje del mo-
3. Calcular la complejidad de todos y cada uno de delo. De ahí que no sólo se persiga crear conjuntos
los subárboles podando aquellos que verifiquen homogéneos con bajo riesgo, sino también obtener
la siguiente expresión, aquella estructura que presente una complejidad
óptima. Bajo este doble objetivo, resulta necesario
(5) penalizar la excesiva complejidad del árbol.
T
0
xa > ta
_ +
xb > tb
4
_ +
xc > tc
1
_
+
2 3
T Max
Error
Test
Aprendizaje
C* min No de Parámetros
(a este error se le denomina error de validación del algoritmo en cada uno de los sectores analizados.
cruzada, EVC). Este proceso de división se repitió 10 veces hasta
• Elegida la estructura óptima, se utilizará toda la obtener 100 pares de conjuntos de entrenamiento y
muestra para reentrenar el modelo, de manera que test distintos, con objeto de eliminar la posible inci-
se entrenará y testeará con los conjuntos totales dencia que la división de la muestra podía tener en
para obtener el error de predicción (EP). Debido los resultados de nuestro análisis. Además, en todos
a que el EVC es un estimador insesgado del error los conjuntos se mantuvo la misma proporción de mo-
de predicción del modelo elegido (EP), el mo- rosos y no morosos existente en la muestra original.
delo seleccionado tendrá también una capacidad
de generalización óptima cuando sea empleado
con observaciones no presentes en el conjunto
de entrenamiento.
ANALISIS DE LOS RESULTADOS
En concreto, en nuestro análisis, la muestra for- En el desarrollo del trabajo empírico hemos utilizado
mada por 1446 observaciones se ha dividido aleato- una base de datos de préstamos al consumo facilita-
riamente en dos conjuntos de entrenamiento y test, da por una de las principales entidades financieras de
cada uno de ellos formado por el 50% de las obser- nuestro país (España), de la que no se aporta el nom-
vaciones. La submuestra de test (723 observaciones) bre por motivos de confidencialidad. Dicha base de
ha sido reservada con objeto de testear la capacidad datos está formada por 1446 individuos, de los cuales
generalizadora del modelo (EP). Las observaciones 462 fueron calificados como morosos y 984 como no
restantes se han utilizado como conjunto de entre- morosos. El individuo era calificado como moroso si
namiento para elegir aquel modelo cuya estructura se retrasaba más de dos meses en el pago del mismo,
presente el menor EVC. Lo conforman 231 individuos con independencia de que posteriormente hiciera o
calificados como fallidos y 492 como no fallidos. La no frente a sus obligaciones con la entidad.
magnitud de tales submuestras no se corresponden Cada caso viene definido por 13 variables expli-
con ningún criterio ad hoc·, pero están en línea con cativas, así como por el comportamiento crediticio
la literatura al respecto. posterior. La variable dependiente se ha denotado con
Las 723 observaciones destinadas al entrenamiento 1 si al individuo al que se le concedió el préstamo
se han dividido a su vez en conjuntos de entrenamien- resultó moroso y 0 en caso contrario. Las variables
to y test, representando el conjunto de test el 10% de independientes que caracterizan la solicitud de cada
la muestra. Las observaciones de estas dos submuestras cliente son las siguientes: finalidad del préstamo (por
se han combinado de tal forma que disponemos de ejemplo, compra de una motocicleta, de una vivienda,
10 pares no solapados de conjuntos de entrenamiento gastos por estudios, etc.), documentación aportada
y test formados por 651 y 72 observaciones respecti- (si tan sólo se presentó el D.N.I. o se aportaron otro
vamente, que se utilizarán en la obtención del EVC. tipo de documentos, tales como avales, certificado
De manera que, el modelo CART ha sido entre- del registro, etc.), estado civil, ingresos anuales, edad
nado y testeado con estos 10 pares de conjuntos utili- del solicitante, antigüedad de la cuenta en años, sal-
zando distintas estructuras, para, de este modo, poder do de la cuenta, vinculación con la caja (una variable
determinar su estructura óptima. Dicha estructura será subjetiva proporcionada por la entidad, según fuera
aquella que presente el menor EVC, calculado éste considerado el cliente), tenencia de otros préstamos,
como una media de los errores cometidos a lo largo importe del préstamo solicitado, y plazo del préstamo
de los 10 conjuntos de test validados. El parámetro solicitado.
que determina la complejidad de los Árboles de Cla- Para el algoritmo CART la muestra se ha dividido
sificación es el número de nodos, por lo que la selec- 10 veces en 10 pares de conjuntos de entrenamiento
ción de su estructura óptima consiste en determinar y test, es decir, el proceso de validación cruzada se ha
el número óptimo de nodos. repetido 10 veces con objeto de evitar que las posibles
Para finalizar, el modelo elegido será entrenado y divisiones de la muestra puedan afectar a los resulta-
testeado con la muestra total (723 observaciones de dos. De manera que, ha exigido un intenso esfuerzo
entrenamiento y 723 de test) con objeto de obtener el computacional, dado que se han utilizado una gran
EP que nos permitirá comparar la potencia predictiva variedad de estructuras para obtener la que realmente
minimice el ECV, es decir aquella que permita obtener ninguna forma funcional, sino que ajustarán aquella
generalizaciones adecuadas. que mejor aproximen las variables del modelo.
En el caso de los modelos paramétricos, la estruc- El problema que tratamos de analizar establece
tura del mismo viene establecida, por lo que no es la relación entre variables muy diversas, algunas de
necesario utilizar la validación cruzada. Sin embargo, e ellas cualitativas, por lo que consideramos difícil poder
igualmente para evitar que la división de los conjuntos determinar a priori la relación funcional entre ellas.
de entrenamiento y test pueda afectar a la precisión Todo ello nos conduce a suponer que los modelos
de los modelos, la muestra ha sido dividida diez veces no paramétricos, en nuestro caso el CART, presenta-
en dos conjuntos de entrenamiento y test, cada uno rán un mejor comportamiento que los paramétricos.
de ellos formado por el 50% de las observaciones. Sin embargo, a la vista de los resultados obtenidos
En las Tablas 1, 2 y 3 se facilitan los resultados en la Tabla 4, podemos afirmar que en el problema
obtenidos a lo largo de las 10 simulaciones utilizando de clasificación crediticia que nos hemos propuesto
los algoritmos propuestos. analizar, el AD, aunque levemente, ha superado la
capacidad predictiva del modelo CART y del Logit, lo
que, en cierta medida, contradice la literatura encon-
Resultados: fallidos y no fallidos trada al respecto.
Los modelos no paramétricos resultan mucho más El problema que surge cuando se realiza esta cla-
flexibles que los paramétricos pues, como hemos in- sificación (conceder o no conceder) es que algunos de
dicado anteriormente, a priori no precisan establecer los individuos han sido calificados como aciertos, es
decir, que dadas sus características el modelo aconseja exigido al modelo. Sin embargo, el grupo de los
aprobar/rechazar el crédito solicitado, simplemente dudosos deberá ser estudiado manualmente por el
porque su probabilidad de cumplimiento/incumpli- personal bancario, ya que el modelo no asegura el
miento es mayor/menor que 0,5, respectivamente. En acierto de su decisión. Después de consultar a di-
este estudio se propone, conceder automáticamente versos expertos en riesgos bancarios, conocedores
tan sólo los que con alto grado de fiabilidad podrán del funcionamiento del proceso de concesión en
atender a sus obligaciones crediticias, y rechazar, importantes entidades financieras de nuestro país,
igualmente de forma automática, en caso contrario, hemos llegado a la conclusión que no sólo se debe
por lo que sería necesario distinguir un tercer estado buscar aquel modelo que minimice el error sino que,
que hemos denominado como dudoso. igualmente, no contenga un conjunto de dudosos
elevado. Las entidades suelen tener autonomía su-
ficiente para poder conceder o rechazar discrecio-
Resultados: fallidos, no fallidos y dudosos nalmente los créditos considerados como dudosos,
En el estudio que presentamos se plantea la posibili- por lo que el porcentaje de fracaso de estos dudosos
dad de dividir el intervalo de acierto en tres estados: suele ser elevado.
Aplicando nuevamente la validación cruzada diez
• Fallidos: todos aquellos préstamos cuya probabi- veces, y distinguiendo entre los tres estados descritos
lidad de devolución sea menor que el 30% anteriormente, hemos obtenido los siguientes resulta-
• No Fallidos: todos aquellos préstamos cuya pro- dos. En la Tabla 5 observamos que el modelo CART,
babilidad de devolución sea menor que el 70% aunque presenta un mayor porcentaje de error, el con-
• Dudosos: todos aquellos préstamos cuya proba- junto de los dudosos es mucho menor y el de aciertos
bilidad de devolución esté comprendida entre el mayor que los obtenidos mediante los modelos pa-
30% y el 70%. ramétricos. Los dudosos normalmente se convierten
en fallidos, por lo que resulta interesante que dicho
Con esta clasificación se pretende conseguir una grupo sea lo menor posible. Así pues, apoyándonos
perfecta discriminación entre los que con un alto grado en los resultados, podemos afirmar que el modelo
de probabilidad podrán hacer frente a sus obligaciones CART ha resultado ser bastante más preciso que los
crediticias, y los que por el contrario resultarán falli- modelos Logit y AD.
dos, recomendándose de este modo la no concesión Comparando estos resultados con los obtenidos
del préstamo. en el apartado 4.1. comprobamos que, aunque el
Todos ellos podrán ser automáticamente acep- porcentaje de acierto es menor, el de error se ha re-
tados o rechazados dada la precisión que se le ha ducido considerablemente, que realmente es el que
produce mayor quebranto a las entidades. Además Concluimos que el algoritmo CART obtiene mejo-
los créditos concedidos presentan una mayor pro- res resultados que los modelos paramétricos, porque
babilidad de cumplir con sus obligaciones si se dis- aunque el error es algo superior, el de aciertos tam-
tinguen los tres estados que hemos considerado, ya bién lo es. Además el porcentaje de calificados como
que se le exige una mayor precisión a los algoritmos dudosos no resultan excesivamente elevado, como sí
de clasificación utilizados. ocurre con los otros métodos (AD y Logit).
CONCLUSIONES REFERENCIAS
En el estudio que presentamos hemos realizado un ALTMAN, E; MARCO, G; VARETTO, F. Corporate distress
análisis comparativo entre dos técnicas paramétri- diagnosis: Comparisons using linear discriminant analysis
cas y una no paramétrica aplicadas a un problema and neural networks. Journal of Banking and Finance, v.
real de clasificación crediticia. De manera que, da- 18, n. 3, p. 505-529, 1994.
das unas variables descriptivas del sujeto solicitante
de un crédito, el modelo determinará con la mayor ALTMAN, E.; SABATO, G.; WILSON, N. The value of qua-
precisión posible si sería capaz o no de hacer fren- litative information in SME risk management. Journal of
te a sus obligaciones crediticias. Igualmente hemos Financial Services Research, v. 40,n. 2, p. 15-55, 2008.
abordado, con suficiente minuciosidad, el problema
del sobreaprendizaje que habitualmente se obvia en BEAVER, W.H; CORREIA, M; McNICHOLS, M. Have changes
muchos estudios por el excesivo esfuerzo computa- in financial reporting attributes impaired informativeness?
cional que requiere. Evidence from the ability of financial ratios to predict br-
Los modelos de clasificación crediticia, que habi- nkruptcy. WORKING PAPER. Rock Center for Corporate
tualmente utilizan las entidades financieras, se alimen- Governance, Stanford University, December, 2008.
tan de la propia información que van generando, de
manera que si el modelo se equivoca muy frecuen- BONILLA, M.; OLMEDA, I.; PUERTAS, R. Modelos paramé-
temente, al cabo del tiempo el algoritmo deja de ser tricos y no paramétricos en problemas de credit scoring.
operativo porque los resultados que genera no son, en Revista Española de Financiación y Contabilidad, v. 27,
absoluto, fiables. Por ello, y aunque dicha solución en n. 118, p. 833-869, 2003.
principio pueda parecer un incremento de coste para
la entidad, proponemos la distinción de las solicitudes CARDONA, P. Aplicación de árboles de decisión en mode-
en tres estados: conceder automáticamente (porque los de riesgo crediticio. Revista Colombiana de Estadística,
la probabilidad de que el cliente devuelva el crédito v. 27, n. 2, p. 139-151, 2004.
es superior al 70%); rechazar automáticamente (dado
que su probabilidad será inferior al 30%); y distinguir CLAVO-FLORES, A; GARCÍA, D.; MADRID, A. Tamaño,
un tercer estado que hemos denominado como «du- antigüedad y fracaso empresarial. WORKING PAPER. Uni-
dosos», en el cual se aconseja su estudio manual por versidad Politécnica de Cartagena, 2006.
parte del personal bancario.
Lo que genera mayor quebranto a las entidades DE SOUZA, A; OLIVIEIRA, W. Prevendo a insolvência de
financieras es la insolvencia, es decir, que los clientes operadoras de planos de saúde, RAE -Revista de Adminis-
resulten fallidos. En el estudio se demuestra que se tração de Empresas, v. 49, n.4, p. 459-471, 2009.
reduce considerablemente el error si, todas las solici-
tudes que no tengan una gran certeza de devolución o DURAND, D. Risk elements in consumer installment fi-
de incumplimiento, se procede a su análisis individual nancing. WORKING PAPER, National Bureau of Economic
para determinar la conveniencia o no de rechazar/ Research, New York, 1941.
conceder dicho crédito. Ahora bien, sabiendo que
ello eleva el coste de tramitación de las entidades, EFRON, B. The efficiency of logistic regression compared
consideramos que dicho grupo no debe ser dema- to normal discriminant analysis. Journal of the American
siado elevado. Statistical Association, v. 70, n. 352, p. 892-898, 1975.
FISHER, R.A. The use of multiple measurements in taxo- PRESS, J; WILSON, S. Choosing between logistic regression
nomic problems. Annals of Eugenics, v. 7, n. 7, p. 179- and discriminant analysis. Journal of the American Statis-
188, 1936. tical Association, v. 73, n. 364, 699-705, 1978.
FRIEDMAN, J.H. A recursive partitioning decision rule for STONE, M. Cross-validatory choice and assessment of sta-
nonparametric classification. IEEE Transactions on Com- tistical predictions. Journal of the Royal Statistical Society,
puters, v. 26, n. 4, p. 404-408, 1977. v. 36, n. 2, p. 11-144, 1974.
FRYDMAN, H; ALTMAN, E; KAO, D. Introducing recur- TAM, K; KIANG, M. Managerial applications of neural ne-
sive partitioning for financial classification: The case of tworks: The case of bank failure predictions. Management
financial distress. The Journal of Finance, v. XL, n. 1, p. Science, v. 38, n. 7, p. 926-947, 1992.
269-291, 1985.
XU, M; ZHANG, C. Bankruptcy prediction: the case of Ja-
GORDY, M.B. A comparative anatomy of credit risk models. panese listed companies. Review of Accounting Studies, v.
Journal of Banking & Finance, v. 24, p. 119-149. 14, n. 4, p. 534-558, 2009.