Você está na página 1de 29

V.

Desarrollo del Modelo

1
A. Análisis Bivariante
 Consiste en examinar la relación que existe entre cada variale y la
variable que segmenta mi cartera en buenos y malos.

 Criterios Estadísticos. Se realiza un análisis del comportamiento de


cada una de las variables frente a la variable Bueno/Malo.

Distribución de buenos y malos para cada valor de la variable, en


el caso de que sea de tipo alfanumérico, y para cada tramo, en el
caso de que sea continua.

Chi-Cuadrado: Estadístico que mide la relación existente entre la


variable estudiada por sí sola y la variable Bueno/Malo. A mayor
valor del estadístico más relación existe entre dichas variables.

2
Tratamiento de missings

Se admite que las variables no estén informadas en algunos casos.

Dependiendo del porcentaje de no información se realiza un


tratamiento:
▫ <5% .Se eliminan los registros afectados.
▫ Entre un 5% y un 40%. Se tratan como un grupo más de la
variable. Posteriormente dependiendo de su comportamiento
frente a la tasa de malos se tomará un decisión u otra.
▫ > 40%. No se tiene en cuenta la variable.

 Estas decisiones están sujetas a la decisión del analista, por


ejemplo, en ocasiones para una variable el porcentaje de registros
a missing es muy pequeño pero identifica un cierto valor de la
variable.
3
Correlación

 Se realiza un análisis de correlación entre las variables, de forma


que a la hora de estimar el modelo no se incluyan variables con
una correlación superior a 50%-60%, pues una de ellas explicaría
el 50%-60% de la otra.

 El objetivo del modelo es seleccionar variables de forma que


expliquen lo máximo posible de la variable objetivo.

Variable 1
VariableVariable
3 4

Variable 6 Variable
5

Variable 2

4
Ejemplo:
 Se observa que existe elevada correlación entre la variable
importe solicitado e importe del bien, por lo que si las dos
resultan significativas en el modelo, sólo se podrá considerar una
de ella.
Importe
Importe Plazo Cuota Ingresos
Bien
Importe 1 0,63 0,65 0,90 0,01
Plazo 0,63 1 0,08 0,58 0,02
Cuota 0,65 0,08 1 0,60 0,07
Importe
0,90 0,58 0,60 1 0,07
Bien
Ingresos 0,01 0,02 0,07 0,07 1

 En la práctica no resulta muy útil partir de la tabla de correlación


de todas las variables, sino que se llega a un posible modelo y se
realiza un análisis de correlación de las variables seleccionadas.

5
Powerstat y Curva de Poder Predictivo
Es una medida de la capacidad predictiva de una variable o un modelo.

A
Powerstat  perfecto
A B
% acumulado de
contratos malos
100% real
90%

80%

70%
aleatorio
60%
B
50%
A
40%

30%

20%

10%

0%
1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401
Núm. contratos ordenados de peor a mejor por la variable

6
B. WOE (Weight of Evidence)

 El tramado de las variables se realiza por las siguientes razones:

Reduce la variabilidad en muestras de gran tamaño y permite


identificar mejor los patrones básicos de comportamiento.

Permite que el modelo logístico incorpore no linealidades y que se


convierta en una tarjeta de puntuación.

La variable resultante de la transformación toma tantos valores


diferentes como tramos haya. El valor de cada tramo es el Weight
Of Evidence (WOE), de forma que la distancia entre tramos está
relacionada con la variable que queremos predecir (probabilidad
de malo).

7
 WOE.

Dividimos el rango de la variable en T tramos y para cada tramo


calculamos el Weight Of Evidende ( - ln Tasa Morosidad Relativa):

# buenos en T # malos
W .O.E.T  ln # malos en T TMR  #n
# buenos totales # MALOS
# malos totales #N
Metodología.

Partimos de un determinado número de tramos, por ejemplo 20, y los


vamos agrupando teniendo en cuenta que:
▫ Debe haber suficiente número de observaciones en cada tramo.
▫ Los tramos deben ser homogéneos en cuanto a población.
▫ La tendencia de la variable debe ser suave y tener sentido
económico.

Se busca que el porcentaje de malos sea lo más parecido posible dentro


de cada tramo y lo más diferente posible entre tramos

8
Ejemplo de Trameado: Antigüedad del Cliente
Trameado inicial Trameado final: 6 tramos

Tabla: antigclientet1
tramo n mediana minimo maximo TMR TMA WOE Contr_IV
1 2726 . . . 0.99615 0.034483 -0.00400 IV =11,76%
0.00001
2 4414 1.5031 1.0021 1.9986 1.66890 0.057771 0.53644 0.20910
3 15058 3.5811 2.0014 4.9993 1.30456 0.045159 0.27685  IV<2% no discrimina
0.16761
4 10378 6.0014 5.0021 6.9979 1.13293 0.039218 0.12958 0.02360
5 14311 8.4216 7.0007 9.9986 0.92049 0.031864 -0.08570  IV>50% sobrepredictiva
0.01287
6 13016 11.8357 10.0014 14.9979 0.68137 0.023586 -0.39501 0.21628
7 6829 18.3190 15.0007 50.3710 0.46956 0.016254 -0.77481 0.37053

9
Antigüedad Empleo

9000 12%

8000
10%
7000

6000 8%

5000
6%
4000

3000 4%

2000
2%
1000

0 0%
<5 5-10 10-15 15-20 20-25 >=25

formalizados tasa de mora

En el gráfico se representa mediante una línea la tasa de mora


por categoría de variable. Se aprecian claramente dos tramos
de distinta pendiente.

10
C. IV (Information Value)

 Un Estadístico que ayuda a la determinación del número de tramos


y que sirve también para indicarnos si una variable discrimina o no
entre buenos y malos (si a priori será útil en el modelo) es el Valor de
Información (IV). Si tenemos T tramos y

# buenas en el tramo i # malas en el tramo i


PˆBTi  PˆMTi 
# buenas en total # malas en total

Entonces: IV      
T
Pˆ Ti T
PB  PM  ln Ti   P
ˆ Ti ˆ Ti B ˆ Ti  P
ˆ Ti  WOE
i 1 Pˆ i 1
B M Ti
M

 Es una medida de la distancia entre la distribución de la variable


para las operaciones buenas y para las malas. Cuanto mayor sea el IV,
mejor.

11
 Nos quedaremos con aquellas variables con alto IV. En la práctica, si
el IV es menor de 2% se considera que la variable no discrimina
entre buenos y malos, y si es superior al 50%, que la variable es
sobre predictiva (filtro).

 Y tramaremos las variables de forma que el IV sea lo mayor posible,


siempre y cuando los tramos sean coherentes.

12
D. Selección de variables
 La selección de variables se realiza en base al análisis bivariante:

Variables con mayor poder predictivo de la variable Bueno/Malo.

Interesantes desde el punto de vista de negocio.

Que el porcentaje de missing no supere el 40% de los casos.

Para variables continuas, que la tendencia de la variable sea clara


(teniendo en cuenta que ésta puede variar en función de los
tramos realizados, como veremos más adelante).

Para variables alfanuméricas, que no exista una elevada


concentración en un valor y, a priori, se pueda ver que se pueden
realizar grupos con comportamientos distintos frente a la variable
Bueno/Malo y con población suficiente.
13
E. Cálculo de los parámetros del modelo

Métodos de Regresión Logística:


 Backward:
 Este procedimiento parte del modelo de regresión con todas las
variables explicativas y en cada etapa se elimina la variable menos
influyente según un contraste de hipótesis hasta una cierta regla de
parada.

 Forward:
 Este algoritmo funciona de forma inversa que el anterior, parte del
modelo sin ninguna variable explicativa y en cada etapa se introduce la
más significativa hasta una cierta regla de parada.

14
Stepwise:
 Este método es una combinación de los procedimientos anteriores,
comienza como el de introducción progresiva, pero en cada etapa se
plantea si todas las variables introducidas deben de permanecer.
Termina el algoritmo cuando ninguna variable entra o sale del modelo.

 Regresión:
 Éste considera las variables explicativas que hemos seleccionado y
para cada una de ellas asigna el p-valor asociado al contraste de
hipótesis de si la variable es significativa o no. Éste contraste de
hipotésis tiene como hipótesis nula que no existe relación entre la
variable explicativa y la variable objetivo.

15
 Ejemplo de Regresión Logística (I):

Para cada una de las variables se realiza un contraste de hipótesis


en el que la hipótesis nula es que no existe relación entre la variable
explicativa y la variable objetivo. Se persigue rechazar la hipótesis
nula con un nivel de confianza del 95%, por lo que seleccionamos
aquellas variables en las que el p-valor es inferior a 0,05.

16
 Estimación de parámetros y métodos de selección
• Tanto el test de la razon de verosimilitud como el test de Wald son
instrumentos a utilizar para llevar a cabo el proceso de construir
un modelo de regresion logstica a partir de una base de datos.
Cuando la enumeracion completa de todos los modelos posibles
resulta computacionalmente costosa, se utilizan estrategias de
modelizacion destinadas a encontrar el mejor subconjunto de
variables predictoras.

Hacia adelante
1. Se inicia con un modelo vacío (sólo α );
2. Se ajusta un modelo y se calcula el p valor de incluir cada variable
por separado;
3. Se selecciona el modelo con la más significativa;
4. Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se
calcula el p valor de añadir cada variable no seleccionada por
separado;
5. Se selecciona el modelo con la más significativa;
6. Se repite 4 –- 5 hasta que no queden variables significativas para
incluir.

17
Hacia atrás
1. Se inicia con un modelo con TODAS las variables candidatas;
2. Se eliminan, una a una, cada variable y se calcula la pérdida de
ajuste al eliminar;
3. Se selecciona para eliminar la menos significativa;
4. Se repite 2 – 3 hasta que todas las variables incluidas sean
significativas y no pueda eliminarse ninguna sin que se pierda
ajuste.

Stepwise
• Se combinan los métodos adelante y atrás;
• Puede empezarse por el modelo vacío o por el completo, pero en
cada paso se exploran las variables incluidas, por si deben salir y las
no seleccionadas, por si deben entrar;
• No todos los métodos llegan a la misma solución necesariamente;

18
VI. Valoración y Validación del
Modelo
A. Bondad de Ajuste
Test de ajuste de Hosmer-Lemeshow

 Este estadístico de bondad de ajuste es un método para


evaluar el ajuste global del modelo, más robusto que el
estadístico de bondad de ajuste tradicionalmente utilizado en
la regresión logística, especialmente para los modelos con
variables continuas y los estudios con tamaños de muestra
pequeños.

 Se basa en agrupar los casos en deciles de riesgo y comparar la


probabilidad observada con la probabilidad esperada dentro
de cada decil.

20
B. Significancia de las Variables
El estadístico de Wald
 Contrasta la hipótesis de que un coeficiente aislado es distinto de
0, y sigue una distribución normal de media 0 y varianza 1. Su
valor para un coeficiente concreto viene dado por el cociente
entre el valor del coeficiente y su correspondiente error estándar.

 La obtención de significación indica que dicho coeficiente es


diferente de 0 y merece la pena su conservación en el modelo.

 En modelos con errores estándar grandes, el estadístico de Wald


puede proporcional falsas ausencias de significación (es decir, se
incrementa el error tipo II).

21
C. Kolmogorov-Smirnov (KS)
 La prueba de Kolmogórov-Smirnov (también prueba K-S) es
una prueba no parametrica que se utiliza para determinar la bondad
de ajuste de dos distribuciones entre sí.
 Al momento de validar nuestro modelo de scoring se compararan
las distribuciones acumuladas de los buenos vs los malos que
predice el modelo de tal forma que la mayor distancia que generen
amabas curvas es el KS.
 Es recomendable tener modelos cuyo KS este por arriba de 20%.
Distribución del Score por Acumulación de Buenos y
Malos
120.00%

100.00%

80.00%

% Acum Buenos
60.00%
% Acum Malos
40.00%

20.00%

0.00%
0.00543-0.01343

0.02143-0.02943

0.03743-0.04543

0.05343-0.06143

0.06943-0.07743

0.08543-0.09343

0.10143-0.10943

0.11743-0.12543

0.13343-0.14143

0.14943-0.15743

0.16543-0.17343

0.18143-0.18943

0.19743-0.20543

0.21343-0.22143

0.22943-0.23743
22
D. GINI

 El coeficiente de Gini se calcula


como una razón de las áreas en el
diagrama de la curva de Lorenz. Si el
área entre la línea de perfecta igualdad
y la curva de Lorenz es a, y el área por
debajo de la curva de Lorenz es b,
entonces el coeficiente de Gini es
a/(a+b).
 Esta razón se expresa como porcentaje o como equivalente
numérico de ese porcentaje, que es siempre un número entre 0 y
1.
 A mayor índice de GINI en un modelo de Scoring significa que el
modelo discrimina mejor entre buenos y malos.
 Dependiendo del tipo de scoring es de esperarse un mayor Indice
de GINI, siendo por arriba del 40% un buen indicador.
23
GINI

100%
90%
80%
% Mora Acumulada
70%
60%
50%
Modelo con baja
40% capacidad
30%
20%
predictiva
10%
0%
0% 10% 21% 31% 41% 51% 61% 71% 81% 91% 100%

% Buenas Acumuladas

% acum buenas % acum mora

GINI

100%
90% Modelo con alta
80%
capacidad
% Mora Acumulada

70%
60% predictiva
50%
40%
30%
20%
10%
0%
0% 10% 20% 30% 40% 51% 61% 71% 80% 90% 100%

% Buenas Acumuladas

% acum buenas % acum mora

24
VII. Aplicación del Credit Scoring
en la Gestión del Riesgo
A. Basilea

 En Basilea I, no se discriminaba a los clientes por su perfil de riesgo,


cambio importante que introduce Basilea II y que permite establecer
diferentes ponderadores de riesgo según su calidad crediticia.

26
B. Pricing

 El Credit Scoring nos permite segmentar nuestra cartera de tal


manera que establecemos perfiles de riesgos diferentes. Esto nos ayuda
a generar políticas de Pricing y Re-pricing.

27
C. Políticas
TM
Percentil Rango Score Malos Buenos Total TM Real TM Media % Total
Acumulada
1 0.00543-0.01651 19 3,224 3,243 0.59% 1.10% 0.59% 5.00%
2 0.01652-0.02304 25 3,219 3,244 0.77% 1.98% 0.68% 10.00%
3 0.02305-0.02767 50 3,193 3,243 1.54% 2.54% 0.97% 15.00%
4 0.02767-0.03184 63 3,181 3,244 1.94% 2.98% 1.21% 20.00%
5 0.03185-0.03567 70 3,173 3,243 2.16% 3.38% 1.40% 25.00%
6 0.03567-0.0392 75 3,163 3,238 2.32% 3.74% 1.55% 29.99%
7 0.0392-0.0427 81 3,169 3,250 2.49% 4.10% 1.69% 35.00% Mora
8
9
0.0427-0.04636
0.04636-0.05025
90
108
3,153
3,136
3,243
3,244
2.78%
3.33%
4.45%
4.83%
1.82%
1.99%
40.00%
45.00%
esperada
10 0.05025-0.0545 85 3,158 3,243 2.62% 5.24% 2.05% 50.00% vs
11
12
0.0545-0.05936
0.05936-0.06493
114
155
3,130
3,089
3,244
3,244
3.51%
4.78%
5.69%
6.21%
2.19%
2.40%
55.00%
60.00% Volumen
13 0.06493-0.07089 182 3,061 3,243 5.61% 6.79% 2.65% 65.00% objetivo
14 0.07089-0.07798 227 3,017 3,244 7.00% 7.44% 2.96% 70.00%
15 0.07798-0.08582 288 2,955 3,243 8.88% 8.19% 3.35% 75.00%
16 0.08582-0.09542 334 2,910 3,244 10.30% 9.06% 3.79% 80.00%
17 0.09543-0.10566 346 2,898 3,244 10.67% 10.05% 4.19% 85.00%
18 0.10566-0.11918 410 2,833 3,243 12.64% 11.24% 4.66% 90.00%
19 0.11918-0.13798 467 2,777 3,244 14.40% 12.86% 5.17% 95.00%
20 0.138-0.2321 527 2,716 3,243 16.25% 18.51% 5.73% 100.00%

 El Credit Scoring nos ayudará a establecer políticas de admisión y


ventas cruzadas para nuestra cartera.

Según nuestra apetito de riesgo y volumen de colocación meta


podemos establecer fronteras de aprobación
28
Gracias!!!

MBA Ing. Johnny Pantoja Jara


Grupo Prime Consultores
johnny.pantoja@primecomsultores.com.pe
Julio, 2011

Você também pode gostar