Escolar Documentos
Profissional Documentos
Cultura Documentos
1
A. Análisis Bivariante
Consiste en examinar la relación que existe entre cada variale y la
variable que segmenta mi cartera en buenos y malos.
2
Tratamiento de missings
Variable 1
VariableVariable
3 4
Variable 6 Variable
5
Variable 2
4
Ejemplo:
Se observa que existe elevada correlación entre la variable
importe solicitado e importe del bien, por lo que si las dos
resultan significativas en el modelo, sólo se podrá considerar una
de ella.
Importe
Importe Plazo Cuota Ingresos
Bien
Importe 1 0,63 0,65 0,90 0,01
Plazo 0,63 1 0,08 0,58 0,02
Cuota 0,65 0,08 1 0,60 0,07
Importe
0,90 0,58 0,60 1 0,07
Bien
Ingresos 0,01 0,02 0,07 0,07 1
5
Powerstat y Curva de Poder Predictivo
Es una medida de la capacidad predictiva de una variable o un modelo.
A
Powerstat perfecto
A B
% acumulado de
contratos malos
100% real
90%
80%
70%
aleatorio
60%
B
50%
A
40%
30%
20%
10%
0%
1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401
Núm. contratos ordenados de peor a mejor por la variable
6
B. WOE (Weight of Evidence)
7
WOE.
# buenos en T # malos
W .O.E.T ln # malos en T TMR #n
# buenos totales # MALOS
# malos totales #N
Metodología.
8
Ejemplo de Trameado: Antigüedad del Cliente
Trameado inicial Trameado final: 6 tramos
Tabla: antigclientet1
tramo n mediana minimo maximo TMR TMA WOE Contr_IV
1 2726 . . . 0.99615 0.034483 -0.00400 IV =11,76%
0.00001
2 4414 1.5031 1.0021 1.9986 1.66890 0.057771 0.53644 0.20910
3 15058 3.5811 2.0014 4.9993 1.30456 0.045159 0.27685 IV<2% no discrimina
0.16761
4 10378 6.0014 5.0021 6.9979 1.13293 0.039218 0.12958 0.02360
5 14311 8.4216 7.0007 9.9986 0.92049 0.031864 -0.08570 IV>50% sobrepredictiva
0.01287
6 13016 11.8357 10.0014 14.9979 0.68137 0.023586 -0.39501 0.21628
7 6829 18.3190 15.0007 50.3710 0.46956 0.016254 -0.77481 0.37053
9
Antigüedad Empleo
9000 12%
8000
10%
7000
6000 8%
5000
6%
4000
3000 4%
2000
2%
1000
0 0%
<5 5-10 10-15 15-20 20-25 >=25
10
C. IV (Information Value)
Entonces: IV
T
Pˆ Ti T
PB PM ln Ti P
ˆ Ti ˆ Ti B ˆ Ti P
ˆ Ti WOE
i 1 Pˆ i 1
B M Ti
M
11
Nos quedaremos con aquellas variables con alto IV. En la práctica, si
el IV es menor de 2% se considera que la variable no discrimina
entre buenos y malos, y si es superior al 50%, que la variable es
sobre predictiva (filtro).
12
D. Selección de variables
La selección de variables se realiza en base al análisis bivariante:
Forward:
Este algoritmo funciona de forma inversa que el anterior, parte del
modelo sin ninguna variable explicativa y en cada etapa se introduce la
más significativa hasta una cierta regla de parada.
14
Stepwise:
Este método es una combinación de los procedimientos anteriores,
comienza como el de introducción progresiva, pero en cada etapa se
plantea si todas las variables introducidas deben de permanecer.
Termina el algoritmo cuando ninguna variable entra o sale del modelo.
Regresión:
Éste considera las variables explicativas que hemos seleccionado y
para cada una de ellas asigna el p-valor asociado al contraste de
hipótesis de si la variable es significativa o no. Éste contraste de
hipotésis tiene como hipótesis nula que no existe relación entre la
variable explicativa y la variable objetivo.
15
Ejemplo de Regresión Logística (I):
16
Estimación de parámetros y métodos de selección
• Tanto el test de la razon de verosimilitud como el test de Wald son
instrumentos a utilizar para llevar a cabo el proceso de construir
un modelo de regresion logstica a partir de una base de datos.
Cuando la enumeracion completa de todos los modelos posibles
resulta computacionalmente costosa, se utilizan estrategias de
modelizacion destinadas a encontrar el mejor subconjunto de
variables predictoras.
Hacia adelante
1. Se inicia con un modelo vacío (sólo α );
2. Se ajusta un modelo y se calcula el p valor de incluir cada variable
por separado;
3. Se selecciona el modelo con la más significativa;
4. Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se
calcula el p valor de añadir cada variable no seleccionada por
separado;
5. Se selecciona el modelo con la más significativa;
6. Se repite 4 –- 5 hasta que no queden variables significativas para
incluir.
17
Hacia atrás
1. Se inicia con un modelo con TODAS las variables candidatas;
2. Se eliminan, una a una, cada variable y se calcula la pérdida de
ajuste al eliminar;
3. Se selecciona para eliminar la menos significativa;
4. Se repite 2 – 3 hasta que todas las variables incluidas sean
significativas y no pueda eliminarse ninguna sin que se pierda
ajuste.
Stepwise
• Se combinan los métodos adelante y atrás;
• Puede empezarse por el modelo vacío o por el completo, pero en
cada paso se exploran las variables incluidas, por si deben salir y las
no seleccionadas, por si deben entrar;
• No todos los métodos llegan a la misma solución necesariamente;
18
VI. Valoración y Validación del
Modelo
A. Bondad de Ajuste
Test de ajuste de Hosmer-Lemeshow
20
B. Significancia de las Variables
El estadístico de Wald
Contrasta la hipótesis de que un coeficiente aislado es distinto de
0, y sigue una distribución normal de media 0 y varianza 1. Su
valor para un coeficiente concreto viene dado por el cociente
entre el valor del coeficiente y su correspondiente error estándar.
21
C. Kolmogorov-Smirnov (KS)
La prueba de Kolmogórov-Smirnov (también prueba K-S) es
una prueba no parametrica que se utiliza para determinar la bondad
de ajuste de dos distribuciones entre sí.
Al momento de validar nuestro modelo de scoring se compararan
las distribuciones acumuladas de los buenos vs los malos que
predice el modelo de tal forma que la mayor distancia que generen
amabas curvas es el KS.
Es recomendable tener modelos cuyo KS este por arriba de 20%.
Distribución del Score por Acumulación de Buenos y
Malos
120.00%
100.00%
80.00%
% Acum Buenos
60.00%
% Acum Malos
40.00%
20.00%
0.00%
0.00543-0.01343
0.02143-0.02943
0.03743-0.04543
0.05343-0.06143
0.06943-0.07743
0.08543-0.09343
0.10143-0.10943
0.11743-0.12543
0.13343-0.14143
0.14943-0.15743
0.16543-0.17343
0.18143-0.18943
0.19743-0.20543
0.21343-0.22143
0.22943-0.23743
22
D. GINI
100%
90%
80%
% Mora Acumulada
70%
60%
50%
Modelo con baja
40% capacidad
30%
20%
predictiva
10%
0%
0% 10% 21% 31% 41% 51% 61% 71% 81% 91% 100%
% Buenas Acumuladas
GINI
100%
90% Modelo con alta
80%
capacidad
% Mora Acumulada
70%
60% predictiva
50%
40%
30%
20%
10%
0%
0% 10% 20% 30% 40% 51% 61% 71% 80% 90% 100%
% Buenas Acumuladas
24
VII. Aplicación del Credit Scoring
en la Gestión del Riesgo
A. Basilea
26
B. Pricing
27
C. Políticas
TM
Percentil Rango Score Malos Buenos Total TM Real TM Media % Total
Acumulada
1 0.00543-0.01651 19 3,224 3,243 0.59% 1.10% 0.59% 5.00%
2 0.01652-0.02304 25 3,219 3,244 0.77% 1.98% 0.68% 10.00%
3 0.02305-0.02767 50 3,193 3,243 1.54% 2.54% 0.97% 15.00%
4 0.02767-0.03184 63 3,181 3,244 1.94% 2.98% 1.21% 20.00%
5 0.03185-0.03567 70 3,173 3,243 2.16% 3.38% 1.40% 25.00%
6 0.03567-0.0392 75 3,163 3,238 2.32% 3.74% 1.55% 29.99%
7 0.0392-0.0427 81 3,169 3,250 2.49% 4.10% 1.69% 35.00% Mora
8
9
0.0427-0.04636
0.04636-0.05025
90
108
3,153
3,136
3,243
3,244
2.78%
3.33%
4.45%
4.83%
1.82%
1.99%
40.00%
45.00%
esperada
10 0.05025-0.0545 85 3,158 3,243 2.62% 5.24% 2.05% 50.00% vs
11
12
0.0545-0.05936
0.05936-0.06493
114
155
3,130
3,089
3,244
3,244
3.51%
4.78%
5.69%
6.21%
2.19%
2.40%
55.00%
60.00% Volumen
13 0.06493-0.07089 182 3,061 3,243 5.61% 6.79% 2.65% 65.00% objetivo
14 0.07089-0.07798 227 3,017 3,244 7.00% 7.44% 2.96% 70.00%
15 0.07798-0.08582 288 2,955 3,243 8.88% 8.19% 3.35% 75.00%
16 0.08582-0.09542 334 2,910 3,244 10.30% 9.06% 3.79% 80.00%
17 0.09543-0.10566 346 2,898 3,244 10.67% 10.05% 4.19% 85.00%
18 0.10566-0.11918 410 2,833 3,243 12.64% 11.24% 4.66% 90.00%
19 0.11918-0.13798 467 2,777 3,244 14.40% 12.86% 5.17% 95.00%
20 0.138-0.2321 527 2,716 3,243 16.25% 18.51% 5.73% 100.00%