Escolar Documentos
Profissional Documentos
Cultura Documentos
Caso 3:
Regresso Logstica
Alunos: Alex Sandro Moraes Flvio Val Macelly Morais Marcelo Zeuli Sandro Sartrio
P R O F. J O R G E FE R R E I RA DA S I LVA
11/12/12
Agenda
Questo Anlise do arquivo Bankloan_sav 1. Objetivos da Regresso Logstica 2. Design da Pesquisa 3. Assumptions da Regresso Logstica
Questo
Um gerente de crdito quer ser capaz de identificar caractersticas que so indicativas de pessoas que so susceptveis inadimplncia em emprstimos para identificar os bons e maus clientes sob o ponto de vista de risco de crdito. Suponha que as informaes sobre 850 clientes antigos e clientes em potencial esto contidas no arquivo bankloan.sav. Os primeiros 700 casos so clientes que j receberam emprstimos. Use uma amostra aleatria de 700 desses clientes para criar um modelo de regresso logstica, deixando os clientes restantes de lado para validar a anlise. Em seguida, use o modelo para classificar os 150 clientes potenciais como bons ou maus de risco de crdito.
Estgio 1:
Design da Pesquisa
Estgio 2:
Seleo de variveis independentes Consideraes sobre o tamanho da amostra Criao de amostras de anlise e de teste
Teste de Assumptions
Estgio 3:
Para Estgio 4
Estgio 4:
Estimao do Modelo de Regresso Logstica Estimao pelo mtodo da mxima verossimilhana (1)Null model sem variveis independentes (2)Proposed model com as variveis independentes (3)-2LL difference significncia estatstica do valor do -2 LL entre o null modelo e o proposed model
Avaliao da Preciso Preditiva (1) Matrizes de classificao (2) Medida baseada no chi-square Interpretao dos Resultados (1) Significncia dos coeficientes (2) Direcionalidade da relao entre variveis dependentes e independentes (3) Magnitude da relao das variveis dependentes mtricas (4) Magnitude das variveis independentes no mtricas
Estgio 5:
Estgio 6:
Dentre os objetivos citados por Hair1: Estabelecer um sistema de classificao baseado no modelo de regresso logstica para determinar a classificao em grupos.
Hosmer e Lemeshow recomendam amostras maiores que 400 (tanto para a amostra de anlise e de holdout); Tamanho total da amostra do caso:
A amostra possui 700 cases, que foram aleatoriamente divididos nas sub-amostras de Anlise (60%) e Holdout (40%). Foi utilizado o seed 12345. Amostra de anlise aproximadamente 420 casos Atende ao requisito. Amostra holdout aproximadamente 280 casos No atende requisito.
Anlise Multivariada Prof. Jorge Ferreira da Silva 8
Tamanho dos grupos de categorias: 110 (default) e 293 (no default) Atende ao requisito.
Because it does not impose these requirements, it is preferred to discriminant analysis when the data does not satisfy these assumptions.
10
Para cada varivel independente, foi criada varivel com valor padronizado. Foram considerados outliers e excludos, os casos em que o valor padronizado de qualquer varivel no estivesse entre o intervalo +- 3.0, dado que a amostra maior que 80.
Outliers Multivariados So os casos com uma combinao no usual de valores para um nmero de variveis. Foi especificada a distncia Mahalanobis atravs da Regresso Linear. A seguir, foi calculada a distribuio de probabilidade acumulada da Mahalanobis D2 . Foram excludos os casos que estavam na cauda da distribuio acumulada (p< 0,001).
Anlise Multivariada Prof. Jorge Ferreira da Silva 11
COM OUTLIERS
Com os outliers, o percentual de acerto dos casos em que houve default maior, apesar do percentual total e dos casos em que no houve default ter sido maior. Por este motivo, optou-se por manter os outliers.
12
O Null Model serve como linha de base para comparar as melhorias do modelo com a incluso das variveis independentes
13
A melhoria do modelo resulta na reduo do valor do -2LL; Valores maiores de Cox & Snell R2 (medida limitada pois no atinge o valor mximo, que igual a 1) indicam melhoria do ajuste do modelo; Valores maiores de Nagelkerke R2 (que no tem a limitao da medida de Cox & Snell R2 ) indicam melhoria do ajuste do modelo; Todas as medidas acima so Pseudo R2
.
14
Teste de Hosmer and Lemeshow mensura o ajuste geral do modelo atravs da diferena entre os valores histricos e os preditos. Quanto menor a diferena entre os valores, melhor o modelo. O nvel de significncia do modelo final de 0,606 indica que o modelo aceitvel.
15
Proposed Model
Embora a constante, no quarto passo, no seja significativamente diferente de zero - no tendo impacto na varivel dependente - mantivemos o modelo, tendo em vista que os pseudos R2 aumentam quando o coeficiente considerado. LOGIT = -0,423 + 0,067 debtinc 0,085 address 0,276 employ + 0,653 creddebt
ODDS= e 0,655 + 1,069 debtinc + 0,918 address +0,759 employ + 1,921 creddebt
Anlise Multivariada Prof. Jorge Ferreira da Silva 16
17
18
19
20
Testa os efeitos das variveis independentes. H0 = efeito zero ou coeficiente igual a zero Hiptese alternativa = h efeito na varivel dependente ou coeficiente diferente de zero Step varivel que entraram no modelo no passo atual Bloc e Model todas as variveis do modelo Anlise Multivariada Prof. Jorge Ferreira da Silva 21
Embora a constante, no quarto passo, no seja significativamente diferente de zero - no tendo impacto na varivel dependente mantivemos o modelo, tendo em vista que os pseudos R2 aumentam quando o coeficiente considerado.
Anlise Multivariada Prof. Jorge Ferreira da Silva 22
23
A cada unidade de aumento no percentual do salrio comprometido por dvidas, o odds aumentar em 6,90%, logo, a probabilidade de default ser maior; A cada ano de residncia no endereo atual, o odds diminuir em 8,20%, logo, a probabilidade de default ser menor; A cada ano de trabalho no emprego atual, o odds diminuir em 24,10%, logo, a probabilidade de default ser menor; e A cada aumento na dvida com carto de crdito (em milhares), o odds aumentar em 92,10%, logo, a probabilidade de default ser maior.
25
C max (Maximum Criterion Chance) = 73,86% e C pro (Proportional Chance Criterion) = 61,38% Se colocarmos C max * 1,25 = 92,32% e C pro*1,25= 76,72%, como Anlise = 81,6% e Holdout = 78,8% => no atenderia ao critrio do nvel aceitvel de preciso preditiva. No entanto, esse critrio mais aplicvel a grupos com mesmo tamanho, ao contrrio do caso em questo. Como medida final da Preciso temos: Presss Q Anlise = [403 (329x2)]2 / 403 x (2 1) = 161,35 > 6.63 Presss Q Holdout = [297 (234x2)]2 / 297 x (2 1) = 98,45 > 6.63 Conclumos que as predies do modelo so significativamente melhores que a chance! Anlise Multivariada Prof. Jorge Ferreira da Silva 26
ROC Curve
VERDADEIRO POSITIVO
27
ROC Curve
A rea sob a curva 0,856 A rea sob a curva significativamente maior que 0,50, o que significa que o modelo classifica os grupos significativamente melhor que a chance.
28
ROC Curve
O quadro acima uma resumo do output do SPSS da Roc Curve; A coluna Positive if Greater representa o cut point; A coluna Sensitivity representa o percentual de casos Default cuja probabilidade estaria acima do cut point (classificao correta de casos Default); A coluna 1-Specificity representa o percentual de casos No Default cuja probabilidade estaria acima do cut point (classificao errada de casos No Default); possvel obter o percentual de acerto de casos No Default (Specificity) atravs do clculo: 1- (1-Specificity); Construindo um grfico com os valores do percentual de acertos de casos Default (Sensitivity) X percentual de acertos de casos No Default (Specificity), possvel determinar um ponto timo de corte, conforme grfico a seguir.
29
120%
100%
80%
Hit Ratio
60%
40%
20%
0%
De
acordo com os dados acima, se fosse considerado um cut point de 29%, o modelo acertaria aproximadamente 78% dos casos Default e No Default; O prximo passo ser utilizar este cut point para classificar os casos.
Anlise Multivariada Prof. Jorge Ferreira da Silva
0% 0% 0% 1% 1% 2% 2% 3% 4% 5% 7% 8% 9% 11% 13% 14% 16% 19% 21% 23% 26% 29% 33% 36% 40% 44% 47% 51% 57% 61% 67% 74% 81% 97%
30
Considerando o cut point de 29%, o modelo acertaria aproximadamente 80% dos casos Default e 78% dos casos no Default; Considerando o cut point de 50% o modelo acertaria aproximadamente 91% dos casos No Default , porm apenas 56% dos casos Default; possvel aumentar o Hit Ratio atravs do ajuste do cut point. Anlise Multivariada Prof. Jorge Ferreira da Silva
31
Renda corte 0,29 DEFAULT NO DEFAULT Total Valor Renda corte 0,29 DEFAULT NO DEFAULT Total %
corte 0,5 DEFAULT NO DEFAULT R$ 1.332,00 R$ 671,00 R$ 5.750,00 R$ 1.332,00 R$ 6.421,00 corte 0,5 DEFAULT NO DEFAULT 17,18% 8,65% 0,00% 74,16% 17,18% 82,82%
32
70 60 50 40 30 20 15% 20% 25% 27% 30% 35% 40% 45% 50% 55% 60% Cutoff NO
YES Overall
33
160,0% 140,0%
P% acerto em valor
,0% 10
,0% 20
,0% 30
,0% 40
,0% 50
,0% 60
,0% 70
,0% 80
,0% 90
corte
34
Concluses
O modelo s explica 46,4% da variao da varivel dependente. Ainda assim, melhor do que usar o critrio da chance;
A Anlise por Regresso Logstica permitiu identificar caractersticas de um bom e mau pagador:
Debt to Income Ratio (X100) Quanto maior o percentual das receitas representado por dvidas, maior a probabilidade de inadimplncia; Years with Current Employer Quanto mais anos no emprego atual, menor a probabilidade de inadimplncia; Credit Card Debt in Thousands Quanto maior a dvida com carto de crdito, maior a probabilidade de inadimplncia;
Years with Current Address Quanto mais anos no endereo atual, menor a probabilidade de inadimplncia;
Os resultados apontam para as mesmas concluses obtidas com a utilizao da anlise discriminante.
35