Caso 03 - 11 - 12 - Grupo - 3 - Caso - 3 - Apresentação - Logit

AN LI S E M U LT I VAR IADA
Caso 3:
Regresso Logstica
Alunos: Alex Sandro Moraes Flvio Val Macelly Morais Marcelo Zeuli Sandro Sartrio
P R O F. J O R G E FE R R E I RA DA S I LVA
11/12/12
Agenda
Questo Anlise do arquivo Bankloan_sav 1. Objetivos da Regresso Logstica 2. Design da Pesquisa 3. Assumptions da Regresso Logstica
4. Estimao do Modelo de Regresso Logstica e Avaliao da Preciso

5. Interpretao dos Resultados
6. Validao dos Resultados

Concluses Gerenciais
Anlise Multivariada Prof. Jorge Ferreira da Silva
Questo
Um gerente de crdito quer ser capaz de identificar caractersticas que so indicativas de pessoas que so susceptveis inadimplncia em emprstimos para identificar os bons e maus clientes sob o ponto de vista de risco de crdito. Suponha que as informaes sobre 850 clientes antigos e clientes em potencial esto contidas no arquivo bankloan.sav. Os primeiros 700 casos so clientes que j receberam emprstimos. Use uma amostra aleatria de 700 desses clientes para criar um modelo de regresso logstica, deixando os clientes restantes de lado para validar a anlise. Em seguida, use o modelo para classificar os 150 clientes potenciais como bons ou maus de risco de crdito.
Processo de Deciso para Regresso Logstica

Objetivos da Regresso Logstica Selecione objetivo(s): (a)Identificar variveis independentes que impactam na classificao da varivel dependente em grupos; (b)Estabelecer um sistema de classificao baseado no modelo de regresso logstica para determinar a classificao em grupos.
Estgio 1:
Design da Pesquisa
Estgio 2:
Seleo de variveis independentes Consideraes sobre o tamanho da amostra Criao de amostras de anlise e de teste
Teste de Assumptions
Estgio 3:
No requer o atendimento de assumptions.
Para Estgio 4
Fonte: HAIR, 2005
Processo de Deciso para Anlise Discriminante

Do Estgio 3
Estgio 4:
Estimao do Modelo de Regresso Logstica Estimao pelo mtodo da mxima verossimilhana (1)Null model sem variveis independentes (2)Proposed model com as variveis independentes (3)-2LL difference significncia estatstica do valor do -2 LL entre o null modelo e o proposed model
Avaliao da Preciso Preditiva (1) Matrizes de classificao (2) Medida baseada no chi-square Interpretao dos Resultados (1) Significncia dos coeficientes (2) Direcionalidade da relao entre variveis dependentes e independentes (3) Magnitude da relao das variveis dependentes mtricas (4) Magnitude das variveis independentes no mtricas
Estgio 5:
Estgio 6:
Validao dos Resultados Sub-amostras ou validao cruzada
Fonte: HAIR, 2005
Estgio 1: Objetivo da Regresso Logstica
Dentre os objetivos citados por Hair1: Estabelecer um sistema de classificao baseado no modelo de regresso logstica para determinar a classificao em grupos.
1 - HAIR Jr., Joseph F., Multivariate Data Analysis, 7 th Edition
Estgio 2: Design da Pesquisa

Varivel dependente com duas categorias: Default No default Varivel dependente binria Variveis independentes: Age in years (age) Level of education (ed) Years with current employer (employ) Years at current address (address) Household income in thousands (income) Debt to income ratio X 100 (debtinc) Credit card debt in thousands (creddebt) Other debt in thousands (othdebt)
Anlise Multivariada Prof. Jorge Ferreira da Silva 7

Tamanho total da amostra:
Hosmer e Lemeshow recomendam amostras maiores que 400 (tanto para a amostra de anlise e de holdout); Tamanho total da amostra do caso:
A amostra possui 700 cases, que foram aleatoriamente divididos nas sub-amostras de Anlise (60%) e Holdout (40%). Foi utilizado o seed 12345. Amostra de anlise aproximadamente 420 casos Atende ao requisito. Amostra holdout aproximadamente 280 casos No atende requisito.
Tamanho da amostra por categoria:
O tamanho da amostra recomendado de 10 casos para cada grupo da varivel dependente;
Tamanho da amostra por categoria do caso:
Tamanho dos grupos de categorias: 110 (default) e 293 (no default) Atende ao requisito.
Estgio 3: Teste de Assumptions

Logistic regression does not make any assumptions of normality, linearity, and homogeneity of variance for the independent variables.
Because it does not impose these requirements, it is preferred to discriminant analysis when the data does not satisfy these assumptions.
10
Estgio 3: Outliers Univariados e Multivariados

Outliers Univariados
Para cada varivel independente, foi criada varivel com valor padronizado. Foram considerados outliers e excludos, os casos em que o valor padronizado de qualquer varivel no estivesse entre o intervalo +- 3.0, dado que a amostra maior que 80.
Outliers Multivariados So os casos com uma combinao no usual de valores para um nmero de variveis. Foi especificada a distncia Mahalanobis atravs da Regresso Linear. A seguir, foi calculada a distribuio de probabilidade acumulada da Mahalanobis D2 . Foram excludos os casos que estavam na cauda da distribuio acumulada (p< 0,001).
Estgio 3: Outliers Univariados e Multivariados

SEM OUTLIERS
COM OUTLIERS
Com os outliers, o percentual de acerto dos casos em que houve default maior, apesar do percentual total e dos casos em que no houve default ter sido maior. Por este motivo, optou-se por manter os outliers.
12
Estgio 4: Estimao do Modelo de Regresso Logstica Null Model
O Null Model serve como linha de base para comparar as melhorias do modelo com a incluso das variveis independentes
13
Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model
A melhoria do modelo resulta na reduo do valor do -2LL; Valores maiores de Cox & Snell R2 (medida limitada pois no atinge o valor mximo, que igual a 1) indicam melhoria do ajuste do modelo; Valores maiores de Nagelkerke R2 (que no tem a limitao da medida de Cox & Snell R2 ) indicam melhoria do ajuste do modelo; Todas as medidas acima so Pseudo R2
.
14
Teste de Hosmer and Lemeshow mensura o ajuste geral do modelo atravs da diferena entre os valores histricos e os preditos. Quanto menor a diferena entre os valores, melhor o modelo. O nvel de significncia do modelo final de 0,606 indica que o modelo aceitvel.
15
Estgio 4: Estimao do Modelo de Regresso Logstica
Proposed Model
Coeficientes originais (logit) Coeficientes exponenciais (Odds)
Embora a constante, no quarto passo, no seja significativamente diferente de zero - no tendo impacto na varivel dependente - mantivemos o modelo, tendo em vista que os pseudos R2 aumentam quando o coeficiente considerado. LOGIT = -0,423 + 0,067 debtinc 0,085 address 0,276 employ + 0,653 creddebt
ODDS= e 0,655 + 1,069 debtinc + 0,918 address +0,759 employ + 1,921 creddebt

Step number: 4 Observed Groups and Predicted Probabilities 80 + + I I I I F I I R 60 + + E I I Q IN I U IN I E 40 +N + N IN I C IN I Y INN I 20 +NN + INNYY I INNNNN N N NY NNY I INNNNNNNNNNNNNN NNN N YYNNNNNN N NYNY NYN YNYN N NN N YY Y YYYY I Predicted ---------+---------+---------+---------+---------+---------+---------+---------+---------+---------Prob:0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1 Group: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY PredictedProbabilityisofMembership for Yes The Cut Value is .50 Symbols: N - No Y - Yes Each Symbol Represents 5 Cases.
17
18
19
20
Testa os efeitos das variveis independentes. H0 = efeito zero ou coeficiente igual a zero Hiptese alternativa = h efeito na varivel dependente ou coeficiente diferente de zero Step varivel que entraram no modelo no passo atual Bloc e Model todas as variveis do modelo Anlise Multivariada Prof. Jorge Ferreira da Silva 21
Estgio 5: Interpretao dos Resultados Teste da Significncia dos Coeficientes
Embora a constante, no quarto passo, no seja significativamente diferente de zero - no tendo impacto na varivel dependente mantivemos o modelo, tendo em vista que os pseudos R2 aumentam quando o coeficiente considerado.
Estgio 5: Interpretao dos Resultados Interpretao dos Coeficientes

LOGIT = -0,423 + 0,067 debtinc 0,085 address 0,276 employ + 0,653 creddebt Esta equao considera os coeficientes originais; O sinal do coeficiente indica a direo do relacionamento das variveis dependente e independente; Coeficientes positivos aumentam a probabilidade predita; Coeficientes negativos diminuem a probabilidade predita; Os coeficientes originais no so muito teis para determinar a magnitude da relao entre varivel dependente e varivel independente.
DIREO DO RELACIONAMENTO Analisando o sinal dos coeficientes, conclumos:

Quanto maior o percentual do salrio representado por dvidas, maior a probabilidade de default; Quanto maior for o n de anos de residncia no endereo atual, menor a probabilidade de default; Quanto maior for o n de anos de trabalho no emprego atual, menor a probabilidade de default; e Quanto maior for a dvida em carto de crdito, maior a probabilidade de default.
23
Estgio 5: Interpretao dos Resultados
Interpretao dos Coeficientes

ODDS= e -0,423 + 0,067 debtinc 0,085 address 0,276 employ + 0,653 creddebt
Os coeficientes exponenciais so o logaritmo dos coeficientes originais; Esta equao considera os coeficientes exponenciais; Coeficientes maiores que 1 refletem uma relao positiva com a probabilidade predita; Coeficientes menores que 1 refletem uma relao negativa com a probabilidade predita; O impacto dos coeficientes na probabilidade multiplicativo; O impacto na probabilidade pode ser determinado pela frmula:
Percentual de mudana no odds = (coeficiente exponencial -1) X 100
Estgio 5: Interpretao dos Resultados - Coeficientes

ODDS= e -0,423 + 0,067 debtinc 0,085 address 0,276 employ + 0,653 creddebt
DIREO E MAGNITUDE DA RELAO
VALORES 0,918 0,759 -0,082 -0,241 -8,20% -24,10%
Coeficientes Exponenciais Coeficientes Exponenciais - 1 Percentual de mudana do odds
1,069 0,069 6,90%
1,921 0,921 92,10%
A cada unidade de aumento no percentual do salrio comprometido por dvidas, o odds aumentar em 6,90%, logo, a probabilidade de default ser maior; A cada ano de residncia no endereo atual, o odds diminuir em 8,20%, logo, a probabilidade de default ser menor; A cada ano de trabalho no emprego atual, o odds diminuir em 24,10%, logo, a probabilidade de default ser menor; e A cada aumento na dvida com carto de crdito (em milhares), o odds aumentar em 92,10%, logo, a probabilidade de default ser maior.
25
Estgio 6: Validao - Critrio da Chance e Critrio Proporcional
Critrio Chance Proporcional
Percentual 73,86% 61,38%
C max (Maximum Criterion Chance) = 73,86% e C pro (Proportional Chance Criterion) = 61,38% Se colocarmos C max * 1,25 = 92,32% e C pro*1,25= 76,72%, como Anlise = 81,6% e Holdout = 78,8% => no atenderia ao critrio do nvel aceitvel de preciso preditiva. No entanto, esse critrio mais aplicvel a grupos com mesmo tamanho, ao contrrio do caso em questo. Como medida final da Preciso temos: Presss Q Anlise = [403 (329x2)]2 / 403 x (2 1) = 161,35 > 6.63 Presss Q Holdout = [297 (234x2)]2 / 297 x (2 1) = 98,45 > 6.63 Conclumos que as predies do modelo so significativamente melhores que a chance! Anlise Multivariada Prof. Jorge Ferreira da Silva 26
ROC Curve
VERDADEIRO POSITIVO
1 - VERDADEIRO NEGATIVO OU FALSO POSITIVO
27
ROC Curve
A rea sob a curva 0,856 A rea sob a curva significativamente maior que 0,50, o que significa que o modelo classifica os grupos significativamente melhor que a chance.
28
ROC Curve
O quadro acima uma resumo do output do SPSS da Roc Curve; A coluna Positive if Greater representa o cut point; A coluna Sensitivity representa o percentual de casos Default cuja probabilidade estaria acima do cut point (classificao correta de casos Default); A coluna 1-Specificity representa o percentual de casos No Default cuja probabilidade estaria acima do cut point (classificao errada de casos No Default); possvel obter o percentual de acerto de casos No Default (Specificity) atravs do clculo: 1- (1-Specificity); Construindo um grfico com os valores do percentual de acertos de casos Default (Sensitivity) X percentual de acertos de casos No Default (Specificity), possvel determinar um ponto timo de corte, conforme grfico a seguir.
29
Ponto timo de Corte (ROC Curve)
120%
100%
80%
Cut point timo de 29%

Acerto No Default Acerto Default
Hit Ratio
60%
40%
20%
0%
De
acordo com os dados acima, se fosse considerado um cut point de 29%, o modelo acertaria aproximadamente 78% dos casos Default e No Default; O prximo passo ser utilizar este cut point para classificar os casos.
0% 0% 0% 1% 1% 2% 2% 3% 4% 5% 7% 8% 9% 11% 13% 14% 16% 19% 21% 23% 26% 29% 33% 36% 40% 44% 47% 51% 57% 61% 67% 74% 81% 97%
30
Ponto timo de Corte (ROC Curve)
Considerando o cut point de 29%, o modelo acertaria aproximadamente 80% dos casos Default e 78% dos casos no Default; Considerando o cut point de 50% o modelo acertaria aproximadamente 91% dos casos No Default , porm apenas 56% dos casos Default; possvel aumentar o Hit Ratio atravs do ajuste do cut point. Anlise Multivariada Prof. Jorge Ferreira da Silva
31
Classificao de Novos Clientes

Classificao dos 150 Clientes Potenciais Considerando cut points de 0,50 e 0,29
Renda corte 0,29 DEFAULT NO DEFAULT Total Valor Renda corte 0,29 DEFAULT NO DEFAULT Total %
corte 0,5 DEFAULT NO DEFAULT R$ 1.332,00 R$ 671,00 R$ 5.750,00 R$ 1.332,00 R$ 6.421,00 corte 0,5 DEFAULT NO DEFAULT 17,18% 8,65% 0,00% 74,16% 17,18% 82,82%
Total Valor R$ 2.003,00 R$ 5.750,00 R$ 7.753,00 Total % 25,84% 74,16% 100,00%
32
Classificao dos Clientes Potenciais

Determinao do Ponto de Corte que Otimiza o Modelo
100 90 80
Hit Ratio (%)
70 60 50 40 30 20 15% 20% 25% 27% 30% 35% 40% 45% 50% 55% 60% Cutoff NO
YES Overall
33
Anlise por Renda

Distribuio de acertos com Relao Renda
Renda para no default Renda para default total da Renda
160,0% 140,0%
P% acerto em valor
120,0% 100,0% 80,0% 60,0% 40,0% 20,0% 0,0%
,0% 10
,0% 20
,0% 30
,0% 40
,0% 50
,0% 60
,0% 70
,0% 80
,0% 90
corte
34
Concluses
O modelo s explica 46,4% da variao da varivel dependente. Ainda assim, melhor do que usar o critrio da chance;
A Anlise por Regresso Logstica permitiu identificar caractersticas de um bom e mau pagador:
Debt to Income Ratio (X100) Quanto maior o percentual das receitas representado por dvidas, maior a probabilidade de inadimplncia; Years with Current Employer Quanto mais anos no emprego atual, menor a probabilidade de inadimplncia; Credit Card Debt in Thousands Quanto maior a dvida com carto de crdito, maior a probabilidade de inadimplncia;
Years with Current Address Quanto mais anos no endereo atual, menor a probabilidade de inadimplncia;
Os resultados apontam para as mesmas concluses obtidas com a utilizao da anlise discriminante.
35

Caso 03 - 11 - 12 - Grupo - 3 - Caso - 3 - Apresentação - Logit

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Caso 03 - 11 - 12 - Grupo - 3 - Caso - 3 - Apresentação - Logit

Enviado por

Direitos autorais:

Formatos disponíveis

AN LI S E M U LT I VAR IADA

4. Estimao do Modelo de Regresso Logstica e Avaliao da Preciso

6. Validao dos Resultados

Anlise Multivariada Prof. Jorge Ferreira da Silva

Anlise Multivariada Prof. Jorge Ferreira da Silva

Processo de Deciso para Regresso Logstica

No requer o atendimento de assumptions.

Fonte: HAIR, 2005

Anlise Multivariada Prof. Jorge Ferreira da Silva

Processo de Deciso para Anlise Discriminante

Validao dos Resultados Sub-amostras ou validao cruzada

Fonte: HAIR, 2005

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 1: Objetivo da Regresso Logstica

1 - HAIR Jr., Joseph F., Multivariate Data Analysis, 7 th Edition

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 2: Design da Pesquisa

Estgio 2: Design da Pesquisa

Estgio 2: Design da Pesquisa

Tamanho da amostra por categoria:

O tamanho da amostra recomendado de 10 casos para cada grupo da varivel dependente;

Tamanho da amostra por categoria do caso:

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 3: Teste de Assumptions

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 3: Outliers Univariados e Multivariados

Estgio 3: Outliers Univariados e Multivariados

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 4: Estimao do Modelo de Regresso Logstica Null Model

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 4: Estimao do Modelo de Regresso Logstica

Coeficientes originais (logit) Coeficientes exponenciais (Odds)

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Estgio 5: Interpretao dos Resultados Teste da Significncia dos Coeficientes

Estgio 5: Interpretao dos Resultados Interpretao dos Coeficientes

DIREO DO RELACIONAMENTO Analisando o sinal dos coeficientes, conclumos:

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 5: Interpretao dos Resultados

Interpretao dos Coeficientes

Estgio 5: Interpretao dos Resultados - Coeficientes

Coeficientes Exponenciais Coeficientes Exponenciais - 1 Percentual de mudana do odds

1,069 0,069 6,90%

1,921 0,921 92,10%

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 6: Validao - Critrio da Chance e Critrio Proporcional

Critrio Chance Proporcional

Percentual 73,86% 61,38%

1 - VERDADEIRO NEGATIVO OU FALSO POSITIVO

Anlise Multivariada Prof. Jorge Ferreira da Silva

Anlise Multivariada Prof. Jorge Ferreira da Silva

Anlise Multivariada Prof. Jorge Ferreira da Silva