Você está na página 1de 35

AN LI S E M U LT I VAR IADA

Caso 3:
Regresso Logstica

Alunos: Alex Sandro Moraes Flvio Val Macelly Morais Marcelo Zeuli Sandro Sartrio
P R O F. J O R G E FE R R E I RA DA S I LVA

11/12/12

Agenda
Questo Anlise do arquivo Bankloan_sav 1. Objetivos da Regresso Logstica 2. Design da Pesquisa 3. Assumptions da Regresso Logstica

4. Estimao do Modelo de Regresso Logstica e Avaliao da Preciso


5. Interpretao dos Resultados

6. Validao dos Resultados


Concluses Gerenciais

Anlise Multivariada Prof. Jorge Ferreira da Silva

Questo
Um gerente de crdito quer ser capaz de identificar caractersticas que so indicativas de pessoas que so susceptveis inadimplncia em emprstimos para identificar os bons e maus clientes sob o ponto de vista de risco de crdito. Suponha que as informaes sobre 850 clientes antigos e clientes em potencial esto contidas no arquivo bankloan.sav. Os primeiros 700 casos so clientes que j receberam emprstimos. Use uma amostra aleatria de 700 desses clientes para criar um modelo de regresso logstica, deixando os clientes restantes de lado para validar a anlise. Em seguida, use o modelo para classificar os 150 clientes potenciais como bons ou maus de risco de crdito.

Anlise Multivariada Prof. Jorge Ferreira da Silva

Processo de Deciso para Regresso Logstica


Objetivos da Regresso Logstica Selecione objetivo(s): (a)Identificar variveis independentes que impactam na classificao da varivel dependente em grupos; (b)Estabelecer um sistema de classificao baseado no modelo de regresso logstica para determinar a classificao em grupos.

Estgio 1:

Design da Pesquisa

Estgio 2:

Seleo de variveis independentes Consideraes sobre o tamanho da amostra Criao de amostras de anlise e de teste

Teste de Assumptions

Estgio 3:

No requer o atendimento de assumptions.

Para Estgio 4

Fonte: HAIR, 2005

Anlise Multivariada Prof. Jorge Ferreira da Silva

Processo de Deciso para Anlise Discriminante


Do Estgio 3

Estgio 4:

Estimao do Modelo de Regresso Logstica Estimao pelo mtodo da mxima verossimilhana (1)Null model sem variveis independentes (2)Proposed model com as variveis independentes (3)-2LL difference significncia estatstica do valor do -2 LL entre o null modelo e o proposed model

Avaliao da Preciso Preditiva (1) Matrizes de classificao (2) Medida baseada no chi-square Interpretao dos Resultados (1) Significncia dos coeficientes (2) Direcionalidade da relao entre variveis dependentes e independentes (3) Magnitude da relao das variveis dependentes mtricas (4) Magnitude das variveis independentes no mtricas

Estgio 5:

Estgio 6:

Validao dos Resultados Sub-amostras ou validao cruzada

Fonte: HAIR, 2005

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 1: Objetivo da Regresso Logstica

Dentre os objetivos citados por Hair1: Estabelecer um sistema de classificao baseado no modelo de regresso logstica para determinar a classificao em grupos.

1 - HAIR Jr., Joseph F., Multivariate Data Analysis, 7 th Edition

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 2: Design da Pesquisa


Varivel dependente com duas categorias: Default No default Varivel dependente binria Variveis independentes: Age in years (age) Level of education (ed) Years with current employer (employ) Years at current address (address) Household income in thousands (income) Debt to income ratio X 100 (debtinc) Credit card debt in thousands (creddebt) Other debt in thousands (othdebt)
Anlise Multivariada Prof. Jorge Ferreira da Silva 7

Estgio 2: Design da Pesquisa


Tamanho total da amostra:

Hosmer e Lemeshow recomendam amostras maiores que 400 (tanto para a amostra de anlise e de holdout); Tamanho total da amostra do caso:
A amostra possui 700 cases, que foram aleatoriamente divididos nas sub-amostras de Anlise (60%) e Holdout (40%). Foi utilizado o seed 12345. Amostra de anlise aproximadamente 420 casos Atende ao requisito. Amostra holdout aproximadamente 280 casos No atende requisito.
Anlise Multivariada Prof. Jorge Ferreira da Silva 8

Estgio 2: Design da Pesquisa

Tamanho da amostra por categoria:

O tamanho da amostra recomendado de 10 casos para cada grupo da varivel dependente;

Tamanho da amostra por categoria do caso:

Tamanho dos grupos de categorias: 110 (default) e 293 (no default) Atende ao requisito.

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 3: Teste de Assumptions


Logistic regression does not make any assumptions of normality, linearity, and homogeneity of variance for the independent variables.

Because it does not impose these requirements, it is preferred to discriminant analysis when the data does not satisfy these assumptions.

Anlise Multivariada Prof. Jorge Ferreira da Silva

10

Estgio 3: Outliers Univariados e Multivariados


Outliers Univariados

Para cada varivel independente, foi criada varivel com valor padronizado. Foram considerados outliers e excludos, os casos em que o valor padronizado de qualquer varivel no estivesse entre o intervalo +- 3.0, dado que a amostra maior que 80.
Outliers Multivariados So os casos com uma combinao no usual de valores para um nmero de variveis. Foi especificada a distncia Mahalanobis atravs da Regresso Linear. A seguir, foi calculada a distribuio de probabilidade acumulada da Mahalanobis D2 . Foram excludos os casos que estavam na cauda da distribuio acumulada (p< 0,001).
Anlise Multivariada Prof. Jorge Ferreira da Silva 11

Estgio 3: Outliers Univariados e Multivariados


SEM OUTLIERS

COM OUTLIERS

Com os outliers, o percentual de acerto dos casos em que houve default maior, apesar do percentual total e dos casos em que no houve default ter sido maior. Por este motivo, optou-se por manter os outliers.

Anlise Multivariada Prof. Jorge Ferreira da Silva

12

Estgio 4: Estimao do Modelo de Regresso Logstica Null Model

O Null Model serve como linha de base para comparar as melhorias do modelo com a incluso das variveis independentes

Anlise Multivariada Prof. Jorge Ferreira da Silva

13

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

A melhoria do modelo resulta na reduo do valor do -2LL; Valores maiores de Cox & Snell R2 (medida limitada pois no atinge o valor mximo, que igual a 1) indicam melhoria do ajuste do modelo; Valores maiores de Nagelkerke R2 (que no tem a limitao da medida de Cox & Snell R2 ) indicam melhoria do ajuste do modelo; Todas as medidas acima so Pseudo R2

.
14

Anlise Multivariada Prof. Jorge Ferreira da Silva

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Teste de Hosmer and Lemeshow mensura o ajuste geral do modelo atravs da diferena entre os valores histricos e os preditos. Quanto menor a diferena entre os valores, melhor o modelo. O nvel de significncia do modelo final de 0,606 indica que o modelo aceitvel.

Anlise Multivariada Prof. Jorge Ferreira da Silva

15

Estgio 4: Estimao do Modelo de Regresso Logstica

Proposed Model

Coeficientes originais (logit) Coeficientes exponenciais (Odds)

Embora a constante, no quarto passo, no seja significativamente diferente de zero - no tendo impacto na varivel dependente - mantivemos o modelo, tendo em vista que os pseudos R2 aumentam quando o coeficiente considerado. LOGIT = -0,423 + 0,067 debtinc 0,085 address 0,276 employ + 0,653 creddebt

ODDS= e 0,655 + 1,069 debtinc + 0,918 address +0,759 employ + 1,921 creddebt
Anlise Multivariada Prof. Jorge Ferreira da Silva 16

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model


Step number: 4 Observed Groups and Predicted Probabilities 80 + + I I I I F I I R 60 + + E I I Q IN I U IN I E 40 +N + N IN I C IN I Y INN I 20 +NN + INNYY I INNNNN N N NY NNY I INNNNNNNNNNNNNN NNN N YYNNNNNN N NYNY NYN YNYN N NN N YY Y YYYY I Predicted ---------+---------+---------+---------+---------+---------+---------+---------+---------+---------Prob:0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1 Group: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY PredictedProbabilityisofMembership for Yes The Cut Value is .50 Symbols: N - No Y - Yes Each Symbol Represents 5 Cases.

Anlise Multivariada Prof. Jorge Ferreira da Silva

17

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Anlise Multivariada Prof. Jorge Ferreira da Silva

18

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Anlise Multivariada Prof. Jorge Ferreira da Silva

19

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Anlise Multivariada Prof. Jorge Ferreira da Silva

20

Estgio 4: Estimao do Modelo de Regresso Logstica Proposed Model

Testa os efeitos das variveis independentes. H0 = efeito zero ou coeficiente igual a zero Hiptese alternativa = h efeito na varivel dependente ou coeficiente diferente de zero Step varivel que entraram no modelo no passo atual Bloc e Model todas as variveis do modelo Anlise Multivariada Prof. Jorge Ferreira da Silva 21

Estgio 5: Interpretao dos Resultados Teste da Significncia dos Coeficientes

Embora a constante, no quarto passo, no seja significativamente diferente de zero - no tendo impacto na varivel dependente mantivemos o modelo, tendo em vista que os pseudos R2 aumentam quando o coeficiente considerado.
Anlise Multivariada Prof. Jorge Ferreira da Silva 22

Estgio 5: Interpretao dos Resultados Interpretao dos Coeficientes


LOGIT = -0,423 + 0,067 debtinc 0,085 address 0,276 employ + 0,653 creddebt Esta equao considera os coeficientes originais; O sinal do coeficiente indica a direo do relacionamento das variveis dependente e independente; Coeficientes positivos aumentam a probabilidade predita; Coeficientes negativos diminuem a probabilidade predita; Os coeficientes originais no so muito teis para determinar a magnitude da relao entre varivel dependente e varivel independente.

DIREO DO RELACIONAMENTO Analisando o sinal dos coeficientes, conclumos:


Quanto maior o percentual do salrio representado por dvidas, maior a probabilidade de default; Quanto maior for o n de anos de residncia no endereo atual, menor a probabilidade de default; Quanto maior for o n de anos de trabalho no emprego atual, menor a probabilidade de default; e Quanto maior for a dvida em carto de crdito, maior a probabilidade de default.

Anlise Multivariada Prof. Jorge Ferreira da Silva

23

Estgio 5: Interpretao dos Resultados

Interpretao dos Coeficientes


ODDS= e -0,423 + 0,067 debtinc 0,085 address 0,276 employ + 0,653 creddebt
Os coeficientes exponenciais so o logaritmo dos coeficientes originais; Esta equao considera os coeficientes exponenciais; Coeficientes maiores que 1 refletem uma relao positiva com a probabilidade predita; Coeficientes menores que 1 refletem uma relao negativa com a probabilidade predita; O impacto dos coeficientes na probabilidade multiplicativo; O impacto na probabilidade pode ser determinado pela frmula:
Percentual de mudana no odds = (coeficiente exponencial -1) X 100
Anlise Multivariada Prof. Jorge Ferreira da Silva 24

Estgio 5: Interpretao dos Resultados - Coeficientes


ODDS= e -0,423 + 0,067 debtinc 0,085 address 0,276 employ + 0,653 creddebt
DIREO E MAGNITUDE DA RELAO
VALORES 0,918 0,759 -0,082 -0,241 -8,20% -24,10%

Coeficientes Exponenciais Coeficientes Exponenciais - 1 Percentual de mudana do odds

1,069 0,069 6,90%

1,921 0,921 92,10%

A cada unidade de aumento no percentual do salrio comprometido por dvidas, o odds aumentar em 6,90%, logo, a probabilidade de default ser maior; A cada ano de residncia no endereo atual, o odds diminuir em 8,20%, logo, a probabilidade de default ser menor; A cada ano de trabalho no emprego atual, o odds diminuir em 24,10%, logo, a probabilidade de default ser menor; e A cada aumento na dvida com carto de crdito (em milhares), o odds aumentar em 92,10%, logo, a probabilidade de default ser maior.

Anlise Multivariada Prof. Jorge Ferreira da Silva

25

Estgio 6: Validao - Critrio da Chance e Critrio Proporcional

Critrio Chance Proporcional

Percentual 73,86% 61,38%

C max (Maximum Criterion Chance) = 73,86% e C pro (Proportional Chance Criterion) = 61,38% Se colocarmos C max * 1,25 = 92,32% e C pro*1,25= 76,72%, como Anlise = 81,6% e Holdout = 78,8% => no atenderia ao critrio do nvel aceitvel de preciso preditiva. No entanto, esse critrio mais aplicvel a grupos com mesmo tamanho, ao contrrio do caso em questo. Como medida final da Preciso temos: Presss Q Anlise = [403 (329x2)]2 / 403 x (2 1) = 161,35 > 6.63 Presss Q Holdout = [297 (234x2)]2 / 297 x (2 1) = 98,45 > 6.63 Conclumos que as predies do modelo so significativamente melhores que a chance! Anlise Multivariada Prof. Jorge Ferreira da Silva 26

ROC Curve

VERDADEIRO POSITIVO

1 - VERDADEIRO NEGATIVO OU FALSO POSITIVO

Anlise Multivariada Prof. Jorge Ferreira da Silva

27

ROC Curve

A rea sob a curva 0,856 A rea sob a curva significativamente maior que 0,50, o que significa que o modelo classifica os grupos significativamente melhor que a chance.

Anlise Multivariada Prof. Jorge Ferreira da Silva

28

ROC Curve

O quadro acima uma resumo do output do SPSS da Roc Curve; A coluna Positive if Greater representa o cut point; A coluna Sensitivity representa o percentual de casos Default cuja probabilidade estaria acima do cut point (classificao correta de casos Default); A coluna 1-Specificity representa o percentual de casos No Default cuja probabilidade estaria acima do cut point (classificao errada de casos No Default); possvel obter o percentual de acerto de casos No Default (Specificity) atravs do clculo: 1- (1-Specificity); Construindo um grfico com os valores do percentual de acertos de casos Default (Sensitivity) X percentual de acertos de casos No Default (Specificity), possvel determinar um ponto timo de corte, conforme grfico a seguir.

Anlise Multivariada Prof. Jorge Ferreira da Silva

29

Ponto timo de Corte (ROC Curve)

120%

100%

80%

Cut point timo de 29%


Acerto No Default Acerto Default

Hit Ratio

60%

40%

20%

0%

De

acordo com os dados acima, se fosse considerado um cut point de 29%, o modelo acertaria aproximadamente 78% dos casos Default e No Default; O prximo passo ser utilizar este cut point para classificar os casos.
Anlise Multivariada Prof. Jorge Ferreira da Silva

0% 0% 0% 1% 1% 2% 2% 3% 4% 5% 7% 8% 9% 11% 13% 14% 16% 19% 21% 23% 26% 29% 33% 36% 40% 44% 47% 51% 57% 61% 67% 74% 81% 97%

30

Ponto timo de Corte (ROC Curve)

Considerando o cut point de 29%, o modelo acertaria aproximadamente 80% dos casos Default e 78% dos casos no Default; Considerando o cut point de 50% o modelo acertaria aproximadamente 91% dos casos No Default , porm apenas 56% dos casos Default; possvel aumentar o Hit Ratio atravs do ajuste do cut point. Anlise Multivariada Prof. Jorge Ferreira da Silva

31

Classificao de Novos Clientes


Classificao dos 150 Clientes Potenciais Considerando cut points de 0,50 e 0,29

Renda corte 0,29 DEFAULT NO DEFAULT Total Valor Renda corte 0,29 DEFAULT NO DEFAULT Total %

corte 0,5 DEFAULT NO DEFAULT R$ 1.332,00 R$ 671,00 R$ 5.750,00 R$ 1.332,00 R$ 6.421,00 corte 0,5 DEFAULT NO DEFAULT 17,18% 8,65% 0,00% 74,16% 17,18% 82,82%

Total Valor R$ 2.003,00 R$ 5.750,00 R$ 7.753,00 Total % 25,84% 74,16% 100,00%

Anlise Multivariada Prof. Jorge Ferreira da Silva

32

Classificao dos Clientes Potenciais


Determinao do Ponto de Corte que Otimiza o Modelo
100 90 80
Hit Ratio (%)

70 60 50 40 30 20 15% 20% 25% 27% 30% 35% 40% 45% 50% 55% 60% Cutoff NO

YES Overall

Anlise Multivariada Prof. Jorge Ferreira da Silva

33

Anlise por Renda


Distribuio de acertos com Relao Renda
Renda para no default Renda para default total da Renda

160,0% 140,0%

P% acerto em valor

120,0% 100,0% 80,0% 60,0% 40,0% 20,0% 0,0%

,0% 10

,0% 20

,0% 30

,0% 40

,0% 50

,0% 60

,0% 70

,0% 80

,0% 90

corte

Anlise Multivariada Prof. Jorge Ferreira da Silva

34

Concluses
O modelo s explica 46,4% da variao da varivel dependente. Ainda assim, melhor do que usar o critrio da chance;

A Anlise por Regresso Logstica permitiu identificar caractersticas de um bom e mau pagador:
Debt to Income Ratio (X100) Quanto maior o percentual das receitas representado por dvidas, maior a probabilidade de inadimplncia; Years with Current Employer Quanto mais anos no emprego atual, menor a probabilidade de inadimplncia; Credit Card Debt in Thousands Quanto maior a dvida com carto de crdito, maior a probabilidade de inadimplncia;

Years with Current Address Quanto mais anos no endereo atual, menor a probabilidade de inadimplncia;
Os resultados apontam para as mesmas concluses obtidas com a utilizao da anlise discriminante.

Anlise Multivariada Prof. Jorge Ferreira da Silva

35

Você também pode gostar