Regressão logística: probabilidade de ter cartão de crédito e renda anual

Disciplina: Análise Multivariada Aplicada à Administração
Assunto: REGRESSÃO LOGÍSTICA
1. Objetivos da REGRESSÃO LOGÍSTICA
A Regressão Logística é uma técnica estatística que nos permite classificar um

determinado ‘objeto’ (caso/observação/indivíduo) dentro de uma categoria específica
‘binária’ previamente determinada.
Além disso, podemos estudar a relação entre as variáveis dependente e independente, e

estimar resultados possíveis (probabilidades) com variações nas variáveis
independentes.
A ideia-chave é que existe dependência estatística de uma variável ‘binária’ em relação

a uma ou mais variáveis independentes. Além de possibilitar a classificação de
observações (indivíduos) em categorias específicas, a Regressão Logística tem ainda por
permite que calculemos a estimativa da probabilidade1 de ocorrência de determinado
evento.
Com isso, o objetivo da regressão logística é construir um modelo de regressão para

variável dependente com distribuição de Bernoulli (distribuição binária), isto é,
assumindo valores 1 ou 0 com probabilidades p e q, respectivamente.
Recordando, uma variável aleatória é dita ser do tipo Bernoulli quando associamos a
probabilidade p à ocorrência de sucesso (Y = 1), e q = 1 – p à ocorrência de fracasso
(Y=0). O valor esperado de uma variável aleatória de Bernouilli é E(Y) = p, logo o
parâmetro que identifica completamente essa distribuição é a probabilidade de sucesso.
1
Os intervalos de probabilidade variam entre 0 e 1.
1
Exemplo:
Suponha que um aluno seja submetido a uma questão de múltipla escolha com cinco
alternativas na qual ele pode simplesmente acertar (Y = 1) ou errar (Y = 0). Se quisermos
construir um modelo linear tentando prever E(Y) = p em função, digamos, da sua
proficiência, X, assumindo esta última com nível de mensuração contínuo, teríamos
p  E (Y )   0  1 X .
Este modelo é denominado como modelo linear de probabilidade, já que a variável

dependente corresponde à probabilidade da ocorrência de sucesso. No exemplo,
estaríamos prevendo a probabilidade do aluno acertar a questão em função da sua
proficiência.
Infelizmente, esse modelo apresenta alguns problemas. Primeiramente, a partir de

certos valores de X, o valor de p passaria a estar fora do intervalo [0;1] que define os
valores plausíveis para uma probabilidade. Também, sendo Y uma variável binária, a
premissa de normalidade, usualmente assumida nos modelos de regressão linear, seria
menos realista do que a Binomial, por exemplo. Consequentemente, a premissa de
variância constante (homoscedasticidade) também não faria sentido, já que a variância
de Y é igual a p.q e p é função de X.
2. Modelo de REGRESSÃO LOGÍSTICA
Já que a função linear não é possível para variáveis dependentes binárias, devemos
encontrar uma outra forma que atenda às premissas básicas de um modelo de regressão
e que forneça previsões plausíveis. Propõe-se então a forma
e  0  1 X 1
E (Y )  p   0  1 X
  (  0  1 X )
.
1 e 1 e
2
Esta forma é denominada REGRESSÃO LOGÍSTICA e apresenta várias características que
a distinguem da regressão linear.
A partir de p, obtemos a probabilidade de fracasso q através de

e 0 1 X 1
q  1 p  1  0  1 X
  0  1 X
.
1 e 1 e
Logo, definimos como chance de sucesso à relação entre a probabilidade de sucesso e a

de fracasso, como abaixo:
e 0 1 X
 
 0  1 X
  1 e
p p X
 e 0 1 X  e 0 e 1 .
1 p q 1
 0  1 X
1 e
Isto significa que a chance de sucesso é igual a uma constante vezes uma outra
constante elevada à potência X. Isso implica que uma variação de uma unidade em X
tem um efeito multiplicativo de e1 na chance de sucesso do evento Y. Ainda, o
logaritmo da chance será
 p  p
ln   
  ln    ln e 0 1 X   0  1 X .
1 p  q
Embora a regressão logística não seja linear, a transformação logística (logit) é linear na
variável explicativa (e nos parâmetros). Em outras palavras, o logaritmo da chance de
sucesso é uma função linear da variável explicativa do modelo.
Note que para qualquer valor assumido por X no campo dos números reais teremos, a
resposta p estará no intervalo (0,1), como é de se esperar para uma probabilidade. Note
ainda que a curva será crescente para 1 > 0, decrescente caso 1 < 0, e terá p constante
para 1 = 0, como no caso da regressão linear. Além disso, quando p cresce no intervalo
(0,1) o logit cresce de  a . A probabilidade p = 0,5 tem como valor da chance de
sucesso igual a 1,0 e logit (log da chance de sucesso) 0, que ocorre no ponto X = - 0/1 .
3
3. Interpretação do parâmetro 1
A interpretação do parâmetro 1 está associada com a inclinação da curva, que varia no

domínio da variável independente, ao contrário do caso da regressão linear. A tangente
da regressão logística tem inclinação p (1 – p) 1. Por exemplo, no valor de X para o qual
p=0,5, a tangente da regressão logística tem inclinação 0,5 . 0,5 . 1 = 0,25 1. No
entanto, quando p = 0,1 ou 0,9, a inclinação será 0,09 1. Na verdade a inclinação
máxima da curva ocorre no ponto X para o qual p = 0,5 . Inclinação da curva representa a
variação aproximada na probabilidade de sucesso para uma variação unitária em X.
4. Exemplo inicial com valores numéricos
Foram fornecidos dados relativos a uma amostra de 100 pessoas para um estudo
visando relacionar a renda (X) e o fato das pessoas possuírem cartão de crédito (Y).
Sendo assim, (Y = 1) significa que a pessoa POSSUI cartão de crédito; e (Y = 0) que a

pessoa NÃO possui cartão de crédito. Essa é a variável DEPENDENTE. Devemos lembrar
que Y=1 indica ‘sucesso’ e Y=0 indica ‘fracasso’. Ressalta-se que em estatística, o
‘sucesso’ não significa uma coisa boa. Por exemplo, o sucesso pode ser a ocorrência de
um sinistro. A variável INDEPENDENTE é a Renda anual (em $ mil).
a) Especificar (escrever) o modelo de regressão logística

As estimativas dos parâmetros beta zero e beta 1 estão indicadas no quadro abaixo:
Variables in the Equation

B Exp(B)
a
Step 1 Renda 0,0532 1,055
Constant -3,5561 0,029
4
Os parâmetros estimados com os dados foram ̂ 0 = -3,5561 e ˆ 1  0,0532. O modelo logit
fica, então, definido como logit(p)= -3,556 + 0,053X e a regressão logística associada,
e-3,556  0,0532X
E( Y)  p̂  .
1  e- 3,556  0,0532X
b) Calcular a previsão da probabilidade de ter cartão de crédito se a pessoa tiver

renda anual de $ 24.000:
e-3,556  0,0532(24)
E( Y)  p̂   0,09  9%
1  e- 3,556  0,0532(24)
c) Calcular a previsão da probabilidade de ter cartão de crédito se a pessoa tiver

renda anual de $ 130.000:
e-3,556  0,0532(130)
E( Y)  p̂   0,97  97%
1  e- 3,556  0,0532(130)
d) Comparar os resultados encontrados nos itens (c) e (d).
Para pessoas com nível de renda de ($24.000/ano), a probabilidade estimada de

possuir um cartão de crédito é de 0,09, enquanto pessoas com o nível de renda mais
elevado ($130.000) essa probabilidade sobe para 0,97.
e) Interprete a ‘razão das chances’ (odds ratio).
Quando a renda cresce $ 1.000 a chance de se ter cartão fica multiplicada por e1 =
e0,0532 = 1,055, ou seja, aumenta em 5,5%. Por exemplo, para pessoas com renda
anual de $ 51.000, a chance estimada de se possuir um Cartão de crédito é 1,055 vez
maior do que para pessoas com renda anual de $ 50.000. A maior parte dos pacotes
estatísticos informa este valor com o rótulo de odds ratio.
5
Para efeito de verificação, comparando a chance das pessoas que têm renda anual
de R$50.000 com as que têm renda anual de R$60.000, temos:
p̂
- Para X = 60  a chance estimada é  e 3,556 0,0532( 60)  0,695
1  p̂
p̂
- Para X = 50  a chance estimada é  e 3,556 0,0532(50)  0,408
1  p̂
0, 0532( 6050)
Dividindo os dois resultados encontramos 1,7034 = e  e 0,532 que é a variação
das chances de se possuir um cartão de crédito quando a renda anual aumenta de $

50.000 para $ 60.000.
A regressão logística pode ser ampliada para mais do que uma variável independente
bastando para isso apenas expandir os conceitos apresentados para o caso de uma
regressão logística com apenas uma variável independente. A interpretação dos
coeficientes é feita separadamente por variável, mantendo as demais constantes.
5. Premissas da REGRESSÃO LOGÍSTICA
 Inexistência de autocorrelação entre os erros;
 Ausência de multicolinearidade perfeita entre as variáveis independentes.
6. Medidas de avaliação da REGRESSÃO LOGÍSTICA
6.1 O (pseudo) R-Quadrado do Modelo Logístico
 O R2 de Cox&Snell apresenta a percentagem responsável pela variação no log

da razão de chance devido ao conjunto das variáveis independentes;
 Situa-se em uma escala que começa em zero, mas não chega a 1.
6
 O R2 de Nagelkerke é uma versão adaptada do Cox&Snell R2, fazendo com
que o resultado esteja entre 0 e 1.
 É ele que analisamos!
6.2 O Teste de Hosmer e Lemeshow

Trata-se de um teste Qui-Quadrado que testa H0 de que os resultados previstos,
obtidos pelo modelo, e os observados são iguais;
 Para isto, o teste divide os casos em 10 grupos aproximadamente iguais e

comparam-se os valores observados e os esperados pelo modelo.
Neste teste, esperamos não rejeitar Ho, ou seja, deseja-se que os resultados para o
nível de significância esteja acima de 0,05.
6.3 Omnibus Tests of Model Coeficients

É semelhante ao teste F na regressão múltipla. Espera-se que o modelo (model)
apresente um valor-p (Sig) abaixo de 0,05, no teste Qui-Quadrado realizado.
6.4 O teste de Wald

É semelhante ao teste t da regressão múltipla, verifica a significância dos coeficientes
da equação logística, inclusive a constante. Esse teste tem por objetivo verificar se
cada parâmetro estimado é significativamente diferente de zero.
Para realizar o teste de Wald, deve-se avaliar o p-valor (Sig), (que deverá ser
abaixo de 0,05 (alpha).
7
6.5 Quadro de Classificação Final
A Classification Table apresenta a tabela resumo comparando a resultados

observados com a classificação do modelo. Os valores – referentes ao percentual de
casos classificados corretamente – devem estar próximos a 100% (valores menores
ou iguais a 50% não são aceitáveis).
7. Exemplo completo de REGRESSÃO LOGÍSTICA
Uma Concessionária está interessada em aprimorar sua política de vendas para

minimizar sua perda com clientes. Para isso, o controller solicitou um banco de dados
com algumas variáveis dos clientes.
Utilizou-se, então, uma amostra aleatória de 92 clientes, considerando as seguintes

variáveis: renda mensal (em $ mil), número de dependentes e vínculo empregatício
(Sim=1; Não=0).
De acordo com o comportamento apresentado no período, cada um foi classificado

como adimplente (Y=0) ou inadimplente (Y=1).
O que se pretende é verificar o risco de um futuro cliente assumir a condição de

inadimplente, dada certas características a ele associadas. Assim, a Concessionária
poderá definir as condições de venda de forma racional.
Pede-se:
a) Defina a variável dependente, indicando qual categoria representa o ‘sucesso’ e

qual representa o ‘fracasso’, e as variáveis independentes. Indique o nível de
mensuração das variáveis.
8
Seguem alguns resultados obtidos no SPSS:
9
b) Avalie a qualidade do ajuste
O Sig do Model no ‘Omnibus Tests’ foi de 0,000. Logo, menor do que alpha = 5%.
Pode-se concluir, com isso, que pelo menos um dos coeficientes da Regressão
Logística é diferente de zero;
As estatísticas Cox&Snell e Nagelkerke R2 procuram indicar a proporção das variações

ocorridas no log da razão das chance que é explicada pelas variações nas variáveis
independentes.
Pelo R² de Nagelkerke, somos levados a considerar que o modelo é capaz de explicar

cerca de 75,4% das variações registradas (no log da razão das chances) da variável
dependente.
No teste de Hosmer e Lemeshow, esperamos não rejeitar Ho, ou seja, deseja-se que
os resultados para o nível de significância esteja acima de 0,05.
 Relembrando: é um teste Qui-Quadrado que testa H0 de que os resultados

obtidos previstos pelo modelo e os observados são iguais.
O teste nos leva a um Sig de 0,417. Isto indica que o modelo pode ser utilizado para
estimar a probabilidade de um cliente tornar-se inadimplente.
Na ‘Classification Table’ vemos que considerando todas as variáveis independentes o

percentual de acerto das classificações se eleva para 89,1%.
10
c) Teste a significância de cada coeficiente
R.: Realizando o teste de Wald (tabela Variables in the Equation), e analisando o Sig,
concluímos que todas as variáveis podem ser incorporadas ao Modelo, já que seus
coeficientes não são nulos (a hipótese nula de coeficiente igual a zero foi rejeitada).
d) Interprete os coeficientes do modelo (apenas com base nos sinais)
R.: Os coeficientes das variáveis renda (R) e vínculo empregatício (VE) são negativos.
 Isto significa que uma variação positiva em tais variáveis contribui para
diminuir a probabilidade de um cliente se tornar inadimplente.
 Com número de dependentes (ND) a interpretação é no sentido oposto.
e) Especifique o modelo e interprete os coeficientes com base na razão das

chances
R.:
 P(sucesso) 
ln   4,3  1,882renda  0,860Dependente 2,822Vínculo
 1  P(sucesso) 
 Para cada $1000 a mais na renda, a chance dele ser inadimplente passa a
ser EXP(-1,882)= 0,152 vezes menor. Ou seja, diminui em 85%.
 Se ele possuir vínculo empregatício (VE=1), a chance dele ser

inadimplente passa a ser EXP(-2,822)= 0,059 vezes menor. Ou seja,
diminui em 94%.
 A cada dependente a mais, a chance dele ser inadimplente passa a ser

EXP(0,86)= 2,36 vezes maior. Ou seja, ele passa a ter o dobro de chance de
se tornar inadimplente.
11
f) A probabilidade de inadimplência de um sujeito com as seguintes
características: renda mensal de R$ 4 mil (média dos últimos 12 meses);
Número de dependentes: 3; Não possui vínculo empregatício, é igual a ...
1
P(sucesso)   ( 4,3 1,882 Re nda  0,860Dependentes  2,822Vínculo)
1 e
P(sucesso) = 1/ (1+e0,648) = 34,34%
Como sucesso nesse caso equivale a inadimplência (Y=1), a probabilidade de

inadimplência é de 34,34%.
g) O que acontece caso se aumente a quantidade de 1 dependente na

probabilidade inicial suposta de 20% de inadimplência?
 Probabilidade inicial de tornar-se inadimplente: 20%
 Razão de chance associado à probabilidade de 20%: 0,2/0,8 = 0,25
 Impacto na razão de chance inicial e(0,860) = 2,362
 Razão de chance ajustada: 0,25 x 2,362 = 0,59
 Probab. que corresponde a razão de chance ajustada acima: resolver a

equação p/(1-p)=0,59, assim temos que p = 0,37 ou 37%.
 Ou seja, se o cliente incorporar mais um dependente e mantiver os demais

fatores inalterados, a probabilidade de se tornar inadimplente evolui de
20% para 37%.
12

Regressão logística: probabilidade de ter cartão de crédito e renda anual

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressão logística: probabilidade de ter cartão de crédito e renda anual

Enviado por

Direitos autorais:

Formatos disponíveis

Disciplina: Análise Multivariada Aplicada à Administração

Assunto: REGRESSÃO LOGÍSTICA

1. Objetivos da REGRESSÃO LOGÍSTICA

A Regressão Logística é uma técnica estatística que nos permite classificar um

Além disso, podemos estudar a relação entre as variáveis dependente e independente, e

A ideia-chave é que existe dependência estatística de uma variável ‘binária’ em relação

Com isso, o objetivo da regressão logística é construir um modelo de regressão para

Este modelo é denominado como modelo linear de probabilidade, já que a variável

Infelizmente, esse modelo apresenta alguns problemas. Primeiramente, a partir de

2. Modelo de REGRESSÃO LOGÍSTICA

A partir de p, obtemos a probabilidade de fracasso q através de

Logo, definimos como chance de sucesso à relação entre a probabilidade de sucesso e a

A interpretação do parâmetro 1 está associada com a inclinação da curva, que varia no

4. Exemplo inicial com valores numéricos

Sendo assim, (Y = 1) significa que a pessoa POSSUI cartão de crédito; e (Y = 0) que a

a) Especificar (escrever) o modelo de regressão logística

Variables in the Equation

b) Calcular a previsão da probabilidade de ter cartão de crédito se a pessoa tiver

c) Calcular a previsão da probabilidade de ter cartão de crédito se a pessoa tiver

d) Comparar os resultados encontrados nos itens (c) e (d).

Para pessoas com nível de renda de ($24.000/ano), a probabilidade estimada de

e) Interprete a ‘razão das chances’ (odds ratio).

das chances de se possuir um cartão de crédito quando a renda anual aumenta de $

5. Premissas da REGRESSÃO LOGÍSTICA

 Inexistência de autocorrelação entre os erros;

 Ausência de multicolinearidade perfeita entre as variáveis independentes.

6. Medidas de avaliação da REGRESSÃO LOGÍSTICA

6.1 O (pseudo) R-Quadrado do Modelo Logístico

 O R2 de Cox&Snell apresenta a percentagem responsável pela variação no log

6.2 O Teste de Hosmer e Lemeshow

 Para isto, o teste divide os casos em 10 grupos aproximadamente iguais e

6.3 Omnibus Tests of Model Coeficients

6.4 O teste de Wald

A Classification Table apresenta a tabela resumo comparando a resultados

7. Exemplo completo de REGRESSÃO LOGÍSTICA

Uma Concessionária está interessada em aprimorar sua política de vendas para

Utilizou-se, então, uma amostra aleatória de 92 clientes, considerando as seguintes

De acordo com o comportamento apresentado no período, cada um foi classificado

O que se pretende é verificar o risco de um futuro cliente assumir a condição de

a) Defina a variável dependente, indicando qual categoria representa o ‘sucesso’ e

As estatísticas Cox&Snell e Nagelkerke R2 procuram indicar a proporção das variações

Pelo R² de Nagelkerke, somos levados a considerar que o modelo é capaz de explicar

 Relembrando: é um teste Qui-Quadrado que testa H0 de que os resultados

Na ‘Classification Table’ vemos que considerando todas as variáveis independentes o

d) Interprete os coeficientes do modelo (apenas com base nos sinais)

 Com número de dependentes (ND) a interpretação é no sentido oposto.

e) Especifique o modelo e interprete os coeficientes com base na razão das

 Se ele possuir vínculo empregatício (VE=1), a chance dele ser

 A cada dependente a mais, a chance dele ser inadimplente passa a ser

P(sucesso) = 1/ (1+e0,648) = 34,34%

Como sucesso nesse caso equivale a inadimplência (Y=1), a probabilidade de

g) O que acontece caso se aumente a quantidade de 1 dependente na

 Probabilidade inicial de tornar-se inadimplente: 20%

 Razão de chance associado à probabilidade de 20%: 0,2/0,8 = 0,25

 Impacto na razão de chance inicial e(0,860) = 2,362

 Razão de chance ajustada: 0,25 x 2,362 = 0,59

 Probab. que corresponde a razão de chance ajustada acima: resolver a

 Ou seja, se o cliente incorporar mais um dependente e mantiver os demais

Você também pode gostar