Você está na página 1de 12

Disciplina: Análise Multivariada Aplicada à Administração

Assunto: REGRESSÃO LOGÍSTICA

1. Objetivos da REGRESSÃO LOGÍSTICA

A Regressão Logística é uma técnica estatística que nos permite classificar um


determinado ‘objeto’ (caso/observação/indivíduo) dentro de uma categoria específica
‘binária’ previamente determinada.

Além disso, podemos estudar a relação entre as variáveis dependente e independente, e


estimar resultados possíveis (probabilidades) com variações nas variáveis
independentes.

A ideia-chave é que existe dependência estatística de uma variável ‘binária’ em relação


a uma ou mais variáveis independentes. Além de possibilitar a classificação de
observações (indivíduos) em categorias específicas, a Regressão Logística tem ainda por
permite que calculemos a estimativa da probabilidade1 de ocorrência de determinado
evento.

Com isso, o objetivo da regressão logística é construir um modelo de regressão para


variável dependente com distribuição de Bernoulli (distribuição binária), isto é,
assumindo valores 1 ou 0 com probabilidades p e q, respectivamente.

Recordando, uma variável aleatória é dita ser do tipo Bernoulli quando associamos a
probabilidade p à ocorrência de sucesso (Y = 1), e q = 1 – p à ocorrência de fracasso
(Y=0). O valor esperado de uma variável aleatória de Bernouilli é E(Y) = p, logo o
parâmetro que identifica completamente essa distribuição é a probabilidade de sucesso.

1
Os intervalos de probabilidade variam entre 0 e 1.
1
Exemplo:
Suponha que um aluno seja submetido a uma questão de múltipla escolha com cinco
alternativas na qual ele pode simplesmente acertar (Y = 1) ou errar (Y = 0). Se quisermos
construir um modelo linear tentando prever E(Y) = p em função, digamos, da sua
proficiência, X, assumindo esta última com nível de mensuração contínuo, teríamos

p  E (Y )   0  1 X .

Este modelo é denominado como modelo linear de probabilidade, já que a variável


dependente corresponde à probabilidade da ocorrência de sucesso. No exemplo,
estaríamos prevendo a probabilidade do aluno acertar a questão em função da sua
proficiência.

Infelizmente, esse modelo apresenta alguns problemas. Primeiramente, a partir de


certos valores de X, o valor de p passaria a estar fora do intervalo [0;1] que define os
valores plausíveis para uma probabilidade. Também, sendo Y uma variável binária, a
premissa de normalidade, usualmente assumida nos modelos de regressão linear, seria
menos realista do que a Binomial, por exemplo. Consequentemente, a premissa de
variância constante (homoscedasticidade) também não faria sentido, já que a variância
de Y é igual a p.q e p é função de X.

2. Modelo de REGRESSÃO LOGÍSTICA

Já que a função linear não é possível para variáveis dependentes binárias, devemos
encontrar uma outra forma que atenda às premissas básicas de um modelo de regressão
e que forneça previsões plausíveis. Propõe-se então a forma

e  0  1 X 1
E (Y )  p   0  1 X
  (  0  1 X )
.
1 e 1 e

2
Esta forma é denominada REGRESSÃO LOGÍSTICA e apresenta várias características que
a distinguem da regressão linear.

A partir de p, obtemos a probabilidade de fracasso q através de


e 0 1 X 1
q  1 p  1  0  1 X
  0  1 X
.
1 e 1 e

Logo, definimos como chance de sucesso à relação entre a probabilidade de sucesso e a


de fracasso, como abaixo:
e 0 1 X
 
 0  1 X
  1 e
p p X
 e 0 1 X  e 0 e 1 .
1 p q 1
 0  1 X
1 e

Isto significa que a chance de sucesso é igual a uma constante vezes uma outra
constante elevada à potência X. Isso implica que uma variação de uma unidade em X
tem um efeito multiplicativo de e1 na chance de sucesso do evento Y. Ainda, o
logaritmo da chance será
 p  p
ln   
  ln    ln e 0 1 X   0  1 X .
1 p  q

Embora a regressão logística não seja linear, a transformação logística (logit) é linear na
variável explicativa (e nos parâmetros). Em outras palavras, o logaritmo da chance de
sucesso é uma função linear da variável explicativa do modelo.

Note que para qualquer valor assumido por X no campo dos números reais teremos, a
resposta p estará no intervalo (0,1), como é de se esperar para uma probabilidade. Note
ainda que a curva será crescente para 1 > 0, decrescente caso 1 < 0, e terá p constante
para 1 = 0, como no caso da regressão linear. Além disso, quando p cresce no intervalo
(0,1) o logit cresce de  a . A probabilidade p = 0,5 tem como valor da chance de
sucesso igual a 1,0 e logit (log da chance de sucesso) 0, que ocorre no ponto X = - 0/1 .
3
3. Interpretação do parâmetro 1

A interpretação do parâmetro 1 está associada com a inclinação da curva, que varia no


domínio da variável independente, ao contrário do caso da regressão linear. A tangente
da regressão logística tem inclinação p (1 – p) 1. Por exemplo, no valor de X para o qual
p=0,5, a tangente da regressão logística tem inclinação 0,5 . 0,5 . 1 = 0,25 1. No
entanto, quando p = 0,1 ou 0,9, a inclinação será 0,09 1. Na verdade a inclinação
máxima da curva ocorre no ponto X para o qual p = 0,5 . Inclinação da curva representa a
variação aproximada na probabilidade de sucesso para uma variação unitária em X.

4. Exemplo inicial com valores numéricos

Foram fornecidos dados relativos a uma amostra de 100 pessoas para um estudo
visando relacionar a renda (X) e o fato das pessoas possuírem cartão de crédito (Y).

Sendo assim, (Y = 1) significa que a pessoa POSSUI cartão de crédito; e (Y = 0) que a


pessoa NÃO possui cartão de crédito. Essa é a variável DEPENDENTE. Devemos lembrar
que Y=1 indica ‘sucesso’ e Y=0 indica ‘fracasso’. Ressalta-se que em estatística, o
‘sucesso’ não significa uma coisa boa. Por exemplo, o sucesso pode ser a ocorrência de
um sinistro. A variável INDEPENDENTE é a Renda anual (em $ mil).

a) Especificar (escrever) o modelo de regressão logística


As estimativas dos parâmetros beta zero e beta 1 estão indicadas no quadro abaixo:

Variables in the Equation


B Exp(B)
a
Step 1 Renda 0,0532 1,055
Constant -3,5561 0,029

4
Os parâmetros estimados com os dados foram ̂ 0 = -3,5561 e ˆ 1  0,0532. O modelo logit

fica, então, definido como logit(p)= -3,556 + 0,053X e a regressão logística associada,

e-3,556  0,0532X
E( Y)  p̂  .
1  e- 3,556  0,0532X

b) Calcular a previsão da probabilidade de ter cartão de crédito se a pessoa tiver


renda anual de $ 24.000:
e-3,556  0,0532(24)
E( Y)  p̂   0,09  9%
1  e- 3,556  0,0532(24)

c) Calcular a previsão da probabilidade de ter cartão de crédito se a pessoa tiver


renda anual de $ 130.000:
e-3,556  0,0532(130)
E( Y)  p̂   0,97  97%
1  e- 3,556  0,0532(130)

d) Comparar os resultados encontrados nos itens (c) e (d).

Para pessoas com nível de renda de ($24.000/ano), a probabilidade estimada de


possuir um cartão de crédito é de 0,09, enquanto pessoas com o nível de renda mais
elevado ($130.000) essa probabilidade sobe para 0,97.

e) Interprete a ‘razão das chances’ (odds ratio).

Quando a renda cresce $ 1.000 a chance de se ter cartão fica multiplicada por e1 =
e0,0532 = 1,055, ou seja, aumenta em 5,5%. Por exemplo, para pessoas com renda
anual de $ 51.000, a chance estimada de se possuir um Cartão de crédito é 1,055 vez
maior do que para pessoas com renda anual de $ 50.000. A maior parte dos pacotes
estatísticos informa este valor com o rótulo de odds ratio.
5
Para efeito de verificação, comparando a chance das pessoas que têm renda anual
de R$50.000 com as que têm renda anual de R$60.000, temos:

- Para X = 60  a chance estimada é  e 3,556 0,0532( 60)  0,695
1  p̂


- Para X = 50  a chance estimada é  e 3,556 0,0532(50)  0,408
1  p̂

0, 0532( 6050)
Dividindo os dois resultados encontramos 1,7034 = e  e 0,532 que é a variação

das chances de se possuir um cartão de crédito quando a renda anual aumenta de $


50.000 para $ 60.000.

A regressão logística pode ser ampliada para mais do que uma variável independente
bastando para isso apenas expandir os conceitos apresentados para o caso de uma
regressão logística com apenas uma variável independente. A interpretação dos
coeficientes é feita separadamente por variável, mantendo as demais constantes.

5. Premissas da REGRESSÃO LOGÍSTICA

 Inexistência de autocorrelação entre os erros;

 Ausência de multicolinearidade perfeita entre as variáveis independentes.

6. Medidas de avaliação da REGRESSÃO LOGÍSTICA

6.1 O (pseudo) R-Quadrado do Modelo Logístico

 O R2 de Cox&Snell apresenta a percentagem responsável pela variação no log


da razão de chance devido ao conjunto das variáveis independentes;
 Situa-se em uma escala que começa em zero, mas não chega a 1.

6
 O R2 de Nagelkerke é uma versão adaptada do Cox&Snell R2, fazendo com
que o resultado esteja entre 0 e 1.
 É ele que analisamos!

6.2 O Teste de Hosmer e Lemeshow


Trata-se de um teste Qui-Quadrado que testa H0 de que os resultados previstos,
obtidos pelo modelo, e os observados são iguais;

 Para isto, o teste divide os casos em 10 grupos aproximadamente iguais e


comparam-se os valores observados e os esperados pelo modelo.

Neste teste, esperamos não rejeitar Ho, ou seja, deseja-se que os resultados para o
nível de significância esteja acima de 0,05.

6.3 Omnibus Tests of Model Coeficients


É semelhante ao teste F na regressão múltipla. Espera-se que o modelo (model)
apresente um valor-p (Sig) abaixo de 0,05, no teste Qui-Quadrado realizado.

6.4 O teste de Wald


É semelhante ao teste t da regressão múltipla, verifica a significância dos coeficientes
da equação logística, inclusive a constante. Esse teste tem por objetivo verificar se
cada parâmetro estimado é significativamente diferente de zero.

Para realizar o teste de Wald, deve-se avaliar o p-valor (Sig), (que deverá ser
abaixo de 0,05 (alpha).

7
6.5 Quadro de Classificação Final

A Classification Table apresenta a tabela resumo comparando a resultados


observados com a classificação do modelo. Os valores – referentes ao percentual de
casos classificados corretamente – devem estar próximos a 100% (valores menores
ou iguais a 50% não são aceitáveis).

7. Exemplo completo de REGRESSÃO LOGÍSTICA

Uma Concessionária está interessada em aprimorar sua política de vendas para


minimizar sua perda com clientes. Para isso, o controller solicitou um banco de dados
com algumas variáveis dos clientes.

Utilizou-se, então, uma amostra aleatória de 92 clientes, considerando as seguintes


variáveis: renda mensal (em $ mil), número de dependentes e vínculo empregatício
(Sim=1; Não=0).

De acordo com o comportamento apresentado no período, cada um foi classificado


como adimplente (Y=0) ou inadimplente (Y=1).

O que se pretende é verificar o risco de um futuro cliente assumir a condição de


inadimplente, dada certas características a ele associadas. Assim, a Concessionária
poderá definir as condições de venda de forma racional.

Pede-se:

a) Defina a variável dependente, indicando qual categoria representa o ‘sucesso’ e


qual representa o ‘fracasso’, e as variáveis independentes. Indique o nível de
mensuração das variáveis.

8
Seguem alguns resultados obtidos no SPSS:

9
b) Avalie a qualidade do ajuste

O Sig do Model no ‘Omnibus Tests’ foi de 0,000. Logo, menor do que alpha = 5%.
Pode-se concluir, com isso, que pelo menos um dos coeficientes da Regressão
Logística é diferente de zero;

As estatísticas Cox&Snell e Nagelkerke R2 procuram indicar a proporção das variações


ocorridas no log da razão das chance que é explicada pelas variações nas variáveis
independentes.

Pelo R² de Nagelkerke, somos levados a considerar que o modelo é capaz de explicar


cerca de 75,4% das variações registradas (no log da razão das chances) da variável
dependente.

No teste de Hosmer e Lemeshow, esperamos não rejeitar Ho, ou seja, deseja-se que
os resultados para o nível de significância esteja acima de 0,05.

 Relembrando: é um teste Qui-Quadrado que testa H0 de que os resultados


obtidos previstos pelo modelo e os observados são iguais.

O teste nos leva a um Sig de 0,417. Isto indica que o modelo pode ser utilizado para
estimar a probabilidade de um cliente tornar-se inadimplente.

Na ‘Classification Table’ vemos que considerando todas as variáveis independentes o


percentual de acerto das classificações se eleva para 89,1%.

10
c) Teste a significância de cada coeficiente

R.: Realizando o teste de Wald (tabela Variables in the Equation), e analisando o Sig,
concluímos que todas as variáveis podem ser incorporadas ao Modelo, já que seus
coeficientes não são nulos (a hipótese nula de coeficiente igual a zero foi rejeitada).

d) Interprete os coeficientes do modelo (apenas com base nos sinais)

R.: Os coeficientes das variáveis renda (R) e vínculo empregatício (VE) são negativos.

 Isto significa que uma variação positiva em tais variáveis contribui para
diminuir a probabilidade de um cliente se tornar inadimplente.

 Com número de dependentes (ND) a interpretação é no sentido oposto.

e) Especifique o modelo e interprete os coeficientes com base na razão das


chances

R.:
 P(sucesso) 
ln   4,3  1,882renda  0,860Dependente 2,822Vínculo
 1  P(sucesso) 

 Para cada $1000 a mais na renda, a chance dele ser inadimplente passa a
ser EXP(-1,882)= 0,152 vezes menor. Ou seja, diminui em 85%.

 Se ele possuir vínculo empregatício (VE=1), a chance dele ser


inadimplente passa a ser EXP(-2,822)= 0,059 vezes menor. Ou seja,
diminui em 94%.

 A cada dependente a mais, a chance dele ser inadimplente passa a ser


EXP(0,86)= 2,36 vezes maior. Ou seja, ele passa a ter o dobro de chance de
se tornar inadimplente.

11
f) A probabilidade de inadimplência de um sujeito com as seguintes
características: renda mensal de R$ 4 mil (média dos últimos 12 meses);
Número de dependentes: 3; Não possui vínculo empregatício, é igual a ...
1
P(sucesso)   ( 4,3 1,882 Re nda  0,860Dependentes  2,822Vínculo)
1 e

P(sucesso) = 1/ (1+e0,648) = 34,34%

Como sucesso nesse caso equivale a inadimplência (Y=1), a probabilidade de


inadimplência é de 34,34%.

g) O que acontece caso se aumente a quantidade de 1 dependente na


probabilidade inicial suposta de 20% de inadimplência?

 Probabilidade inicial de tornar-se inadimplente: 20%

 Razão de chance associado à probabilidade de 20%: 0,2/0,8 = 0,25

 Impacto na razão de chance inicial e(0,860) = 2,362

 Razão de chance ajustada: 0,25 x 2,362 = 0,59

 Probab. que corresponde a razão de chance ajustada acima: resolver a


equação p/(1-p)=0,59, assim temos que p = 0,37 ou 37%.

 Ou seja, se o cliente incorporar mais um dependente e mantiver os demais


fatores inalterados, a probabilidade de se tornar inadimplente evolui de
20% para 37%.

12

Você também pode gostar