Escolar Documentos
Profissional Documentos
Cultura Documentos
Recordando, uma variável aleatória é dita ser do tipo Bernoulli quando associamos a
probabilidade p à ocorrência de sucesso (Y = 1), e q = 1 – p à ocorrência de fracasso
(Y=0). O valor esperado de uma variável aleatória de Bernouilli é E(Y) = p, logo o
parâmetro que identifica completamente essa distribuição é a probabilidade de sucesso.
1
Os intervalos de probabilidade variam entre 0 e 1.
1
Exemplo:
Suponha que um aluno seja submetido a uma questão de múltipla escolha com cinco
alternativas na qual ele pode simplesmente acertar (Y = 1) ou errar (Y = 0). Se quisermos
construir um modelo linear tentando prever E(Y) = p em função, digamos, da sua
proficiência, X, assumindo esta última com nível de mensuração contínuo, teríamos
p E (Y ) 0 1 X .
Já que a função linear não é possível para variáveis dependentes binárias, devemos
encontrar uma outra forma que atenda às premissas básicas de um modelo de regressão
e que forneça previsões plausíveis. Propõe-se então a forma
e 0 1 X 1
E (Y ) p 0 1 X
( 0 1 X )
.
1 e 1 e
2
Esta forma é denominada REGRESSÃO LOGÍSTICA e apresenta várias características que
a distinguem da regressão linear.
Isto significa que a chance de sucesso é igual a uma constante vezes uma outra
constante elevada à potência X. Isso implica que uma variação de uma unidade em X
tem um efeito multiplicativo de e1 na chance de sucesso do evento Y. Ainda, o
logaritmo da chance será
p p
ln
ln ln e 0 1 X 0 1 X .
1 p q
Embora a regressão logística não seja linear, a transformação logística (logit) é linear na
variável explicativa (e nos parâmetros). Em outras palavras, o logaritmo da chance de
sucesso é uma função linear da variável explicativa do modelo.
Note que para qualquer valor assumido por X no campo dos números reais teremos, a
resposta p estará no intervalo (0,1), como é de se esperar para uma probabilidade. Note
ainda que a curva será crescente para 1 > 0, decrescente caso 1 < 0, e terá p constante
para 1 = 0, como no caso da regressão linear. Além disso, quando p cresce no intervalo
(0,1) o logit cresce de a . A probabilidade p = 0,5 tem como valor da chance de
sucesso igual a 1,0 e logit (log da chance de sucesso) 0, que ocorre no ponto X = - 0/1 .
3
3. Interpretação do parâmetro 1
Foram fornecidos dados relativos a uma amostra de 100 pessoas para um estudo
visando relacionar a renda (X) e o fato das pessoas possuírem cartão de crédito (Y).
4
Os parâmetros estimados com os dados foram ̂ 0 = -3,5561 e ˆ 1 0,0532. O modelo logit
fica, então, definido como logit(p)= -3,556 + 0,053X e a regressão logística associada,
e-3,556 0,0532X
E( Y) p̂ .
1 e- 3,556 0,0532X
Quando a renda cresce $ 1.000 a chance de se ter cartão fica multiplicada por e1 =
e0,0532 = 1,055, ou seja, aumenta em 5,5%. Por exemplo, para pessoas com renda
anual de $ 51.000, a chance estimada de se possuir um Cartão de crédito é 1,055 vez
maior do que para pessoas com renda anual de $ 50.000. A maior parte dos pacotes
estatísticos informa este valor com o rótulo de odds ratio.
5
Para efeito de verificação, comparando a chance das pessoas que têm renda anual
de R$50.000 com as que têm renda anual de R$60.000, temos:
p̂
- Para X = 60 a chance estimada é e 3,556 0,0532( 60) 0,695
1 p̂
p̂
- Para X = 50 a chance estimada é e 3,556 0,0532(50) 0,408
1 p̂
0, 0532( 6050)
Dividindo os dois resultados encontramos 1,7034 = e e 0,532 que é a variação
A regressão logística pode ser ampliada para mais do que uma variável independente
bastando para isso apenas expandir os conceitos apresentados para o caso de uma
regressão logística com apenas uma variável independente. A interpretação dos
coeficientes é feita separadamente por variável, mantendo as demais constantes.
6
O R2 de Nagelkerke é uma versão adaptada do Cox&Snell R2, fazendo com
que o resultado esteja entre 0 e 1.
É ele que analisamos!
Neste teste, esperamos não rejeitar Ho, ou seja, deseja-se que os resultados para o
nível de significância esteja acima de 0,05.
Para realizar o teste de Wald, deve-se avaliar o p-valor (Sig), (que deverá ser
abaixo de 0,05 (alpha).
7
6.5 Quadro de Classificação Final
Pede-se:
8
Seguem alguns resultados obtidos no SPSS:
9
b) Avalie a qualidade do ajuste
O Sig do Model no ‘Omnibus Tests’ foi de 0,000. Logo, menor do que alpha = 5%.
Pode-se concluir, com isso, que pelo menos um dos coeficientes da Regressão
Logística é diferente de zero;
No teste de Hosmer e Lemeshow, esperamos não rejeitar Ho, ou seja, deseja-se que
os resultados para o nível de significância esteja acima de 0,05.
O teste nos leva a um Sig de 0,417. Isto indica que o modelo pode ser utilizado para
estimar a probabilidade de um cliente tornar-se inadimplente.
10
c) Teste a significância de cada coeficiente
R.: Realizando o teste de Wald (tabela Variables in the Equation), e analisando o Sig,
concluímos que todas as variáveis podem ser incorporadas ao Modelo, já que seus
coeficientes não são nulos (a hipótese nula de coeficiente igual a zero foi rejeitada).
R.: Os coeficientes das variáveis renda (R) e vínculo empregatício (VE) são negativos.
Isto significa que uma variação positiva em tais variáveis contribui para
diminuir a probabilidade de um cliente se tornar inadimplente.
R.:
P(sucesso)
ln 4,3 1,882renda 0,860Dependente 2,822Vínculo
1 P(sucesso)
Para cada $1000 a mais na renda, a chance dele ser inadimplente passa a
ser EXP(-1,882)= 0,152 vezes menor. Ou seja, diminui em 85%.
11
f) A probabilidade de inadimplência de um sujeito com as seguintes
características: renda mensal de R$ 4 mil (média dos últimos 12 meses);
Número de dependentes: 3; Não possui vínculo empregatício, é igual a ...
1
P(sucesso) ( 4,3 1,882 Re nda 0,860Dependentes 2,822Vínculo)
1 e
12