Você está na página 1de 13

Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 1

REGRESSO LOGSTICA COM VARIVEL


DEPENDENTE BINRIA


Antonio Sergio Ferraudo
Guilherme Moraes Ferradudo













Fevereiro/2014
Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 2

NVEL DA VARIVEL INDEPENDENTE
0
1
p
r
o
b
a
b
i
l
i
d
a
d
e

d
e

u
m

e
v
e
n
t
o
(
v
a
r
i

v
e
l

d
e
p
e
n
d
e
n
t
e
)
BAIXO
ALTO
A anlise discriminante apropriada quando a varivel dependente do tipo categrica
(no mtrica). Quando temos apenas dois grupos a regresso logstica pode ser preferida. A
anlise discriminante exige a existncia da normalidade multivariada e homogeneidade nas
matrizes de varinciacovarincia dos grupos o que nem sempre acontece. A regresso logstica
no depende dessas suposies rgidas o que a faz ter preferncias em muitas situaes na
pesquisa. Se assemelha a anlise de regresso mltipla porm ela estima diretamente a
probabilidade de um evento ocorrer utilizando para isso a funo logstica que uma funo no
linear e que possui respostas contidas no intervalo entre zero e um (Figura 1). Muitos
experimentos sugerem que a probabilidade de ocorrncia do sucesso deve ser zero em uma certa
parte do domnio da varivel explicativa, prxima de 1 em outra parte e crescer suavemente na
parte intermediria o que est ilustrado na Figura 1.
O modelo da funo logstica :

)
(

)










Figura 1. Representao da dependncia entre a varivel dependente e as independentes pela
funo logstica.


A Figura 2 mostra dois exemplos empricos de ajustes de dados com a funo logstica. Em
A v-se uma relao bem definida de ajuste e em B uma relao considerada pobre.


Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 3

0
1
0
1
A. Relao bem definida









B. Relao com ajuste pobre










Figura 2. Ajustes empricos da curva logstica. A linha vertical pontilhada o ponto de corte entre
os dois grupos.
Devido a distribuio binomial da varivel dependente todos os pressupostos de
normalidade so violados e com isso os testes com base na normalidade ficam prejudicados.
Tambm uma varivel dicotmica no tem varincia constante. A anlise de regresso logstica foi
criada para atender especificamente com essas questes. A varivel resposta possui distribuio
binomial (chamadas de tentativas de Bernouilli) pois apresenta apenas dois valores (0 ou 1).
Desse modo no adequado um ajuste utilizando regresso linear mltipla.


Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 4

Estimao do modelo de regresso logstica
A regresso logstica necessita apenas que a varivel dependente assuma dois valores
(Sim ou No; Compra ou No compra, Risco alto ou Baixo; falncia ou no falncia, ausncia ou
presena...). Valores dicotmicos (0 ou 1) so utilizados e a partir deles o procedimento prev a
estimativa da probabilidade do evento ocorrer ou no.
No existe uma soluo analtica que calcule as estimativas dos coeficientes. Mtodos
numricos so necessrios para encontrar as estimativas de mxima verossimilhana.
O procedimento que calcula o coeficiente logstico compara a probabilidade de um evento
ocorrer com a probabilidade do evento no ocorrer. Essa razo de probabilidade expressa
como:



Se a probabilidade do evento ocorrer ento:


) (

) e


A transformao aplicada denominada de transformao logit da probabilidade . A razo
/(1- ) na transformao logit chamada de Odds (Chance). A funo resposta transformada
recebe o nome de funo resposta logit, e denominada de resposta mdia logit.

Considere o exemplo: L
i
um valor limiar.
Situao de risco: Y
i
= 1 quando X
i
L
i
Situao de No risco: Y
i
= 0 quando X
i
< L
i

Para um X
i
qualquer temos:

) (

)
A P(L
i
X
i
) a distribuio de probabilidade acumulada da varivel limiar de todos os
elementos da populao. Se aceitarmos que essa distribuio a distribuio logstica temos:

)
(

)
(

)


Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 5

Avaliao de adequao do ajuste do modelo estimado

A regresso logstica tem muita semelhana com a anlise de regresso mltipla mas difere
na metodologia de estimao dos coeficientes. A regresso logstica maximiza a verossimilhana
de que um evento ocorra. A medida geral (-2LL) do quo to bem um modelo se ajusta
proporcional ao valor de verossimilhana:
-2LL = -2log(verossimilhana)
O valor mnimo de -2LL zero e o mximo igual a 1. Um ajuste perfeito tem um valor de
verossimilhana igual a 1 e portanto -2LL = 0. O teste Qui-Quadrado utilizado para avaliar a
variao no valor de -2LL comparado ao modelo base.

Um outro procedimento para avaliar o ajuste dado pelo pseudo valor de R
2
na anlise de
regresso mltipla. calculado assim:

o valor considerando apenas o intercepto, ou seja, aquele ajustado no passo


interativo 0.
Uma outra forma de avaliar o ajuste do modelo avaliar a capacidade preditiva que consta
na matriz de classificao como feito em anlise discriminante.
O teste de Wald utilizado para testar a significncia estatstica para cada coeficiente
estimado.

Teste de Wald
O teste de Wald, descrito por Polit (1996) e Agresti (1990), um dos testes dentre um
nmero de outros utilizados para testar se os parmetros i associados a cada varivel Xi da
regresso logstica so nulos estatisticamente. O teste obtido por comparao entre a estimativa
de mxima verossimilhana do parmetro ( ) e a estimativa de seu erro padro

)


Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 6

APLICAO.
Abra o arquivo DISCRI_HAIR.sta. Este exemplo consta do livro Anlise Multivariada de dados
(Joseph F. Hair, Jr.; Rolph E. Anderson; Ronald L. Tathan and William C. Black)
FASE X1 X2 X3 X4 X5 X6 X7 X11
ANALISE 4,1 0,6 6,9 4,7 2,4 2,3 5,2 1
ANALISE 1,8 3,0 6,3 6,6 2,5 4,0 8,4 0
VALIDACAO 3,4 5,2 5,7 6,0 4,3 2,7 8,2 0
VALIDACAO 2,7 1,0 7,1 5,9 1,8 2,3 7,8 0
ANALISE 6,0 0,9 9,6 7,8 3,4 4,6 4,5 1
ANALISE 1,9 3,3 7,9 4,8 2,6 1,9 9,7 0
ANALISE 4,6 2,4 9,5 6,6 3,5 4,5 7,6 1
ANALISE 1,3 4,2 6,2 5,1 2,8 2,2 6,9 0
VALIDACAO 5,5 1,6 9,4 4,7 3,5 3,0 7,6 1
VALIDACAO 4,0 3,5 6,5 6,0 3,7 3,2 8,7 0
ANALISE 2,4 1,6 8,8 4,8 2,0 2,8 5,8 1
ANALISE 3,9 2,2 9,1 4,6 3,0 2,5 8,3 1
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
VALIDACAO 2,0 2,8 5,2 5,0 2,4 2,7 8,4 0
ANALISE 3,1 2,2 6,7 6,8 2,6 2,9 8,4 0
VALIDACAO 2,5 1,8 9,0 5,0 2,2 3,0 6,0 1

Fase ANALISE dados utilizados na fase da anlise discriminante
VALIDAO dados utilizados na fase de validao da anlise discriminante

Descrio Tipo
PERCEPES DA EMPRESA HATCO

X1 - Velocidade entrega mtrica
X2 - Nvel de preo mtrica
X3 - Flexibilidade de preo mtrica
X4 - Imagem do fabricante mtrica
X5 - Servio geral mtrica
X6 - Imagem da fora de vendas mtrica
X7 - Qualidade do produto mtrica
X11 - Especificao da compra no-mtrica

X11: Especificao de compra o quanto um comprador em particular avalia cada compra
separadamente (anlise de valor total) versus o uso de especificaes de compra, as quais
detalham precisamente as caractersticas procuradas no produto. So duas as categorias: 0 (uso
de especificao de compra) e 1 (emprega anlise de valor total, avaliando cada compra
separadamente).
Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 7


Cada varivel mtrica foi medida em uma escala grfica, onde uma linha de 10 centmetros foi
desenhada entre os pontos extremos (RUIM e EXCELENTE). Os respondentes indicaram suas
percepes fazendo uma marca em qualquer ponto da linha. A marca foi ento medida em
centmetros. Os sete atributos foram:
X1: Velocidade de entrega tempo total necessrio para entregar um produto assim que a
encomenda foi confirmada.
X2: Nvel de preo nvel percebido de preo cobrado por fornecedores do produto.
X3: Flexibilidade de preo disposio percebida de representantes da empresa em negociar
preos em todos os tipos de compras.
X4: Imagem do fabricante imagem geral do fabricante ou fornecedor.
X5: Servio geral nvel geral de servio necessrio para manter uma relao satisfatria entre
fornecedor e comprador.
X6: Imagem da fora de vendas imagem geral da fora de vendas do fabricante.
X7: Qualidade do produto nvel percebido de qualidade de um produto em particular (p.ex.,
funcionamento ou produtividade).
Iniciaremos avaliando graficamente a relao logstica entre cada varivel independente
(X1, X2, X3, X4, X5 e X7) e a varivel dependente X11. A linha pontilhada no grfico representa o
escore de corte entre um grupo e outro.











X1 (Velocidade de entrega)


Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 8











X2 (Nvel de preo)









X3 (Flexibilidade de preo)









X4 (Imagem do fabricante)


Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 9










X5 (Servio geral)









X6 (Imagem da fora de vendas)










X7 (Qualidade do produto)

Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 10

As variveis com possibilidades de compor o modelo foram X1, X3, X5 e X7. Quando se
considera a varivel X5 o modelo de regresso logstica se torna instvel. Aps excluir essa
varivel e processar o modelo com as trs restantes vemos que o teste de Wald mostra que a
varivel X1 no contribui para discriminar os grupos (Tabela 1).
Tabela 1. Teste de Wald para as variveis X1, X2 e X3 includas no modelo.

Wald p
Intercepto 0,356459 0,550479
X1 - Velocidade de entrega 2,972534 0,084689
X3 - Flexibilidade de preo 4,488243 0,034129
X7 - Qualidade do produto 6,215572 0,012663

Se considerarmos o modelo somente com a varivel X7 o valor de
78,859
37,524 78,859
2LL
) 2LL ( 2LL
R
nulo
modelo nulo 2
logit


= 0,5241
Se adicionarmos ao modelo a varivel X3 o valor de
859 78
859 78
2
2 2
2
,
20,258 ,
LL
) LL ( LL
R
nulo
elo mod nulo
it log


= 0,7431

Se adicionarmos ao modelo a varivel X1 o valor de
859 78
859 78
2
2 2
2
,
16,1764 ,
LL
) LL ( LL
R
nulo
elo mod nulo
it log


= 0,795

Como o acrscimo de 0,7431 para 0,795 muito pequeno no inclumos a varivel X1 no
modelo. Assim, temos:

Varveis coeficientes Wald p Odds ratio
X3 - Flexibilidade de preo 1,8307 6,518 0,0106 exp(1,8307) = 6,238
X7 - Qualidade do produto -2,9127 6,582 0,0102 exp(-2,9127) = 0,0543
Constante 8,3299 2,657 0,1030
O modelo resultante com duas variveis ficou assim:



Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 11

0
1
A Figura 3 mostra os pontos representando as empresas de cada grupo, segundo o modelo
acima, separados pela linha pontilhada vertical que o ponto de separao entre os grupos
(probabilidade estimada < 0,5 a empresa classifica no grupo 0 e probabilidade estimada > 0,5 a
empresa classifica no grupo 1. Como se v apenas uma empresa foi mal classificada. A linha
vermelha representa as estimativas das probabilidades.











Figura 3. Estimativas das probabilidades obtidas com o modelo resultante contendo as duas
variveis: X3 - Flexibilidade de preo e X7 e Qualidade do produto. A linha pontilhada vertical o
ponto de separao entre os dois grupos.
A Figura 4 mostra a distribuio tridimensional dos pontos representativos das empresas
segundo a superfcie Z = f(X3,X7).












Figura 4. Representao tridimensional Z = f(X3,X7) mostrando
a boa discriminao dos grupos com o modelo resultante
contendo as duas variveis: X3 - Flexibilidade de preo e X7 e
Qualidade do produto
Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 12

A seguir so apresentadas as matrizes de classificao obtidas com o modelo com
duas variveis processadas com o conjunto que contm as empresas para a fase de anlise
(Tabela 1) e com o conjunto que contm as empresas para a fase de validao (Tabela 2).

TABELA 1. Matriz de classificao empresas que compe o conjunto da fase de anlise

0 - Especificao de compra 21 1 95,45% Taxa de acerto
geral 98,3%
1 - Compra por valor total 0 38 100,00%

TABELA 2. Matriz de classificao empresas que compe o conjunto da fase de validao

0 - Especificao de compra 15 3 83,33% Taxa de acerto
geral 87,5%
1 - Compra por valor total 2 20 90,90%

As matrizes de classificao para as fases de anlise e de validao apresentam elevadas
propores gerais de casos corretamente classificados para o modelo de duas variveis. As taxas
de acerto particularmente por grupo so consistentemente altas. Assim, pode-se admitir que o
modelo contendo as duas variveis (X3 e X7) demonstra excelente ajuste. Devido o baixo nmero
de casos mal classificados, nenhuma anlise adicional precisa ser realizada.
Se compararmos as metodologias envolvendo anlise discriminante e regresso logstica
vemos uma forte semelhana entre elas. Na anlise discriminante foram includas na soluo as
variveis X1, X3 e X7 enquanto que na regresso logstica foram includas apenas duas, X3 e X7.
As implicaes tambm foram concordantes.
Os coeficientes implicam que as empresas que utilizam a anlise de valor total tm menos
percepes da qualidade do produto porm tem maiores percepes de flexibilidade de preo.








Antonio Sergio Ferraudo e Guilherme Moraes Ferraudo - 13

Uma viso gerencial

Segundo Hair et al. (2005) a regresso logstica apresenta uma alternativa anlise discriminante
que pode ser mais confortvel para muitos pesquisadores devido a sua semelhana com anlise
de regresso mltipla. preferida tambm devido a violaes como por exemplo a falta de
homogeneidade nas matrizes de varincia/covarincia. A regresso logstica mostrou que o
pesquisador pode se concentrar na negociao de flexibilidade de preo versus qualidade do
produto.

Importante: A colinearidade entre variveis pode tornar o poder discriminatrio redundante entre
variveis, mas a redundncia no torna as variveis irrelevantes do ponto de vista de
explicao.