Você está na página 1de 58

1

Regresso Logstica
Continuaremos com os modelos de regresso no linear para duas situaces
importantes onde as variaveis respostas so discretas e os erros no so
normalmente distribuidos.
O modelo de regresso no linear logistico e utilizado quando a variavel resposta
e qualitativa com dois resultados possiveis, por exemplo, sobrevivncia de
enxertos de ameixeiras (sobrevive ou no sobrevive). Este modelo pode ser
estendido quando a variavel resposta qualitativa tem mais do que duas
categorias; por exemplo, a presso sanguinea pode ser classiIicada como alta,
normal e baixa.
O modelo de regresso logistico, aqui estudado, pode ser utilizado para analisar
dados observacionais ou experimentais no delineamento inteiramente
casualizado.

Modelos de regresso com variveis


respostas binrias
Em muitos estudos a variavel resposta qualitativa tem duas possibilidades e,
assim, pode ser representada pela variavel indicadora, recebendo os valores 0
(zero) e 1 (um).
Exemplos:
1) o obietivo da analise e veriIicar se uma Iirma tem ou no um departamento
de relaco industrial, de acordo com o seu tamanho. A variavel resposta tm
duas possibilidades: a Iirma tem ou no tem o departamento. Estes resultados
pode m ser codiIicados como 1 e 0 (ou vice-versa).
) Num estudo sobre a participaco das esposas no mercado de trabalho, como
Iunco da idade da esposa, numero de Iilhos e rendimento do marido, a
variavel resposta Y Ioi deIinida do seguinte modo: a mulher participa no
mercado de trabalho ou no. Novamente, estas respostas podem ser codiIicadas
como 1 e 0, respectivamente.

Interpretaco da funco de resposta quando a varivel


resposta binria
'amos considerar o modelo de regresso linear simples:
|

|
=
+ + =
0
1
1 0
i
i i i
Y
X Y 1 . .
A resposta esperada e dada por:
(1) X Y E
i i 1 0
) ( . . + =
Considere Y
i
uma v.a. Bernoulli com distribuico de probabilidade:
i i i
i i i
Y P Y
Y P Y
6
6
= = =
= = =
1 ) 0 ( 0
) 1 ( 1

!ela deIinico de valor esperado, obtemos:


(2) Y E
i i
6 = ) (
Igualando-se (1) e (), obtemos:
(3) X Y E
i i i
6 . . = + =
1 0
) (
Assim, a resposta media, quando a variavel resposta e uma variavel binaria (1 ou 0),
sempre representa a probabilidade de Y 1, para o nivel da variavel preditora X
i
.
Na Iigura a seguir, a variavel indicadora Y corresponde se a Iirma tem ou no tem um
departamento de relaco industrial e, a variavel preditora X corresponde ao tamanho
da Iirma. A Iunco resposta mostra a probabilidade que uma Iirma de um dado
tamanho tenha um departamento de relaco industrial.
5
!robabilidade de uma Iirma ter
departamento
E(Y)
0
1
X
Tamanho da Iirma
X Y E
1 0
) ( . . + =
6
Problemas quando a varivel resposta binria
1. Os erros no tem distribuico normal. Cada erro
) (
1 0 i i i
X Y . . 1 + =
pode assumir um dos dois valores:
i i i
i i i
X Y
X Y
1 0
1 0
0
1 1
. . 1
. . 1
= =
= =
2. Varincias heterogneas. A varincia de Y
i
para o modelo de regresso linear
simples e:
)) ( 1 )( ( ) 1 ( ) (
) 1 ( ) 0 ( ) 1 ( | )) ( |( ) (


i i i i i
i i i i i i
Y E Y E Y
Y E Y E Y
= =
+ = =
6 6 9
6 6 6 6 9
7
Como:
constante) ( Y
i i i i
6 6 1 =
Temos:
) 1 ( ) ( ) 1 ( ) (
1 0 1 0

i i i i i
X X . . . . 6 6 1 9 + + = =
Depende de X
i
3. Restrico na funco resposta. Como a Iunco resposta representa
probabilidades quando a variavel resposta e binaria, ento:
(4) Y E 1 ) ( 0 A = A 6
A restrico na resposta media de apresentar valores no intervalo |0;1|,
Ireqentemente e inapropriada, ou mesmo impossivel, para uma Iunco de
resposta linear. !ara o exemplo do departamento de relaco industrial, o uso da
Iunco de resposta linear, suieita a restrico na resposta media, requer
probabilidade 0 (zero) na resposta media para todas as Iirmas pequenas e, uma
probabilidade 1 (um) na resposta media, para todas as Iirmas grandes.
8
Este modelo Ireqentemente no representa bem a situaco em estudo. Ao inves,
um modelo onde as probabilidades 0 e 1 so encontradas assintoticamente, como
mostra a Iigura a seguir, e, de modo geral, mais apropriada.
) 1 . 0 10 exp( 1
) 1 . 0 10 exp(
) (
X
X
Y E
+ +
+
=
Figura: Funco resposta logistica
9
) 1 , 0 10 exp( 1
) 1 , 0 10 exp(
) (
X
X
Y E
+

=
Figura: Funco resposta logistica
10
Funco resposta logstica com uma nica
varivel preditora
Consideraces teoricas e praticas sugerem que quando a variavel resposta e
binaria, a Iorma da Iunco resposta sera Irequentemente curvilinea.
Nas duas Iiguras anteriores, temos Iunces respostas adequadas para uma
variavel resposta binaria. Elas tem assintotas em 0 e 1 e, assim, esto de
acordo com a restrico ().
As Iunces respostas das Iiguras so denominadas 1:nces logisticas, cuia
expresso e:
(5) Y E
X
X
) exp( 1
) exp(
1 0
1 0
) (
. .
. .
+ +
+
=
Forma equivalente:
) . J
1
1 0
exp 1 ) (

+ = X Y E . .
11
Propriedade da funco logstica
Uma propriedade interessante e que a Iunco logistica pode ser linearizada.
Denotando-se E(Y) por 6. pois a resposta media e a probabilidade quando a
variavel resposta e binaria. Fazendo-se a transIormaco:
(6)
e

=
6
6
6
1
log '
obtemos:
(7) X
1 0
'
. . 6 + =
Esta transIormaco e chamada de trans1ormaco logit da probabilidade 6. A razo
6/(1- 6) na transIormaco logit e chamada de //s (Chance). A Iunco resposta
transIormada (7) e denominada como 1:nco resposta logit. e 6

e denominada de
resposta media logit.
Observe em (7) que: -C A 6
`
A C para -CAXAC.
1
Usos da funco logstica
W Descritivo: descrever a natureza do relacionamento entre a resposta media (isto
e, a probabilidade de comprar, por exemplo) e uma (ou mais) variaveis
regressoras.
W Preditivo: saber se uma pessoa ira comprar um automovel no proximo ano,
dado o seu rendimento.
1
Varivel ~threshold. Exemplo: considere a Iorca necessaria para quebrar
blocos de concreto, medida em libras por polegada ao quadrado. Assume-se
que cada bloco tenha a sua variavel threshold T
i
. ou seia, ele ira quebrar-se se
uma Iorca igual ou maior do que T
i
Ior aplicada e, no ira quebrar-se se uma
Iorca menor do que T
i
Ior aplicada. Um bloco pode ser testado com apenas
uma Iorca; no e possivel determinar a variavel threshold para cada bloco,
mas apenas se a variavel threshold esta acima ou abaixo da particular Iorca
aplicada ao bloco. Com estas consideraces, temos:
|

|
> =
A =
i i i
i i i
X T q:e sempre Y
X T q:e sempre Y
0
1
Segue-se para uma dada Iorca X
i
aplicada a um bloco selecionada ao acaso:
) ( ) ' 1 (
i i i i i
X T P X Y P A = = = 6
(Quebra)
(No Quebra)
1
A P(TA X) e a distribuico de probabilidade acumulada da variavel threshold de
todos os blocos na populaco. Considerando esta distribuico como sendo a
logistica temos:
)
1 0
exp( 1
)
1 0
exp(
) (
X
X
X T P
. .
. .
+ +
+
= A
Uma Iunco de resposta curvilinea com a mesma Iorma da Iunco logistica
(5), e obtida transIormando 6 por meio da distribuico normal acumulada. Esta
transIormaco e chamada de transformaco probit. O modelo de regresso
probit e menos Ilexivel do que a regresso logistica pois no pode ser
diretamente aplicada com mais de uma variavel preditora. A distribuico de
probabilidade acumulada e dada por:
outra Iunco de resposta curvilinea e a transIormaco complemento log log
da probabilidade 6 dada por:
)) 1 ( log ( log 6
e e
DiIerentemente das transIormaces logit e probit esta transIormaco no e
simetrica em torno de 60,5.
encontramos a Iunco resposta logistica (5). Outro exemplo de variavel
threshold: tolerncia dos insetos a um inseticida.
) ) X X T P
1 0
. . + 1 =
15
Regresso logstica com uma nica
varivel preditora
Modelo de regresso logstica simples
Quando a variavel resposta e binaria, tomando os valores 1 e 0, com
probabilidades 6 e 1-6, respectivamente, Y e uma variavel Berno:lli com
parmetro E(Y) 6. O modelo na sua Iorma usual e dado por:
i i i
Y E Y 1 + = ) (
onde:
(8) ) (
)
1 0
exp( 1
)
1 0
exp(
i
X
i
X
i i
Y E
. .
. .
6
+ +
+
= =
Funco de verossimilhanca
Temos:
i i
i i
Y P
Y P
6
6
= =
= =
1 ) 0 (
) 1 (
16
A distribuico de probabilidade (Bernoulli) e dada por:
(9) n 1,,.., i ; 1 , 0 Y ) 1 ( ) (
i
1
= = =

i
Y
i
i
Y
i i i
Y 1 6 6
Como as observaces Y
i
so independentes, a coniunta Iica:
(10) ) 1 ( ) ( ) ,..., (
1 1
1
1 a a
= =

= =
n
i
n
i
i
Y
i
i
Y
i i i n
Y 1 Y Y g 6 6
Aplicando o logaritmo, Iica:
) ) . J (11) ) 1 ( log log ,..., log
1 1
1
1
= =

+ =
3

0
3

0 3 0

6
6
6
Sabemos que E(Y
i
)6
i
para uma variavel binaria e, de (5) temos:
(1) )) exp( 1 ( 1
1
1 0

+ + =
i
X . . 6
Alem disso, considerando (6) e (7), a Iunco de verossimilhanca e dada
por:
(1) )) exp( 1 ( log ) ( ) , ( log
1
1 0
1
1 0 1 0
= =
+ + + =
n
i
i e
n
i
i i e
X X Y L . . . . . .
17
Estimadores de mxima verossimilhanca
Novamente, no existe uma soluco analitica para os valores .
0
e .
1
que
maximizam a Iunco de verossimilhanca (1). Metodos numericos so
necessarios para encontrar as estimativas de maxima verossimilhanca, b
0
e b
1
.
Encontradas as estimativas b
0
e b
1
. substitui-se esses valores em (8) para
encontrar os valores aiustados. O valor aiustado para o i-esimo valor e dado por:
(1)
`
)
1 0
exp( 1
)
1 0
exp(
i
X b b
i
X b b
i + +
+
= 6
A Iunco de resposta aiustada e dada por:
(15)
`
)
1 0
exp( 1
)
1 0
exp(
X b b
X b b
+ +
+
= 6
Se usarmos a transIormaco logit (6), a Iunco resposta aiustada e dada por:
(16)
`
1 0
'
X b b + = 6
onde:
) (17) log
`
` 1
`
'
6
6
6

=
e
18
Exemplo.
Um analista esta estudando o eIeito do tempo de experincia em programaco
computacional sobre a habilidade para completar, dentro de um determinado
tempo, um tareIa diIicil. 'inte e cinco (5) programadores Ioram selecionadas
para o estudo. A variavel preditora, X. corresponde ao meses de experincia. Os
resultados Ioram (experincia em meses, sucesso na tareIa, valores aiustados):
14 0 0.310262
29 0 0.835263
6 0 0.109996
25 1 0.726602
18 1 0.461837
4 0 0.082130
18 0 0.461837
12 0 0.245666
22 1 0.620812
6 0 0.109996
30 1 0.856299
11 0 0.216980
30 1 0.856299
5 0 0.095154
20 1 0.542404
13 0 0.276802
9 0 0.167100
32 1 0.891664
24 0 0.693379
13 1 0.276802
19 0 0.502134
4 0 0.082130
28 1 0.811825
22 1 0.620812
8 1 0.145815
19
Os tempos de experincia so bastante variados, como mostra a primeira coluna
dos dados. !ara todas as pessoas Ioi dada a mesma tareIa e os resultados do seu
sucesso e mostrado na segunda coluna. Os resultados so codiIicados como: Y1
se a tareIa Ioi completada com sucesso no tempo permitido, e Y0 se a tareIa no
Ioi completada com sucesso. O diagrama de disperso e dado na Iigura a seguir.
Somente indica
que a habilidade
para completar a
tareIa com
sucesso parece
aumentar com a
experincia.
0
Aiuste do modelo de regresso logistico (8). Os resultados da analise Ioram
obtidos usando o SAS.
Parameter Estimates
Variable DF Estimate Std Error Chi-Sq Pr Chi-Sq
INTERCEPT 1 -3.0597 1.2594 5.9029 0.0151
EXPERIE 1 0.1615 0.0650 6.1760 0.0129
A Iunco resposta logistica aiustada (15) e:
) 1615 , 0 0597 , exp( 1
) 1615 , 0 0597 , exp(
`
X
X
+ +
+
= 6
Os valores aiustados so dados na terceira coluna da matriz dos dados. Exercicio:
obtenha a resposta media aiustada para i1onde X
1
14. Interprete o resultado. Resp.
0,10.
Interpretaco: este valor aiustado e a estimativa da probabilidade de que uma pessoa
com 1 meses de experincia tenha sucesso para completar a tareIa.
1
Tempo de experincia
6`
,
,1
,2
,3
,4
,5
,6
,7
,8
,9
1,
5 1 15 2 25 3 35

Interpretaco de -

Considere o valor da Iunco resposta aiustada (16) em XX


i
(18) X b b X
i i 1 0
'
) ( ` + = 6
!or exemplo, para X
1
14. temos:
798 , 0 ) 1 ( 1615 , 0 059 , ) 1 (
`
'
= + = 6
(19) 1) X b b X
i i
+ + = + ( ) 1 ( `
1 0
'
6
Considere, tambem, o valor da Iunco resposta aiustada (16) para XX
i
1
!or exemplo, para X
1
15. temos:
665 , 0 ) 15 ( 1615 , 0 059 , ) 15 (
`
'
= + = 6

A diIerenca entre os dois valores Iica:


(20) b X X
i i 1
' '
) ( ` ) 1 ( ` = + 6 6
De acordo com (17), (18) e o logaritmo da chance (odds) estimada quando XX
i
e
denominamos por log
e
(chance
1
). Da mesma Iorma, (19) e o logaritmo da
chance(odds) estimada quando XX
i
1 e denominamos por log
e
(chance

).
6
6
` 1
`

= odds
Observaco:
Assim, a diIerenca entre os dois valores aiustados pode ser dado por:
)
1 1
1

log ) ( log ) ( log b chance chance


chance
chance
e e e
= =
No exemplo, chance
1
e chance

, valem:
50 , 0
` 1
`
` 1
`
ln exp
1
=

=
6
6
6
6
chance
591 , 0
` 1
`
` 1
`
ln exp

=
6
6
6
6
chance

Aplicando o anti-logaritmo em cada lado, vemos que a razo das chances


estimada, denominada de razo das chances (odds ratio), e dada por:
(21) b OR
chance
chance
) exp(
1
`
1

= =
Exemplo: para os dados da tareIa computacional, o valor da razo das chances e:
175 , 1 ) 1615 , 0 exp(
`
= = OR
Interpretaco: a chance aumenta em 17,5 para cada ms adicional de
experincia.
Da mesma Iorma:
175 , 1
50 , 0
591 , 0
1

= = =
chance
chance
OR
5
Em geral, a razo das chances estimada quando existe uma diIerenca de c
unidades em X e exp(cb
1
). Exemplo: deseiamos comparar individuos com 10
meses e 5 meses de experincia, assim c15 meses. a razo das chances e
estimada por exp(15*0.1615)11.3. portanto, isto indica que a chance de uma
pessoa com experincia terminar a tareIa aumenta mais de 11 vezes quando
comparado com uma pessoa com pouca experincia.
Regresso logstica com vrias variveis
preditoras
Modelo
No modelo (8) substituimos:
X
1 0
. . +
por:
(22) X X
p p 1 1 1 1 0
...

+ + + . . .
6
Em termos matriciais, temos:
(23)
X
X
X

X
X
X

p i
i
i
(px1)
i
p
(px1)
p
px

=
) 1 ,(

1
) 1 (

1
1
1
0
) 1 (
.
.
1
.
.
1
.
.
.
X X
.
.
.
Temos que:
(24) X X
p p 1 1 1 1 0
'
...

+ + + = . . . X
(25) X X
p i p i i 1 , 1 1 1 0
'
...

+ + + = . . . X
7
A Iunco (5) pode ser generalizada como:
(26) Y E
) exp( 1
) exp(
'
'
) (
X
X
+
=
Uma Iorma equivalente e dada por:
(27) Y E
1 '
)) exp( 1 ( ) (

+ = X
A transIormaco logit dada em (6) agora resulta em:
(28) X
'
=
'
6
Formulaco do modelo: Seiam Y
i
variaveis aleatorias independentemente
distribuidas segundo uma Bernoulli com valores esperados E(Y
i
)6
i
, onde:
(29) Y E
i
i
i i
) exp( 1
) exp(
) (
X
X
'
'
+
= = 6
8
As variaveis X podem ser variaveis preditoras diIerentes, ou algumas podem
representar eIeitos de curvatura e/ou interaco. Tambem, as variaveis preditoras
podem ser quantitativas, ou elas podem ser qualitativas e representadas por
variaveis indicadoras. Esta Ilexibilidade torna o modelo de regresso logistico
multiplo muito atrativo.
Ajustando o modelo
A Iunco log-verossimlhanca (1) estende-se diretamente para o modelo de
regresso logistica multipla, dada por:
(30) Y L
n
i
i e
n
i
i i e
= =
+ =
1 1
)) exp( 1 ( log ) ( ) ( log X X
' '
Metodos numericos devem ser utilizados para encontrar os valores de .
0
. .
1
.....
.
p-1
que maximizam (0). As estimativas de maxima verossimilhanca sero
denotadas por b
0
. b
1
.....b
p-1
.
9
A Iunco resposta logistica aiustada e os valores aiustados so dados
por:
(31) ) (1
-1
) exp(
`
) exp( 1
) exp(
X b
'
X b
X b
'
'
+ = =
+
6
(32) ) (1
1 -
i i
i
i
) exp(
`
) exp( 1
) exp(
X b
'
X b
X b
'
'
+ = =
+
6
Exemplo: um estudo na area da saude esta investigando um surto epidmico de uma
doenca transmitida por um mosquito, individuos Ioram aleatoriamente selecionados em
dois setores de uma cidade para determinar se a pessoa tinha recentemente contraido a
doenca em estudo. Isto Ioi veriIicado por um entrevistador, que Iez certas questes
especiIicas para saber se o entrevistado apresentou sintomas da doenca durante um
periodo especiIico. A variavel resposta Y Ioi codiIicada como 1 se a doenca estava
presente, e 0 em caso contrario.
Trs variaveis preditoras Ioram incluidas no estudo: idade, status socio-econmico da
Iamilia e o setor da cidade. A idade (X
1
) e uma variavel quantitativa. O status socio-
econmico e uma variavel com categorias. Esta variavel e representada por duas
variaveis indicadoras (X
2
e X
3
) do seguinte modo:
0
Classe X
2
X
3
Alta 0 0
Media 1 0
Baixa 0 1
A variavel setor da cidade tambem e uma variavel categorizada. Como existiam
apenas dois setores na cidade, uma variavel indicadora (X
4
) Ioi usada, deIinida
como X
4
0 para o setor 1 e X
4
1 para o setor .
A razo para a escolha da classe social alta ser tomada como reIerncia e que e
esperado que esta classe teria a menor taxa de doenca entre as classes sociais.
Fazendo-se esta classe como reIerncia, a razo das chances associados com os
coeIicientes de regresso .
2
e .
3
espera-se serem maiores do que 1, Iacilitando a
interpretaco. !ela mesma razo, o setor 1, onde a epidemia Ioi menos severa, Ioi
escolhida como reIerncia para a variavel indicadora X
4
.
1
!arte dos dados:
(1) () () () (5) (60 Observaco
Idade Status socio-econmico Setor Status
doenca
'alores
aiustados
i X
i1
X
i2
X
i3
X
i4
Y
i i
6`
1 0 0 0 0 .09
5 0 0 0 0 .19
6 0 0 0 0 .106
60 0 0 0 0 .71
5 18 0 1 0 1 .111
6 6 0 1 0 0 .16
... ... ... ... ... ... ...
98 5 0 1 0 0 .171
O primeiro proposito da analise Ioi veriIicar a Iorca de associaco entre as variaveis
preditoras e a probabilidade de uma pessoa ter contraido a doenca.
Modelo ajustado
1 '
)) exp( 1 ( ) (

+ = X Y E
Onde:
4 4 3 3
X X X X . . . . . + + + + =
1 1 0
'
X

Estimativas de maxima verossimilhanca da Iunco de regresso logistica - dados de


doencas
Estimativas dos coeIicientes, desvios padres e razo das chances
CoeIicientes de
regresso
Estimativas dos
coeIicientes de
regresso
Estimativas dos
desvios padres
Estimativas das
razes das chances
.
0
-,19 0,66
.
1
0,0975 0,015 1,00
.

0,088 0,5990 1,505


.

-0,055 0,601 0,77


.

1,577 0,5016 ,89


Estimativa da matriz de varincias-covarincias aproximadas


=
516 , 0
06 , 0 650 , 0
019 , 0 18 , 0 588 , 0
000 , 0 0007 . 0 00115 , 0 00018 , 0
16 , 0 010 , 0 186 , 0 0057 , 0 19 , 0
) (

b s
Odds ratio da classe alta: e
-.- .
e
-0,0,1
0,899. Interpretar.

A Iunco resposta logistica estimada e dada por:


1
1
)) 577 , 1 055 , 0 088 , 0 0975 , 0 19 , exp( 1 ( `

+ + =
4 3
X X X X 6
Interpretaco das razes das chances (odds ratios):
0 , 1
`
= OR
A chance de uma pessoa estar doente aumenta cerca de
com cada ano adicional de idade (X
1
), para dado status socio-
econmico e setor da cidade (constantes).
89 ,
`
= OR
A chance de uma pessoa no setor (X
4
) que tenha contraido a
doenca e quase 5 vezes maior para uma pessoa do setor 1,
dado a idade e o status socio-econmico.
Exercicio: encontre o valor aiustado para o caso i1, onde X
11
33. X
12
0.
X
13
0. X
14
0. Resposta.
09 , 0 `
1
= 6
Interpretaco: e a estimativa da probabilidade de uma pessoa com anos
de idade, da classe alta, do setor 1, contrair a doenca.

onstruco de Modelos:
Seleco de Variveis Preditoras
Nesta seco vamos considerar o processo de seleco de variaveis
explanatorias via o metodo passo a passo (stepwise), e a validaco do modelo
de regresso logistico.
Mtodo passo a passo (stepwise) para construco do
modelo
Usa-se o procedimento de regresso stepwise para adicionar ou remover
variaveis explanatorias do modelo, assim como eIeitos de curvatura e de
interaco. O metodo e idntico ao modelo de regresso linear.
5
%este se vrios .

Aqui, o nosso interesse e veriIicar se um subconiunto das variaveis X podem ser


retiradas do modelo de regresso logistica multiplo, isto e, vamos testar se os
coeIicientes de regresso .

so iguais a zero.
!ara este Iim nos vamos usar o Teste da Razo de Jerossimilhanca. que e baseado
na estatistica chamada de Deviance do modelo.
Deviance do modelo:
De1inico. a deviance (desvio) de um modelo de pesquisa compara o logaritmo
da verossimilhanca deste modelo com o logaritmo da verossimilhanca do
modelo completo. Um modelo completo e um modelo que se aiusta
completamente aos dados, isto e, para cada observaco tem-se um parmetro.
) ) . J

+ =
n
i
i e i i e i p
Y Y X X X DEJ
1
1 1 0
` 1 log 1 ) ` ( log ) ,..., , ( 6 6
onde e o i-esimo valor aiustado do modelo de regresso logistico ().
i
6`
A deviance, para o modelo de regresso logistico (9), e dada por:
6
Deviance pequena
A explicaco do modelo aiustado (de pesquisa)
e pobre, ou seia, no podemos usar o modelo
aiustado (pesquisa).
Deviance grande
A explicaco do modelo aiustado (de pesquisa)
e praticamente igual ao do modelo completo,
ou seia, podemos usar o modelo aiustado
(pesquisa), pois, geralmente tem menos
parmetros, ele e mais simples.
Deviance Parcial
!ara cada modelo aiustado (ou de pesquisa) podemos calcular a sua deviance
(desvio). A diIerenca entre as deviances de dois modelos de pesquisa e
denominada de deviance parcial e, atraves dela, e possivel testarmos se
determinada(s) variavel(eis) explanatoria(s) pode(m) ser retirada(s) do modelo.
7
A seguir mostraremos o processo de teste usando a deviance parcial.
'amos considerar o modelo logistico completo com Iunco resposta dada por:
) . J
1
'
exp 1

+ =

6
()
1 1 1 1 0
'
...

+ + + =
p p
X X . . .
Calcula-se as estimativas de maxima verossimilhanca (-

) e a deviance deste
modelo, a qual e representada por: DEJ(X
0
. X
1
. ....X
p-1
).
'amos, agora, considerar que deseiamos testar as seguintes hipoteses:
zero de diIerente e um menos pelo :
0 ... :
1 1 0
a
p q q
H
H = = = =
+
. . .
Os p-q coeIicientes so testados.
8
O modelo de regresso logistico reduzido tem a seguinte Iunco resposta:
) . J
1
'
exp 1

+ =
R
6
()
1 1 1 1 0
'
...

+ + + =
q q R
X X . . .
Calcula-se as estimativas de maxima verossimilhanca (-
R
) e a deviance deste
modelo, a qual e representada por: DEJ(X
0
. X
1
. ....X
q-1
).
Interpretaco.
Se a deviance (residual) do modelo reduzido no e muito maior do que a deviance
(residual) do modelo completo, a nossa concluso e que as variaveis X
q
. X
q1
.....X
p-1
.
podem ser retiradas do modelo de regresso logistico multiplo.
Uma grande diIerenca entre as duas deviances (residuais) signiIica que as variaveis
preditoras X
q
. X
q1
.....X
p-1
. devem ser mantidas no modelo, pois elas melhoram muito
o aiuste do modelo (a explicaco do modelo).
9
A diIerenca entre as duas deviances e a deviance parcial e e dada por:
) )
)
1 1 0
1 1 0 1 1 0 1 1
,..., , -
,..., , ,..., , ' ,..., ,

+
=
p
q q p q q
X X X DEJ
X X X DEJ X X X X X X DEJ
()
A deviance parcial dada em () segue, aproximadamente, para um n razoavelmente
grande, uma distribuico de qui-quadrado com p-q graus de liberdade. Os graus de
liberdade correspondem a diIerenca nos graus de liberdade do erro para os dois
modelos aiustados: (n-q)-(n-p)p-q.
Regra de deciso usando a aproximaco pelo Qui-Quadrado
) )
) )
0

1 1 0 1 1
0

1 1 0 1 1
H reieitar
; 1 ,..., , ' ,..., ,
H reieitar no
; 1 ,..., , ' ,..., ,

A
+
+
q p X X X X X X DEJ
q p X X X X X X DEJ
q p q q
q p q q
- /
- /
0
Ilustraco do uso da deviance parcial:
'amos considerar um modelo de regresso logistico com:
1 1 0
'
X . . . . + + + = X X
e a sua deviance residual e calculada.
Hipoteses em teste:
zero de diIerente e um menos pelo :
0 :
0
a
H
H = = . .
Ento, vamos aiustar um modelo de regresso logistico com:
1 1 0
'
X . . + =
e vamos obter a deviance residual deste modelo.
A deviance parcial necessaria para veriIicar as hipoteses, e dada por:
) ) )
1 0 1 0 1 0
, , , , , ' , X X X X DEJ X X DEJ X X X X DEJ =
1
Exemplo: continuaco do exemplo de surto de uma doenca.
O modelo Ioi aiustado com trs variaveis explanatorias: idade, classe socio-
econmica e setor da cidade. A deviance para este modelo e dada por:
) 05 , 101 , , , ,
1 0
= X X X X X DEJ
Hipotese:
0 :
0 :
1
1 0

=
H
H
a
.
Assim, vamos aiustar um modelo com:
0
'
X X X . . . . + + + =
e a sua deviance vale:
) 0 , 106 , , ,
0
= X X X X DEJ

A deviance parcial vale:


) )
)
) 15 , 5 05 , 101 0 , 106 , , , '
, , , ,
, , , , , , '
0 1
1 0
0 0 1
= =

=
X X X X X DEJ
X X X X X DEJ
X X X X DEJ X X X X X DEJ
Temos que /

(0,05,1),81. Como 5,15~,81, reieitamos a hipotese nula e,


portanto, a variavel X
1
deve permanecer no modelo.

'amos, usando o pacote estatistico SAS testar a seguinte hipotese:


0 :
0 :
k
0

= =
.
. .
:m pelo menos H
H
a
odel Fit Statistics
Intercept
and
Criterion Covariates
-2 Log L 101.054 (Deviance residual do modelo
completo)
odel Fit Statistics
Intercept
and
Criterion Covariates
-2 Log L 102.259 (Deviance residual do modelo
de pesquisas)

Residual Chi-Square Test


Chi-Square DF Pr ChiSq
1.2213 2 0.5430
De acordo com o teste podemos retirar do modelo as variaveis X
2
e X
3
(socio-
economicas).
Ainda podemos considerar um modelo com as interaces:
9 8 1 7
1 6 1 5 1 1 0
'

X X X
X X X X X X
X X X X X
F
. . .
. . . . . . .
+ + +
+ + + + + + + =
'amos, usando o pacote estatistico SAS testar a seguinte hipotese:
0 :
0 :
k
9 8 7 6 5 0

= = = = =
.
. . . . .
:m pelo menos H
H
a
1 1 0
'
X X X X
R
. . . . . + + + + =
5
The LJGISTIC Procedure
Residual Chi-Square Test
Chi-Square DF Pr ChiSq
6.6450 5 0.2484
A concluso e de que no e necessario a incluso de interaces de primeira
ordem no modelo de regresso logistico.
Validaco do modelo
Novos dados (uma nova amostra) ou, ento, uma amostra reservada dos dados,
deveria ser usada para veriIicar se o mesmo modelo pode ser usado com estes dados
novos, se os coeIicientes de regresso e os erros padres so similares, e se as
mesmas concluses inIerenciais seriam obtidas.
6
Diagnstico do Modelo
'eriIicaco do aiuste do modelo
'eriIicar o aiuste da parte linear do modelo de regresso logistico e
identiIicar deviance residual que so valores extremos (outlying)
!ontos cruciais:
'eriIicar se a Iunco resposta estimada e monotnica e em Iorma
sigmoidal (de S)
'eriIicar a presenca de outliers, pontos inIluentes e se o modelo de
regresso logistico aiustado e adequado.
Observaco: observaces outlying so observaces bem separadas dos resto dos
dados. Geralmente so identiIicadas com residuos grandes. Elas tem um eIeito
muito grande sobre a Iunco de regresso de minimos quadrados aiustada.
7
Verificaco do Ajuste do Modelo
i. Criar classes com valores similares de (valores aiustados na
escala logito) ;
ii. Estas classes devem ter aproximadamente o mesmo numero de casos
(sugesto: usar classes igualmente espacadas);
iii. !ara cada classe computar a proporco de 1`s, representada por p
i
,
iv. Fazer um graIico das proporces versus os pontos medios das classes dos
valores de
b
'
=
'
` 6
b
'
=
'
` 6
Exemplo: continuaco do exemplo de uma tareIa de programaco.
Os valores estimados so dados por:
a experinci * 1615 , 0 0597 , ` + = 6
Estes valores, ordenados crescentemente, so dados na tabela.
Procedimento:
8
Jbs experiencia sucesso valor ajustado
1 4 0 -2.4137
2 4 0 -2.4137
3 5 0 -2.2522
4 6 0 -2.0907
5 6 0 -2.0907
6 8 1 -1.7677
7 9 0 -1.6062
8 11 0 -1.2832
9 12 0 -1.1217
10 13 0 -0.9602
11 13 1 -0.9602
12 14 0 -0.7987
13 18 1 -0.1527
14 18 0 -0.1527
15 19 0 0.0088
16 20 1 0.1703
17 22 1 0.4933
18 22 1 0.4933
19 24 0 0.8163
20 25 1 0.9778
21 28 1 1.4623
22 29 0 1.6238
23 30 1 1.7853
24 30 1 1.7853
25 32 1 2.1083
9
'
` 6
'
` 6
'
` 6
'
` 6
'
` 6
Classes (i) !onto medio n
i
p
i
Freqncias de
uns
1 -, -1,51 -1,967 7 0,1 1
-1,51 9.98 -1,061 5 0,00 1
-0,608 9.?98 -0,155 0,500
0,98 1.?94 0,751 0,750
5 1,0 ?.11 1,657 5 0,800
Observaco: as classes so igualmente espacadas.
50
oncluso: a Iunco resposta e monotnica e em Iorma de uma sigmoide.
51
rfico half-normal de probabilidade com envelope simulado
E util para veriIicar se algum(ns) valor(es) da deviance residual e
discrepante(outlying), e para veriIicar se a parte linear do modelo de regresso
logistico e adequada.
Num graIico halI-normal de probabilidades o -esimo residuo, em valor absoluto,
ordenado e colocado num graIico com o seguinte percentil:

+
+
/ 1
8 / 1
n
n
z
(e o valor de z que da uma area acumulada de (n-1/8)/(2n1/2))
(5)
Outliers aparecero no alto, a direita do graIico, como pontos separados dos
outros.
O envelope simulado e uma Iaixa, cuios residuos devem cair dentro desta Iaixa se o
modelo e adequado (aiustado, correto).
5
Passos para construir o grfico half-normal de probabilidades com
envelope simulado
W !ara cada uma das n observaces, gerar um experimento Bernoulli (0 ou 1),
onde o parmetro da Bernoulli para a i-esima observaco e , a
probabilidade estimada da resposta Y
i
1de acordo com o modelo aiustado
originalmente;
W Aiustar um modelo de regresso logistico para as n novas respostas onde a
variavel preditora mantem seus valores originais, e obtenha as deviances
residuais. Ordenar as deviances residuais tomadas em valor absoluto em
ordem crescente.
W Repetir os dois primeiros passos 18 vezes;
W Agrupe as menores deviances residuais absolutas a partir dos 19 grupos e
determine os valores minimo, maximo e medio desses 19 residuos;
W Repita o passo anterior agrupando os segundos menores residuos absolutos,
depois os terceiros menores residuos absolutos, e assim por diante.
W Represente os valores minimo, medio e maximo de cada um dos n grupos
de residuos ordenados versus o correspondente valor esperado em (5) em
um graIico halI-normal de probabilidades para os valores de deviances
residuais absolutas ordenadas da amostra original e ligue os pontos por
linhas retas.
i
6
`
5
Exemplo: continuaco do exemplo de uma tareIa de programaco.
5
1 14 0 0.31026 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 1 0
2 29 0 0.83526 1 0 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1
3 6 0 0.11000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0
4 25 1 0.72660 0 0 1 0 0 1 0 1 0 1 1 1 1 1 1 1 1 1 1
5 18 1 0.46184 0 1 0 0 0 0 0 1 1 1 1 1 0 1 0 0 0 1 1
6 4 0 0.08213 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0
7 18 0 0.46184 1 1 0 0 1 1 1 1 1 1 0 0 1 0 0 0 1 0 0
8 12 0 0.24567 0 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 0
9 22 1 0.62081 0 1 0 1 1 1 1 1 1 1 1 1 1 0 1 0 0 0 1
10 6 0 0.11000 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
11 30 1 0.85630 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
12 11 0 0.21698 0 1 0 0 0 0 1 0 1 0 0 0 1 1 0 0 0 1 0
13 30 1 0.85630 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1
14 5 0 0.09515 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1
15 20 1 0.54240 1 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 1 1
16 13 0 0.27680 0 1 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0 0
17 9 0 0.16710 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
18 32 1 0.89166 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
19 24 0 0.69338 0 1 1 1 0 1 0 1 0 1 0 1 1 1 0 0 1 1 1
20 13 1 0.27680 1 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1
21 19 0 0.50213 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0 0 1 1 1
22 4 0 0.08213 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
23 28 1 0.81183 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
24 22 1 0.62081 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 0 1
25 8 1 0.14582 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0
'ariaveis: obs experincia sucesso probabilidadeestimada simulaco1...simulaco19
55
/0svio1 /0svio2 /0svio3 /0svio4 /0svio5 /0svio6 /0svio7 /0svio8 /0svio9 /0svio10 /0svio11 /0svio12 /0svio13 /0svio14 /0svio15 /0svio16 /0svio17 /0svio18 /0svio19
,34 ,39 ,42 ,33 ,47 ,2 ,33 ,8 ,55 ,21 ,58 ,2 ,38 ,14 ,28 ,16 ,54 ,35 ,11
,34 ,43 ,46 ,37 ,5 ,25 ,33 ,11 ,55 ,25 ,63 ,4 ,38 ,19 ,28 ,16 ,57 ,41 ,15
,37 ,43 ,46 ,4 ,5 ,25 ,36 ,11 ,58 ,25 ,63 ,4 ,41 ,19 ,31 ,18 ,6 ,41 ,15
,4 ,47 ,49 ,4 ,54 ,28 ,38 ,12 ,61 ,27 ,67 ,5 ,44 ,21 ,34 ,2 ,6 ,44 ,17
,4 ,47 ,49 ,41 ,54 ,31 ,4 ,12 ,64 ,27 ,7 ,7 ,45 ,24 ,42 ,25 ,62 ,47 ,2
,46 ,47 ,49 ,44 ,54 ,41 ,4 ,13 ,68 ,28 ,71 ,7 ,45 ,34 ,43 ,28 ,67 ,59 ,29
,5 ,51 ,53 ,45 ,58 ,46 ,46 ,14 ,71 ,32 ,77 ,7 ,52 ,34 ,46 ,35 ,7 ,59 ,29
,58 ,51 ,53 ,45 ,58 ,55 ,46 ,16 ,71 ,32 ,77 ,9 ,53 ,36 ,52 ,39 ,7 ,59 ,3
,62 ,55 ,57 ,48 ,58 ,55 ,48 ,16 ,72 ,34 ,8 ,12 ,56 ,38 ,52 ,44 ,71 ,63 ,35
,66 ,6 ,67 ,54 ,62 ,57 ,51 ,17 ,78 ,41 ,89 ,12 ,57 ,41 ,55 ,44 ,77 ,68 ,38
,71 ,65 ,71 ,59 ,8 ,63 ,53 ,23 ,84 ,47 ,92 ,14 ,61 ,44 ,57 ,47 ,79 ,68 ,38
,72 ,75 ,77 ,69 ,86 ,63 ,55 ,28 ,88 ,5 ,92 ,18 ,77 ,44 ,6 ,49 ,83 ,78 ,47
,72 ,81 ,77 ,71 ,91 ,67 ,69 ,3 ,88 ,56 ,97 ,19 ,78 ,52 ,62 ,58 ,87 ,83 ,47
,77 ,87 ,88 ,77 ,91 ,73 ,75 ,37 ,92 ,59 1,1 ,25 ,78 ,56 ,66 ,58 ,9 ,84 ,51
,82 ,87 ,89 ,82 ,91 ,76 ,82 ,41 1,5 ,67 1,5 ,3 ,83 ,63 ,72 ,65 ,95 ,89 ,58
,92 ,87 ,89 ,82 ,91 ,8 ,92 ,49 1,5 ,72 1,8 ,3 ,84 ,66 ,81 ,72 1,11 ,95 ,61
1,17 ,94 ,95 ,84 1,3 ,83 ,92 ,53 1,2 ,72 1,9 ,4 ,96 ,75 1, ,75 1,19 1,8 ,7
1,18 1, 1,1 ,91 1,15 ,98 1,8 ,53 1,21 ,75 1,27 ,49 1,9 ,84 1, ,75 1,21 1,8 ,76
1,31 1,14 1,21 ,97 1,21 1,6 1,11 ,59 1,25 ,84 1,31 ,62 1,11 ,99 1,3 ,83 1,25 1,21 ,8
1,32 1,14 1,21 1,4 1,27 1,12 1,2 ,71 1,25 ,89 1,32 ,65 1,19 ,99 1,3 ,92 1,32 1,35 ,86
1,37 1,29 1,29 1,23 1,4 1,15 1,24 1,5 1,42 1,1 1,37 ,65 1,24 1,26 1,8 ,96 1,32 1,42 ,97
1,39 1,52 1,5 1,23 1,6 1,15 1,63 1,5 1,47 1,1 1,55 ,77 1,42 1,49 1,16 1,1 1,46 1,42 1,9
1,45 1,67 1,57 1,56 1,67 1,61 1,68 1,48 1,62 1,37 1,56 ,81 1,71 1,56 1,51 1,25 1,52 1,7 1,4
1,8 1,76 1,87 1,85 1,74 2,3 1,72 1,66 1,68 1,68 1,69 1,65 1,79 1,61 1,81 1,3 1,7 1,7 1,61
1,86 2,6 2,1 2,33 1,8 2,3 1,85 1,91 1,88 2,49 1,74 2,5 2,4 2,3 2,39 2,8 2, 1,85 2,42
Deviannce residual ordenadas crescentemente para as amostras simuladas
56
507.039iI m3imo m/io mximo vaIo7o7igi3aI
,3127 ,2 ,31 ,58 ,48
,8746 ,4 ,34 ,63 ,414
,13666 ,4 ,35 ,63 ,414
,18913 ,5 ,37 ,67 ,447
,231622 ,7 ,39 ,7 ,48
,282934 ,7 ,43 ,71 ,483
,3352 ,7 ,46 ,77 ,557
,387995 ,9 ,48 ,77 ,557
,44211 ,12 ,5 ,8 ,65
,497535 ,12 ,54 ,89 ,646
,554542 ,14 ,59 ,92 ,699
,613411 ,18 ,64 ,92 ,751
,67449 ,19 ,68 ,97 ,8
,738194 ,25 ,72 1,1 ,85
,8548 ,3 ,77 1,5 ,86
,87579 ,3 ,82 1,11 ,976
,9514 ,4 ,9 1,2 ,976
1,32197 ,49 ,96 1,27 1,16
1,12793 ,59 1,4 1,31 1,113
1,219191 ,65 1,9 1,35 1,181
1,33164 ,65 1,2 1,42 1,24
1,462645 ,77 1,32 1,63 1,538
1,625949 ,81 1,51 1,71 1,63
1,84973 1,3 1,72 2,3 1,9
2,245251 1,74 2,8 2,8 1,962
Observaco
Observaco 5
57
3v0Io50simuIa/o
,
,5
1,
1,5
2,
2,5
3,
,5 1 1,5 2 2,5
507.039iI
/
0
v
i
a
3
.
0

7
0
s
i
/
u
a
I

mnimo mdio mximo Deviance


58
INTER!RETACO:
Todos os pontos caem dentro do envelope simulado, assim, no ha necessidade de
se aplicar medidas remediadoras, contra outliers, por exemplo. Alem disso, a
maioria das deviances residuais esto proximas da linha media, indicando que o
modelo de regresso logistica e adequado aos dados.
As observaces e 5 esto no lado direito alto, mas esto dentro da Iaixa.

Você também pode gostar