Escolar Documentos
Profissional Documentos
Cultura Documentos
Prefcio
Prefcio
tatstica e que tenham conhecimentos de regresso linear. Portanto, trata-se
de um segundo curso de modelagem estatstica de regresso com um enfoque
inferencial bsico e vrias aplicaes. O texto tem sido tambm utilizado na
disciplina Tpicos de Regresso ministrada aos alunos do ltimo ano do
Bacharelado em Estatstica do IME-USP.
No Captulo 1 introduzimos a classe dos modelos lineares generalizados
juntamente com alguns conceitos bsicos. Em seguida discutimos a estimao
dos parmetros, propriedades assintticas dos estimadores de mxima verossimilhana e a aplicao de alguns testes estatsticos mais conhecidos. Uma
reviso abrangente de mtodos de diagnstico apresentada na sequncia, em
que definimos pontos de alavanca e discutimos anlise de resduos, mtodos
de deleo de pontos e influncia local, dentre outros procedimentos. Discutimos tambm a seleo de modelos. Sempre que possvel as metodologias
so apresentadas em separado para os modelos normais lineares e posteriormente estendidas para toda a classe dos MLGs. O captulo concludo com
a anlise de 6 conjuntos de dados atravs de MLGs apropriados.
O Captulo 2 dedicado aos modelos com resposta gama e resposta
normal inversa para a anlise de dados assimtricos positivos. Inicialmente
abordamos os modelos com resposta gama e apresentamos alguns resultados
inferenciais e tcnicas de diagnstico. Trs conjuntos de dados so analisados.
Em seguida, alguns modelos usualmente aplicados em Econometria so discutidos e um exemplo apresentado. Em seguida so discutidos modelos com
resposta normal inversa, alguns resultados tericos so apresentados e 2 conjuntos de dados so analisados. No final do captulo discutimos MLGs duplos,
em que a mdia e a disperso so ajustados simultneamente. Apresentamos
o processo de estimao conjunto, alguns procedimentos de diagnstico e um
exemplo ilustrativo.
No Captulo 3 discutimos modelos para a anlise de dados binrios,
com nfase para os modelos logsticos lineares. Inicialmente uma reviso de
ii
Prefcio
procedimentos tradicionais para a anlise de tabelas de contigncia 2 2
apresentada. Duas aplicaes so descritas nesta primeira parte do captulo.
Prefcio
equaes de estimao generalizadas para a anlise de dados correlacionados
no gaussianos. Apresentamos o processo de estimao, alguns resultados
assintticos e metodologias de diagnstico. Esse subtpico ilustrado com 3
aplicaes.
No Apndice A so descritos os conjuntos de dados usados nas aplicaes e nos exerccios propostos e no Apncide B so descritas as subrotinas
em R para o desenvolvimento dos procedimentos de diagnstico para os principais MLGs e EEGs.
No final de cada captulo so propostos exerccios tericos e aplicados,
num total de 105 exerccios, e ao longo do texto so apresentados programas especiais e subrotinas em R, particularmente na anlise dos exemplos.
Procuramos diversificar as aplicaes com conjuntos de dados das diversas
reas do conhecimento, tais como Agricultura, Biologia, Cincias Atuariais, Cincias Sociais, Economia, Engenharia, Geografia, Medicina, Nutrio,
Pesca e Odontologia. Alguns conjuntos de dados so oriundos de trabalhos
desenvolvidos no Centro de Estatstica Aplicada (CEA) do IME-USP.
A pgina na Web onde esto disponveis informaes sobre este texto,
os conjuntos de dados utilizados nos exemplos e exerccios e alguns programas
especficos em R est no seguinte endereo:
http://www.ime.usp.br/giapaula/textoregressao.htm.
Finalizando, gostaramos de agradecer aos alunos que cursaram as
disciplinas Modelos Lineares Generalizados e Tpicos de Regresso e
muito contribuiram com suas sugestes para o aprimoramento dos primeiros
manuscritos.
So Paulo, fevereiro de 2013
Gilberto A. Paula
e-mail:giapaula@ime.usp.br
iv
Sumrio
1.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Definio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1
Casos particulares . . . . . . . . . . . . . . . . . . . . .
Ligaes cannicas . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1
1.3
1.4
1.5
1.6
1.7
Outras ligaes . . . . . . . . . . . . . . . . . . . . . .
Funo desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1
Resultados assintticos . . . . . . . . . . . . . . . . . . 15
1.4.2
Anlise do desvio . . . . . . . . . . . . . . . . . . . . . 16
1.5.2
1.5.3
Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . 22
1.5.4
Casos particulares . . . . . . . . . . . . . . . . . . . . . 23
. . . . . . . . . . . . . . . . . . . 25
1.6.1
Estimao de
. . . . . . . . . . . . . . . . . . . . . 25
1.6.2
Estimao de . . . . . . . . . . . . . . . . . . . . . . 26
1.6.3
Distribuio assinttica . . . . . . . . . . . . . . . . . . 27
Teste de hipteses . . . . . . . . . . . . . . . . . . . . . . . . 28
v
SUMRIO
1.8
1.9
1.7.1
Hipteses simples . . . . . . . . . . . . . . . . . . . . . 28
1.7.2
Modelos encaixados . . . . . . . . . . . . . . . . . . . . 32
1.7.3
1.7.4
1.7.5
Hipteses restritas . . . . . . . . . . . . . . . . . . . . 39
Bandas de confiana . . . . . . . . . . . . . . . . . . . . . . . 40
1.8.1
1.8.2
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.9.2
Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 45
1.9.3
Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.9.4
1.9.5
Influncia . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.9.6
Ilustrao . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.9.7
Influncia local . . . . . . . . . . . . . . . . . . . . . . 56
1.9.8
1.9.9
Tcnicas grficas . . . . . . . . . . . . . . . . . . . . . 64
SUMRIO
1.12.1 Estudo entre renda e escolaridade . . . . . . . . . . . . 80
1.12.2 Processo infeccioso pulmonar . . . . . . . . . . . . . . 85
1.12.3 Sobrevivncia de bactrias . . . . . . . . . . . . . . . . 88
1.12.4 Estudo seriado com ratos . . . . . . . . . . . . . . . . . 90
1.12.5 Consumo de combustvel . . . . . . . . . . . . . . . . . 94
1.12.6 Salrio de executivos . . . . . . . . . . . . . . . . . . . 97
1.13 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
2 Modelos para Dados Positivos Assimtricos
114
2.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2
2.3
2.4
2.5
2.3.1
2.3.2
Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
2.4.1
2.4.2
2.4.3
Elasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
2.5.1
2.5.2
Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 144
2.6
2.7
2.8
2.9
2.7.1
2.7.2
Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
2.8.1
2.8.2
. . . . . . . . . . 150
SUMRIO
2.9.1
Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 163
2.9.2
2.9.3
Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 169
183
3.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
3.2
3.3
3.4
3.5
3.6
3.2.1
3.2.2
3.2.3
3.2.4
3.3.2
3.5.2
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . 204
3.6.2
3.6.3
3.6.4
3.6.5
3.6.6
3.6.7
3.6.8
3.6.9
Aplicaces . . . . . . . . . . . . . . . . . . . . . . . . . 220
viii
SUMRIO
3.6.10 Modelos de dose-resposta . . . . . . . . . . . . . . . . . 235
3.6.11 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 237
3.6.12 Estimao da dose letal
. . . . . . . . . . . . . . . . . 244
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
4.1.1
4.1.2
4.2
4.3
4.4
281
4.2.2
4.2.3
4.2.4
4.2.5
4.2.6
Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 299
4.3.2
4.3.3
4.3.4
4.3.5
4.3.6
Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 312
4.3.7
SUMRIO
4.4.2
4.5
4.6
Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 330
4.5.2
4.5.3
4.5.4
. . . . . . 340
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
5 Modelos de Quase-Verossimilhana
350
5.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
5.2
Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 354
5.2.2
5.2.3
5.2.4
5.2.5
Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . 358
5.2.6
Influncia . . . . . . . . . . . . . . . . . . . . . . . . . 358
5.2.7
5.2.8
Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 359
5.3
5.4
5.5
5.4.1
Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 375
5.4.2
5.4.3
5.4.4
Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
5.5.1
5.5.2
5.5.3
SUMRIO
5.6
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
xi
Captulo
1.1 Introduo
Durante muitos anos os modelos normais lineares foram utilizados na tentativa de descrever a maioria dos fenmenos aleatrios. Mesmo quando o
fenmeno sob estudo no apresentava uma resposta para a qual fosse razovel a suposio de normalidade, algum tipo de transformao era sugerida
a fim de alcanar a normalidade procurada. Provavelmente a transformao
mais conhecida foi proposta por Box e Cox (1964), a qual transforma o valor
observado y (positivo) em
z=
y 1
se 6= 0
logy se = 0,
1.1 Introduo
raramente ocorre para um nico valor de (Box e Draper, 1987).
Com o desenvolvimento computacional ocorrido na dcada de 70, alguns modelos que exigiam a utilizao de processos iterativos para a estimao dos parmetros comearam a ser mais aplicados, como por exemplo
o modelo normal no linear. Todavia, a proposta mais interessante e podemos dizer inovadora no assunto foi apresentada por Nelder e Wedderburn
(1972), que propuseram os modelos lineares generalizados (MLGs). A ideia
bsica consiste em abrir o leque de opes para a distribuio da varivel
resposta, permitindo que a mesma pertena famlia exponencial de distribuies, bem como dar maior flexibilidade para a relao funcional entre a
mdia da varivel resposta e o preditor linear . Assim, por exemplo, para
1.1 Introduo
com), R (http://www.r-project.org), SAS(http://www.sas.com), STATA
(http://www.stata.com), MATLAB (http://www.mathworks.com) e SUDAAN
(http://www.rti.org/sudaan) apresentam rotinas para o ajuste dos MLGs.
Os modelos de quase-verossimilhana, que estendem a ideia dos MLGs
para situaes mais gerais incluindo dados correlacionados, foram propostos por Wedderburn (1974). Os modelos de disperso (Jrgensen, 1983)
ampliam o leque de opes para a distribuio da varivel resposta. Liang
e Zeger (1986) estendem os modelos de quase-verossimilhana propondo as
equaes de estimao generalizadas (EEGs) que permitem o estudo de variveis aleatrias correlacionadas no gaussianas. Os modelos no lineares de
famlia exponencial (Cordeiro e Paula, 1989 e Wei, 1998) admitem preditor
no linear nos parmetros. Temos ainda os modelos aditivos generalizados
(Hastie e Tibshirani, 1990) que supem preditor linear formado tambm por
funes semiparamtricas e os modelos lineares generalizados mistos (Breslow e Clayton, 1993 e McCulloch e Searle, 2001) que admitem a incluso de
efeitos aleatrios gaussianos no preditor linear. Recentemente, Lee e Nelder
(1996, 2001) estenderam o trabalho de Breslow e Clayton propondo modelos
lineares generalizados hierrquicos em que o preditor linear pode ser formado
por efeitos fixos e efeitos aleatrios no gaussianos. Muitos desses resultados so discutidos no livro de Lee, Nelder e Pawitan (2006). Extenses de
MLGs para sries temporais, anlise de dados de sobrevivncia, modelos de
espao de estado e outros modelos multivariados so descritas, por exemplo,
em Fahrmeir e Tutz (2001). Referncias de texto no assunto so os livros de
McCullagh e Nelder (1989) e Cordeiro (1986).
Neste captulo introduzimos os modelos lineares genralizados e apresentamos vrios resultados relacionados com estimao, teste de hipteses,
mtodos de diagnstico e seleo de modelos na classe dos MLGs.
1.2 Definio
1.2 Definio
Sejam Y1 , . . . , Yn variveis aleatrias independentes, cada uma com funo
densidade ou funo de probabilidades na forma dada abaixo
f (yi ; i , ) = exp[{yi i b(i )} + c(yi , )].
(1.1)
(preciso). A funo de varincia desempenha um papel importante na famlia exponencial, uma vez que a mesma caracteriza a distribuio. Isto , dada
a funo de varincia, tem-se uma classe de distribuies correspondentes, e
vice-versa. Para ilustrar, a funo de varincia definida por V () = (1 ),
0 < < 1, caracteriza a classe de distribuies binomiais com probabili-
quando .
(1.2)
1.2 Definio
em que i = xTi o preditor linear, = (1 , . . . , p )T , p < n, um
vetor de parmetros desconhecidos a serem estimados, xi = (xi1 , . . . , xip )T
representa os valores de variveis explicativas e g() uma funo montona
e diferencivel, denominada funo de ligao. Apresentamos a seguir as
distribuies mais conhecidas pertencentes famlia exponencial.
2
2
2
em que < , y < e 2 > 0. Logo, para = , b() = 2 /2, = 2 e
2
Poisson
No caso de Y P(), a funo de probabilidades fica dada por
e y /y! = exp{ylog logy!},
em que > 0 e y = 0, 1, . . .. Fazendo log = , b() = e , = 1 e
c(y, ) = logy! obtemos (1.1). Segue portanto que V () = .
Binomial
Seja Y a proporo de sucessos em n ensaios independentes, cada um com
probabilidade de ocorrncia . Assumimos que nY B(n, ). A funo de
5
1.2 Definio
probabilidades de Y fica ento expressa na forma
n
n
ny
nny
(1)
= exp log
+ ny log
+ nlog(1 ) ,
ny
1
ny
em que 0 < , y < 1. Obtemos (1.1) fazendo = n, = log{/(1 )},
b() = log(1 + e ) e c(y , ) = log y . A funo de varincia aqui fica dada
por V () = (1 ).
Gama
Seja Y uma varivel aleatria com distribuio gama de mdia e coeficiente
de variao 1/2 , denotamos Y G(, ). A funo densidade de Y dada
por
1
y
y
d(logy) = exp[{(y/) log} log() +
exp
()
log(y) logy],
em que y > 0, > 0, > 0 e () =
R
0
Para 0 < < 1 a densidade da gama tem uma pole na origem e decresce
monotonicamente quando y . A exponencial um caso especial quando
Normal inversa
Seja Y uma varivel aleatria com distribuio normal inversa de mdia e
parmetro de preciso , denotada por Y NI(, ) e cuja funo densidade
dada por
(y )2
1
y
1
1/2
3
p
exp
= exp 2 +
log(2y /) +
,
22 y
2
2
y
2y 3
1
log{/(2y 3 )} 2y
2
V ()
Normal
2 /2
2
1
Poisson
e
log
1
Binomial
log(1 + e ) log{/(1 )}
n
(1 )
2
Gama
log()
1/
1/(CV
)
2
N.Inversa
2
1/22
n
X
i=1
{yi i b(i )} +
n
X
c(yi , ).
i=1
n
X
{yi
p
X
j=1
i=1
Definindo a estatstica Sj =
L() =
p
X
j=1
xij j b(
Pn
i=1
p
X
xij j )} +
j=1
n
X
c(yi , ).
i=1
p
n
n
X
X
X
sj j
xij j ) +
b(
c(yi , ).
j=1
i=1
i=1
Normal
Ligao
Binomial
n
o
log 1 =
Poisson
Gama
N. Inversa
log =
1 =
2 =
por
1.0
F (y) = 1 exp{exp(y)}.
0.0
0.2
0.4
F(y)
0.6
0.8
Logistica
V.Extremo
-3
-2
-1
exp(y)
,
{1 + exp(y)}2
ey
.
(1 + ey )
O modelo logstico binomial obtido substituindo F (y) por e y por na
F (y) =
Ligao de Box-Cox
Uma classe importante de ligaes, pelo menos para observaes positivas,
a classe de ligaes de Box-Cox definida por
= ( 1)/,
para 6= 0 e = log para 0. A ideia agora aplicarmos a transfor-
30
10
20
= 0, 5
= 0, 6
= 0, 8
10
Ligao de Aranda-Ordaz
Uma outra transformao importante foi proposta por Aranda-Ordaz (1981)
para dados binrios. A transformao dada por
(1 ) 1
= log
,
1.0
0.0
0.2
0.4
0.6
0.8
= 0, 5
= 1, 0
= 2, 0
-3
-2
-1
Com o comando
summary(fit.poisson)
podemos obter um resumo dos resultados do ajuste.
12
n
X
L(i ; yi ),
i=1
n
X
L(yi ; yi ).
i=1
g 1 (
i ), em que i = xT .
i
n
X
=2
D(y; )
{yi (i i ) + (b(i ) b(i ))}.
i=1
13
escalonado.
Normal
Aqui i = i , logo i = yi e i =
i . O desvio fica portanto dado por
n
n
X
X
2
2
=2
D(y; )
{yi (yi
i ) +
i /2 yi /2} =
(yi
i )2 ,
i=1
i=1
Poisson
Nesse caso temos i = logi , o que implica em i = logyi para yi > 0 e
i = log
i . Assim,
n
X
=2
D(y; )
{yi log(yi /
i ) (yi
i )}.
i=1
vale 2
Se yi = 0 o i-simo termo de D(y; )
i . Resumindo, temos o seguinte
resultado para o modelo de Poisson:
2{yi log(yi /
i ) (yi
i )} se yi > 0;
2
d (yi ;
i ) =
2
i
se yi = 0.
Binomial
No caso binomial em que assumimos Yi B(ni , i ), i = 1, . . . , k, obtemos
i = log{yi /(ni yi )} e i = log{
i /(1
i )} para 0 < yi < ni . Logo, o
desvio assume a seguinte forma:
=2
D(y; )
k
X
i=1
i ) ou 2ni log
i , respectivamente. Portanto, os componentes do desvio no
2ni log
i
se yi = ni .
Gama
n
X
i=1
{log(yi /
i ) + (yi
i )/
i }.
Se algum componente de yi igual a zero o desvio fica indeterminado. Mc nesse caso por
Cullagh e Nelder (1989) sugerem substituir D(y; )
= 2C(y) + 2
D (y; )
n
X
i=1
log
i + 2
n
X
yi /
i ,
i=1
em que C(y) uma funo arbitrria, porm limitada. Podemos, por exemP
plo, usar C(y) = ni=1 yi /(1 + yi ).
Normal inversa
=
D(y; )
n
X
(yi
i )2 /(yi
2i ).
i=1
0 ) e D(y; ),
respectivamente, em
sob H0 e H1 sero denotadas por D(y;
0 a estimativa de mxima verossimilhana sob H0 . A estatstica da
que
16
RV = {D(y;
(1.3)
isto , a diferena entre dois desvios. Como conhecido, sob a hiptese nula,
RV 2q quando n . De forma similar, podemos definir a estatstica
0 ) D(y; )}/q
{D(y;
,
F=
D(y; )/(n
p)
(1.4)
em que s2 =
Pn
i=1 (yi
i=1
ASQ(C = 0) = (C)
= (ZT Z)1 ZT y e Z = (X, W). A estatstica F para testarmos H0
em que
fica ento dada por
F=
ASQ(C = 0)/k
,
D(y; )/(n
p q)
0 ) D(y; )}/k
{D(y;
F=
,
D(y; )/(n
p q)
e segue, sob H0 , uma distribuio Fk,(npq) . No caso de testarmos H0 : = 0
contra H1 : 6= 0, a matriz C tem dimenso q (p + q) com a i-sima linha
235,20
1,14
SEXO
+ IDADE
188,22
46,98
IDADE | SEXO
+ HL
162,55
25,67
+ FF
157,40
5,15
HL | SEXO +
IDADE
FF | SEXO +
IDADE + HL
d
d
di di di j
i
i
j
i=1
L()/j
n
X
i=1
r
n
X
i
=
(yi i )xij ,
Vi
i=1
em que i = (di /di )2 /Vi . Logo, podemos escrever a funo escore na forma
matricial
U () =
L()
= XT W1/2 V1/2 (y ),
V = diag{V1 , . . . , Vn }, y = (y1 , . . . , yn )T e = (1 , . . . , n )T .
vadas
2
L()/j
n
X
d 2 i
=
(yi i ) 2
di
i=1
n
X
di
di
2
xij xi
n
X di
di d2 i
+
(yi i )
x
x
ij i
di di2
di
i=1
i=1
di
di
E L()/j
2
n
X
di di
xij xi
=
di di
i=1
=
=
21
n
X
(di /di )2
i=1
n
X
i=1
Vi
i xij xi .
xij xi
2
xij xi ,
n
n
X
X
=
{yi i b(i )} +
c (yi , ),
U () =
i=1
i=1
n
X
i=1
1.5.3 Ortogonalidade
Temos que 2 L()/ =
Pn p
i Vi1 (yi i )xi . Portanto, verificamos
i=1
em que c (yi , ) = 1/2 yi2 /2. Da segue que c (yi , ) = 1/22 e portanto
P
K = ni=1 E{c (Yi , )} = n/22 .
Poisson
Binomial
No caso binomial, a funo de varincia definida por V () = (1 ),
V = diag{n1 1 (1 1 ), . . . , nk k (1 k )}.
Gama
Para o caso gama V () = 2 . Logo, = 2 (d/d)2 . Em particular, para
um modelo log-linear (log = ), obtemos d/d = , o que implica em
= 1. Assim, U = XT V1/2 (y ) e K = XT X, similarmente ao
n
n
X
X
yi
c (yi , ),
( + logi ) +
i
i=1
i=1
trigama.
Normal inversa
Nesse caso a funo de varincia dada por V () = 3 . Assim, =
3 (d/d)2 . Pode ser muito razovel aplicarmos aqui um modelo log-linear,
uma vez que as respostas so sempre positivas. No entanto, diferente dos modelos log-lineares com resposta de Poisson, os pesos aqui so inversamente
proporcionais s mdias, isto = 1 . Em particular para ligao cannica, = 3 , e portanto U = XT (y ) e K = XT VX. Temos ainda
24
n
n
X
X
1
yi
U =
c (yi , ),
( 2 )+
2i
i
i=1
i=1
1.6
1.6.1
cesso iterativo:
(m)
(m)
(m+1) = (m) + {K1
U ,
}
(1.5)
cia de (1.5) ocorre em geral num nmero finito de passos, independente dos
valores iniciais utilizados. usual iniciarmos (1.5) com (0) = g(y).
Apenas como ilustrao, para o caso logstico binomial, obtemos =
n(1) e varivel dependente modificada dada por z = +(yn)/n(1 ).
cesso iterativo (1.5) para a obteno da estimativa de mxima verossimi assume a forma fechada
lhana. Nesse caso,
= (XT X)1 XT y.
1.6.2
Estimao de
X
= 1 D(y; )
c (yi , )
{yi i b(i )},
2
i=1
n
.
D(y; )
2n{log ()}
26
= + (U )1 U .
Supondo que para n grande U
= K (para ligao cannica K = U ),
ento obtemos
= + K1
U ,
Np+1 (, K1 ). Como K = diag{K , K }
ou seja, para n grande
e
ento assintoticamente segue que Np (, K1 ) e N(0, K1 ) e
1.7
Teste de hipteses
RV = {D(y;
0 = g1 (
0 = X 0 . Em particular, para o caso normal linear,
em que
0 ),
P
P
obtemos RV = { ni=1 (yi
0i )2 ni=1 (yi
i )2 }/ 2 .
Teste de Wald
)
em que Var(
Para os MLGs, Var(
= K1 ().
Assim, a estatstica de
)
estimada em .
Wald fica reexpressa na forma
0 ]T (XT WX)[
0 ].
W = [
( 0 )2
.
)
Var(
Teste de escore
O teste de escore, tambm conhecido como teste de Rao, definido quando
= 0 por
U ()
( 0 ),
0 ()U
SR = U ( 0 )T Var
denota que a varincia assinttica de
est sendo estimada
0 ()
em que Var
sob H0 . Para os MLGs temos que
0 X)1 U ( 0 ),
SR = 1 U ( 0 )T (XT W
0 estimado sob H0 , embora tenha a forma do modelo em H1 . A
em que W
estatstica de escore pode ser muito conveniente em situaes em que a hiptese alternativa bem mais complicada do que a hiptese nula. Nesses casos,
somente seria necessrio estimarmos os parmetros sob H1 quando o modelo
em H0 fosse rejeitado. Novamente, ilustrando o caso normal linear, temos que
a estatstica de escore fica expressa na forma SR = (y X 0 )T X(XT X)1
coincidem com SR .
Teste F
A estatstica F, que foi definida em (1.4), assume a seguinte forma para o
caso de hipteses simples:
F=
0 ) D(y; )}/p
{D(y;
,
D(y; )/(n
p)
que para e sob H0 segue uma Fp,(np) . Esse resultado vale tambm
[; (
p
em que 2p (1) denota o percentil (1) de uma distribuio qui-quadrado
com p graus de liberdade. Como essa regio pode depender da parametrizao utilizada quando no linear (ver, por exemplo, Ratkowsky, 1983),
pode ser mais conveniente, nesses casos, construirmos a regio utilizando
uma das estatsticas invariantes. Em particular, se a estatstica da razo de
verossimilhanas for escolhida, a regio assinttica fica dada por
L()} 2 (1 )].
[; 2{L()
p
Se estamos interessados num subconjunto 1 q-dimensional, a regio assinttica de confiana utilizando as estatsticas de Wald e da razo de verossimilhanas ficam, respectivamente, dadas por
1
1 )T Var
1 )(
1 ) 1 2 (1 )]
[; (
(
q
e
L(,
2 ())} 2 (1 )],
[; 2{L()
q
() a estimativa de mxima verossimiem que aqui q-dimensional e
2
lhana de 2 dado (ver, por exemplo, Seber e Wild, 1989).
31
0 ) D(y; )},
RV = {D(y;
0 a estimativa de mxima verossimilhana do MLG com parte
em que
P
P
sistemtica = 10 + 2 , em que 10 = qj=1 xj j0 e 2 = pj=q+1 xj j . A
quantidade 10 desempenha o papel de um offset (parte conhecida no preditor linear), conforme a nomenclatura de modelos lineares generalizados.
Para ilustrarmos a utilizao do offset, vamos supor um modelo de Poisson
com ligao log-linear, resposta resp, covariveis cov1 e cov2 e offset dado
por logt0. Para ajustarmos o modelo e armazenarmos os resultados em
fit1.poisson devemos fazer
fit1.poisson = glm(resp cov1 + cov2 + offset(logt0),
family= poisson).
Esse tipo de recurso muito utilizado em estudos de seguimento em que cada
indivduo observado durante um tempo diferente (vide Exemplo 1.12.4).
d1 = deviance(fit1.ni)
d2 = deviance(fit2.ni)
F = (d1 - d2)/(d2/(n-3)).
Em particular, o offset desaparece para b = 0. O ajuste, nesse caso, fica
simplesmente dado por
fit1.ni = glm( resp cov3, family=inverse.gaussian).
Teste de Wald
Para testarmos H0 , a estatstica de Wald fica expressa na forma
1 0 ]T Var
1 )[
1 0 ],
1 (
W = [
1
1
1 sai do vetor
= (
T ,
T )T . Usando resultados conhecidos de
em que
1
2
1 dada por
lgebra linear, mostramos que a varincia assinttica de
1 ) = 1 [XT W1/2 M2 W1/2 X1 ]1 ,
Var(
1
em que X1 sai da partio X = (X1 , X2 ), sendo portanto nq, X2 n(pq),
M2 = In H2 e H2 = W1/2 X2 (XT2 WX2 )1 XT2 W1/2 a matriz de projeo
ortogonal de vetores do Rn no subespao gerado pelas colunas da matriz
Teste de escore
A funo escore pode ser expressa na forma U = 1/2 XT W1/2 rP , em que
rP = 1/2 V1/2 (y ) conhecido como resduo de Pearson. Observamos
33
2
01 = X1 01 e 2 = X2 2 .
01 + 2 , isto , sob H0 , em que
sistemtica =
1 ), chegaremos ao
Se trabalharmos um pouco mais a expresso para Var(
seguinte resultado:
1 ) = 1 (RT WR)1 ,
Var(
em que R = X1 X2 C e C = (XT2 WX2 )1 XT2 WX1 . Aqui C uma matriz
desconhecido
No caso de ser desconhecido e o interesse for testarmos H0 : 1 = 01 contra H1 : 1 6= 01 , as estatsticas RV , SR e W assumem formas diferentes
daquelas apresentadas para o caso de ser conhecido. Em particular, denotamos por 0 e as estimativas de mxima verossimilhana de sob H0 e
H1 , respectivamente. Para facilitarmos a notao da estatstica RV usamos
em que t() =
i=1 {yi i
log log(). A estatstica de Wald fica, por sua vez, dada por
1 0 ]T Var
1 )[
1 0]
1 (
W = [
1
1
1 0 ]T (R
1 0 ].
TW
R)[
= [
1
1
em que rP0
q
0 = (
0T , 0 )T a estimativa de mxima
1 (y
0) e
= 0 V
0
m1 2
,
(1 + 2 )
m
2 X 0
=
r
m j=1 P2j
!2
m
(
y1 y2 )2 ,
2V0
(1.6)
37
m
1
2 2
,
(
1 +
2)
(1.7)
2 2 1
2 2
1.7.4
m
y1 y2 2
(
y1 +
y2 )
Poisson
m
(
y
2
y 1
Binomial
2m
(y
y(2my) 1
Gama
m
(
y1
2
y2
y2 )2
m(
y1 y2 )2 2
(
y12 +
y22 )
Normal inversa
m
(
y1
2
y3
y2 )2
m(
y1 y2 )3 2
(
y13 +
y23 )
y2 )2
y2 ) 2
Vamos supor agora um MLG com parte sistemtica na forma linear simples
g(i ) = + xi , i = 1, . . . , n,
e as hipteses H0 : = 0 contra H1 : 6= 0 com conhecido. Nesse caso
P
P
P
Pn
2
obtemos Rj = (xj ni=1 i ni=1 i xi )/ ni=1 i e RT WR =
i=1 i Ri .
P
TW
0R
0 =
0j = xj x e R
Consequentemente, R
0 n (xi x)2 . Aqui,
0
tambm obtemos
= y.
38
i=1
(1.8)
em que V0 = V (
y ).
= 2
n
X
i2 ,
iR
(1.9)
i=1
RV = {D(y;
0 denota aqui a estimativa de mxima verossimilhana de sob
em que
H0 : C = 0. J, o teste de escore, assume a forma
c )T (XT W
c ),
0 X)1 U (
SR = 1 U (
c . Finalmente, o teste de Wald fica dado
0 aqui avaliado em
em que W
por
0]T [Var(C
1 [C
0]
W = [C
)]
1 T 1
T CT [C(XT WX)
=
C ] C.
zT
g 1 [zT
p
1 c {zT (XT WX)1 z}1/2 ] z IRp .
42
43
44
1
n
hii
1
c
(1.10)
hji yj ,
i6=j
Em particular, hii = 1 implica em yi = yi , todavia a recproca no necessariamente verdadeira. Logo, para valores altos de hii predomina na expresso
(1.10) a influncia de yi sobre o correspondente valor ajustado. Assim,
muito razovel utilizar hii como uma medida da influncia da i-sima observao sobre o prprio valor ajustado. Temos tambm que hii = yi /yi , ou
seja, hii corresponde variao em yi quando yi acrescido de um infinitsimo.
Supondo que todos os pontos exeram a mesma influncia sobre os
tr(H)
= np .
n
hii 2p
, que
n
47
1.9.3 Resduos
Dos resultados descritos na seo anterior segue que E(r) = (In H)E(Y) = 0
48
Pn
2
i=1 ri /(n
ri
, i = 1, . . . , n,
s(1 hii )1/2
p).
No entanto, como ri no independente de s2 , ti no segue uma distribuio t de Student como se poderamos esperar. Cook e Weisberg (1982)
mostram que t2i /(n p) segue uma distribuio beta com parmetros
1
2
hij /{(1 hii )(1 hjj )}1/2 , i < j. O problema da dependncia entre ri e s2
pode ser contornado substituindo s2 por s2(i) , o erro quadrtico mdio correspondente ao modelo sem a i-sima observao. O ndice (i) indica que a
i-sima observao foi excluda. Podemos mostrar que
(n p 1)s2(i)
ri2
(n p)s2
=
+ 2
,
2
2
(1 hii )
n
X
j=1
rj2
ri2
(1 hii )
(1.11)
ri
s(i) {1 hii }1/2
ti = ti
.
n p t2i
49
Coeficientes
coef()
r
Resduos
resid()
s
Desvio padro
summary()
sigma
amostral
s(i)
Desvio padro
lm.influence() sigma
sem observao i
(i)
Coeficiente sem
lm.influence() coef
observao i
summary()
(XT X)1 Covarincia de
cov.unscaled
2
sem s
Como ilustrao, vamos supor um ajuste com resultados no objeto
fit.model e que o interesse obtermos a estimativa do desvio padro da
varivel resposta Yi sem considerarmos a i-sima observao. Aplicamos
50
(1.12)
dada por
F= n
2 (1 hii )
o
.
ri2
2
(n p)s (1hii ) /(n p 1)
ri2 (n p 1)
= t2
i .
2
2
s (1 hii )(n p ti )
ponto aberrante.
51
1.9.5 Influncia
Vamos supor conhecido. Ento, o logaritmo da funo de verossimilhana
fica agora expresso na forma
L () =
n
X
j Lj (),
(1.13)
j=1
em que Lj () denota o logaritmo da funo de verossimilhana correspondente j-sima observao e j um tipo de perturbao, definida tal que
0 j 1. Quando j = 1, j, significa que no h perturbao no modelo
e quando j = 0 significa que a j sima observao foi excluda.
(1 )ri
(XT X)1 xi .
{1 (1 )hii }
(1.14)
ri
(XT X)1 xi ,
(1 hii )
(1.15)
que bastante conhecida da regresso normal linear (ver, por exemplo, Cook
e Weisberg, 1982).
A medida de influncia mais conhecida baseada na regio de confiana
de coeficiente (1 ) para o parmetro ,
)T (XT X)(
) ps2 Fp,(np) (1 ),
(
52
)T (XT X)(
)
(
,
ps2
(1.16)
de ,
segundo a
e mede quanto a perturbao = (1 , . . . , n )T afasta
mtrica M = XT X. Por exemplo, se D > Fp,(np) (1 ), significa que
Di =
= t2i
hii 1
.
(1 hii ) p
Portanto, Di ser grande quando o i-simo ponto for aberrante (ti grande)
e/ou quando hii for prximo de um. A distncia de Cook pode ser calculada
da seguinte maneira:
di = (ti 2)*h / (p*(1-h)).
A distncia Di poder no ser adequada quando ri for grande e hii for pequeno. Nesse caso, s2 pode ficar inflacionado e no ocorrendo nenhuma
compensao por parte de hii , Di pode ficar pequeno. Uma medida supostamente mais apropriada foi proposta por Belsley, Kuh e Welsch (1980), sendo
definida por
|ri |
DFFITSi =
s(i) (1 hii )1/2
53
hii
(1 hii )
1/2
|ti |
hii
(1 hii )
1/2
p
,
n
p
(n p)
1/2
(n p) hii
p (1 hii )
54
1/2
|ti |.
4
3
1
3
1
x
(a)
x
(b)
6
y
x
(c)
x
(d)
1.9.6 Ilustrao
As Figuras 1.4a-1.4d ilustram as diferenas entre pontos aberrantes, de alavanca e influentes. Na Figura 1.4a temos os pontos alinhados sem nenhum
tipo de perturbao. Na Figura 1.4b perturbamos o ponto #3 fazendo-o
aberrante. Note que a excluso do mesmo (reta pontilhada) altera apenas
55
56
57
Curvatura normal
Para formalizar o mtodo de influncia local vamos denotar por L() o logaritmo da funo de verossimilhana do modelo postulado e um vetor
r-dimensional. No caso de MLGs podemos ter = ( T , )T e r = p + 1
ou simplesmente = quando for conhecido. Seja um vetor q 1
58
portamento da funo LD() em torno de 0 . O procedimento procura selecionar uma direo unitria , k k= 1, e ento estudar o grfico de LD( 0 +a)
sugeridos (ver, por exemplo, Lesaffre e Verbeke, 1998; Zhou e Zhang, 2004).
P
Nesse caso devemos padronizar Ci = Ci / nj=1 Cj . Uma sugesto olharmos
em que C
= Pn Cj /n.
com mais ateno aqueles pontos tais que Ci > 2C,
Por outro
curvatura
j=1
T
T T
lado, se o interesse est num subvetor 1 de = ( 1 , 2 ) , ento a
1 B1 )|,
normal na direo fica dada por C ( 1 ) = 2|T T (L
60
0 L
B1 =
2 2
1 . Outras formas de
pode revelar os pontos com maior influncia local em
extrao de grficos so propostas por Poon e Poon (1999).
Ponderao de casos
Para ilustrar uma aplicao particular consideramos o modelo normal linear
com 2 conhecido e esquema de perturbao ponderao de casos, em que
n
1 X
i (yi xTi )2
L(|) = 2
2 i=1
2 T
| D(r)HD(r)|,
2
2
h r2 .
2 ii i
61
C () =
2 T
| {D(r)HD(r) + r(2) r(2)T /2n
2 }|.
vr
v r
p 1 1 ,..., pn n
Cmax
Cmax
T (In H)y
T r
=
.
T (In H)
T (In H)
63
E(Z(i) )
=
i 3/8
n + 1/4
E(|Z(i) |) =
.
2n + 9/8
64
66
)1 L
y }| ,
c = y
GL
= {D (L
T
y
= 2 L()/ T e L
y = 2 L()/yT . Teem que D = /, L
mos que
y = XT V1 N,
D = NX e L
pelo seu
em que N = diag{d1 /d1 , . . . , dn /dn }. Se substituirmos L
1 N.
c = NX(X
GL
WX)1 XT V
c ii =
xi ,
GL
i xTi (XT WX)
c = VX(X
L
VX)1 XT .
X Wz,
H
X W ,
ii da diagonal principal de H
para
que sugere a utilizao dos elementos h
detectarmos a presena de pontos de alavanca nesse modelo de regresso
normal linear ponderada. Essa extenso para MLGs foi proposta por Pre ii = GL
c ii , ou seja, para
gibon (1981). Podemos verificar facilmente que h
coincidem. No caso de ligao cannica essa igualc eH
grandes amostras GL
ii depende de
dade vale para qualquer tamanho amostral. Como em geral h
ii contra os
valores ajustados.
Moolgavkar, Lustbader e Venzon (1984) estendem a proposta de Pregibon para modelos no lineares e sugerem o uso dos elementos da diagonal
principal da matriz de projeo no plano tangente soluo de mxima ve para detectar pontos de alavanca. Hosmer e Lemeshow
rossimilhana ()
(1989) mostram, contudo, que o uso da diagonal principal da matriz de pro deve ser feito com algum cuidado em regresso logstica e que as
jeo H
interpretaes so diferentes daquelas do caso normal linear.
1.10.2 Resduos
A definio de um resduo studentizado para os MLGs pode ser feita analogamente regresso normal linear como veremos a seguir. Todavia, no necessariamente as propriedades continuam valendo. Assim, torna-se importante
a definio de outros tipos de resduo cujas propriedades sejam conhecidas
ou pelo menos estejam mais prximas das propriedades de ti .
Uma primeira proposta seria considerarmos o resduo ordinrio da soluo de mnimos quadrados da regresso linear ponderada de z contra X,
68
r = W
1 1 , temos aproximadamente Var[r ]
Se assumirmos que Var(z)
= W
=
Logo, podemos definir o resduo padronizado
1 (In H).
1/2 (yi
i )
tSi = q
,
ii )
Vi (1 h
1/2 {(yi ) (
i )}
,
V 1/2 (
i ) (
i )
Distribuio
Normal R
Binomial
Poisson
1/3
3 2/3
1/3
t
(1
t)
dt
()
2
0
Gama
31/3
N. Inversa
log
so definidos a partir dos componentes da funo desvio. A verso padronizada (ver McCullagh, 1987; Davison e Gigli, 1989) a seguinte:
1/2 d(yi ;
i )
d (yi ;
i )
= p
,
t Di = p
ii
ii
1h
1h
em que d(yi ;
i ) = 2{yi (i i ) + (b(i ) b(i ))}1/2 . O sinal de d(yi ;
i )
o mesmo de yi
i . Williams (1984) verificou atravs de simulaes que
aproximadamente N(0, 1), em que 3i e 4i so os coeficientes de assimetria e curtose de L(i )/i , respectivamente, e d (Yi ; i ) o i-simo com avaliado no parmetro verdadeiro. Podemos
ponente do desvio D (y; )
mostrar usando resultados de Cox e Snell (1968) que E{d (Yi ; i )} = 0 e
Var{d (Yi ; i )} = 1 hii , em que os termos negligenciados so de O(n1 ).
p
ii para d (yi ;
i ).
Esses resultados reforam o uso da padronizao 1 h
Um quarto resduo foi definido por Williams (1987) e pode ser inter-
ii .
trair nos casos em que 6= 1. Inicialmente, ilustramos como calcular h
Vamos supor um modelo com duas covariveis e dois fatores e que os resul-
71
1.10.3 Influncia
Supondo conhecido, o afastamento pela verossimilhana quando eliminamos a i-sima observao denotado por
L(
(i) )},
LDi = 2{L()
sendo portanto uma medida que verifica a influncia da retirada da i-sima
No sendo possvel obtermos uma forma analtica para
observao em .
LDi , usual utilizarmos a segunda aproximao por srie de Taylor em torno
Essa expanso leva ao seguinte resultado:
de .
T {L
()}(
LDi
).
= ( )
pelo correspondente valor esperado e por
(i) , ob ()
Substituindo L
temos
(i) )T (XT WX)(
(i) ).
LDi
= (
(1.17)
Assim, teremos uma boa aproximao para LDi quando L() for aproxima
damente quadrtica em torno de .
(i) ,
Como em geral no possvel obtermos uma forma fechada para
a aproximao de um passo tem sido utilizada (ver, por exemplo, Cook e
Weisberg, 1982), que consiste em tomarmos a primeira iterao do processo
()}
(i)
em que L(i) () o logaritmo da funo de verossimilhana sem a i-sima
por K()
obtemos
()
observao. Substituindo novamente L
p
1
r
i 1 T
P
i
=
(X WX)1 xi
(1.18)
(i)
(1 hii )
(1 hii )
p T 1/2
D(rP ),
X W
p
Em particular, o vetor max para avaliarmos a influncia local das observaes nas estimativas dos parmetros o autovetor correspondente ao
maior autovalor da seguinte matriz n n:
rP ).
B = D(rP )HD(
Para obtermos max , a maneira mais simples construirmos a matriz B e
extrairmos o seu autovetor correspondente ao maior autovalor. Os comandos
so os seguintes:
B = diag(rp)%*% H %*% diag(rp)
Cmax = eigen(B)$val[1]
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Por outro lado, se temos interesse em detectar observaes influentes na
estimativa de um coeficiente particular, associado por exemplo varivel
explicativa X1 , o vetor max fica dado por
Tmax =
v r
v r
p1 P1 , . . . , pn Pn
Cmax
Cmax
2)
VX
1.
XT2 VX
74
L(, )
= 1/2 ZT W1/2 rP ,
n .
lar a matriz W
a matriz estimada de pesos. Supondo, por exemplo, que temos um modelo
de Poisson com ligao cannica, os passos para construirmos o grfico so
os seguintes:
fit.poisson = glm( resp cov2 + A + B, family=poisson)
w = fit.poisson$weights
W = diag(w)
rp = resid(fit.poisson, type =pearson)
X = model.matrix(fit.poisson)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
v = sqrt(W)%*%cov1 - H%*%sqrt(W)%*%cov1
plot(v, rp, xlab=Residuo v, ylab=Residuo rp).
Mtodo forward
Iniciamos o mtodo pelo modelo = . Ajustamos ento para cada varivel
explicativa o modelo
= + j xj , (j = 1, . . . , q).
Testamos H0 : j = 0 contra H1 : j 6= 0. Seja P o menor nvel descritivo
Mtodo backward
Iniciamos o procedimento pelo modelo
= + 1 x1 + + q xq .
Testamos H0 : j = 0 contra H1 : j 6= 0 para j = 1, . . . , q. Seja P o maior
Mtodo stepwise
uma mistura dos dois procedimentos anteriores. Iniciamos o processo com
o modelo = . Aps duas variveis terem sido includas no modelo, verificamos se a primeira no sai do modelo. O processo continua at que
nenhuma varivel seja includa ou seja retirada do modelo. Geralmente adotamos 0, 15 PE , PS 0, 25. Uma sugesto seria usar PE = PS = 0, 20.
78
Mtodo de Akaike
O mtodo proposto por Akaike (1974) basicamente se diferencia dos procedimentos anteriores por ser um processo de minimizao que no envolve testes
estatsticos. A ideia bsica selecionarmos um modelo que seja parcimonioso,
ou em outras palavras, que esteja bem ajustado e tenha um nmero reduzido
de parmetros. Como o logaritmo da funo de verossimilhana L() cresce
com o aumento do nmero de parmetros do modelo, uma proposta razovel
seria encontrarmos o modelo com menor valor para a funo
+ p,
AIC = L()
em que p denota o nmero de parmetros. No caso do modelo normal linear
podemos mostrar que AIC fica expresso, quando 2 desconhecido, na forma
AIC = nlog{D(y;
)/n} + 2p,
=
em que D(y; )
Pn
i=1 (yi
i )2 .
1.12 Aplicaes
minimizada
+ 2p,
AIC = D (y; )
denota o desvio do modelo e p o nmero de parmeem que D (y; )
tros. Os mtodos stepwise e de Akaike esto disponveis no R. O mtodo
stepwise est disponvel apenas para modelos normais lineares. O comando
stepwise definido por stepwise(Xvar, resposta), em que Xvar denota
a matriz com os valores das variveis explicativas e resposta denota o vetor com as respostas. Para rodarmos o critrio de Akaike precisamos usar
antes o comando require(MASS). Uma maneira de aplicarmos o critrio de
Akaike partindo do maior modelo cujos resultados so guardados no objeto
fit.model. Da, ento, devemos usar o comando stepAIC(fit.model).
1.12 Aplicaes
1.12.1 Estudo entre renda e escolaridade
O conjunto de dados descrito na Tabela 1.6, extrado do censo do IBGE de
2000, apresenta para cada unidade da federao o nmero mdio de anos de
estudo e a renda mdia mensal (em reais) do chefe ou chefes do domiclio.
Esses dados esto tambm armazenados no arquivo censo.dat. Para lermos
os dados no R e coloc-los num arquivo com o mesmo nome externo, devemos
fazer
censo.dat = scan(censo.dat, what=list(uf= ,
escolar=0, renda=0)).
Propomos inicialmente um modelo normal linear simples em que Y
denote a renda e X a escolaridade. O modelo fica portanto dado por
yi = + xi + i , i = 1, . . . , 27,
80
1.12 Aplicaes
com a suposio de que i N(0, 2 ), sendo os erros mutuamente indepen-
0.20
DF
0.0
0.10
Medida h
1000
200
600
Renda
1400
0.30
1.12 Aplicaes
10
Escolaridade
(a)
20
25
Indice
(b)
-2
DF
Residuo Studentizado
DF
Distancia de Cook
15
10
15
20
25
400
Indice
(c)
600
800
1000
1200
Valor Ajustado
(d)
1.12 Aplicaes
fit1.censo = lm(renda escolar, data=censo.dat)
0.20
DF
0.0
0.10
Medida h
1000
200
600
Renda
1400
0.30
summary(fit1.censo).
400
600
Escolaridade
(a)
1000
1400
Valor Ajustado
(b)
0.0
2
1
0
-1
-2
-3
0.2
0.4
Componente do Desvio
MA
Distancia de Cook
800
10
15
20
25
400
Indice
(c)
600
800
1000
1400
Valor Ajustado
(d)
1.12 Aplicaes
por exemplo, com efeitos multiplicativos conforme dado abaixo
i = e+xi ei , i = 1, . . . , 27,
com a suposio de que i G(1, ), sendo os erros mutuamente indepen-
Tabela 1.7
Estimativas de algumas quantidades com todos os pontos e quando
as observaes mais discrepantes so excludas do modelo gama.
Estimativa Com todos
Excludo
Excludo
Excludos
os pontos
DF
MA
DF e MA
192(52)
188(52)
223(62)
223(63)
Na Figura 1.6 temos o ajuste do modelo gama aos dados bem como
alguns grficos de diagnstico que destacam DF como ponto de alavanca e
MA como ponto influente.
Na Tabela 1.7 temos uma anlise confirmatria e verificamos poucas
variaes nas estimativas dos parmetros com a eliminao dessas unidades
da federao. Finalmente, na Figura 1.7 temos os grficos normais de probabilidades para os modelos com efeitos aditivos (Figura 1.7a) e com efeitos
multiplicativos (Figura 1.7b) e notamos uma melhor acomodao e distribuio dos pontos dentro do envelope gerado no segundo caso. Pelo valor
84
1
0
-2
-1
Residuo Studentizado
2
0
-3
-2
Residuo Studentizado
1.12 Aplicaes
-2
-1
-2
Percentil da N(0,1)
(a)
-1
Percentil da N(0,1)
(b)
1.12 Aplicaes
tipo de tumor (1: maligno, 0: benigno); IDADE, idade em anos; SEXO (0:
masculino, 1: feminino); HL, intensidade da clula histicitos-linfcitos (1:
ausente, 2: discreta, 3: moderada, 4: intensa) e FF, intensidade da clula
fibrose-frouxa (1: ausente, 2: discreta, 3: moderada, 4: intensa). Para ler os
dados do arquivo canc3.dat e armazen-los num arquivo do R com o mesmo
nome, fazemos
canc3.dat = scan(canc3.dat, what=list(tipo=0, idade=0, sexo=0,
hl=0, ff=0)).
Devemos informar o sistema que as variveis SEXO, HL e FF so qualitativas,
isto , devemos transform-las em fatores. Os comandos so os seguintes:
attach(canc3.dat)
sexo = factor(sexo)
sexo = C(sexo,treatment)
hl = factor(hl)
hl = C(hl,treatment)
ff = factor(ff)
ff = C(ff,treatment).
O comando C(sexo,treatment), que optativo, cria uma varivel binria
que assume valor zero para o sexo masculino e valor um para o sexo feminino.
Analogamente, o comando C(hl,treatment) cria variveis binrias para os
nveis discreto, moderado e intenso do fator HL. O mesmo faz o comando
C(ff,treatment) para o fator FF. Essa maneira de transformarmos todo
fator de k nveis em k 1 variveis binrias, denominado casela de referncia,
86
1.12 Aplicaes
nas com os efeitos principais
Pr{Y = 1 | } = {1 + exp()}1 ,
em que = 1 + 2 IDADE + 3 SEXO +
P4
i=1
4i HLi +
P4
i=1
5i FFi , com
Tabela 1.8
Estimativas dos parmetros referentes ao modelo logstico ajustado aos dados
sobre processo infeccioso pulmonar.
Efeito
Estimativa
Efeito
Estimativa
Efeito Estimativa
Constante -1,850(1,060)
HL(2) -0,869(0,945)
FF(2) -0,687(0,502)
Sexo
0,784(0,469)
HL(3) -2,249(0,968)
FF(3) -1,025(0,525)
Idade
0,065(0,013)
HL(4) -3,295(1,466)
FF(4) 0,431(1,123)
As estimativas dos parmetros (erro padro aproximado) so apresen = 157, 40 (166 graus
tadas na Tabela 1.8. O desvio do modelo foi de D(y; )
de liberdade), indicando um ajuste adequado. Como podemos observar, h
indcios de que a chance de processso infecioso maligno seja maior para o
sexo feminino do que para o sexo masculino. Notamos tambm que a chance
de processo maligno aumenta significativamente com a idade e h indicaes
87
1.12 Aplicaes
de que tanto para a clula FF quanto para HL a chance de processo maligno
diminui medida que aumenta a intensidade da clula. Esse exemplo ser
reanalizado no Captulo 3.
yi = + tempoi + tempo2i + i ,
em que i N(0, 2 ). As estimativas dos parmetros so apresentadas na
Tabela 1.10. Pelos grficos de envelope (Figuras 1.8b e 1.8c) notamos indcios
de que a distribuio dos erros pode estar incorrretamente especificada. A
88
1.12 Aplicaes
maioria dos resduos assume valor negativo. Notamos a presena de um
ponto aberrante, observao #1. Uma outra tentativa seria aplicar resposta
a transformao raiz quadrada que conhecida no caso da Poisson como
estabilizadora da varincia alm de manter a aproximao normal (ver Seo
4.2.1). Logo, podemos pensar em adotar os seguintes modelos alternativos:
yi = + tempoi + i
yi = + tempoi + tempo2i + i ,
Tabela 1.10.
Tabela 1.10
Estimativas de algumas quantidades para os modelos com resposta
transformada ajustados aos dados sobre sobrevivncia
de bactrias.
Parmetro
Linear-Y Quadrtico-Y Linear- Y Quadrtico- Y
-12,48(1,53)
-29,20(4,11) -0,82(0,05)
-1,27(0,18)
1,29(0,31)
0,04(0,01)
R2
86,9%
95,5%
96,1%
97,8%
Notamos uma melhora na qualidade do ajuste, particularmente no segundo caso. Porm, ainda h indcios pelos grficos de envelope (Figuras
1.8d e 1.8e) de violao nas suposies para os modelos, alm da presena da
observao #1 como ponto aberrante. Decidimos, ento, propor um modelo
log-linear de Poisson em que assumimos
Yi P(i ) e logi = + tempoi .
As estimativas dos parmetros so apresentadas na Tabela 1.11.
89
1.12 Aplicaes
Tabela 1.11
Estimativas dos parmetros do modelo
de Poisson ajustado aos dados sobre
sobrevivncia de bactrias.
Parmetro Estimativa E/E.Padro
5,30
88,34
-0,23
-23,00
Desvio
8,42 (10 g.l.)
Pelo grfico de envelope (Figura 1.8f) no h evidncias de que o modelo esteja mal ajustado. Notamos tambm que a observao #1 foi acomodada dentro do envelope gerado. Parece, portanto, que esse ltimo modelo
o que melhor se ajusta aos dados dentre os modelos propostos. O modelo
ajustado fica ento dado por
(x) = e5,300,23x ,
em que x denota o tempo de exposio. Logo, se diminuirmos de uma unidade
o tempo de exposio a variao no valor esperado fica dada por
(x 1)
= e0,23 = 1, 259.
(x)
Ou seja, o nmero esperado de sobreviventes aumenta aproximadamente
25,9%.
1.12 Aplicaes
-1
2
10
8
6
4
2
0
-2
Residuo Studentizado
6
4
2
0
-2
Residuo Studentizado
100
50
Sobreviventes
150
-1
Percentil da N(0,1)
Percentil da N(0,1)
(d)
-1
Percentil da N(0,1)
(e)
-3 -2 -1
(c)
Componente do Desvio
2
0
-2
Residuo Studentizado
6
4
2
0
Residuo Studentizado
-2
Percentil da N(0,1)
(b)
Tempo
(a)
-1
12
-1
Percentil da N(0,1)
(f)
Figura 1.8: Diagrama de disperso e grficos normais de probabilidades referentes aos modelos ajustados aos dados sobre sobrevivncia de bactrias.
Paula et al., 1992). Os dados esto descritos no arquivo canc4.dat. Um
total de 204 animais teve o tumor inoculado num determinado momento da
srie. Para cada animal, alm do grupo de passagem, foram observadas as
variveis presena de MASSa tumoral, caquexia e o tempo de observao (em
dias). Esses dados so resumidos na Tabela 1.12. Para inserirmos os dados
diretamente no R e armazen-los no arquivo canc4a.dat, devemos fazer
canc4a.dat = scan(what=list(obs=0,rd=0))
1:
2:
1.12 Aplicaes
fnames = list(gp=c(P0-P6, P7-P18, P19-P28),
mt=c(sim, nao)).
Para informarmos o sistema a ordem em que os dados foram lidos, podemos
usar o comando fac.design. Em seguida, fazemos o emparelhamento
rato.design = fac.design(c(3,2), fnames, rep=1)
attach(canc4a.dat)
rato.df = data.frame(obs,rd,rato.design).
As informaes completas sobre os dados esto armazenadas no arquivo
rato.df. Para uma verificao basta bater
rato.df.
Podemos agora (opcionalmente) criar uma matriz modelo no padro dos
MLGs
attach(rato.df)
gp = C(gp,treatment)
mt = C(mt,treatment).
Vamos supor que Oij , o nmero de ratos caquticos no nvel i de massa
tumoral e grupo de passagem j, segue uma distribuio de Poisson de mdia
ij tij , i = 1, 2 e j = 1, 2, 3. Temos que ij denota a taxa de caquexia (nmero
mdio de mortes por unidade de tempo) e tij o total de ratos-dias no nvel
(i, j). Consideramos inicialmente o modelo de Poisson com parte sistemtica
logij = + i + j ,
em que 1 = 0 e 1 = 0, que equivale suposio de tempos exponenciais
como ser visto na Seo 4.2.2. Com essa notao, ser o efeito correspondente classe P0 P6 com desenvolvimento de massa, 2 a diferena entre
1.12 Aplicaes
expressamos os valores esperados de mortes para tij na forma de um modelo
log-linear, teremos um offset dado por logtij . Ou seja, o modelo que iremos
ajustar no R tem parte sistemtica dada por logij = logtij + + i + j .
Logo, precisamos definir o offset no ajuste.
Tabela 1.12
Nmero de ratos caquticos (O) e ratos dias de
observao (R-D) segundo o grupo de passagem
e o desenvolvimento de massa tumoral.
Massa
Grupo de passagem
tumoral
P0-P6
P7-P18
P19-P28
Sim
O
6
13
8
R-D
2597
3105
2786
No
O
R-D
12
1613
3
411
1
232
Os passos so os seguintes:
logt0 = log(rd)
canc4a.fit = glm( obs gp + mt + offset(logt0),
family=poisson)
summary(canc4a.fit).
As estimativas dos parmetros (erro padro aproximado) so dadas
por
= 5, 875 (0, 312), 2 = 0, 334 (0, 365), 3 = 0, 040 (0, 434) e
= 0, 84 com
2 = 0, 860 (0, 343). O desvio do modelo dado por D(y; )
2 graus de liberdade. Pelas estimativas acima notamos que o fator grupo
de passagem no significativo. O ajuste do modelo sem esse efeito levou
s estimativas
= 5, 750 (0, 192) e 2 = 0, 802 (0, 315) com um desvio de
= 1, 99 (4 graus de liberdade). Logo, o teste da razo de verossimiD(y; )
1.12 Aplicaes
adotado inclui somente o efeito massa tumoral. Temos que 2 significativamente diferente de zero. A estimativa 2 = 0, 802 indica que os ratos que
desenvolvem massa tumoral (tumor maligno) sobrevivem mais do que os ratos que no desenvolvem o tumor! Esse resultado pode parecer em princpio
contraditrio, todavia devemos lembrar que todos os ratos tiveram tumor
inoculado mas nem todos desenvolveram massa tumoral. Assim, pode ser
razovel pensarmos que aqueles ratos que no desenvolveram massa tumoral
na verdade teriam resistido muito para que a mesma no se desenvolvesse,
levando os mesmos a algum tipo de esgotamento e consequentemente a um
tempo mdio de vida menor do que o tempo mdio dos ratos em que o tumor
se desenvolveu.
Uma maneira alternativa de avaliarmos a suposio de distribuio de
Poisson para Oij com mdia ij tij atravs da incluso do termo logtij como
covarivel, em vez de offset. Isto , supormos a parte sistemtica
logij = + logtij + i + j
. Assim, podemos testar H0 : = 1 contra H1 : 6= 1. A no rejeio
rejeitarmos H0 .
1.12 Aplicaes
O interesse nesse estudo tentar explicar o consumo de combustvel pelas
variveis taxa, licena, renda e estradas. O modelo proposto o seguinte:
yi = + 1 taxai + 2 licencai + 3 rendai + 4 estradasi + i ,
em que yi denota o consumo anual de combustvel (por habitante) no isimo estado, enquanto i so variveis aleatrias independentes normalmente
distribudas de mdia zero e varincia 2 . Ajustamos o modelo acima no R
e mandamos os resultados para o objeto fit1.reg2. Da ento aplicamos
o mtodo de Akaike para selecionarmos o submodelo com menor AIC. Para
tal, aplicamos os comandos
require(MASS)
stepAIC(fit1.reg1).
A varivel estradas foi eliminada. Os resultados do modelo selecionado so
apresentados na Tabela 1.13.
Tabela 1.13
Estimativas dos parmetros referentes
ao modelo normal linear ajustado aos
dados sobre consumo de combustvel.
Efeito
Estimativa E/E.Padro
Constante
307,33
1,96
Taxa
-29,48
-2,78
Licena
1374,77
7,48
Renda
-0,07
-4,00
s2
65,94
R2
0,675
1.12 Aplicaes
WY
0.20
NY
CT
Distancia de Cook
0.15
0.10
0.0
0.05
Alavanca
NV
0.1
SD
0.2
0.3
TX
10
20
30
40
10
Indice
(a)
20
30
40
Indice
(b)
2
0
-4
-2
Residuo Studentizado
2
0
-2
-4
Residuo Studentizado
WY
WY
10
20
30
40
400
Indice
(c)
500
600
700
Valor Ajustado
(d)
Figura 1.9: Grficos de diagnstico referentes ao modelo normal linear ajustado aos dados sobre consumo de combustvel.
aumento de 1% na porcentagem de motoristas licenciados o consumo mdio
de combustvel aumenta 13,75 unidades, e para cada aumento de 1% no
imposto do combustvel o consumo mdio diminui 29,48 unidades.
Na Figura 1.9 temos alguns grficos de diagnstico e como podemos
notar h um forte destaque para o estado de WY, que aparece como influente
(Figura 1.9b) e aberrante (Figura 1.9c). Outros estados, tais como CT, NY,
SD, TX e NV (Figura 1.9a) aparecem como remotos no subespao gerado pelas
colunas da matrix X, embora no sejam confirmados como influentes. No
96
1.12 Aplicaes
h indcios pela Figura 1.9d de heteroscedasticidade.
Pelo grfico de envelope (Figura 1.10a) no h indcios fortes de afastamentos da suposio de normalidade para os erros, apesar da influncia no
grfico do estado de WY. O grfico de envelope sem esse estado (Figura 1.10b)
confirma esse suposio.
Analisando os dados referentes ao estado de WY notamos que o mesmo
tem uma taxa de 7% (abaixo da mdia de 7,67%), uma renda percapita anual
de USD 4345 (ligeiramente acima da mdia de USD 4241,83), uma proporo
de motoristas licenciados de 0,672 (acima da mdia de 0,570), porm um
consumo mdio de combustvel muito alto 968 (quando a mdia nacional
era de 576,77). Talvez as longas distncias do estado tenham obrigado os
motoristas a um consumo alto de combustvel. A eliminao desse estado
muda substacialmente algumas estimativas, embora no mude a inferncia. A
estimativa da varivel licena cai 13,2%, a estimativa do intercepto aumenta
27,8%, o s2 cai 17,1% e o R2 aumenta 4,1%. As demais estimativas no
sofrem grandes variaes. A incluso de alguma varivel que leve em conta a
densidade demogrfica de cada estado, conforme sugerido por Gray (1989),
poderia explicar melhor o estado de WY pelo modelo proposto.
97
1
0
-3
-2
-2
-1
Residuo Studentizado
2
0
Residuo Studentizado
1.12 Aplicaes
-2
-1
-2
Percentil da N(0,1)
(a)
-1
Percentil da N(0,1)
(b)
Diferena
Estimativa
3,64
E.Padro
1,77
Teste-t valor-P
2,06
0,04
Pela Figura 1.11 notamos indcios de aumento do salrio com o aumento da posio e com o aumento da experincia para ambos os sexos,
sugerindo inicialmente um modelo linear do tipo
yi = + 1 sexoi + 2 experi + 3 posici + i ,
98
160
120
140
Salario Mulheres
150
130
110
Salario Homens
170
1.12 Aplicaes
10
15
20
25
15
20
Experiencia Mulheres
160
120
140
Salario Mulheres
150
130
110
Salario Homens
170
Experiencia Homens
10
Posicao Homens
Posicao Mulheres
1.12 Aplicaes
interesse e tambm interpretveis. Por exemplo, presena de interao entre
os fatores sexo e experincia significa que a diferena entre os salrios mdios
de executivos e executivas no a mesma medida que varia o tempo de
experincia.
Tabela 1.14
Estimativas dos parmetros referentes
ao modelo normal linear ajustado aos
dados sobre salrio de executivos.
Efeito
Estimativa E/E.Padro
Constante
115,262
82,25
Experincia
-0,472
-4,17
Sexo
-2,201
-2,04
Posio
6,710
21,46
2
R
0,71
s
6,77
Tabela 1.15
Testes F para avaliar a incluso
de cada interao de 1a. ordem no
modelo normal linear ajustado aos
dados sobre salrio de executivos.
Interao
F-valor valor-P
Sexo*Exper
1,615
0,20
Sexo*Posico
0,001
0,97
Exper*Posio
7,594
0,00
Na Tabela 1.15 so apresentados os valores da estatstica F bem como o
valor-P correspondente para testar a ausncia das interaes sexo*experincia,
sexo*posio e experincia*posio, respectivamente, dado que esto no modelo constante + sexo + experincia + posio. Portanto, ser includa no
modelo apenas a interao experincia*posio. As estimativas do modelo
final com a interao experincia*posio so apresentadas na Tabela 1.16.
100
50
100
150
0.04
144
0.02
0.06
30
30
4
0.0
178 213
Distancia de Cook
191
139
0.02
Medida h
0.10
1.12 Aplicaes
200
50
100
50
100
150
200
4
2
0
-2
Residuo Padronizado
4
2
0
0
200
Indice
(b)
-2
Residuo Padronizado
Indice
(a)
150
120
Indice
(c)
130
140
150
160
Valor Ajustado
(d)
Figura 1.12: Grficos de diagnstico referentes ao modelo normal linear ajustado aos dados sobre salrio de executivos.
Na Figura 1.12 so apresentados grficos de diagnstico. Algumas
observaes aparecem como pontos de alavanca (Figura 1.12a), trs observaes so destacadas como possivelmente influentes (Figura 1.12b) e no h
indcios de pontos aberrantes e heteroscedasticidade (Figuras 1.12c e 1.12d).
Retirando as observaes mais influentes, #4 e #30, notamos variaes desproporcionais em algumas estimativas, embora no ocorram mudanas inferencias. Esses pontos causam variaes, respectivamente, de -14% e 11% na
estimativa do coeficiente de sexo. A observao #4 uma executiva com
salrio anual de USD 139 mil, posio 7 e 13,9 anos de experincia (salrio
relativamente baixo para essa posio e experincia) e a observao #30
101
1.12 Aplicaes
de um executivo com salrio anual de USD 110 mil, posio 2 e 2,4 anos de
experincia (menor salrio entre os executivos).
0
-2
-4
Residuo Studentizado
Tabela 1.16
Estimativas dos parmetros referentes
ao modelo normal linear final ajustado
aos dados sobre salrio de executivos.
Efeito
Estimativa E/E.Padro
Constante
108,042
36,48
Experincia
0,336
1,07
Sexo
-2,811
-2,58
Posio
8,096
13,73
Exper*Posio
-0,135
-2,75
R2
0,72
s
6,67
-3
-2
-1
Percentil da N(0,1)
102
1.12 Aplicaes
O modelo final ajustado portanto dado por
y = 108, 042 + 0, 336 exper 2, 811 sexo
+8, 096 posic 0, 135 posic exper.
Por exemplo, desse modelo, qual o salrio previsto para executivos com
5 anos de experincia e posio 4?
Executiva: USD 139,406 mil
Executivo: USD 136,595 mil.
O modelo ajustado para o grupo de mulheres dado por
y = 108, 042 + 8, 096 posic + (0, 336 0, 135 posic) exper.
Examinando a equao acima notamos que as executivas com posio alta
e muita experincia tendem a ganhar menos do que executivas com posio
alta e menos experincia. Isso quer dizer que aquelas executivas que permaneceram menos tempo no cargo tendem a ganhar mais do que aquelas que
ficarem mais tempo no cargo. Mesmo resultado para os homens.
Notamos neste exemplo a importncia da interao na interpretao
dos resultados. Ignorando as variveis posio e experincia temos que o
salrio mdio dos executivos significativamente maior do que o salrio mdio
das executivas. Porm, quando essas variveis entram no modelo ocorre
o contrrio, para uma mesma posio e mesma experincia as executivas
ganham em mdia mais. Pela Figura 1.13 notamos que no h indcios de
afastamentos da suposio de normalidade para os erros.
103
1.13 Exerccios
1.13 Exerccios
1. Se Y pertence famlia exponencial de distribuies, ento a funo
densidade ou funo de probabilidades de Y pode ser expressa na forma
f (y; , ) = exp[{y b()} + c(y; )],
em que b() e c(; ) so funes diferenciveis. Supondo conhecido
seja L() = logf (y; , ) o logaritmo da funo de verossimilhana. Se
L() pelo menos duas vezes diferencivel em mostre que
(
2
2 )
L()
L()
L()
E
=0 e E
= E
.
2. Supondo agora desconhecido mostre que E(U ) = 0 para as distribuies normal, normal inversa e gama.
3. Considere a distribuio estvel cuja densidade dada por
f (y; , ) = a(y, )exp[{(y + 1) log}],
em que > 0, < y < , 1 > 0 o parmetro de disper-
pertence famlia exponencial. Encontre a funo de varincia. Obtenha a funo desvio supondo uma amostra de n variveis aleatrias
independentes de mdias i e parmetro de disperso 1 .
4. Considere a seguinte funo densidade de probabilidade:
f (y; , ) =
a(y, )
exp[{y + (1 2 )1/2 }],
(1 + y 2 )1/2
1.13 Exerccios
pertence famlia exponencial. Encontre a funo de varincia. Obtenha a funo desvio supondo uma amostra de n variveis aleatrias
independentes de mdias i e parmetro de disperso 1 .
5. Mostre que a distribuio logartmica, com funo de probabilidades
f (y; ) = y /{ylog(1 )},
em que y = 1, 2, . . . e 0 < < 1, pertence famlia exponencial.
Calcule e V (). Obtenha a funo desvio supondo uma amostra de
n variveis aleatrias independentes de parmetros i .
6. (Paula e Cordeiro, 1986). Suponha o MLG em que Yi FE(i , ) e
parte sistemtica dada por g(i ; ) = i = xTi , com escalar desconhecido. Encontre as funes escore U e U , as funes de informao de Fisher K , K e K e descreva o processo iterativo
escore de Fisher para obter a estimativa de mxima verossimilhana de
= ( T , )T . Como iniciar o processo iterativo? Sugesto de notao:
= /, em que = (1 , . . . , n )T .
7. Supor o modelo normal linear com parte sistemtica dada por i =
1 (x1i x1 ) + 2 (x2i x2 ). Sabe-se que a correlao amostral entre x1
P
e x2 dada por corr(x1 , x2 ) = ni=1 (x1i x1 )(x2i x2 )/(n 1)s1 s2 ,
1.13 Exerccios
9. Considere o modelo normal linear
yi = xTi + i , i = 1, . . . , n,
em que i so erros mutuamente independentes tais que i N(0, 2 ).
em que y(i) =
(i)
xTi
n
X
i=1
ri
1 hii
2
1.13 Exerccios
12. Suponha duas populaes normais com mdias 1 e 2 , mesma varincia, e que amostras independentes de tamanhos n1 e n2 foram, respectivamente, obtidas das duas populaes. Para o modelo com parte
sistemtica 1 = + e 2 = , mostre que a estatstica F para
F= P
(n 2) n1nn2 (
y1 y2 )2
,
(yi y)2 n1nn2 (
y1 y2 )2
m(
y2 y3 )2
.
2V0
1.13 Exerccios
15. Mostre (1.14) e (1.15). Use o seguinte resultado de lgebra linear:
(A + UVT )1 = A1
(A1 U)(VT A1 )
,
1 + VT A1 U
1 2 (1hii )
2
2
17. (Pregibon, 1982). Mostre que a estatstica de escore para testar que o isimo ponto aberrante num MLG com conhecido e parte sistemtica
g(i ) = xTi dada por t2Si , em que
(yi
i )
tSi = q
,
Vi (1 hii )
1
ii =
Qual a dis
sendo
i , Vi e h
i xTi (XT WX)
xi avaliados em .
18. Mostrar que a expresso para AIC no modelo normal linear com 2
desconhecido pode ser escrita na forma equivalente
1.13 Exerccios
=
em que D(y; )
Pn
i=1 (yi
i )2 .
1.13 Exerccios
veis esto colocadas na seguinte ordem: (i) telhados, total de telhados
vendidos (em mil metros quadrados), (ii) gastos, gastos pela loja com
promoes do produto (em mil USD), (iii) clientes, nmero de clientes cadastrados na loja (em milhares), (iv) marcas, nmero de marcas
concorrentes do produto e (v) potencial, potencial da loja (quanto
maior o valor maior o potencial). Um dos objetivos do estudo com
esse conjunto de dados tentar prever o nmero esperado de telhados
vendidos dadas as variveis explicativas. Faa inicialmente uma anlise descritiva construindo, por exemplo, os diagramas de disperso de
cada varivel explicativa contra a varivel resposta telhados. Calcule
tambm as correlaes entre as variveis. Use os mtodos stepwise e
AIC para selecionar um modelo de regresso normal linear. Se o modelo selecionado for diferente pelos dois mtodos, adote algum critrio
para escolher um dos modelos. Interprete os coeficientes estimados do
modelo selecionado. Faa uma anlise de diagnstico para verificar se
existem afastamentos srios das suposies feitas para o modelo e se
existem observaes discrepantes.
21. (Wood, 1973). No arquivo reg4.dat esto os dados referentes produo de gasolina numa determinada refinaria segundo trs variveis
observadas durante o processo e uma quarta varivel que uma combinao das trs primeiras. A resposta o nmero de octanas do produto
produzido. A octanagem a propriedade que determina o limite mximo que a gasolina, junto com o ar, pode ser comprimida na cmara
de combusto do veculo sem queimar antes de receber a centilha vinda
das velas. As melhores gasolinas tm uma octanagem alta. Em grandes refinarias, o aumento de um octana na produo de gasolina pode
representar um aumento de alguns milhes de dolares no custo final
110
1.13 Exerccios
da produo. Assim, torna-se importante o controle dessa varivel durante o processo de produo. Use o mtodo AIC para selecionar as
variveis explicativas significativas. Faa uma anlise de diagnstico
com o modelo selecionado. Comente.
22. (Narula e Stangenhaus, 1988, pgs. 31-33). No arquivo imoveis.dat
so apresentados dados relativos a uma amostra de 27 imveis. Na
ordem so apresentados os valores das seguintes variveis: (i) imposto
do imvel (em 100 USD), (ii) rea do terreno (em 1000 ps quadrados),
(iii) rea construda (em 1000 ps quadrados), (iv) idade da residncia
(em anos) e (v) preo de venda do imvel (em 1000 USD). Ajuste um
modelo normal linear do preo de venda contra as demais variveis. Use
o mtodo AIC para selecionar as variveis explicativas. Faa uma anlise de diagnstico com o modelo selecionado. Interprete os coeficientes
estimados.
23. (Ryan e Joiner, 1994, p. 299). No arquivo trees.dat apresentado
um conjunto de dados que tem sido analisado sob diversos pontos de
vista por vrios pesquisadores (ver, por exemplo, Jrgensen, 1989). As
variveis observadas so o dimetro (d), a altura (h) e o volume (v) de
uma amostra de 31 cerejeiras numa floresta do estado da Pensilvnia,
EUA. A relao entre dimetro, altura e volume de uma rvore depende
da forma da mesma e pode-se considerar duas possibilidades
1
v = d2 h
4
para forma cilndrica e
v=
1 2
d h
12
para forma cnica. Em ambos os casos a relao entre logv, logd e logh
111
1.13 Exerccios
dada por
logv = a + blogd + clogh.
Supor inicialmente um modelo linear em que N(0, 2 ). Faa uma
1.13 Exerccios
algum modelo alternativo (se for o caso) a fim de reduzir as eventuais
influncias de observaes discrepantes bem como afastamentos de suposies feitas para o modelo. Interprete as estimativas obtidas para
os coeficientes do modelo proposto.
rea
Preo
800
30,6
950
31,5
910
33,3
950
45,9
1200
47,4
1000
48,9
1180
51,6
1000
53,1
rea
Preo
1380
54,0
1250
54,3
1500
55,2
1200
55,2
1600
56,7
1650
57,9
1600
58,5
1680
59,7
rea
Preo
1500
60,9
1780
60,9
1790
62,4
1900
63,0
1760
64,5
1850
66,0
1800
66,3
1700
67,5
rea
Preo
1370
68,4
2000
68,4
2000
68,7
2100
69,6
2050
70,5
1990
74,7
2150
75,0
2050
75,3
rea
Preo
2200
79,8
2200
80,7
2180
80,7
2250
83,4
2400
84,0
2350
86,1
2500
87,0
2500
90,3
rea
Preo
2500
96,0
2500
101,4
2680
105,9
2210
111,3
2750
112,5
2500
114,0
2400
115,2
3100
117,0
rea
2100
Preo 129,0
4000
165,0
113
Captulo
2.1 Introduo
A classe de modelos para a anlise de dados positivos assimtricos bastante ampla incluindo distribuies conhecidas para os erros, tais como gama,
normal inversa, Weibull, Pareto, log-normal e Birnbaum-Saunders (ver, por
exemplo, Leiva, Barros e Paula, 2009). Essas distribuies tm sido particularmente aplicadas na anlise de tempos de sobrevivncia (ou durao) com
forte nfase nas reas mdica e de engenharia (ver, por exemplo, Lawless,
2003). Todavia, dados positivos assimtricos tm sido tambm comuns em
outras reas do conhecimento, como por exemplo pesca, meteorologia, finanas, seguros e aturia (ver, por exemplo, Boland, 2007; Jong e Heller, 2008).
Um componente importante no estudo de dados de sobrevivncia a possibilidade de incorporao nas anlises de observaes para as quais no foi
possvel observar a falha (dados censurados). Com os recentes avanos tecno114
R
0
t1 et dt a funo gama. Na
(r 1)!r
,
(r1)
2
Portanto, para grande temos que
1
E(logY )
= log 2 E(Y )2
2
1 2
= log 2
2
= log (2)1 e
Var(logY )
= 1 .
Ou seja, a transformao logY estabiliza a varincia medida que o coeficiente de variao de Y fica pequeno. Uma outra transformao dada por
3{(Y /)1/3 1} se aproxima da distribuio normal padro no caso gama
(vide McCullagh e Nelder, 1989, p. 289).
S(t) = P r{Y t} e
P r{t Y < t + |Y t}
.
h(t) = lim
0
116
=2
0.4
0.2
f(x)
0.6
=1
0.0
f(x)
2
0
f(x)
1
= 2
0.8
=8
=6
0.8
0.4
0.4
f(x)
f(x)
0.6
0.8
=4
0.4
0.0
0.0
0.0
0.2
f(x)
1.2
Figura 2.1: Densidades da distribuio gama para alguns valores do parmetro de disperso e supondo = 1.
Em particular, temos que a funo de risco pode ser expressa na forma
h(t) = f (t)/S(t) com f (y) denotando a funo densidade de Y . No caso
da distribuio gama de mdia e parmetro de disperso 1 a funo de
sobrevivncia expressa (ver, por exemplo, Collett, 2003, pgs. 197-198) na
forma
S(t) 1 It (),
em que It () a funo gama incompleta, dada por
1
It () =
()
u1 eu du,
0
que h(t) .
117
= (1 , . . . , n )T , y = (y1 , . . . , yn )T , = (1 , . . . , n )T , V = diag{1 , . . . , n }
interessante notarmos que sob ligao logartmica os pesos do pro ficam dados por i = 2i2 = 1, de modo
cesso iterativo para obteno de
identidade ( = ), raiz quadrada ( = ) e arcoseno (sen1 = ) produzem o mesmo efeito em MLGs com resposta normal, Poisson e binomial,
respectivamente.
Se aplicarmos para suficientemente grande a transformao logartmica na resposta e ajustarmos E(logYi ) = xTi , estaremos fazendo logi =
xTi +21 , ou seja, a menos da constante 21 estaremos obtendo as mesmas
estimativas para de um modelo com resposta gama e ligao logartmica.
n
X
i=1
{log(
i /yi ) + (yi
i )/
i },
(2.1)
=
contm um intercepto. Nesse caso, a funo desvio fica dada por D (y; )
Pn
i /yi ). Como desconhecido devemos estim-lo, por exemplo,
2 i=1 log(
atravs de mxima verossimilhana que equivale a resolvermos a seguinte
equao:
= D(y; ),
2n{log ()}
em que () = ()/() a funo digama (vide Seo 1.6.2), ou ento
P
utilizarmos a estimativa consistente 1 = (n p)1 n (yi
i )2 /
2 que
i=1
119
deve ser
Quando todas as observaes so positivas o desvio D (y; )
utilizado para avaliar a qualidade do ajuste e estimao de . Contudo, se
torna-se inapropriado.
pelo menos uma observao for igual a zero D (y; )
A estimativa para nesse caso fica indeterminada. Como foi mencionado na
por
Seo 1.4, McCullagh e Nelder (1989) sugerem substituir D (y; )
= 2{C(y) +
D (y; )
n
X
i=1
log
i +
n
X
i=1
yi /
i },
2
{log(
i /yi ) (yi
i )/
i }1/2 ,
t Di = p
1 hii
em que yi > 0 e hii o i-simo elemento da diagonal principal da matriz
H = W1/2 X(XT WX)1 XT W1/2 com i = (di /di )2 /2i . Em particular
quando h um intercepto em i o resduo componente do desvio tDi assume
a forma reduzida
t Di
2
{log(
i /yi )}1/2 .
= p
ii
1h
2.4 Aplicaes
Quando a i-sima observao excluda a distncia de Cook aproximada fica dada por
LDi =
ii (yi
h
i )2
.
ii )2
2i
(1 h
2.4 Aplicaes
2.4.1 Comparao de cinco tipos de turbina de avio
Apresentamos na Tabela 2.1 (ver Lawless 1982, p. 201) os resultados de um
experimento conduzido para avaliar o desempenho de cinco tipos de turbina
de alta velocidade para motores de avio. Foram considerados dez motores
de cada tipo nas anlises e foi observado para cada um o tempo (em unidades
de milhes de ciclos) at a perda da velocidade. Esses dados esto disponveis
no arquivo turbina.dat.
Tabela 2.1
Tempo at a perda da velocidade de cinco
tipos de turbina de avio.
Tipo de turbina
Tipo I Tipo II Tipo III Tipo IV Tipo V
3,03
3,19
3,46
5,88
6,43
5,53
4,26
5,22
6,74
9,97
5,60
4,47
5,69
6,90
10,39
9,30
4,53
6,54
6,98
13,55
9,92
4,67
9,16
7,21
14,45
12,51
4,69
9,40
8,14
14,72
12,95
5,78
10,19
8,59
16,81
15,21
6,79
10,71
9,80
18,39
16,04
9,37
12,58
12,28
20,84
16,84
12,75
13,41
25,46
21,51
121
2.4 Aplicaes
Denotaremos por Tij o tempo at a perda da velocidade para o jsimo motor de tipo i, i = 1, . . . , 5 e j = 1, . . . , 10. Na tabela abaixo so
apresentadas as mdias, desvios padro e coeficientes de variao amostrais
0.04
0.0
0.02
Densidade
0.06
0.08
10
15
20
25
30
Tempo
Estatstica
Tipo I Tipo II Tipo III
Mdia
10,69
6,05
8,64
D.Padro
4,82
2,91
3,29
C. Variao 45,09% 48,10% 38,08%
Tipo IV Tipo V
9,80
14,71
5,81
4,86
59,29% 33,04%
Ignorando o tipo de turbina temos na Figura 2.2 a densidade aproximada para o tempo at a perda da velocidade. Se assumirmos que Tij
G(, ) obtemos as estimativas de mxima verossimilhana
= 9, 98 (0, 73)
122
15
5
10
Tempo
20
25
2.4 Aplicaes
Tipo
Figura 2.3: Boxplots sobre desempenho dos quatro tipos de turbina de avio.
e = 4, 01 (0, 77), confirmando pela estimativa de a assimetria direita
para a distribuio do tempo at a perda da velocidade. Contudo, pelos
boxplots correspondentes aos tempos dos cinco grupos (ver Figura 2.3) notamos que as mdias parecem diferir com o tipo de turbina, enquanto os
coeficientes de variao parecem variar menos do que os desvios padro. Isso
sugere que uma distribuio gama de mdias diferentes e coeficiente de variao constante pode ser apropriada para explicar o tempo mdio at a perda
da velocidade.
Vamos assumir ento que Tij segue uma distribuio gama de mdia
i e parmetro de disperso 1 . A fim de facilitarmos as interpretaes
dos resultados ou mesmo fazermos comparaes com o modelo normal linear, vamos propor um modelo gama com ligao identidade, sendo a parte
sistemtica dada por
i = + i ,
123
2.4 Aplicaes
em que 1 = 0. Para ajustarmos o modelo no R devemos fazer o seguinte:
turbina = scan("turbina.dat", list(tipo=0, tempo=0))
attach(turbina)
tipo = factor(tipo)
fit1.turbina = glm(tempo tipo, family=Gamma(link=identity))
summary(fit1.turbina).
As estimativas de mxima verossimilhana ficam dadas por
= 10, 693 (1, 543),
2 = 4, 643 (1, 773), 3 = 2, 057 (1, 983), 4 = 0, 895 (2, 093) e 5 =
significativamente menor do que o tipo I ao nvel de 5%. Para o tipo V notamos um tempo mdio maior do que o tipo I enquanto que os outros trs
tipos apresentam tempos mdios pouco diferentes do tipo I. Esses resultados
confirmam a anlise descritiva apresentada na Figura 2.3. O desvio do mo = 8, 861 5, 804 = 51, 43, com 45 graus de liberdade,
delo foi de D (y; )
que leva a P = 0, 236 e indica um ajuste adequado.
124
2.4 Aplicaes
A estatstica F fica dada por
(9, 091 8, 861)/2
8, 861/45
= 0, 584,
F =
1.0
0.5
47
0.0
Distancia de Cook
1.5
49
10
20
30
40
50
Indice
2.4 Aplicaes
destoa dos demais tempos. A eliminao dessa observao aumenta a significncia marginal de 4 , embora esse efeito continue no significativo a 10%.
No h mudanas inferenciais nos demais resultados.
O grfico normal de probabilidades com envelope para os componentes
padronizados do desvio apresentado na Figura 2.5. Notamos, pelo grfico,
que no h indcios de afastamentos srios da suposio de distribuio gama
para os tempos at a perda da velocidade dos motores, bem como para a
suposio de homogeneidade do coeficiente de variao para os cinco grupos.
A sequncia de comandos para construirmos os grficos de diagnstico e
1
0
-1
-2
-3
Componente do Desvio
-2
-1
Percentil da N(0,1)
Figura 2.5: Grfico normal de probabilidades referente ao modelo gama ajustado aos dados sobre desempenho de turbinas de avio.
Portanto, podemos concluir neste exemplo que no existe diferena
significativa entre os tipos I, III e IV, enquanto os tipos II e V aparecem
126
2.4 Aplicaes
de forma significativa com o menor e maior tempo mdio at a perda da
0.002
0.0
0.001
Densidade
0.003
0.004
velocidade, respectivamente.
200
400
600
cpue
2.4 Aplicaes
paulista (vide Paula e Oshiro, 2001). A espcie de peixe considerada o
peixe-batata pela sua importncia comercial e ampla distribuio espacial.
Uma amostra de n = 156 embarcaes foi analisada no perodo de 1995 a
1999 sendo 39 da frota de Ubatuba e 117 da frota de Santos. As variveis consideradas para cada embarcao so as seguintes: frota (Santos ou
Ubatuba), ano (95 a 99), trimestre (1 ao 4), latitude1 (de 23,25o a 28,25o ),
longitude2 (de 41,25o a 50,75o ), dias de pesca, captura (quantidade de peixes
batata capturados, em kg) e cpue (captura por unidade de esforo, kg/dias
de pesca). Um dos objetivos desse estudo tentar explicar a cpue pelas variveis frota, ano, trimestre, latitude e longitude. Estudos similares realizados
em outros pases verificaram que bastante razovel supor que a cpue tem
distribuio assimtrica direita, como o caso da distribuio gama (vide,
300
100
200
cpue
400
500
600
Santos
Ubatuba
Frota
128
300
100
200
cpue
400
500
600
2.4 Aplicaes
1995
1996
1997
1998
1999
Ano
129
300
100
200
cpue
400
500
600
2.4 Aplicaes
Trimestre
Ubatuba
Estatstica
95
Mdia
229,37
D.Padro
148,07
C. Variao 64,55%
n
19
96
97
98
99
193,19 262,67 210,29
197,22
132,55 153,60 122,95
103,45
68,61% 58,48% 58,44% 52,45 %
8
17
27
46
Mdia
47,08
96,09 210,56 174,43
D. Padro
4,73
59,19
77,51
99,16
C. Variao 10,05% 61,60 % 36,81% 56,85%
n
3
12
6
5
140,85
71,59
50,83%
13
2.4 Aplicaes
Na tabela dada a seguir so apresentadas as mdias, desvios padro e
coeficientes de variao amostrais para as frotas de Santos e Ubatuba refe-
42
44
Longitude
26
24
25
Latitude
46
27
28
48
Santos
Ubatuba
Santos
Frota
Ubatuba
Frota
500
100
300
cpue
300
100
cpue
500
24
25
26
27
28
42
Latitude
44
46
48
Longitude
(a)
(b)
2.4 Aplicaes
bastante razovel para a frota de Santos. Para a frota de Ubatuba as estimativas de 95 e 97 destoam das demais, porm devemos levar em conta para
essa frota que as amostras so pequenas.
Como todas essas anlises so marginais, no levando em conta a presena das outras variveis, somente atravs de um modelo apropriado que
poderemos conhecer o efeito de cada varivel explicativa na presena das
demais. Definimos ento Yijk como sendo a cpue observada para a i-sima
embarcao da j-sima frota, (Santos, j = 1; Ubatuba j = 2), no k-simo
ano e -simo trimestre (k, = 1, 2, 3, 4). Vamos supor que Yijk G(ijk , )
(2.2)
em que j , k e denotam, respectivamente, os efeitos da j-sima frota, ksimo ano e -simo trimestre. Como estaremos assumindo parametrizao
casela de referncia teremos as restries 1 = 0, 1 = 0 e 1 = 0. Temos
ainda que latitudeijk e longitudeijk denotam, respectivamente, a latitude e
longitude da i-sima embarcao da frota j no k-simo ano e trimestre .
Ajustamos aos dados o modelo gama com parte sistemtica dada por
(2.2) e aplicando o mtodo de Akaike (vide Seo 1.11.2) retiramos o fator
trimestre, permanecendo no modelo os fatores frota e ano alm das variveis
quantitativas latitude e longitude. Para ajustarmos o modelo e aplicarmos o
mtodo AIC devemos aplicar os seguintes comandos:
attach(pesca)
fit1.pesca = glm(cpue frota + ano + trimestre + latitude
+ longitude, family=Gamma)
summary(fit1.pesca)
require(MASS)
stepAIC(fit1.pesca).
132
2.4 Aplicaes
O procedimento stepAIC assume que o parmetro constante, ou seja,
no muda de um modelo para o outro. Como isso em geral no satisfeito
devemos aplicar algum procedimento alternativo a fim de confirmarmos o
modelo escolhido pelo mtodo AIC. Fizemos isso atravs da estatstica da
razo de versossimilhanas, confirmando a retirada do fator trimestre.
Tabela 2.2
Estimativas dos parmetros referentes ao modelo
gama ajustado aos dados sobre espinhel de fundo.
Efeito
Estimativa
E/E.Padro
Constante
6,898
3,00
Latitude
0,204
2,81
Longitude
-0,150
-1,97
Frota-Ubatuba
-1,359
-3,68
Ano96
-0,064
-0,26
Ano97
0,141
0,74
Ano98
-0,043
-0,25
Ano99
-0,009
-0,06
FrotaUb*Ano96
0,806
1,77
FrotaUb*Ano97
1,452
3,20
FrotaUb*Ano98
1,502
3,32
FrotaUb*Ano99
1,112
2,76
3,67
9,17
O teste da razo de verossimilhanas para incluirmos a interao entre
os dois fatores que permaneceram no modelo, frota e ano, foi de RV = 14, 26
para 4 graus de liberdade e obtemos P = 0, 0065. Portanto, a interao
ser includa no modelo. As estimativas do modelo final que inclui os efeitos
principais latitude, longitude, frota e ano alm da interao entre ano e frota
=
so apresentadas na Tabela 2.2 e o desvio do modelo foi de D (y; )
162, 66 com 144 graus de liberdade e P = 0, 14, indicando um modelo bem
ajustado. Notamos que medida que aumenta a latitude aumenta a cpue,
ocorrendo tendncia contrria medida que aumenta a longitude. Logo, para
133
2.4 Aplicaes
latitudes altas e longitudes baixas (dentro dos limites amostrais), esperamos
valores maiores para a captura por unidade de esforo. Com relao a frota
e ano, como foi includa interao entre esses fatores, a interpretao das
estimativas deve ser feita com um pouco mais de cuidado. Para isso, exibimos
na Figura 2.12 os valores esperados da cpue fixando latitude e longitude
nos valores, respectivamente, 26o e 46o . Notamos pela figura que at 96 os
valores preditos para a frota de Ubatuba nessas latitude e longitude so bem
menores do que os valores preditos para a frota de Santos. Contudo, a partir
de 97 as diferenas entre os valores preditos para as duas frotas diminuem.
Os valores preditos para a frota de Santos variam pouco no perodo 95-99,
200
150
100
Santos
Ubatuba
50
cpue estimada
250
95
96
97
98
99
Ano
134
0.4
0.8
17
0.0
0.4
0.0
Medida h
0.8
Distancia de Cook
1.2
2.4 Aplicaes
50
100
150
200
250
300
50
150
6
5
Variavel z
Indice
(b)
-2
Componente do Desvio
Valor Ajustado
(a)
100
50
100
150
200
250
300
4.0
Valor Ajustado
(c)
4.5
5.0
5.5
Preditor Linear
(d)
2.4 Aplicaes
das embarcaes individualmente e em conjunto altera algumas estimativas porm no muda as concluses inferenciais. Todos os efeitos continuam
marginalmente significativos ao nvel de 10%. O grfico normal de probabilidades com envelope gerado (Figura 2.14) no apresenta indcios de que a
0
-2
-4
Componente do Desvio
-2
-1
Percentil da N(0,1)
2.4 Aplicaes
sero restritas ao perodo de janeiro de 1998 a junho de 1999, um total de
769 seguros pagos. Alm do valor pago ao segurado sero consideradas as
seguintes variveis explicativas: legrep, representao legal (0: no, 1: sim)
e optime, tempo operacional para pagamento do seguro. Essa ltima varivel
assume valores no intervalo (0, 100) e por exemplo um valor 23 significa que
23% dos seguros foram pagos antes do seguro em anlise. Como estamos
considerando apenas parte dos dados (referentes aos ltimos 18 meses), os
valores de optime iro variar de 0,1 a 31,9. O subconjunto de dados analisado
log(Valor do Seguro)
8
6
log(Valor do Seguro)
10
10
10
15
20
25
30
Tempo Operacional
(a)
10
15
20
25
30
Tempo Operacional
(b)
2.4 Aplicaes
(Figura 2.15a) e com representao legal (Figura 2.15b) e as tendncias ajustadas de forma no paramtrica. Notamos pela Figura 2.15a um crescimento
aproximadamente quadrtico do logaritmo do valor pago com o tempo operacional, contudo a variablidade parece ser maior para valores baixos do tempo
operacional. J para os indivduos com representao legal (Figura 2.15b),
notamos que o logaritmo do valor pago cresce linearmente com o tempo operacional enquanto a variabilidade se mantm aproximadamente constante.
Notamos tambm que os valores pagos de seguro so em geral maiores para
0.00008
0.00000
0.00004
Densidade
0.00008
0.00004
0.00000
Densidade
0.00012
0.00012
20000
50000
Valor do Seguro
(a)
40000
100000
Valor do Seguro
(b)
Figura 2.16: Distribuio do valor do seguro para os grupos sem representao legal (a) e com representao legal (b).
Na Figura 2.16 temos a distribuio aproximada do valor pago de se138
2.4 Aplicaes
guro para os dois grupos, sem representao legal (Figrua 2.16a) e com representao legal (Figura 2.16b). Em ambos os grficos podemos notar que a
distribuio fortemente assimtrica direita, sugerindo distribuies gama
ou normal inversa para explicar o valor pago de seguro.
Vamos denotar por Yij o valor pago de seguro para o j-simo indivduo
do i-simo grupo (i = 0, sem representao legal e i = 1 com representao
legal) e j = 1, . . . , ni sendo n0 = 227 e n1 = 542. Conforme sugerido pelas
Figuras 2.16a e 2.16b assumiremos inicialmente Yij G(ij , i ) tais que
log0j = 0 + 10 optimej + 20 optime2j e
log1j = 1 + 11 optimej .
Tabela 2.3
Estimativas dos parmetros referentes
aos modelos com resposta gama ajustados
aos dados sobre seguro.
Parmetro Estimativa
E/E.Padro
0
7,223
44,13
10
0,204
6,72
20
-0,005
-5,08
0
0,78
12,55
1
11
1
8,805
0,023
2,22
140,50
5,48
17,66
As estimativas dos modelos propostos, que foram ajustados separadamente, so descritas na Tabela 2.3. Notamos pelas estimativas que as
tendncias observadas nas Figuras 2.15a e 2.15b foram confirmadas de forma
significativa. Contudo, pelos grficos normais de probabilidades (Figura 2.17)
notamos indcios de afastamentos da distribuio gama para o valor pago de
seguro, principalmente para o grupo com representao legal. Para o grupo
139
2.4 Aplicaes
sem representao legal notamos que os menores valores do seguro foram
superestimados pelo modelo. Os desvios dos dois modelos foram, respectiva = 270, 43 com 224 graus de liberdade e D (y; )
= 581, 72
mente, de D (y; )
com 540 graus de liberdade. Embora as estimativas de 0 e 1 sejam relativamente pequenas, h indcios pelos valores dos desvios que os modelos no
2
0
-4
-2
Componente do Desvio
0
-2
-4
Componente do Desvio
-3
-2
-1
-3
Percentil da N(0,1)
(a)
-2
-1
Percentil da N(0,1)
(b)
2.4 Aplicaes
valor pago de seguro. A eliminao das 10 observaes com mais detaque
na Figura 2.18a no muda a inferncia, todos os coeficientes continuam altamente significativos, porm a estimativa de 10 aumenta quase 20%.
30
203
173
88
99
221
207
Componente do Desvio
0.2
46
227
-4
0.0
-2
0.1
Distancia de Cook
0.3
42
50
100
150
200
2000
Indice
(a)
4000
6000
8000
10000
Valor Ajustado
(b)
Figura 2.18: Grficos de diagnstico para o modelo com resposta gama ajustado aos dados de seguro para o grupo sem representao legal.
Para o grupo com representao legal a utilizao de outras ligaes ou
mesmo outras distribuies so alternativas a fim de tentarmos melhorar a
qualidade do ajuste. Paula et al. (2012) comparam ajustes de modelos com
resposta gama com modelos com resposta log-Birnbaum-Saunders (log-BS)
e log-Birnbaum-Saunders-t (log-BS-t) para explicar o valor pago de seguro
para o grupo com representao legal, obtendo um ajuste satisfatrio com
os modelos log-BS-t. Essa distribuio acomoda melhor as observaes aberrantes que correspondem a valores altos de seguro.
141
2.5 Elasticidade
2.5 Elasticidade
O modelo log-linear com resposta gama pode ser utilizado para a estimao da elasticidade entre a demanda de um produto e seu preo unitrio.
Como ilustrao, vamos supor que Y denota a demanda e X o preo unitrio. usual em Econometria (ver, por exemplo, Gujarati, 2006, Seo 6.4)
assumirmos que
Y = 1 x2 eu ,
(2.3)
2 /2
e varincia e (e 1). Em
2.5 Elasticidade
de modo que se o preo aumentar 1% (r = 0, 01) a demanda aumenta 2 %,
ou seja,
(xN )
=
(x)
2
1+
100
(2.4)
2.5 Elasticidade
aumentam r vezes. Assim, a nova demanda esperada ser dada por
(x1N , x2N ) = 1 (rx2 )2 (rx3 )3
= r(2 +3 ) 1 x2 2 x3 3
= r2 +3 (x1 , x2 ),
em que (x1 , x2 ) a demanda esperada inicial. Logo, se 2 + 3 = 1 ento
(x1N , x2N ) = r(x1 , x2 ), ou seja, a demanda esperada aumenta r vezes. Por
outro lado, se 2 + 3 < 1 teremos que (x1N , x2N ) < r(x1 , x2 ), ou seja, a
demanda esperada aumenta menos que r vezes e se 2 + 3 > 1 teremos que
a demanda esperada aumenta mais que r vezes, (x1N , x2N ) > r(x1 , x2 ).
Obviamente que existem vrias distribuies candidatas para explicar
eu , sendo as distribuies gama e normal inversa as candidatas naturais na
classe dos MLGs. Podemos tambm assumir que logu tenha distribuio normal. Contudo, somente atravs de uma anlise de diagnstico que podemos
avaliar a adequao de cada distribuio.
2.5.2 Aplicao
Como ilustrao vamos considerar um experimento aleatorizado descrito em
Griffiths, Hill e Judge (1993, Seo 11.8.1c) em que a produtividade de milho
(libras/acre) estudada segundo vrias combinaes de nitrognio e fosfato
(40, 80, 120, 160, 200, 240, 280 e 320 libras/acre). Os dados esto descritos
no arquivo milho.dat. Nas Figuras 2.19a e 2.19b temos os diagramas de
disperso entre a produtividade de milho e as quantidades de nitrognio e
fosfato, respectivamente, e conforme podemos notar nessas figuras h indcios
de uma tendncia crescente da produtividade com o aumento dos insumos.
Notamos tambm um aumento da variabilidade com o aumento das quantidades de nitrognio e fostato, sugerindo que a suposio de distribuio gama
144
2.5 Elasticidade
ou normal inversa para logu no modelo de Cobb-Douglas pode levar a um
ajuste adequado.
Denotaremos por Yi a produtividade de milho dada a combinao
(x1i , x2i ) de nitrognio e fosfato correspondente i-sima condio experimental (i = 1, . . . , 30). Vamos ento supor que Yi G(i , ) com parte
120
100
40
60
80
Produtividade
100
80
60
40
Produtividade
120
50
100
150
200
250
300
50
Nitrogenio
(a)
100
150
200
250
300
Fosfato
(b)
0,469
1,67
1
0,350
8,30
2
0,410
10,07
46,59
11,99
+ 0,41 + 1,96* 0, 003143] = [0,52; 0,87] que no cobre o valor 1,0. Portanto, dobrando as aplicaes de insumos de nitrognio e fosfato os retornos
esperados de produtividade devem aumentar menos do que duas vezes.
0.6
0.4
0.2
-2
-1
Distancia de Cook
0.8
0.0
-3
Componente do Desvio
1.0
-2
-1
Percentil da N(0,1)
(a)
10
15
20
25
Indice
(b)
1
y
3
log(2y /) +
,
= exp 2 +
2
2
y
em que y > 0, > 0. Na Figura 2.21 temos a densidade da distribuio
normal inversa variando o parmetro de preciso para fixado. Notamos
que medida que aumenta a distribuio normal inversa fica mais simtrica em torno da mdia. Podemos mostrar que medida que aumenta
Y se aproxima de uma distribuio normal de mdia e varincia 3 1 .
Similarmente distribuio gama, a normal inversa torna-se atrativa para
o estudo de variveis aleatrias assimtricas e tambm simtricas em que a
varincia depende de forma cbica da mdia. Uma discusso sobre as su147
30
0.2
f(x)
=2
f(x)
0.4
0.0
0.0
0.2
f(x)
=1
=3
0.4
=6
f(x)
0.2
0.2
f(x)
0.2
= 10
0.0
0.0
0.0
0.1
f(x)
0.3
=4
0.4
0.4
0.5
0.4
0.6
t1 exp(2/){(1 + t1 )
p
t1 }.
A funo de risco dada por h(t) = f (t)/S(t) em que f (y) denota a funo
densidade da NI(, ).
148
(2.5)
i=1
2 (yi
i )
=p
,
i yi
ii
1h
149
2.8 Aplicaes
em que yi > 0 e hii o i-simo elemento da diagonal principal da matriz
H = W1/2 X(XT WX)1 XT W1/2 com i = (di /di )2 /3i . Na expresso
para tDi no caso da distribuio normal inversa o sinal do resduo o mesmo
de (yi
i ). Estudos de simulao indicam que o resduo tDi se aproxima da
distribuio normal, particularmente para grande.
Similarmente aos modelos com resposta gama podemos obter uma expresso aproximada para a distncia de Cook quando a i-sima observao
excluda. Essa expresso fica dada por
LDi =
ii (yi
h
i )2
.
ii )2
2i
(1 h
2.8 Aplicaes
2.8.1 Comparao de cinco tipos de snack
Vamos considerar nesta seo parte dos dados de um experimento desenvolvido no Departamento de Nutrio da Faculdade de Sade Pblica da USP
em que 5 formas diferentes de um novo tipo de snack, com baixo teor de
gordura saturada e de cidos graxos, foram comparados ao longo de 20 semanas. Neste novo produto a gordura vegetal hidrogenada, responsvel pela
fixao do aroma do produto, foi substituda, totalmente ou parcialmente,
por leo de canola. As formas so as seguintes: A (22% de gordura, 0%
de leo de canola), B (0% de gordura, 22% de leo de canola), C (17% de
gordura, 5% de leo de canola), D (11% de gordura, 11% de leo de canola)
e E (5% de gordura, 17% de leo de canola). O experimento foi conduzido
de modo que nas semanas pares 15 embalagens de cada um dos produtos A,
150
2.8 Aplicaes
B, C, D e E fossem analisadas em laboratrio e observadas diversas variveis
(ver Paula, de Moura e Yamaguchi, 2004). Em particular, vamos estudar o
comportamento da textura dos produtos atravs da fora necessria para o
cisalhamento. Os dados referentes a esta varivel esto disponveis no arquivo
snack.dat.
Para lermos o arquivo snack.dat no R devemos fazer o seguinte:
snack = source("snack.dat", list(cisalhamento=0, grupo=0,
semana=0))
80
40
60
Cisalhamento
100
120
grupo = factor(grupo).
Grupo
2.8 Aplicaes
intermedirios e os grupos D e E tm os menores valores. Nota-se uma
assimetria direita na distribuio da fora de cisalhamento para todos os
grupos. Esssas tendncias so confirmadas pela tabela dada a seguir em que
so apresentadas as mdias, desvio padro e coeficiente de variao para a
fora de cisalhamento para cada grupo.
Grupo A Grupo B Grupo C Grupo D Grupo E
66,201
55,294
61,632
51,027
50,257
18,707
13,143
19,601
10,960
11,402
28,20%
23,80%
31,80%
21,50%
22,70%
80
40
60
Cisalhamento
100
120
Estatstica
Mdia
D.Padro
C. Variao
10
12
14
16
18
20
Semanas
2.8 Aplicaes
14a semana seguida de um decrescimento at a ltima semana. Verificamos
tambm, para cada semana, que a distribuio da fora de cisalhamento
mostra-se assimtrica direita sugerindo uma distribuio gama ou normal
inversa. Esssas tendncias so confirmadas pelo grfico de perfis para a fora
de cisalhamento (vide Figura 2.24) e pela tabela dada a seguir em que so
apresentadas as mdias, desvio padro e coeficiente de variao para a fora
de cisalhamento para cada semana.
Estatstica
Mdia
D.Padro
C. Variao
Estatstica
Mdia
D.Padro
C. Variao
Semana 2
50,95
13,12
25,80%
Semana 4
44,66
9,76
21,90%
Semana 6
50,08
15,97
31,90%
Semana 8 Semana 10
55,57
60,15
16,28
14,72
29,30%
24,50%
Assim, denotaremos por Yijk a fora de cisalhamento referente ksima rplica do i-simo grupo na j-sima semana, para k = 1, . . . , 15, j =
2, 4, 6, . . . , 20 e i =1(A),2(B),3(C),4(D) e E(5). A fim de compararmos as
duas distribuies assimtricas vamos supor que Yijk G(ij , ) e Yijk
NI(ij , ) com parte sistemtica dada por
ij = + i + 1 semanaj + 2 semana2j ,
(2.6)
60
70
A
B
C
D
E
40
50
Cisalhamento
80
2.8 Aplicaes
10
15
20
Semanas
2.8 Aplicaes
da normal inversa seja cbica enquanto para a gama temos funo de varincia quadrtica, nem sempre possvel diferenciarmos de forma clara os dois
ajustes. Notamos pela Figura 2.25 que o grfico de resduos de Pearson contra os valores ajustados apresenta uma tendncia sistemtica crescente sob
o modelo gama, que amenizada sob o modelo com erros normal inversa.
Os dois modelos ajustam-se muito bem aos dados como podemos notar pelo
= 756, 87 (753 g.l.) com P=0,35
valor do desvio do modelo gama D (y; )
e pelo grfico normal de probabilidades para o modelo com resposta normal
2
1
2
Residuo de Pearson
2
1
0
1
Residuo de Pearson
40
45
50
55
60
65
70
40
Valor Ajustado
(a)
45
50
55
60
65
70
Valor Ajustado
(b)
Figura 2.25: Grficos do resduo de Pearson contra os valores ajustados referentes aos modelos gama (a) e normal inversa (b) ajustados aos dados sobre
snacks .
Na Tabela 2.5 so apresentadas as estimativas sob o modelo com resposta normal inversa. Todos os efeitos so altamente significativos, em particular o efeito de semana na forma quadrtica. Controlando esse efeito, a
maior fora mdia de cisalhamento ocorre com o produto sob a forma A (au155
2.8 Aplicaes
sncia de leo de canola) e a menor fora mdia de cisalhamento ocorre com
0
2
4
Componente do Desvio
Percentil da N(0,1)
Figura 2.26: Grfico normal de probabilidades referente ao modelo com resposta normal inversa ajustado aos dados sobre snacks.
Na Figura 2.27 temos os valores preditos para os 5 grupos ao longo
das 20 semanas. A estimativa do parmetro de preciso indica que a distribuio da fora de cisalhamento em cada grupo, fixando o tempo, aproximadamente normal. Contudo, a varincia depende da mdia. A forma
cbica para a varincia mostrou-se ligeiramente superior forma quadrtica.
Outras formas para ajustarmos a varincia podem ser testadas, como por
exemplo, atravs de modelos de quase-verossimilhana que sero discutidos
no Captulo 5. O paralelismo entre as curvas apresentadas na Figura 2.27
devido no incluso de interao entre semana e grupo. Alternativamente, poderamos incluir uma funo para cada grupo, ou ento, o efeito
156
2.8 Aplicaes
semana poderia ser controlado atravs de funes no paramtricas (ver, por
exemplo, Wood, 2006).
Tabela 2.5
Estimativas dos parmetros referentes ao
modelo com resposta normal inversa
ajustado aos dados sobre snacks.
Efeito
Estimativa
E/E.Padro
Constante
50,564
26,32
Grupo B
-10,916
-6,41
Grupo C
-5,459
-3,03
Grupo D
-15,357
-9,42
Grupo E
-16,596
-10,30
Semana
2,727
8,18
2
Semana
-0,091
-5,90
1005
-
157
60
50
A
B
C
D
E
40
Valor Predito
70
2.8 Aplicaes
10
15
20
Semanas
0.20
2.8 Aplicaes
10
465
2
8
0.10
311
0.00
0.05
Distancia de Cook
0.15
744
40
45
50
55
60
65
70
Valor Ajustado
Figura 2.28: Grfico da distncia de Cook contra os valores ajustados referente ao modelo com resposta normal inversa ajustado aos dados sobre
snacks.
Tabela 2.6
Vendas projetadas e reais de
vrios produtos.
Projetada Real Projetada Real
5959 5673
527 487
3534 3659
353 463
2641 2565
331 225
1965 2182
290 257
1738 1839
253 311
1182 1236
193 212
667 918
156 166
613 902
133 123
610 756
122 198
549 500
114
99
Como podemos notar pelos grficos do resduo de Pearson contra os
valores ajustados (Figura 2.30) os dois ajustes no parecem adequados, em159
3000
2000
1000
Vendas Reais
4000
5000
Gama
N.Inversa
1000
2000
3000
4000
5000
6000
Vendas Projetadas
Figura 2.29: Modelos ajustados aos dados sobre vendas projetadas sob erros
gama e normal inversa.
bora a suposio de erros gama seja mais razovel do que normal inversa. Por
exemplo, as estimativas para o modelo gama so dadas por = 1, 089(0, 051)
e = 24, 94(7, 83). Assim, notamos pela estimativa de que o total projetado de vendas um bom preditor do total real vendido e a estimativa de
indica que a distribuio do total real de vendas (dado o total projetado)
pode ser aproximada por uma normal heteroscedstica.
1
0
Residuo de Pearson
1
0
3
Residuo de Pearson
1000
3000
5000
Valor Ajustado
(a)
1000
3000
5000
Valor Ajustado
(b)
Figura 2.30: Grficos do resduo de Pearson contra os valores ajustados referentes aos modelos com resposta gama (a) e normal inversa (b) ajustados
aos dados sobre vendas projetadas.
todos alternativos de estimao, tais como mxima verossimilhana restrita,
foram propostos mais recentemente com o intuito de reduzir o vis das estimativas de mxima verossimilhana, particularmente dos coeficientes do
componente de disperso. Uma discusso a respeito desses mtodos pode ser
encontrada em Smyth, Huela e Verbyla (2001).
A fim de formalizarmos os MLGs duplos vamos supor que Y1 , . . . , Yn
so variveis aleatrias independentes com funo densidade ou funo de
probabilidades expressa na forma
f (y; i , i ) = exp[i {yi b(i )} + c(y, i )],
em que c(y, i ) = d(i ) + i a(y) + u(y). Essa decomposio, como vimos
na Seo 1.7.2, vale somente para as distribuies normal, normal inversa e
161
n
X
i=1
n
X
i=1
E2 (Di )
,
Tabela 2.7
Derivao de algumas quantidades para distribuies da famlia exponencial.
Normal
Normal inversa
Gama
1
ti
yi i 12 (2i + yi2 ) {yi /22i 1
+
(2y
)
}
log(y
/
i
i
i ) yi /i
i
1
1
d()
log
log
log log()
2
2
d ()
(2)1
(2)1
(1 + log) ()
d ()
-(22 )1
-(22 )1
1 ()
2.9.1 Estimao
A funo escore e a matriz de informao de Fisher para podem ser obtidas
facilmente seguindo os passos da Seo 1.5.1. Assim, obtemos
U = XT W1/2 V1/2 (y ) e
K = XT WX,
em que X uma matriz np de linhas xTi (i = 1, . . . , n), W = diag{1 , . . . , n }
163
n
X
di i
di i
ti + d (i )
di j
di j
i=1
=
=
n
X
i=1
n
X
i=1
1
1
zij ti + d (i )
zij
h (i )
h (i )
zij
{ti + d (i )},
h (i )
L()/j
di
di
zij
d (i )h(i )
zi h (i ){ti + d (i )}
zi
=
( )}2
{h
d
d
i
i
i
i=1
n
X
zij zi
h (i )
=
d (i )
{ti + d (i )}
{h (i )}2
h (i )
i=1
n
X
K = ZT PZ,
em que P = V H2
, V = diag{d (1 ), . . . , d (n )}. Devido ortogona-
(2.8)
(2.9)
Resduos
Na classe dos MLGs duplos podemos definir desvios para a mdia e para a
preciso, respectivamente. O desvio para a mdia assume a mesma expresso
da classe dos MLGs em que somente a mdia ajustada, com i no lugar
Pn 2
) =
i , i ), em
de . Denotaremos esse desvio por D1 (y; ,
i=1 d1 (yi ;
165
y yi
pi
,
ii
i 1 h
ii =
1 xi com = diag{ 2 , . . . , 2 }. Para os
em que h
i2 xTi (XT X)
1
n
demais MLGs duplos o resduo componente do desvio para a mdia fica dado
por
em que
d1 (yi ;
i , i )
d (yi ;
i , i )
,
tD1i = 1p
ii
1h
q
= d2
i , i ), o sinal continua sendo o mesmo de
1 (yi ;
H
X W ,
ou seja,
1
ii = i
WX)
h
i xTi (XT
xi .
i )
d2 (yi ; i ,
,
1 rii
q
i ), o sinal sendo o mesmo de {ti +
em que d2 (yi ; i ,
i ) = d2
2 (yi ; i ,
d (i )} e rii o i-simo elemento da diagonal principal da matriz
=P
1/2 Z(ZT PZ)
1 ZT P
1/2 ,
R
ou seja,
1 zi .
rii = pi zTi (ZT PZ)
Note que pi = d (i ){h (i )}2 . Por exemplo, para ligao logartmica
Assim, para os modelos com resposta normal e normal inversa segue que pi =
2i (22i )1 =
1
2
Influncia
Para avaliar a sensibilidade das estimativas dos parmetros que modelam a
mdia podemos usar a medida de influncia LDi definida na Seo 1.10.3 com
que ser definida por
i no lugar de ,
(
)
ii
h
LDi =
t2 ,
ii Si
1h
em que
tSi
q
i (yi
i )
= q
.
ii )
Vi (1 h
167
1 zi {ti + d (i )}
(ZT PZ)
,
h (i )(1 rii )
(2.10)
)T (ZT PZ)(
)
LDi = (
(i)
(i)
rii
=
t2 ,
1 rii Ti
em que
t Ti
ti + d (i )
p
=
h (i ) pi (1 rii )
ti + d (i )
.
= q
d (i )(1 rii )
( 2i )1 1 rii
e para modelos com resposta gama obtemos
ti + {1 + logi (i )}
.
t Ti = q
{ (i ) 1
}(1
)
ii
i
168
2.9.3 Aplicao
Pela anlise descritiva apresentada na Seo 2.8.1 sobre o comportamento
da fora de cisalhamento dos cinco tipos de snack ao longo das 20 semanas e tambm pelo grfico de perfis para a fora de cisalhamento (Figura
2.31) nota-se que o coeficiente de variao no parece ser constante. Assim,
a modelagem dupla da mdia e da preciso pode levar a um ajuste mais
satisfatrio para o modelo com resposta gama. Dessa forma vamos supor
que Yijk G(ij , ij ), em que Yijk denota a fora de cisalhamento referente
0.35
summary(fit3.snack).
0.25
0.20
0.05
0.10
0.15
CV do Cisalhamento
0.30
A
B
C
D
E
10
15
20
Semanas
0.35
Tabela 2.7
Estimativas dos parmetros referentes ao MLG duplo com resposta
gama ajustado aos dados sobre snacks.
Mdia
Disperso
Efeito
Estimativa E/E.Padro Estimativa
E/E.Padro
Constante
36,990
11,53
1,560
7,27
Grupo B
-10,783
-6,40
0,477
2,95
Grupo C
-3,487
-1,98
0,050
0,31
Grupo D
-14,829
-9,18
0,815
5,05
Grupo E
-15,198
-9,54
0,817
5,06
Semana
5,198
9,88
0,155
3,91
2
Semana
-0,189
-8,88
-0,005
-2,99
0.20
553
0.15
405
0.00
0.05
0.10
Distancia de Cook
0.25
0.30
744
200
400
600
Indice
171
1.0
0.6
0.4
0.0
0.2
Distancia de Cook
0.8
744
200
400
600
Indice
0
4
Componente do Desvio
2.10 Exerccios
Percentil da N(0,1)
2.10 Exerccios
1. Seja Y G(, ) e considere a varivel aleatria logY . Use a condio
0
2
6
Componente do Desvio
2.10 Exerccios
Percentil da N(0,1)
D(y; )
+ 2p,
AIC = nlog
n
P
= ni=1 (yi
em que D(y; )
i )2 /(yi
2i ).
174
2.10 Exerccios
6. Sejam Yi FE(1 , 1 ), i = 1, . . . , m, e Yi FE(2 , 2 ), i = m +
1, . . . , n, variveis aleatrias mutuamente independentes. Encontre a
estimativa comum de mxima verossimilhana para 1 e 2 sob a hiptese H0 : 1 = 2 . Particularize para os casos gama e normal inversa.
7. (Lawless, 1982, p. 338). Na tabela abaixo so apresentados os resultados de um experimento em que a resistncia (em horas) de um
determinado tipo de vidro foi avaliada segundo quatro nveis de voltagem (em kilovolts) e duas temperaturas (em graus Celsus). Esses dados
esto tambm disponveis no arquivo vidros.dat. Na primeira coluna
do arquivo tem-se o tempo de resistncia, na segunda coluna a voltagem( 1: 200kV, 2: 250kV, 3: 300kV e 4: 350kV) e na terceira coluna a
temperatura (1: 170o C e 2: 180o C). Seja Yijk o tempo de resistncia da
k-sima amostra de vidro submetida i-sima temperatura e j-sima
voltagem.
Faa inicialmente uma anlise descritiva dos dados, por exemplo apresentando os perfis mdios da resistncia segundo a voltagem para os
dois nveis de temperatura. Cacule tambm para cada casela algumas
medidas descritivas tais como mdia, desvio padro e coeficiente de
variao. Comente.
O interesse principal desse estudo comparar as resistncias mdias,
denotadas por ij , i = 1, 2 e j = 2, 3, 4. usual neste tipo de estudo assumir respostas com alguma distribuio assimtrica. Assim,
vamos supor que Yijk G(ij , ). Considere inicialmente uma repa-
175
2.10 Exerccios
Voltagem(kV)
Temperatura ( C) 200 250 300
170
439 572 315
904 690 315
1092 904 439
1105 1090 628
o
180
959
1065
1065
1087
350
258
258
347
588
Verifique se possvel incluir a interao entre voltagem e temperatura. Procure responder com o modelo final de que forma os nveis
de voltagem e temperatura afetam o tempo mdio de resistncia dos
vidros. Apresente, por exemplo, os perfis mdios ajustados e interprete
a estimativa de disperso. Faa tambm uma anlise de diagnstico.
8. Sejam Yi , i = 1, . . . , n, variveis aleatrias i.i.d. com distribuio normal inversa de mdia e parmetro de preciso .
(i) Como fica a estatstica da razo de verossimilhanas para testar
H0 : = 1 contra H1 : 6= 1?
(ii) Qual a distribuio nula assinttica da estatstica do teste?
9. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi G(i , )
com parte sistemtica dada por logi = 0 + 1 (xi x). Responda aos
itens abaixo:
e a varincia assinttica de 0 , 1 e ?
176
2.10 Exerccios
(b) Como fica o teste de escore para testar H0 : = 1 contra H1 : 6=
1?
na forma
SR
P
{ ni=1 (xi x)(yi e)}2
0
2
Pn
= 2 n(
y e) +
.
e
)2
i=1 (xi x
2.10 Exerccios
(iii) Como fica a estatstica de Wald para testar H0 : = 0 contra
H1 : 6= 0? Qual a distribuio nula assinttica da estatstica do
teste?
13. (Cordeiro, Paula e Botter, 1994). Sejam Yi , i = 1, . . . , n, variveis aleatrias independentes com distribuio gama de mdia i e parmetro
de preciso . Mostre que a estatstica da razo de verossimilhanas
para testar H0 : = 1 contra H1 : 6= 1 vale
( 1){1 ()}],
RV = 2n[log log()
em que () a funo gama e () a funo digama. Use o resultado
()
= D/2,
= Pn D(yi ;
log()
em que D
i )/n denota o desvio
i=1
14. Supor Yij variveis aleatrias mutuamente independentes tais que Yij
2.10 Exerccios
mensal de energia. Proponha, alternativamente, modelos com erros
heteroscedsticos. Compare os ajustes e interprete os coeficientes estimados do modelo escolhido.
16. No arquivo restaurante.dat esto descritos os faturamentos anuais
bem como os gastos com publicidade (em mil USD) de uma amostra
aleatria de 30 restaurantes (Montgomery, Peck e Vining, 2001, pgs.
197-200). O objetivo principal tentar relacionar o faturamento mdio
com o gasto com publicidade. Inicialmente faa uma anlise descritiva
dos dados, em particular o diagrama de disperso entre as variveis.
Tente ajustar inicialmente um modelo de regresso normal linear entre
faturamento e gastos e verifique atravs das tcnicas de diagnstico
se existem afastamentos srios das suposies feitas para o modelo.
Ajustar modelos com erros gama e normal inversa e um modelo normal
heteroscedstico. Compare os resultados.
17. (Myers, Montgomery e Vining, 2002, p. 192). A fim de avaliar-se a
qualidade de um determinado filme utilizado em mquinas fotogrficas,
o tempo de durao do filme (em horas) relacionado com a densidade
mxima do filme sob trs condies experimentais conforme descrito
na tabela abaixo e tambm no arquivo dfilme.dat.
Tempo
72
144
216
288
360
432
504
Dmax Tempo
(72o C)
3,55
48
3,27
96
2,89
144
2,55
192
2,34
240
2,14
288
1,77
336
179
Dmax Tempo
(82o C)
3,52
24
3,35
48
2,50
72
2,10
96
1,90
120
1,47
144
1,19
168
Dmax
(92o C)
3,46
2,91
2,27
1,49
1,20
1,04
0,65
2.10 Exerccios
Faa um diagrama de disperso entre o tempo de durao e a densidade
mxima para cada condio experimental e proponha um modelo com
resposta gama para ajustar esses dados. Aplique mtodos de diagnstico e interprete as estimativas do modelo selecionado.
18. Considere novamente os dados descritos na Tabela 2.6 sobre a relao entre o valor real e o valor projetado das vendas de 20 produtos.
Considere agora um modelo normal heteroscedtico tal que
yi = xi + i e logi2 = 1 + 2 xi ,
com i N(0, i2 ). Verifique a adequao desse modelo atravs de mtodos de diagnstico.
180
2.10 Exerccios
AG Positivo
AG Negativo
WBC Tempo
WBC Tempo
2300
65
4400
56
750
156
3000
65
4300
100
4000
17
2600
134
1500
7
6000
16
9000
16
10500
108
5300
22
10000
121 10000
3
17000
4 19000
4
5400
39 27000
2
7000
143 28000
3
9400
56 31000
8
32000
26 26000
4
35000
22 21000
3
100000
1 79000
30
100000
1 100000
4
52000
5 100000
43
100000
65
20. O arquivo claims.dat contm uma amostra aleatria de 996 aplices
de seguros de veculos extradas do livro de de Jong e Heller (2008) referente ao perodo 2004-2005. As variveis do arquivo esto na seguinte
ordem : (i) valorv (valor do veculo em 10000 dolares australianos),
(ii) expos (exposio do veculo), (iii) nsinistros (nmero de sinistros
no perodo), (iv) csinistros (custo total dos sinistros em dolares australianos), (v) tipov (tipo do veculo em 11 categorias), (vi) idadev
(idade do veculo em 4 categorias), (vii) sexoc (sexo do condutor principal), (viii) areac (rea de residncia do condutor principal) e (ix)
idadec (idade do condutor principal em 6 categorias).
Faa inicialmente uma anlise descritiva dos dados e procure agrupar
em um nmero menor de categorias algumas variveis categricas. Con181
2.10 Exerccios
sidere como varivel resposta cmsinistros = csinistros/nsinistros.
Aplique numa primeira etapa modelos com resposta gama e normal
inversa com constante. Faa uma anlise de diagnstico. Numa segunda etapa, se necessrio, aplique modelos duplos com resposta gama
e normal inversa. Faa tambm uma anlise de diagnstico. Para o
modelo final selecionado interprete os coeficientes estimados.
182
Captulo
3.1 Introduo
Neste captulo apresentamos modelos para a anlise de dados com resposta
binria, isto , que admite apenas dois resultados. Comumente chamado de
sucesso o resultado mais importante da resposta ou aquele que pretendemos
relacionar com as demais variveis de interesse. comum encontrarmos situaes prticas em que esse tipo de resposta aparece. Como ilustrao, seguem
alguns exemplos: (i) o resultado do diagnstico de um exame de laboratrio,
positivo ou negativo; (ii) o resultado da inspeo de uma pea recm fabricada, defeituosa ou no defeituosa; (iii) a opinio de um eleitor a respeito
da implantao do voto distrital, favorvel ou contrrio; (iv) o resultado de
um teste de aptido aplicado a um estudante, aprovado ou reprovado; (v)
o resultado de uma promoo de uma rede de lojas enviando para cada cliente um cupom com desconto, cupom utilizado ou cupom no utilizado num
determinado perodo etc. H tambm situaes em que apenas duas possi-
183
Doena
D
Fator
A B
P1 P3
P2 P4
P1 (P3 + P4 )
P1 /(P1 + P2 )
=
.
P3 /(P3 + P4 )
P3 (P1 + P2 )
(3.1)
Cornfield (1951) tambm notou que se a doena for rara (P1 << P2 e P3 <<
P4 ) a quantidade (3.1) assume a forma simplificada
=
P1 P4
,
P3 P2
(3.2)
a qual denominou Odds Ratio, que para ns ser denominada razo de chances. Muitas vezes comum ser chamado de risco relativo, embora isso
185
Doena
D
A
y1
y2
Fator
B
n1 y 1
n2 y 2
Total
n1
n2
(3.3)
P1 P4
1 (1 2 )
,
=
P3 P2
2 (1 1 )
dadas por
1 = y1 /n1 e
2 = y2 /n2 , respectivamente. Logo, a estimativa de
mxima verossimilhana no condicional de fica = y1 (n2 y2 )/y2 (n1 y1 ).
= , o que impossibilita qualquer tipo de inferncia para
Note que E()
pequenas amostras. Por outro lado, para n1 e n2 grandes, segue uma
.
+
VarA () =
n1 1 (1 1 ) n2 2 (1 2 )
Formalmente, podemos dizer que sob condies gerais de regularidade e assumindo que
n1
n
n( ) d N(0, VI ()),
187
de probabilidades que depende apenas do parmetro de interese . Essa distribuio resultante (ver Cornfield, 1956) tem sido largamente utilizada em
pequenas amostras. Alguns autores questionam, entretanto, o procedimento
adotado, uma vez que a estatstica Y1 + Y2 no ancilar para ; isto , contm informaes a respeito do parmetro (ver discusso, por exemplo, em
Lehnman, 1994, pgs. 546-547).
O condicionamento de (Y1 , Y2 ) em Y1 + Y2 = m produz o modelo caracterizado pela famlia de distribuies hipergeomtricas no centrais, definida
188
n1
y1
f (y1 |m; ) = P
n2
y1
my1
,
n2
n1
t
mt
t
(3.5)
n2
n1
y1 my1
n1 +n2
m
mn1
n
n1 n2 (n m)m
.
n2 (n 1)
Para o modelo condicional (3.5) o logaritmo da funo de verossimilhana fica dado por
(
X n1 n2
t
L() y1 log log
m
t
t
t
t
t
t
P n1 n2 t
. Assim, a equao de mxima verossimilhana
e P0 () =
t t
mt
para obtermos fica reescrita na forma
y1
P1 ()
= 0.
P0 ()
189
(3.6)
A B Total
1 3
4
1 2
3
t
2 y1
y1
t
f (0|m; ) = 3/{3 + 12 + 6 2 }
f (1|m; ) = 12/{3 + 12 + 6 2 } e
f (2|m; ) = 6 2 /{3 + 12 + 6 2 }.
= y1 fica ento dada por
A equao E(Y1 |m; )
12 + 122 = 3 + 12 + 62 ,
que equivalente a 62 = 3 ou = 0, 707.
Similarmente ao estimador no condicional, podemos mostrar para
grandes amostras que segue uma distribuio normal de mdia e va = V1 (), em que
rincia assinttica Var()
A
190
1
1
1
1
VA () =
+
+
+
EA () n1 EA () m EA () n2 m + EA ()
1
,
e EA () sai da equao
EA (){n2 m + EA ()}
= ,
(3.7)
{n1 EA ()}{m EA ()}
que para fixo resulta numa equao quadrtica em EA (). Mostramos,
para 6= 1, que a nica raiz de (3.7) que satisfaz max(0, m n2 ) EA ()
min(n1 , m) dada por
EA () = ||r| s|,
em que r = 21 [n/( 1) + m + n1 ] e s = [r2 mn1 /( 1)]1/2 .
n( ) d N(0, VC ()),
mn1
n
n1 n2 m(n m)
.
n3
quando = 1,
Podemos notar que a mdia e a varincia assinttica de ,
VA (1) =
f (t|m; 0 ),
ty1
equaes
192
X
X
=
=
f (t|m; S ) e
f (t|m; I )
2
2
t=0
t=1
e
0, 10 =
1 + 4S
(S = 18, 25).
2
1 + 4 S + 2
S
Testes assintticos
Para grandes amostras, n1 , n2 , m e n m grandes, a distribuio condicional
{y1 EA (0 )}2
,
(3.8)
X =
VA (0 )
que sob H0 segue assintoticamente uma distribuio qui-quadrado com 1 grau
2
)
y1 EA (0 )
PI = P r Z p
VA (0 )
(
)
y1 EA (0 )
PS = P r Z p
,
VA (0 )
VarA (log),
limites podem ser expressos em uma outra forma, levando em conta a estatstica qui-quadrado para testarmos H0 : = 1 contra H1 : 6= 1. Essa
194
2
(log)
,
VarA (log)
(3.10)
que segue, para grandes amostras, uma distribuio qui-quadrado com 1 grau
de liberdade. Assim, os limites ficam reexpressos nas formas
I = (1z(1/2) /X)
e
S = (1+z(1/2) /X) .
Alguns autores (ver Breslow e Day, 1980, p. 135) tm constatado que para
n1 = n2 a probabilidade de cobertura do intervalo (I , S ) em geral menor
do que o valor nominal utilizado. Por outro lado, quando n1 e n2 so muito
diferentes, essa probabilidade de cobertura superestimada. Uma sugesto,
nesses casos, utilizarmos o valor de X obtido do teste condicional (3.9) em
vez do valor obtido do teste no condicional (3.10).
195
Doena
D
Fator
A
B
y1i n1i y1i
y2i n2i y2i
Total
n1i
n2i
y
)/n
2i
1i
1i
i
i=1
Pk
vi i
M H = Pi=1
,
k
i=1 vi
k
X
ai i1 /(
i=1
k
X
ai ) 2 ,
i=1
Pk
i=1 ui logi
Pk
i=1 ui
em que ui = {1/y1i + 1/(n1i y1i ) + 1/y2i + 1/(n2i y2i )}1 . Esse estimador
tambm consistente e assintoticamente normal com varincia dada por
VarA (W ) = 2 1 ,
M H e W de comum
em que = 1 + + k . Para as estimativas ,
assumimos o modelo no condicional para os dados.
k
X
i=1
i (logi logW )2 ,
que segue, sob H0 e assintoticamente (para n1i e n2i grandes, i), uma dis-
k
X
{y1i EAi (M H )}2
=
,
VA (M H )
i=1
que tambm segue, sob H0 e para grandes amostras, uma distribuio quiquadrado com k 1 graus de liberdade. A novidade, nesse caso, a utilizao
k grande) uma distribuio qui-quadrado com 1 grau de liberdade. Similarmente ao caso de uma nica tabela 2 2, um intervalo assinttico de
confiana para com coeficiente de confiana (1 ) fica dado por
(1z
(I , S ) = M H (1/2)
em que XM H =
p
2
XM
H.
198
/XM H )
Doena
D
Nvel 1
y11
y21
Fator
Nvel 2
y12
y22
Nvel k
Pk1
n1 i=1
y
Pk1 1i
n2 i=1 y2i
Total
n1
n2
Analogamente ao caso de uma nica tabela 22, assumimos que so amostra e que (Yi1 , . . . , Yik )T
dos n1 elementos do estrato D e n2 elementos do estrato D
segue uma distribuio multinomial de parmetros (i1 , . . . , ik )T , com ik =
Pk1
1 j=1
ij , i = 1, 2. Comumente, para analisarmos as associaes entre
1j 21
, j = 2, . . . , k,
2j 11
k
Y
j=1
n2j
n1j
mj y1j
y1j
n1j +n2j
mj
(3.11)
m j n1
,
n
n1 n2 (n mj )mj
n2 (n 1)
Cj = Cov(Y1j , Y1 |mj , m ; = 1) =
m j m n1 n2
, j 6= ,
n2 (n 1)
k
(n 1) X
1
1
2
=
+
{y1j Ej (1)}
n
E
(1)
mj Ej (1)
j
j=1
k
1 X {y1j Ej (1)}2
1
+
,
= (n 1)
n1 n2 j=1
mj
(3.12)
3.5 Aplicaes
o uso de um teste para a tendncia do risco da doena com o aumento dos
nveis do fator. Como ilustrao, vamos supor que h k doses xj , j = 1, . . . , k,
associadas aos k nveis do fator. Um teste apropriado considerarmos a
regresso dos desvios {y1j Ej (1)} sobre xj (Armitage, 1955; Mantel, 1963).
A estatstica correspondente fica dada por
P
n2 (n 1)[ kj=1 xj {y1j Ej (1)}]2
2
XHOM =
,
P
P
n1 n2 {n kj=1 x2j mj ( kj=1 xj mj )2 }
(3.13)
3.5 Aplicaes
3.5.1 Associao entre fungicida e desenvolvimento de tumor
Como ilustrao, analisaremos o conjunto de dados apresentado em Innes et
al. (1969), referente a um estudo para avaliar o possvel efeito cancergeno
201
3.5 Aplicaes
do fungicida Avadex. No estudo, 403 camundongos so observados. Desses,
65 receberam o fungicida e foram acompanhados durante 85 semanas, verificando o desenvolvimento ou no de tumor cancergeno. Os demais animais
no receberam o fungicida (grupo controle) e tambm foram acompanhados
pelo mesmo perodo, verificando a ocorrncia ou no de tumor. Dois fatores
potenciais de confundimento, sexo e raa, foram considerados nas anlises.
Os dados do experimento so resumidos na Tabela 3.1.
Tabela 3.1
Classificao dos camundongos quanto a raa (R1 ou R2),
sexo, grupo e ocorrncia ou no de tumor cancergeno.
Estrato
Grupo
Com tumor Sem tumor
Total
Tratado
4
12
16
R1-Macho Controle
5
74
79
Total
9
86
95
R2-Macho
Tratado
Controle
Total
2
3
5
14
84
98
16
87
103
R1-Fmea
Tratado
Controle
Total
4
10
14
14
80
94
18
90
108
R2-Fmea
Tratado
Controle
Total
1
3
4
14
79
93
15
82
97
3.5 Aplicaes
coluna apresentamos os intervalos assintticos de 95% para . Notamos que,
embora todas as estimativas sinalizem para uma associao positiva, apenas
o primeiro intervalo de confiana no cobre o valor = 1, evidenciando
associao apenas no primeiro estrato, ao nvel de 5%.
2
O teste de homogeneidade das razes de chances forneceu XBD
= 0, 867
Tabela 3.2
Estimativas das razes de chances de tumor
cancergeno nos estratos de camundongos.
Estrato
Estimativa Intervalo assinttico
R1-Macho
4,93
[1,28 ; 18,97]
R2-Macho
4,00
[0,69 ; 23,09]
R1-Fmea
2,29
[0,64 ; 8,14]
R2-Fmea
1,88
[0,19 ; 48,87]
2
i = 1, . . . , 7. A estatstica forneceu o valor XHOM
= 131, 82, que altamente
204
(x)
1 (x)
= + x,
(3.14)
em que e so parmetros desconhecidos. Esse modelo poderia, por exemplo, ser aplicado para analisar a associao entre uma determinada doena e
a ocorrncia ou no de um fator particular. Seriam ento amostrados, independentemente, n1 indivduos com presena do fator (x=1) e n2 indivduos
com ausncia do fator (x=0) e (x) seria a probabilidade de desenvolvimento
da doena aps um certo perodo fixo. Dessa forma, a chance de desenvolvimento da doena para um indivduo com presena do fator fica dada por
(1)
= e+ ,
1 (1)
(1){1 (0)}
= e ,
(0){1 (1)}
205
(x1 , x2 )
1 (x1 , x2 )
= + x1 + x2 ,
ou seja, o mesmo nos dois estratos a menos da quantidade . Isso quer dizer
que mesmo no havendo interao entre os dois estratos (razo de chances
constante), as probabilidades de desenvolvimento da doena podem estar em
patamares diferentes. Num estrato essas probabilidades so maiores do que
no outro estrato. Essas interpretaes podem ser generalizadas para trs ou
mais tabelas.
Aplicao
Como ilustrao, vamos considerar novamente o exemplo descrito na Seo
3.5.1, supondo que agora temos apenas os estratos macho e fmea. Os dados
so resumidos na Tabela 3.4 e no arquivo camundongos.dat.
Tabela 3.4
Classificao de camundongos segundo sexo, grupo e
ocorrncia de tumor.
Macho
Fmea
Tumor Tratado Controle
Tratado Controle
Sim
6
8
5
13
No
26
158
28
159
Total
32
166
33
172
Denotamos por (x1 , x2 ) a probabilidade de desenvolvimento de tumor dados x1 (x1 =1 macho, x1 =0 fmea) e x2 (x2 =1 tratado, x2 =0 controle). Para testarmos a hiptese de ausncia de interao (H0 : = 0)
207
Var()}.
(x ){1 (x)}
= exp{(x x)}.
(x){1 (x )}
ni
n
ai > 0 no segundo
01 = exp(3 ) e 11 = exp(2 + 3 + 4 ).
Portanto, testarmos a hiptese H0 : 4 = 0 (ausncia de interao) equivalente a testarmos a hiptese de efeito multiplicativo H0 : 11 = 10 01 . Em
particular, se x3 representa dois estratos (x3 = 0, estrato 1; x3 = 1, estrato
2), a razo de chances no primeiro estrato entre presena e ausncia do fator
fica dada por 10 = exp(2 ), enquanto que no segundo estrato essa razo de
chances vale 11 /01 = exp(2 + 4 ). Logo, testarmos H0 : 4 = 0 equivale
tambm a testarmos a hiptese de homogeneidade das razes de chances nos
dois estratos.
zT
T
T
T
1
1/2
1 + exp[z c {z (X VX) z} ]
IRp , enquanto X uma matriz fixa com os valores das variveis explicativas.
211
Mtodo stepwise
Um dos mtodos mais aplicados em regresso logstica o mtodo stepwise.
O mtodo, como foi visto na Seo 1.11, baseia-se num algoritmo misto de
incluso e eliminao de variveis explicativas segundo a importncia das
mesmas de acordo com algum critrio estatstico. Esse grau de importncia
pode ser avaliado, por exemplo, pelo nvel de significncia do teste da razo
de verossimilhanas entre os modelos que incluem ou excluem as variveis em
questo. Quanto menor for esse nvel de significncia tanto mais importante
ser considerada a varivel explicativa. Como a varivel mais importante por
esse critrio no necessariamente significativa do ponto de vista estatstico,
devemos impor um limite superior PE (os valores usuais esto no intervalo
[0, 15; 0, 25]) para esses nveis descritivos, a fim de atrairmos candidatos importantes em princpio entrada.
Dado que a incluso de novas variveis explicativas num modelo pode
tornar dispensveis outras variveis j includas, faremos a verificao da
importncia dessas variveis confrontando os seus respectivos nveis com um
limite superior PS . As variveis explicativas com um nvel descritivo maior
do que PS sero assim candidatas remoo.
Descrevemos a seguir uma variante desse algoritmo usada por Hosmer
e Lemeshow (1989, Cap. 3) (ver tambm Silva, 1992). A etapa inicial comea
com o ajustamento do modelo apenas com o intercepto e completada pelos
passos seguintes:
1. construmos testes da razo de verossimilhanas entre o modelo inicial
e os modelos logsticos simples formados com cada uma das variveis
explicativas do estudo. O menor dos nveis descritivos associados a cada
teste ser comparado com PE . Se PE for maior, inclumos a varivel
referente quele nvel e passamos ao passo seguinte; caso contrrio,
212
213
Mtodo de Akaike
Um procedimento mais simples para selecionarmos variveis explicativas num
modelo logstico atravs do mtodo de Akaike descrito na Seo 1.11. Uma
sugesto primeiro fazermos uma seleo dos efeitos principais e depois num
segundo passo, das interaes de 1a ordem. Para ilustrarmos uma aplicao
do mtodo, vamos supor que as respostas binrias estejam armazenadas em
resp e as variveis explicativas sejam denotadas por var1, var2 e var3. O
ajuste do modelo logstico apenas com os efeitos principais pode ser realizado
atravs dos comandos
ajuste < glm(resp var1 + var2 + var3, family=binomial).
214
215
1 (x)
2 {1 (x)} + 1 (x)
i
h
1+
Assim, obtemos
(x) =
em que =
Pp
j=1
(x)
1(x)
1
2
1
2
(x)
1(x)
i.
elog{1 /2 }+
,
1 + elog{1 /2 }+
xj j .
ni
n
segue sob
ai > 0 quando n , o desvio D(y; )
ajustadas
(n1 +1)
(n1 +2)
(n1 +n2 ) . E assim, sucessivamente, at
definida por
C =
g
X
(Oi n
i )2
i
i=1
em que
i1
ni
i (1
i )
n1
1 X
1
1 =
(j) e
i =
n1 j=1
ni
ni ++ni
(j) ,
j=n1 ++ni1 +1
mesmo tamanho (aproximadamente), de modo que o primeiro grupo contenha ni elementos correspondentes s [n/10] menores probabilidades ajustadas
e assim por diante at o ltimo grupo com n10 elementos correspondentes s
217
aproximadamente iguais. No entanto, quando h empates, pode ser necessrio que dois indivduos com a mesma configurao de covariveis sejam
alocados em grupos adjacentes a fim de que os grupos formados no tenham
tamanhos muito desiguais. Hosmer e Lemeshow verificaram atravs de simulaes que a distribuio nula assinttica de C pode ser bem aproximada por
uma distribuio qui-quadrado com (g 2) graus de liberdade.
{2ni |log
i |}1/2
{2ni |log(1
i )|}1/2
p
p
e t Di =
,
ii
ii
1h
1h
respectivamente. O resduo Studentizado tSi , tambm utilizado para avaliarmos a presena de observaes aberrantes mesmo tendo em geral distribuio
assimtrica acentuada, toma a forma
1
(yi ni
i )
tSi = p
.
i (1
i )}1/2
ii {ni
1h
218
3.6.9 Aplicaces
Processo infeccioso pulmonar
Voltemos agora ao exemplo discutido na Seo 1.12.2 em que 175 pacientes
com processo infeccioso pulmonar foram classificados de acordo com as variveis tipo de tumor, sexo, idade, nvel de HL e nvel de FF. Para simplicidade
das anlises, iremos reagrupar os nveis de HL e FF de modo que os nveis
de intensidade ausente"e discreto"sejam agora considerados como intensidade baixa"e os nveis moderado"e intenso"sejam agora de intensidade
alta"(ver Tabela 3.7).
Nesse estudo os pacientes foram amostrados retrospectivamente, sendo
que os controles (processo benigno) foram formados por uma amostra de 104
pacientes de um grupo de 270, enquanto que os casos (processo maligno)
foram todos os pacientes diagnosticados com processo infeccioso pulmonar
maligno durante o perodo da pesquisa. Portanto, seguindo a notao da
Seo 3.6.6 , temos que 1 = 1 e 2 = 104/270 1 .
1
220
Tabela 3.7
Descrio das novas variveis referentes ao exemplo
sobre processo infeccioso pulmonar.
Varivel Descrio
Valores
Y
Processo Infecioso
1:maligno
0:benigno
IDADE Idade
em anos
SEXO
Sexo
0:masculino
1:feminino
HL
Intensidade de
1:alta
Histicitos-linfcitos 0:baixa
FF
Intensidade de
1:alta
Fibrose-frouxa
0:baixa
Aplicaremos a seguir o mtodo de seleo stepwise proposto por Hosmer e Lemeshow (1989). Na etapa 1 consideraremos apenas os efeitos principais. Adotaremos PE = 0, 20 (nvel para incluso de covariveis) e PS = 0, 25
(nvel para eliminao de covariveis).
No passo 1 inclumos a varivel explicativa IDADE, uma vez que o nvel
descritivo dessa varivel foi o menor dentre os nveis descritivos das demais
variveis explicativas e tambm foi menor do que PE . No passo seguinte
inclumos a varivel explicativa HL, e agora com duas variveis includas
no modelo verificamos se possvel eliminar uma das duas. O maior nvel
descritivo da IDADE que encontra-se na Tabela 3.8 na linha de referncia do
passo 2. O nvel descritivo dessa varivel no superior a PS , logo mantemos
a IDADE no modelo. Seguindo essa lgica, encontramos os menores nveis
descritivos em cada passo como sendo o elemento da diagonal principal de
cada passo. No passo 3, por exemplo, entra a varivel explicativa SEXO que
tem o menor nvel descritivo que por sua vez menor do que PE . Dado que
SEXO entra no modelo verificamos se uma das duas variveis j includas
no modelo pode sair. Assim, no mesmo passo 3, notamos que o maior nvel
221
vez que o menor nvel descritivo dos testes de incluso foi menor do que PE .
Assim, o modelo resultante contm os efeitos principais e trs interaes de
primeira ordem.
Tabela 3.8
Nveis descritivos referentes etapa 1
do processo de seleo stepwise.
Passo IDADE HL
SEXO FF
1
0,000
0,000 0,288 0,001
2
0,000
0,000 0,100 0,003
3
0,000
0,000 0,050 0,125
4
0,000
0,000 0,072 0,183
5
0,000
0,000 0,072 0,183
222
Nveis
Passo
1
2
3
4
descritivos
IDA*HL
0,013
0,023
0,028
Tabela 3.9
referentes etapa 2 do processo de seleo
HL*FF SEX*FF IDA*FF IDA*SEX
0,014
0,059
0,056
0,657
0,027
0,060
0,231
0,218
0,005
0,012
0,234
0,275
0,208
0,403
stepwise.
HL*SEX
0,063
0,099
0,176
0,794
bem como os valores padronizados pelos respectivos erros padro aproximados encontram-se na Tabela 3.10.
0.4
69
1
0
1
Componente do Desvio
0.3
0.2
Alavanca
0.1
172
6
0.0
21
0.0
0.2
0.4
0.6
0.8
0.0
0.2
0.6
0.8
Valor Ajustado
(b)
Valor Ajustado
(a)
0.4
2
1
0
3
0.0
Componente do Desvio
1.0
69
0.5
Distancia de Cook
1.5
172
0.0
0.2
0.4
0.6
0.8
Valor Ajustado
(c)
Percentil da N(0,1)
(d)
Ocorrncia de vaso-constrio
Como outra aplicao, vamos considerar os dados de um experimento desenvolvido para avaliar a influncia da quantidade de ar inspirado na ocorrncia
de vaso-constrio na pele dos dedos da mo (Finney, 1978; Pregibon, 1981).
Os dados do experimento so descritos na Tabela 3.12 e tambm no arquivo
pregibon.dat. A resposta, nesse exemplo, a ocorrncia (Y = 1) ou ausncia (Y = 0) de compresso de vasos e as covariveis so o logaritmo do
volume e o logaritmo da razo de ar inspirado. Vamos supor para a i-sima
unidade experimental que Yi Be(i ), em que
i
= 1 + 2 log(volume)i + 3 log(razao)i ,
log
1 i
com i denotando a probabilidade de ocorrncia de vaso-constrio.
227
Tabela 3.12
Dados do experimento sobre a influncia da razo e do volume de ar
inspirado na ocorrncia de vaso-constrio da pele dos dedos da mo.
Obs Volume Razo Resposta
Obs. Volume Razo Resposta
1
3,70
0,825
1
20
1,80
1,800
1
2
3,50
1,090
1
21
0,40
2,000
0
3
1,25
2,500
1
22
0,95
1,360
0
4
0,75
1,500
1
23
1,35
1,350
0
5
0,80
3,200
1
24
1,50
1,360
0
6
0,70
3,500
1
25
1,60
1,780
1
7
0,60
0,750
0
26
0,60
1,500
0
8
1,10
1,700
0
27
1,80
1,500
1
9
0,90
0,750
0
28
0,95
1,900
0
10
0,90
0,450
0
29
1,90
0,950
1
11
0,80
0,570
0
30
1,60
0,400
0
12
0,55
2,750
0
31
2,70
0,750
1
13
0,60
3,000
0
32
2,35
0,030
0
14
1,40
2,330
1
33
1,10
1,830
0
15
0,75
3,750
1
34
1,10
2,200
1
16
2,30
1,640
1
35
1,20
2,000
1
17
3,20
1,600
1
36
0,80
3,330
1
18
0,85
1,415
1
37
0,95
1,900
0
19
1,70
1,060
0
38
0,75
1,900
0
39
1,30
1,625
1
As estimativas dos parmetros so descritas na Tabela 3.13 e como
podemos notar as variveis explicativas log(volume) e log(razo) so al = 29, 36 (com 36
tamente significativas. O desvio do modelo foi de D(y; )
graus de liberdade), indicando um ajuste adequado. As Figuras 3.2a-3.2d
descrevem alguns dos grficos sugeridos acima bem como o grfico normal
de probabilidades com envelope para o resduo tDi . Na Figura 3.2a temos o
ii contra os valores ajustados e podemos notar que a observao
grfico de h
#31 destacada mais do que as restantes.
228
229
i
1
7,9,10,11,32
0 5
0,0024
2
4,18,21,26,30
2 5
0,0459
3
12,13,22,28,38 0 5
0,2737
4
8,19,23,29,37
1 5
0,5113
5
6,24,31,33,39
3 5
0,6728
6
5,15,34,35,36
5 5
0,7956
7
3,14,20,25,27
5 5
0,8974
8
1,2,16,17
4 4
0,9766
0.25
0.8
18
0.0
0.4
Distancia de Cook
0.15
0.10
0.0
0.05
Alavanca
0.20
1.2
31
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
14
Valor Ajustado
(a)
0.8
1.0
Valor Ajustado
(b)
1
0
-2
18
-1
Componente do Desvio
10
12
(Resid.Studentizado)^2
0.6
0.0
0.2
0.4
0.6
0.8
1.0
-2
Valor Ajustado
(c)
-1
Percentil da N(0,1)
(d)
Preferncia de consumidores
Para ilustrarmos uma terceira aplicao com resposta binria vamos analisar
parte dos dados descritos no arquivo prefauto.dat sobre a preferncia de
consumidores americanos com relao a automveis. Uma amostra aleatria
de 263 consumidores foi considerada. As seguintes variveis foram observadas
para cada comprador: preferncia do tipo de automvel (1: americano, 0:
231
40
20
30
Idade
50
60
Japones
Americano
0.30
0.20
99
0.0
0.10
0.06
223
Distancia de Cook
99
0.02
Medida h
0.10
0.3
0.4
0.5
0.6
0.7
50
150
200
250
50
100
150
200
250
1
0
-1
-2
-1
Componente do Desvio
Indice
(b)
-2
Valor Ajustado
(a)
100
-3
Indice
(c)
-1 0
Percentil da N(0,1)
(d)
234
f (u)du,
(3.15)
em que f () representa uma funo densidade de probabilidade, tambm conhecida como funo de tolerncia. Como vimos na Seo 1.3.1, alguns candidatos naturais para f (u) so as funes de densidade da normal padro,
da distribuio logstica e da distribuio do valor extremo, as quais levam
aos modelos probito, logstico e complementar log-log, respectivamente. Utilizamos o preditor linear = 1 + 2 x no lugar de x em (3.15) a fim de
ampliarmos o leque de opes para (x).
Os modelos de dose-resposta visam no somente a predio da probabilidade de sucesso (x) para uma dosagem especfica x, mas tambm a
determinao da dosagem necessria para atingirmos uma probabilidade de
235
c
DL100p = d() =
log
1 ,
1p
2
em torno de , levando
o de primeira ordem por srie de Taylor de d()
ao seguinte:
em que
1 1
,
D() = d()/ =
2 22
T
p
.
1 log
1p
c 100p z(1/2)
DL
236
VarA [d()].
3.6.11 Aplicaes
Exposio de besouros
Tabela 3.18
Mortalidade de besouros expostos
a disulfeto de carbono gasoso.
Dose
Besouros Besouros
log10 CS2
expostos
mortos
1,6907
59
6
1,7242
60
13
1,7552
62
18
1,7842
56
28
1,8113
63
52
1,8369
59
53
1,8610
62
61
1,8839
60
60
Em Bliss (1935) (ver tambm Silva, 1992) encontramos uma situao
tpica para o ajuste de um modelo logstico de dose-resposta. O estudo
baseia-se no comportamento de besouros adultos exposio de disulfeto de
carbono gasoso (CS2 ) durante cinco horas. Os resultados obtidos a partir dos
481 besouros expostos segundo diferentes doses so apresentados na Tabela
3.18 e no arquivo besouros.dat. Ajustando um modelo logstico do tipo
logit{(x)} = 1 +2 x aos dados, em que x denota a dose de CS2 , obtemos as
estimativas 1 = 60, 72(5, 18), 2 = 34, 27(2, 91) e Cov(1 , 2 ) = 15, 04.
237
0
-1
-3
-2
Componente do Desvio
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
Percentil da N(0,1)
1
0, 5
log
1
1 0, 5
2
60, 72
1
= =
34, 27
2
= 1, 772.
c 50 =
DL
Um intervalo de confiana assinttico de 95% para DL50 fica ento dado por
s
0,
029
1
T
T
238
0.6
0.4
0.0
0.2
Porporcao de Mortos
0.8
1.0
1.65
1.70
1.75
1.80
1.85
1.90
dose
239
1
0
-2
-1
Componente do Desvio
0.6
0.4
0.2
-3
0.0
Porporcao de Mortos
0.8
1.0
1.65
1.70
1.75
1.80
1.85
1.90
-1.5
dose
(a)
-0.5
0.0
0.5
1.0
Percentil da N(0,1)
(b)
Figura 3.7: Curva ajustada para a proporo de besouros mortos (a) e grfico
normal de probabilidades sob o modelo complementar log-log (b).
Para o modelo com ligao complemento log-log a estimativa de mxima verossimilhana de DL100p fica dada por
h
i
= 1 log{log(1 p)} 1 ,
c 100p = d()
DL
2
em que
240
1.5
log{log(1 0, 5)} 1
2
1
(0, 3665 + 39, 57)
=
22, 04
= 1, 779.
c 50 =
DL
Garotas de Varsvia
Os problemas de dose-resposta no se esgotam em Toxicologia. Milecer e
Szczotka (1966) investigam a idade do incio da menstruao em 3918 garotas de Varsvia. Para 25 mdias de idade foram observadas a ocorrncia
(Y = 1) ou no (Y = 0) do incio de perodos de menstruao nas adolescentes. Os dados desse estudo so apresentados na Tabela 3.19 e no arquivo
meninas.dat. Adotamos o modelo logstico linear
(x)
= 1 + 2 x,
log
1 (x)
em que (x) = P r{Y = 1|x} e x denota a idade mdia. As estimativas
de mxima verossimilhana deram 1 = 21, 23(0, 769), 2 = 1, 63(0, 059)
e Cov(1 , 2 ) = 0, 045. Na Figura 3.8 so apresentadas a curva ajustada
241
Idade
9,21
10,21
10,58
10,83
11,08
11,33
11,58
11,83
12,08
12,33
12,58
12,83
Tabela 3.19
Ocorrncia do incio da menstruao em garotas de Varsvia.
Nmero de garotas
Nmero de garotas
Menstruadas Entrevistadas
Idade Menstruadas Entrevistadas
0
376
13,08
47
99
0
200
13,33
67
106
0
93
13,58
81
105
2
120
13,83
88
117
2
90
14,08
79
98
5
88
14,33
90
97
10
105
14,58
113
120
17
111
14,83
95
102
16
100
15,08
117
122
29
93
15,33
107
111
39
100
15,58
92
94
51
108
15,83
112
114
17,53
1049
1049
0.8
0.6
0.4
0.2
0.0
1.0
10
12
14
16
18
Idade
Figura 3.8: Curva ajustada pelo modelo logstico linear para a proporo de
garotas de Varsvia.
a incluso de um termo quadrtico na parte sitemtica do modelo. O ajuste
de um modelo com parte sistemtica dada por
(x) = 1 + 2 x + 3 x2
forneceu as seguintes estimativas: 1 = 30, 96(5, 24), 2 = 3, 12(0, 78) e
= 23, 40 (22 graus de liberdade) para
3 = 0, 06(0, 03) com desvio D(y, ; )
um nvel descritivo de P= 0, 38. O grfico de envelope descrito na Figura
243
distribudas com mdias 0 e 1 , varincias v00 e v11 e covarincia v01 . Definimos a funo = 0 1 . Ento, se 0 e 1 so estimativas no viesadas
= 0. A varincia de fica, portanto, dada por
de 0 e 1 , obtemos E()
= v00 + 2 v11 2v01 .
v = Var()
(3.16)
Desde que 0 e 1 so normalmente distribudos, ento tambm normalmente distribudo. Consequentemente, a varivel
(0 1 )/ v
segue uma distribuio normal padro. Assim, um intervalo assinttico de
confiana para com coeficiente (1 ) formado pelos valores de tais
que
| 0 1 | z(1/2) v.
que, aps algumas manipulaes algbricas e usando (3.16), fica dada por
2
2
2
(12 z(1/2)
v11 )2 + (2v01 z(1/2)
20 1 ) + 02 v00 z(1/2)
= 0.
2
1
0
-1
-3
-2
Componente do Desvio
1
0
-1
-2
-3
Componente do Desvio
(1 ) para DL50 .
-2
-1
-2
-1
(3.17)
Aplicao
A Tabela 3.20 resume os resultados de um experimento (ver Collett, 1991)
em que trs inseticidas so aplicados num determinado tipo de inseto e
verificado o nmero de sobreviventes para cada dose aplicada. Esses dados
esto tambm descritos no arquivo insetic.dat.
Tabela 3.20
Mortalidade de insetos segundo as doses de trs inseticidas.
Dose mg/cm2
Inseticida
2,00
2,64
3,48
4,59
6,06
8,00
DDT
3/50 5/49 19/47 19/50 24/49 35/50
-BHC
2/50 14/49 20/50 27/50 41/50 40/50
DDT + -BHC 28/50 37/50 46/50 48/50 48/50 50/50
Ajustando o modelo (3.17) com ligao logito aos dados, obtemos as
estimativas
1 = 4, 555(0, 361),
2 = 3, 842(0, 333),
3 = 1, 425(0, 285)
246
1
0
-1
-2
Componente do Desvio
-2
-1
Percentil da N(0,1)
1 (xj )
= 4, 555 + 2, 696logxj (DDT);
log
1
1 (xj )
2 (xj )
log
= 3, 842 + 2, 696logxj (BHC) e
1
2 (xj )
3 (xj )
log
= 1, 425 + 2, 696logxj (DDT + BHC),
1
3 (xj )
para j = 1, . . . , 6. Notamos, pelas estimativas, que h um aumento de
potncia quando as drogas DDT e -BHC so misturadas. Em particu247
3.6.14 Sobredisperso
Sobredisperso ou variao extrabinomial um fenmeno comum que ocorre
na modelagem de dados binrios agrupados e cuja ocorrncia caracterizada
quando a variao observada excede aquela assumida pelo modelo (ver, por
exemplo, Hinde e Demtrio, 1998). Em particular em regresso logstica,
maior que o nmero de graus de liberdade (g p),
quando o desvio D(y; )
pode haver indcios de sobredisperso, em que g o nmero de grupos. Isso
pode ser avaliado mais precisamente pelo nvel descritivo do teste de ajus com os percentis da distribuio qui-quadrado
tamento comparando D(y; )
com (g p) graus de liberdade.
248
Caso I
Vamos supor inicialmente a existncia de g grupos de modo que para o i-simo
grupo sejam observadas ni repeties de uma varivel aleatria Yij Be(i )
(Bernoulli com probabilidade de sucesso i ). O nmero total de sucessos no
ni
X
Var(Yij ) +
j=1
ni
ni
X
X
Cov(Yij , Yik ).
j=1 k=1,k6=j
ni
X
j=1
i (1 i ) +
ni
ni
X
X
j=1 k=1,k6=j
i (1 i )
= ni i (1 i ) + ni (ni 1)i (1 i )
= i2 ni i (1 i ),
em que i2 = 1 + (ni 1). Se exigido que i2 > 0, ento devemos ter
1 + (ni 1) > 0,
249
1
1.
ni 1
(sobredisperso).
Caso II
Vamos supor agora que pi representa a probabilidade de sucesso nas respostas
do i-simo grupo tal que E(pi ) = i e Var(pi ) = i (1 i ), 0. Temos
= ni i (1 i )(1 ) + n2i i (1 i )
= ni i (1 i ){1 + (ni 1)},
que coincidem com os resultados obtidos para o primeiro caso. No entanto
aqui temos a restrio 0.
Estimao
A estimao de tem sido discutida em vrios contextos. No primeiro caso,
por exemplo, pode ser consistentemente estimado por
=
g
X
X
i=1 <
(3.18)
1 xi (yi ni
{1 + (ni 1)}
i ) = 0.
(m+1)
(m)
g
g
X
X
(m)
(m)
(m)
(m)
(m)
T 1
{i xi (yi ni i )/ni i (1 i )},
i xi xi }
+{
i=1
i=1
(3.19)
O processo iterativo
m = 0, 1, 2 . . ., em que i = ni i (1 i )/{1 + (ni 1)}.
(3.19) alternado com (3.18) at chegarmos convergncia. Podemos mos G consistente e assintoticamente normal. A varincia
trar que o estimador
G dada por
assinttica de
g
X
i xi xTi }1 .
Var( G ) = {
i=1
H tambm uma proposta de varincia assinttica robusta no caso da estrutura de correlao ter sido definida incorretamente, que dada por
g
g
g
X
X
X
T
T 1
i xi xTi }1 ,
i xi xi }{
i xi xi } {
Var( G ) = {
i=1
i=1
i=1
P
em que i = {1 + (ni 1)}2 , (yi i )(yi i ). Um desvio corrigido
P
2 , em que d2
para esse modelo fica dado por D(y;
G ) = gi=1 {1 + (ni 1)}d
i
i
G.
o i-simo componente do desvio de um modelo binomial, avaliado em
251
252
Quase-Verossimilhana
Uma outra possibilidade de estudarmos o fenmeno de sobredisperso atravs do uso do modelo beta-binomial em que Yi | B(ni , ) enquanto
D(y; )
1 =
.
gp
254
1
0
-1
-3
-2
Componente do Desvio
-2
-1
Percentil da N(0,1)
1 =
1 X (yi ni
i )2
,
g p i=1 ni
i (1
i )
255
D(y; )
21, 282
1 =
=
= 1, 52.
gp
14
= D(y;
e
D (y; )
)
tDi
q
D . O novo grfico normal de probabilidades, agora com t ,
= t
i
Di
Aplicao
Collett (1991, Seo 6.9) descreve um experimento com duas espcies de
rotifers, um tipo microscpico de invertebrado aqutico. O objetivo do experimento determinar a densidade relativa para cada uma das espcies.
Foi utilizado um mtodo indireto que consiste em centrifugar os animais em
recipientes com densidades relativas de uma determinada substncia e ento
utilizar uma regresso logstica para ajustar a proporo de rotifers que permanece suspensa segundo a densidade relativa. A densidade relativa de cada
espcie pode ser estimada pela DL50 , que nesse caso representa a densidade
relativa da substncia que deixa suspenso 50% de rotifers.
Seja Yij o nmero de animais da i-sima espcie que permanecem suspensos num recipiente com densidade relativa dj da soluo, onde foram
256
log
ij
1 ij
= i + i dj .
Tabela 3.21
Distribuio de rotifers das duas espcies.
Polyarthra major
Keratella cochlearis
Densidade Suspensos Expostos Suspensos Expostos
1,019
11
58
13
161
1,020
7
86
14
248
1,021
10
76
30
234
1,030
19
83
10
283
1,030
9
56
14
129
1,030
21
73
35
161
1,031
13
29
26
167
1,040
34
44
32
286
1,040
10
31
22
117
1,041
36
56
23
162
1,048
20
27
7
42
1,049
54
59
22
48
1,050
20
22
9
49
1,050
9
14
34
160
1,060
14
17
71
74
1,061
10
22
25
45
1,063
64
66
94
101
1,070
68
86
63
68
1,070
488
492
178
190
1,070
88
89
154
154
2
0
-2
-6
-4
Componente do Desvio
-2
-1
Percentil da N(0,1)
vel m distribuio dos animais nos recipientes, uma vez que rotifers mais
jovens so menos densos do que os mais maduros. Collett (1991) prope
um modelo logstico com efeito aleatrio para ajustar a proporo de animais em suspenso e consegue uma reduo substancial no valor do desvio.
258
0
-1
-2
Residuo de Pearson
intraunidade experimental.
-3
16
0.0
0.2
0.4
0.6
0.8
Valor Ajustado
2
1
0.0
0.4
28
0.2
Distancia de Cook
0.6
18
10
15
20
25
30
Indice
10
15
20
25
30
Indice
i (1)/{1 i (1)}
= exp()
i (0)/{1 i (0)}
1
a
ma
1 ,
Pv
1
t
t=u t mt
1
a
261
exp(x1i x2i )
,
1 + exp(x1i x2i )
ki=1
exp{(xi1 xi2 )}
.
1 + exp{(xi1 xi2 )}
i (x)
1 i (x)
= i + xT ,
Tcnicas de diagnstico
Moolgavkar, Lustbader e Venzon (1985) e Pregibon (1984) tm mostrado
que a maioria das tcnicas usuais de diagnstico do modelo logstico no
condicional podem ser estendidas para o modelo logstico condicional. Como
a varivel resposta no modelo logstico condicional sempre assume o valor 1,
o resduo componente do desvio sempre positivo, sendo dado por
2|log
i |
,
t Di = p
ii
1h
263
i =
exp(zTi )
1 + exp(zT )
ii =
1 zi .
h
i (1
i )zTi (ZT VZ)
ii
h
r2 ,
ii )2 Pi
(1 h
1
i
rPi = p
i (1
i )
o resduo de Pearson. Temos que rP1 assume sempre valores no negativos.
O grfico de LDi contra os valores ajustados
i pode revelar aqueles emparelhamentos com maior influncia nas estimativas dos parmetros. A gerao
de envelope, contudo, somente pode ser feita atravs do modelo logstico
condicional.
Para ilustrarmos o ajuste no R, vamos supor um estudo com k = 20
emparelhamentos do tipo 1:1 e que foram observados os valores de duas
covariveis V 1 e V 2. Os valores observados dos casos sero armazenados nos
objetos v11 e v12 e os valores observados dos controles nos objetos v21 e
v22. O ajuste segue os seguintes passos:
resp < rep(1, times=20)
z1 < v11 - v21
z2 < v12 - v22
fit.cond < glm(resp z1+z2 - 1, family=binomial).
Aplicao
Como aplicao, discutimos a seguir um estudo cujo objetivo foi avaliar o
efeito da obesidade, do histrico familiar e de atividades fsicas no desenvolvimento de diabetes no dependente de insulina. 30 indivduos no diabticos
foram emparelhados com 30 indivduos diabticos no dependentes de insulina pela idade e pelo sexo. A obesidade foi medida atravs do ndice de
massa coporal (IMC), que definida como sendo o peso (em kg) dividido
pela altura (em metros quadrados). O histrico familiar com diabetes (HF)
e as atividades fsicas (ATF) foram tratadas como sendo variveis binrias
(HF=1 presena, HF=0 ausncia; ATF=1 presena, ATF=0 ausncia). Os
dados so descritos em Lee (1991, p. 312) e reproduzidos na Tabela 3.22 e
esto tambm no arquivo diabetes.dat. Denotaremos por xi11 , xi12 e xi13 ,
respectivamente, o valor da massa corporal (IMC), histrico familiar (HF) e
atividades fsicas (ATF) para o i-simo indivduo diabtico e por xi21 , xi22
e xi23 os valores dessas variveis para o i-simo indivduo no diabtico. A
funo de verossimilhana do modelo logstico condicional ser dada por
exp(zi1 1 + zi2 2 + zi3 3 )
30
,
() = i=1
1 + exp(zi1 1 + zi2 2 + zi3 3 )
em que zi1 = xi11 xi21 , zi2 = xi12 xi22 e zi3 = xi13 xi23 .
Tabela 3.22
Emparelhamento de 30 diabticos no
dependentes de insulina (casos) e 30
no diabticos (controles).
Casos
Controles
Par IMC HF ATF
IMC HF ATF
1
22,1
1
1
26,7
0
1
2
31,3
0
0
24,4
0
1
3
33,8
1
0
29,4
0
0
4
33,7
1
1
26,0
0
0
5
23,1
1
1
24,2
1
0
6
26,8
1
0
29,7
0
0
7
32,3
1
0
30,2
0
1
8
31,4
1
0
23,4
0
1
9
37,6
1
0
42,4
0
0
10 32,4
1
0
25,8
0
0
11 29,1
0
1
39,8
0
1
12 28,6
0
1
31,6
0
0
13 35,9
0
0
21,8
1
1
14 30,4
0
0
24,2
0
1
15 39,8
0
0
27,8
1
1
16 43,3
1
0
37,5
1
1
17 32,5
0
0
27,9
1
1
18 28,7
0
1
25,3
1
0
19 30,3
0
0
31,3
0
1
20 32,5
1
0
34,5
1
1
21 32,5
1
0
25,4
0
1
22 21,6
1
1
27,0
1
1
23 24,4
0
1
31,1
0
0
24 46,7
1
0
27,3
0
1
25 28,6
1
1
24,0
0
0
26 29,7
0
0
33,5
0
0
27 29,6
0
1
20,7
0
0
28 22,8
0
0
29,2
1
1
29 34,8
1
0
30,0
0
1
30 37,3
1
0
26,5
0
0
266
Emparelhamento 1:M
Para emparelhamentos do tipo 1:M (M 2) e k estratos a funo de verossi-
milhana (ver, por exemplo, Breslow e Day, 1980; Cordeiro e Paula, 1989b)
para = (1 , . . . , p )T fica dada por
() =
ki=1 {exp(xTi0 )/
M
X
exp(xTi )},
(3.20)
=0
k
X
[xTi0
i=1
M
X
log{
exp(xTi )}],
(3.21)
=0
267
3.7 Exerccios
3.7 Exerccios
1. Os dados abaixo so de um estudo de seguimento cujo objetivo foi
avaliar a associao de duas tcnicas cirrgicas, A e B, e a ocorrncia
de problemas graves ps-operatrios segundo duas faixas de idade.
Faixa I
Problema A B
Sim
6
7
No
14 23
Faixa II
A B
7
4
9 12
Baixo
104
666
770
Total
200
775
975
3.7 Exerccios
3. (Day e Byar, 1979). Suponha Yij B(nij , ij ) mutuamente independentes, i, j = 1, 2 com as probabilidades ij sendo definidas por
i1
i2
log
= i e log
= i + .
1 i1
1 i2
2
(XM
H ) para testar H0 : = 1 contra H1 : 6= 1, em que =
i2 (1 i1 )/i1 (1 i2 ), i = 1, 2.
ind
3.7 Exerccios
de um extrato qumico, respectivamente, na morte de um determinado
tipo de caramujo. Para cada conjunto, ajuste um modelo logstico linear simples e um modelo complementar log-log linear simples. Para
o melhor ajuste (use envelopes como critrio), encontre um intervalo
assinttico de 95% para a dose letal DL50 , construa as bandas de confiana e verifique se h indcios de sobredisperso aplicando um teste
apropriado.
8. (Collett, 1991, p.127). Os dados abaixo so provenientes de um experimento desenvolvido para avaliar a germinao de um determinado tipo
de semente segundo trs condies experimentais: nvel da temperatura
(21o C, 42o C e 62o C); nvel da umidade (baixo, mdio e alto) e temperatura da germinao (11o C e 21o C). A tabela abaixo apresenta o
nmero de sementes que germinaram aps cinco dias para cada 100 sementes submetidas a cada condio experimental. Assuma um modelo
logstico para explicar o nmero de sementes que germinaram. Aplique
o mtodo AIC para selecionar um modelo considerando interaes de
1a ordem. Interprete os resultados. Faa uma anlise de resduos com
o modelo selecionado. Esses dados esto descritos no arquivo sementes.dat.
Temperatura da Nvel da
Germinao
Umidade
o
11 C
baixo
11o C
mdio
11o C
alto
21o C
baixo
21o C
mdio
o
21 C
alto
Nvel
21o C
98
94
92
94
94
91
da Temperatura
42o C 62o C
96
62
79
3
41
1
93
65
71
2
30
1
3.7 Exerccios
lhana no condicional da razo de chances numa tabela 2 2 dada
por
1
1
=
VarA ()
.
+
n1 1 (1 1 ) n2 2 (1 2 )
Lembre que: sob condies gerais de regularidade, os estimadores de
2
Resultado
Curado
No-Curado
Nvel de
E1 E2
20 16
80 84
Exposio
E3 E4
12
5
48 20
3.7 Exerccios
razes de chances contra a alternativa de razes de chances diferentes.
Sugesto: use a estaststica XA2 .
12. Sejam Y1 , . . . , Yn variveis aleatrias mutuamente independentes tais
que Yi B(m, i ), em que log{i /(1 i )} = . (i) Encontre a es-
Var(
), v11 = Var()
, ).
14. (Lawless, 1982, p.389; Efron, 1988). Vamos considerar agora uma aplicao de regresso logstica em anlise de sobrevivncia. Seja i (t) a
probabilidade de um equipamento do tipo i falhar no intervalo It =
(t 1, t] dado que o mesmo no falhou at o tempo t 1. Seja Yit o
nmero de falhas no intervalo It e seja nit o nmero de equipamentos
3.7 Exerccios
modelo logstico do tipo
i (t)
log
= i + i t + i t2
1 i (t)
(3.22)
Tempo
1
2
3
4
5
Tipo A
n1t y1t
42 4
38 3
35 3
31 5
26 6
Tipo B
n2t y2t
50 6
44 11
32 10
22 8
12 6
Tipo C
n3t y3t
48 11
37 10
27 12
15 8
6
4
3.7 Exerccios
varivel com observaes perdidas, exclua das anlises as pacientes correspondentes.
16. (Morgan, 1992, p.90). A tabela abaixo descreve os resultados de um
experimento em que a toxicidade de trs concentraes (R-rotenine,
D-deguelin e M-mistura, essa ltima como uma mistura das duas primeiras) investigada. As concentraes foram testadas em insetos e
observado para cada dose o nmero de insetos mortos. Os dados esto
descritos no arquivo morgan.dat.
Concentrao
R
R
R
R
R
Dose Expostos
0,41
50
0,58
48
0,71
46
0,89
49
1,01
50
Mortos
6
16
24
42
44
D
D
D
D
D
D
0,71
1,00
1,31
1,48
1,61
1,70
49
48
48
49
50
48
16
18
34
47
47
48
M
M
M
M
M
M
0,40
0,71
1,00
1,18
1,31
1,40
47
46
46
48
46
50
7
22
27
38
43
48
3.7 Exerccios
se h indcios de sobredisperso aplicando um teste apropriado. Teste
a hiptese de paralelismo com todos os pontos e sem as observaes
discrepantes. Comente.
17. Vamos considerar agora uma aplicao de regresso logstica em transportes. Seja i (t) a probabilidade de um caminho do tipo i ser desativado durante o ano t dado que o mesmo no foi desativado durante
o ano t 1. Assuma que durante o ano t foram desativados yit cami-
k
X
yt n2t
y2t
nt
t=1
)2
k
X
yt n1t n2t (nt yt )
t=1
n3t
1
iyi
yi 1yi
P 1 1 1 t ,
t=0 t 1t i
3.7 Exerccios
de Fisher para ; (iii) como fica o teste de escore para testar H0 : = 0
contra H1 : 6= 0? Qual a distribuio
q nula assinttica do teste? (iv)
Idade
< 30
No. de cigarros
<5
5+
30+
<5
5+
Durao da Sobrevivncia
Gestao
No
Sim
260
50
315
> 260
24
4012
260
9
40
> 260
6
459
260
41
147
> 260
14
1594
260
4
11
> 260
1
124
3.7 Exerccios
Algumas variveis explicativas pr-tratamento foram tambm observadas. As variveis em estudo so as seguintes: (i) idade do paciente na
poca do diagnstico (em anos), (ii) mancha diferencial da doena (em
%), (iii) infiltrao na medula (em %), (iv) clulas com leucemia na
medula (em %), (v) malignidade da doena (103 ), (vi) temperatura
mxima antes do tratamento (10o F ), (vii) tratamento (1: satisfatrio, 0: no satisfatrio), (viii) tempo de sobrevivncia aps o diagnstico (em meses) e (ix) situao (1: sobrevivente, 0: no sobrevivente).
Considere um modelo logstico linear para explicar a probabilidade de
eficincia do tratamento dadas as seis variveis explicativas. Selecionar as variveis explicativas bem como as interaes de primeira ordem
atravs do mtodo stepwise. Usar PE = PS = 0, 20. Fazer uma anlise
de diagnstico com o modelo selecionado e interpretar algumas razes
de chances. Calcular a estatstica de Hosmer-Lemeshow para avaliar a
qualidade do ajuste do modelo selecionado.
21. (McCullagh e Nelder, 1989, pgs. 128-135). No arquivo grahani.dat
esto os dados referentes distribuio de duas espcies de lagarto
(grahani e opalinus) segundo quatro fatores: (i) perodo do dia (manh,
meio-dia, tarde), (ii) comprimento da madeira (curta, comprida), (iii)
largura da madeira (estreita, larga) e (iv) local de ocupao (claro,
escuro). Suponha que o nmero de lagartos encontrados da espcie
grahani tenha distribuio binomial.
(i) Proponha um modelo logstico (sem interao) para explicar a proporo de lagartos da espcie grahani. Ajuste o modelo e verifique
atravs do teste da razo de verossimilhanas quais efeitos so significativos ao nvel de 10%.
(ii) Verifique separadamente se cada interao de primeira ordem pode
277
3.7 Exerccios
ser includa no modelo ao nvel de 5%. Construa o ANODEV.
(iii) Interprete os resultados tentando falar de uma forma no tcnica
sobre as preferncias dos dois tipos de lagarto.
22. (Agresti, 1990, pgs. 122-123). Cinquenta e quatro indivduos considerados idosos so submetidos a um exame psiquitrico para avaliar a
ocorrncia ou no de sintoma de caduquice. Acredita-se que o escore
obtido num exame psicolgico feito previamente esteja associado com
a ocorrncia ou no do sintoma. Os dados so apresentados abaixo
(score: escala no exame psicolgico e resp: ocorrncia (resp=1) ou
no ocorrncia (resp=0) do sintoma). Esses dados esto descritos no
arquivo caduquice.dat.
Score
9
13
6
8
10
4
14
8
11
7
9
Resp Score
1
7
1
5
1
14
1
13
1
16
1
10
1
12
1
11
1
14
1
15
1
18
Resp Score
1
7
1
16
1
9
0
9
0
11
0
13
0
15
0
13
0
10
0
11
0
6
Resp Score
0
17
0
14
0
19
0
9
0
11
0
14
0
10
0
16
0
10
0
16
0
14
Resp
0
0
0
0
0
0
0
0
0
0
0
Score Resp
13
0
13
0
9
0
15
0
10
0
11
0
12
0
4
0
14
0
20
0
3.7 Exerccios
23. (Neter et el., 1996, pgs. 582-584). Em um estudo para investigar a
incidncia de dengue numa determinada cidade da costa mexicana, um
total de 196 indivduos, escolhidos aleatoriamente em dois setores da
cidade, respondeu s seguintes perguntas: (i) idade, idade do entrevistado (em anos), (ii) nivel, nvel scio-econmico (nivel=1, nvel
alto; nivel=2, nvel mdio; nivel=3, nvel baixo) e (iii) setor, setor
da cidade onde mora o entrevistado (setor=1, setor 1; setor=2, setor
2) e (iv) caso, se o entrevistado contraiu (caso=1) ou no (caso=0) a
doena recentemente. Um dos objetivos do estudo tentar prever ou
explicar a probabilidade de um indivduo contrair a doena dadas as
variveis explicativas idade, nivel e setor. Os dados esto descritos
no arquivo dengue.dat. Tente selecionar um modelo atravs da aplicao do mtodo AIC considerendo interaes de 1a ordem. Faa uma
interpretao do modelo selecionado (atravs de razes de chances) e
faa uma anlise de diagnstico do mesmo. Verifique a qualidade do
ajuste atravs da estatstica de Hosmer-Lemeshow.
24. (McCullagh e Nelder, 1989, p.144). No arquivo olhos.dat so apresentados dados referentes a 78 famlias com pelo menos seis filhos cada
uma. Na primeira coluna tem-se a classificao dos olhos dos pais segundo a cor (1: ambos claros, 2: ambos castanhos, 3: ambos escuros, 4:
claro e castanho, 5: claro e escuro e 6: castanho e escuro), na segunda
coluna a classificao dos olhos dos avs segundo a cor (1: todos claros,
2: todos castanhos, 3: todos escuros, 4: trs claros e um castanho, 5:
trs claros e um escuro, 6: um claro e trs castanhos, 7: um escuro
e trs castanhos, 8: um claro e trs escuros, 9: um castanho e trs
escuros, 10: dois claros e dois castanhos, 11: dois claros e dois escuros,
12: dois castanhos e dois escuros, 13: dois claros, um castanho e um
279
3.7 Exerccios
escuro, 14: um claro, dois castanhos e um escuro e 15: um claro, um
castanho e dois escuros), na terceira coluna tem-se o nmero de filhos
na famlia e na ltima coluna o nmero de filhos com olhos claros. Seja
Yi o nmero de filhos com olhos claros pertencentes i-sima famlia.
Assuma inicialmente que Yi B(ni , i ), i = 1, . . . , 78. Resolver os tens
abaixo.
280
Captulo
4.1 Introduo
Neste captulo apresentamos alguns mtodos para a anlise de dados de contagem. Inicialmente so apresentados os principais mtodos tradicionais e
em seguida discutimos a modelagem atravs de regresso. Duas situaes
de interesse so consideradas. Na primeira delas, muito comum em estudos
de seguimento, as unidades amostrais so classificadas segundo os nveis de
categorias, tais como sexo, faixa etria, tipo de tratamento etc, e so acompanhadas por um perodo fixo pr-estabelecido ou at a ocorrncia de um
determinado evento. Temos, portanto, um tempo particular de observao
para cada unidade amostral, o qual dever ser incorporado nas anlises. Na
segunda situao, o interesse estudarmos o nmero de ocorrncias de um
evento particular segundo os nveis de categorias, de modo que seja possvel construirmos uma tabela tpica de contingncia. Aqui, a suposio de
distribuio de Poisson para o nmero de ocorrncias do evento em cada
281
4.1 Introduo
configurao de nveis das categorias leva a resultados equivalentes suposio de distribuio multinomial para as caselas da tabela de contingncia
formada. Assim, muitas tabelas de contingncia que seriam originalmente
analisadas atravs de um modelo log-linear multinomial podem ser analisadas, alternativamente, por um modelo log-linear de Poisson. A vantagem
disso o fato do modelo log-linear de Poisson ser ajustado mais facilmente
do que o modelo log-linear multinomial, alm da possibilidade de todos os
procedimentos desenvolvidos para os MLGs serem diretamente estendidos
para o modelo log-linear de Poisson. No discutimos, contudo, aspectos particulares na anlise de tabelas de contingncia, tais como testes ou modelos
multinomiais mais especficos.
Discutimos tambm neste captulo o fenmeno de sobredisperso que
pode ocorrer com dados de contagem quando a varincia da varivel resposta
maior do que a mdia. Nesses casos, a suposio de distribuio de Poisson
para a resposta inadequada sendo necessrio o uso de modelos alternativos. O modelo de quase-verossimilhana com parmetro de disperso leva
s mesmas estimativas do modelo de Poisson, porm corrige a variabilidade
das estimativas. Daremos, contudo, ateno especial aos modelos com resposta binomial negativa, os quais permitem uma anlise mais completa dos
dados do que os modelos de quase-verossimilhana. Finalmente, abordamos
de forma sucinta os modelos de Poisson e binomial negativo com excesso de
zeros.
282
4.1 Introduo
Casos
Pessoas-Tempo
E
y1
t1
E
y2
t2
1
.
2
respeito de .
A funo de probabilidades conjunta de (Y1 , Y2 ) fica ento dada por
e1 t1 (1 t1 )y1 e2 t2 (2 t2 )y2
f (y; ) =
y1 !
y2 !
= exp{2 t1 2 t2 + y1 log + (y1 + y2 )log2
+ y1 logt1 + y2 logt2 logy1 ! logy2 !},
em que y = (y1 , y2 )T e = (1 , 2 )T . Portanto, pelo teorema da fatorizao
temos que as estatsticas (Y1 , Y1 + Y2 ) so suficientes minimais para (, 2 ).
Logo, condicionando em Y1 +Y2 = m, obtemos uma distribuio que depende
apenas de , isto
f (a|m; ) = P r{Y1 = a | Y1 + Y2 = m}
m a
=
(1 )(ma) ,
a
em que = t1 /{t2 + t1 } = /{t2 /t1 + }, sendo a probabilidade de um
caso ter sido exposto. Equivalentemente, temos que
=
t2
.
(1 )t1
4.1 Introduo
O nvel descritivo exato para testarmos a hiptese H0 contra H1 dado
por P = 2min{PI , PS }, em que
PI =
a
X
m
x=0
0x (1 0 )(mx)
m
X
m x
PS =
0 (1 0 )(mx) .
x
x=a
Podemos usar o resultado abaixo (ver, por exemplo, Leemis e Trivedi, 1996)
para expressarmos a distribuio condicional de Y1 dado Y1 + Y2 = m em
funo de uma distribuio Fu,v , ou seja uma distribuio F com u e v graus
de liberdade. Supondo Y B(n, p), temos que
P r(Y y) = P r{F2y,2(ny+1) < (n y + 1)p/y(1 p)},
(4.1)
m
X
m x
0 (1 0 )(mx)
= 1
x
x=a+1
(m a 1 + 1)0
= 1 P r Fu,v <
(a + 1)(1 0 )
= 1 P r {Fu,v < bt1 /(a + 1)t2 } ,
4.1 Introduo
e
X
=
P r(Y = t; pS ) = 1 P r(Y y + 1; pS ).
2
ty
pI =
1+
ny+1
yF2y,2(ny+1) (/2)
e
pS =
1
ny
(y+1)F2(y+1),2(ny) (1/2)
1+
I =
1
1+
b+1
aFu,v (/2)
S =
1
1+
b
aFu,v (1/2)
= ,
2
1 = y1 /t1 e
2 = y2 /t2 . Portanto, obtemos = y1 t2 /y2 t1 . Se,
em que
por outro lado, utilizamos a distribuio condicional, B(m, ), temos que a
285
4.1 Introduo
estimativa de mxima verossimilhana de fica dada por
=
t2
,
(1
)t1
em que
= y1 /m e (1
) = y2 /m. Logo, fica expresso de forma anloga
ao caso no condicional. A explicao desse fato, que no ocorre nos estudos de caso e controle com respostas binomiais, que a estatstica Y1 + Y2 ,
alm de ser suficiente para 2 , tambm ancilar para , isto , no contm
qualquer informao acerca de . No caso do produto de duas binomiais
independentes, Y1 + Y2 suficiente para 2 , no entanto, no ancilar para .
Uma consequncia desse fato que a estimativa de mxima verossimilhana
condicional no coincide com a estimativa no condicional.
Aplicao
Vamos considerar, como aplicao, os dados apresentados em Boice e Monson
(1977) referentes a um estudo de seguimento com dois grupos de mulheres
com tuberculose, um grupo exposto a radiao e o outro grupo no exposto,
sendo observado ao longo do tempo o desenvolvimento ou no de cncer de
mama. Os resultados desse estudo so resumidos na Tabela 4.1.
Tabela 4.1
Casos de cncer de mama em mulheres
com tuberculose.
Radiao
Exposto No Exposto
Casos
41
15
Pessoas-anos
28010
19017
Temos, portanto, que a = 41, b = 15, t1 = 28010 e t2 = 19017. Os nveis
descritivos correspondentes ao teste exato para testar H0 : = 1 contra
286
4.1 Introduo
H1 : 6= 1 ficam dados por
PI = 1 P r{F84,30 < 0, 526} = 0, 988
e
PS = P r{F82,32 < 0, 575} = 0, 024,
e obtemos o nvel descritivo P= 0, 048 que indica, para um nvel de significncia de 5%, pela rejeio de H0 . Isso quer dizer que h indcios de que
mulheres com tuberculose e expostas a radiao tm uma chance maior de
desenvolvimento de cncer de mama do que mulheres no expostas com a
mesma doena. Uma estimativa pontual de mxima verossimilhana para
0,73219017
fica dada por = 0,26828010
= 1, 85 e um intervalo exato de confiana de
95% para tem os limites
I t2
0, 597 19017
=
(1
I )t1
(1 0, 597) 28010
= 1, 007 e
0, 838 19017
S t2
=
=
(1
S )t1
(1 0, 838) 28010
= 3, 512.
I =
Temos que o intervalo [1, 007; 3, 512] no cobre o valor = 1, como era
esperado.
287
4.1 Introduo
Casos
Pessoas-Tempo
E
y1i
t1i
E
y2i
t2i
i t2i
.
(1 i )t1i
y1i =
i=1
k
X
i=1
mi /{ + t2i /t1i },
i
i=1
A (M H ) = n
Var
o2 .
P
k
t1i t2i mi
i=1 ti (t1i +M H t2i )
288
4.1 Introduo
A estatstica sugerida para testar H0 definida por
k
X
(y1i y1i )2 (y2i y2i )2
2
X =
,
+
y1i
y2i
i=1
em que y1i = mi
i , y2i = mi (1
i ) e
i =
M H
t2i /t1i + M H
ni
n
(4.2)
ai > 0 fazendo n ,
A (M H )} e
I = M H exp{z(1/2) M H Var
q
1
A (M H )}.
S = M H exp{z(1/2) M H Var
e y
, y = 0, 1, 2, . . . .
y!
Podemos mostrar (ver, por exemplo, McCullagh e Nelder, 1989, p. 195) que
quando
(Y )/ d N(0, 1).
{ Y E( Y )} d N(0, 1/4).
p
Yi = xTi + i ,
290
de tempo em cada casela supormos que Y1i P(1i t1i ) e Y1i P(1i t1i ),
de estrato.
2 X
k
X
i=1 j=1
(4.3)
= lim
I
X
=1
(u log N )
= log
I
X
=1
I
X
N .
(4.4)
=1
Se considerarmos que para a casela (i, j) o evento ocorreu yij vezes, as unidades amostrais foram observadas um total de tij unidades de tempo e a taxa
de ocorrncia do evento ij , ento (4.4) fica reexpressa na forma
L(ij ) = yij logij ij tij ,
que coincide com o termo geral da expresso (4.3). Portanto, a suposio
de modelo de regresso log-linear de Poisson com offset logtij equivale suposio de tempos exponenciais para as unidades amostrais. No entanto,
importante ressaltarmos que as inferncias exatas para no modelo exponencial so bastante complexas em virtude da ocorrncia de censura (ver
discusso, por exemplo, em Breslow e Day, 1987, p. 132). J os resultados
assintticos so equivalentes queles obtidos para o modelo de Poisson.
Aplicao
A Tabela 4.2 resume os resultados de um estudo de seguimento em que doutores Britnicos foram acompanhados durante a dcada de 50 e observado,
293
relao classe de no fumantes, i = 2, 3, 4, 1 = 0, j o efeito da jsima faixa etria com relao faixa etria de 40 49 anos e ij denota
para i, j = 1, . . . , 4.
Tabela 4.2
Nmero de casos de morte por cncer de pulmo e pessoas-anos
de observao em doutores Britnicos segundo a faixa etria
e o consumo mdio dirio de cigarros.
Consumo mdio dirio
Faixa Etria
de cigarros
40-49
50-59 60-69 70-80
0
mortes
0
3
0
3
p-anos
33679 21131,5 10599 4495,5
1-9
mortes
p-anos
0
6002,5
10-30
mortes
p-anos
7
34414,5
+ 30
mortes
p-anos
3
5881
294
1
3
3
4396 2813,5 1664,5
29
25429
41
45
13271 4765,5
16
36
6493,5 3466,5
11
769
-11,424
-22,44
C(1-9)
2
1,409
2,53
C(10-20)
3
2,866
6,86
C(+30)
4
3,758
8,80
F(50-59)
2
1,769
5,10
F(60-69)
3
2,897
8,62
F(70-80)
4
3,791
11,12
As estimativas so apresentadas na Tabela 4.3. Notamos claramente
que as estimativas so significativamente diferentes de zero e que h fortes indcios de um aumento (exponencial) da taxa mdia de mortes com o aumento
da faixa etria e/ou com o aumento do consumo mdio dirio de cigarros. O
ajuste do modelo com logTij como varivel explicativa forneceu a estimativa
de mxima verossimilhana = 1, 839(0, 610). O teste de Wald para testarmos H0 : = 1 contra H1 : 6= 1 forneceu o valor RV = 1, 89, cujo nvel
descritivo dado por P= 0, 17, indicando que o modelo pode ser ajustado
= (1 , . . . , n )T , y = (y1 , . . . , yn )T , = (1 , . . . , n )T , V = diag{1 , . . . , n }
296
0
-1
-3
-2
Componente do Desvio
-2
-1
Percentil da N(0,1)
0 ) D(y; )
= D(y;
n
X
= 2
yi log(
0i /
i ).
i=1
2
t Di = p
{yi log(yi /
i ) (yi
i )}1/2 ,
ii
1h
ii .
desvio padronizado assume a forma tDi = 2
i / 1 h
4.2.6 Aplicao
Como ilustrao vamos considerar os dados apresentados em Neter et al.
(1996, p. 613) sobre o perfil dos clientes de uma determinada loja oriundos
de 110 reas de uma cidade. O objetivo do estudo relacionar o nmero
esperado de clientes em cada rea com as seguintes variveis explicativas em
cada rea: nmero de domiclios (em mil), renda mdia anual (em mil USD),
idade mdia dos domiclios (em anos), distncia ao concorrente mais prximo
(em milhas) e distncia loja (em milhas). Portanto, a rea a unidade
experimental. Esses dados esto tambm descritos no arquivo store.dat.
Tabela 4.4
Estimativas dos parmetros do modelo log-linear
de Poisson ajustado aos dados sobre perfil
de clientes.
Efeito
Parmetro Estimativa E/E.Padro
Constante
2,942
14,21
Domiclio
1
0,606
4,27
Renda
2
-0,012
-5,54
Idade
3
-0,004
-2,09
Dist1
4
0,168
6,54
Dist2
5
-0,129
-7,95
Na Figura 4.2 so apresentados os diagramas de disperso entre o
nmero de clientes (varivel resposta) e as variveis explicativas renda e
idade mdia, distncia ao concorrente mais prximo (dist1) e distncia
loja (dist2). Indcios mais evidentes de relao linear podem ser observados
299
30
20
Clientes
10
20
10
0
Clientes
30
20000
60000
100000
10
20
50
60
30
20
Clientes
10
20
10
0
Clientes
40
Idade
(b)
30
Renda
(a)
30
Dist1
(c)
10
Dist2
(d)
0.2
20
0.0
0.4
0.0
Medida h
0.8
Distancia de Cook
0.4
43
10
15
20
25
30
35
20
40
100
3.5
Variavel z
0.5
1.5
2.5
2
1
0
-1
-3
Componente do Desvio
80
Indice
(b)
Valor Ajustado
(a)
60
10
15
20
25
30
35
Valor Ajustado
(c)
1.5
2.0
2.5
3.0
3.5
Preditor Linear
(d)
301
0
-2
Componente do Desvio
-2
-1
Percentil da N(0,1)
303
zk
k
kz 1
e .
z
dz
dt
= (1 + k )1 .
Ento,
P r{Y = y} =
=
=
=
k
(k+y) Z
k
k
1
1+
et tk+y1 dt
y!(k)
0
(y + k)k
(y + 1)(k)(1 + )y+k
k
y
1
(y + k)
(y + 1)(k) 1 +
1+
(y + k)
(1 )k y , y = 0, 1, 2, . . . ,
(y + 1)(k)
z 1
e .
z
1
ez(1+/) z +y1 dz.
=
y!
0
304
dz
dt
= (1 + )1 .
Da segue que
P r{Y = y} =
=
=
=
(+y) Z
1+
et t+y1 dt
y!()
0
y
( + y)
()(y + 1)( + )+y
y
( + y)
(y + 1)() +
+
( + y)
(1 ) y , y = 0, 1, 2, . . . ,
(y + 1)()
i
i +
yi
i +
, yi = 0, 1, 2, . . . .
n
X
log
i=1
( + yi )
(yi + 1)()
n
X
( + yi ) di i
yi di i
=
i di j
( + i ) di j
i=1
n
X
yi di
( + yi ) di
=
xij
xij
d
(
+
)
d
i
i
i
i
i=1
n
X
(di /di )
(yi i )xij
=
i ( + i )
i=1
=
n
X
i=1
(4.5)
n
X
i=1
L()/j
2
n
X
( + yi )
yi
di
=
xij xi
( + i )2 2i
di
i=1
n
X
( + yi ) d2 i
yi
xij xi ,
+
i ( + i ) di2
i=1
E{ L()/j } =
=
n
X
(di /di )2
i=1
n
X
( + i )
xij xi
i xij xi .
i=1
X
X
K () =
{ ( + j)2 P r(Yi j) 1 i /(i + )},
i=1
j=0
(m)
},
(m+1) = (m) {U /L
para m = 0, 1, 2, . . ., em que
y = X + F1 (y )
uma varivel dependente modificada e
=
L
n
X
i=1
Tabela 4.5
Quantidades i e fi para algumas ligaes.
Ligao
i
fi
1
logi = i i /(i + 1)
i
i = i
(2i 1 + i )1
1
1
i = i 4/(i + 1)
2 i
Os dois procedimentos so aplicados simultaneamente at a convergn T , )
T
cia. Podemos encontrar as estimativas de mxima verossimilhana (
pela aplicao do comando library(MASS) do R. Como ilustrao, vamos supor um modelo log-linear com resposta binomial negativa resp e covariveis
cov1 e cov2. Devemos acionar os seguintes comandos no R:
library(MASS)
fit.bn = glm.nb( resp cov1 + cov2).
N(, K1
).
e so assintotiAlm disso,
camente independentes.
i +
=2
D (y; )
+ yi log
,
log
y
+
(y
+
)
i
i
i
i=1
em que
i = g 1 (xTi ). Quando yi = 0 o i-simo componente da funo
fica dado por
desvio D (y; )
d2 (yi ,
i ) = 2{logf (0; yi , ) logf (0;
i , )}
= 2log{/(yi + )} 2log{/(
i + )}
= 2log{(i + )/(
yi + )}
= 2log{(
i + )/}.
Portanto, os componentes do desvio no caso binomial negativo assumem as
seguintes formas:
h
o
n
oi
n
2 log (i +) + yi log yi (i +)
se yi > 0;
i (yi +)
o
n (yi +)
d2 (yi ;
i ) =
2log (i +)
se yi = 0.
segue para
Sob a hiptese de que o modelo adotado est correto D (y; )
grande e i grande, i, uma distribuio qui-quadrado com (n p) graus de
liberdade.
309
RV = D (y;
0 e
so, respectivamente, as estimativas de sob H0 e H1 . Para
em que
desconhecido o teste da razo de verossimilhanas fica expresso na seguinte
forma:
RV
n
X
+ log{
+
= 2
[log{( + yi )(0 )/(0 + yi )()}
/(
i )}
i=1
0
log{0 /(0 +
0i )} + yi log{
i (0 +
0i )/
0i ( +
i )}],
(di /di )2 T T
x (X WX)1 xi .
(i 1 + i ) i
i
xTi (XT WX)1 xi ,
( + i )
ii dever depender de
ii
em que i = i /( + i ). Como h
i , grficos de h
ii
contra os valores ajustados so mais informativos do que os grficos de h
contra a ordem das observaes.
310
d (yi ;
i )
t Di = p
ii
1h
com a distribuio normal padro, em que
h
n
o
n
oi1/2
2 log i + + y log yi (i +)
se yi > 0;
i
i (yi +)
h
n yi + oi
d (yi ;
i ) =
2 log (i +)
se yi = 0.
zer o seguinte:
d = resid(fit.bn, type= deviance").
Uma verso da distncia de Cook aproximada dada por
LDi =
em que rPi = (yi i )/
ii
h
rP2 i ,
2
(1 hii )
4.3.6 Aplicaes
Estudantes australianos
Venables e Ripley(1999, Caps. 6 e 7) apresentam os resultados de um estudo
sociolgico desenvolvido na Austrlia com 146 estudantes de 8a srie e ensino
mdio com o objetivo de comparar a ausncia na escola segundo os seguintes
fatores: ano que o estudante est cursando (1: 8a srie, 2: 1o ano do ensino
mdio, 3: 2o ano do ensino mdio, 4: 3o ano do ensino mdio), etnia (0: aborgine, 1: no aborgine), desempenho escolar (0: insuficiente, 1: suficiente)
e sexo (0: masculino, 1: feminino). Para obtermos esses dados no R devemos
acionar o comando library(MASS) e em seguida quine. Uma cpia desses
dados est disponvel no arquivo quine.dat. Denotamos por Yijkm o nmero
de faltas num determinado perodo referentes ao m-simo aluno, cursando o
i-simo ano, de etnia j, com desempenho escolar k e pertencente ao -simo
sexo, em que i = 1, 2, 3, 4, j, k, = 1, 2 e m = 1, . . . , 144. Vamos supor que
Yijkm BN(ijk , ), em que
logijk = + i + j + k + ,
com 1 = 0, 1 = 0, 1 = 0 e 1 = 0. Assim, temos um modelo casela de
referncia em que 2 , 3 e 4 denotam os incrementos do primeiro, segundo
e terceiro ano do ensino mdio, respectivamente, em relao 8a srie, 2
a diferena entre os efeitos do grupo no aborgine com relao ao grupo
312
1,275
7,92
1,357
7,80
Na Tabela 4.6 temos as estimativas de mxima verossimilhana com os
respectivos erros padro aproximados. O desvio do modelo ajustado (modelo
= 167, 95 (139 graus de liberdade). Notamos que os fatores
1) foi de D (y; )
sexo e desempenho escolar no so significativos a 10%, sendo portanto retirados do modelo. Contudo, notamos a necessidade de incluso da interao
ano*etnia no novo modelo. O valor da estatstica da razo de verossimilhanas nesse caso de RV = 11, 16 (P= 0, 0109). As novas estimativas so
tambm apresentadas na Tabela 4.6. O desvio do novo modelo (modelo 2)
= 167, 84 (138 graus de liberdade). A Figura 4.5 apresenta
foi de D (y; )
as mdias ajustadas do modelo final. Podemos notar que o grupo no aborgine tem em geral um no mdio menor de dias ausentes. A maior mdia
observada para estudantes do grupo aborgine cursando o 2o do ensino mdio
313
30
20
10
15
Valore Ajustado
25
Abor
Nabo
8a.Serie
Ano1
Ano2
Ano3
Ano
Figura 4.5: Valores mdios estimados pelo modelo log-linear binomial negativo ajustado aos dados sobre ausncia escolar de estudantes australianos.
Verificamos tambm, neste estudo, como fica o ajuste atravs de um
modelo log-linear de Poisson. Temos nas Figura 4.6a e 4.6b os grficos normais de probabilidades para os dois ajustes e notamos uma clara superioridade do modelo log-linear com resposta binomial negativa. O modelo
log-linear de Poisson apresenta fortes indcios de sobredisperso com os resduos cruzando o envelope gerado. Isso justificado pelo valor do desvio
314
1
0
-1
-2
Componente do Desvio
5
0
-3
-5
Componente do Desvio
10
-2
-1
-2
Percentil da N(0,1)
(a)
-1
Percentil da N(0,1)
(b)
Figura 4.6: Grficos normais de probabilidades referentes ao modelo loglinear de Poisson (a) e ao modelo log-linear binomial negativo (b) ajustados
aos dados sobre ausncia escolar de estudantes australianos.
Nas Figuras 4.7a a 4.7d so apresentados alguns grficos de diagnstico.
ii nenhum dos 8 grupos
Na Figura 4.7a em que so apresentados os valores de h
formados so destacados como alavanca. J pela Figura 4.7b notamos pelo
so os alunos
menos trs pontos com mais destaque como influentes em ,
#72, #104 e #36. Os trs alunos tm vrios dias ausentes, respectivamente,
67, 69 e 45. O aluno #72 no aborgine e estava cursando a 8a srie. O aluno
#104 tambm no aborgine, porm estava cursando o 3o ano, enquanto
o aluno #36 aborgine e estava tambm cursando a 8a srie. Pela Figura
4.7c notamos dois pontos com mais destaque como aberrantes, #98 e #61.
Esses alunos no tiveram faltas, estavam cursando o 3o ano, um aborgine
(#61) e o outro (#98) no aborgine. Em geral os pontos aberrantes desse
exemplo referem-se a alunos sem nenhuma falta. A retirada desses pontos
315
0.8
104
0.4
36
0.0
0.4
0.0
Medida h
0.8
Distancia de Cook
72
10
15
20
25
30
20
40
60
140
98
4
1
61
3
2
-2
Variavel z
Indice
(b)
-4
Valor Ajustado
(a)
80 100
20
40
60
80 100
140
2.0
Indice
(c)
2.5
3.0
3.5
Preditor Linear
(d)
Demanda de TV a cabo
Na Tabela 4.7 apresentado um conjunto de dados sobre a demanda de TVs
a cabo em 40 reas metropolitanas dos EUA (Ramanathan, 1993). Esses
dados esto tambm disponveis no arquivo tvcabo.dat. Foram observadas,
para cada rea, o nmero de assinantes (em milhares) de TV a cabo (nass),
316
Demanda de TV
Nass Domic
105
350
90 255,631
14
31
11,7 34,840
46 153,434
11,217 26,621
12
18
6,428
9,324
20,1
32
8,5
28
1,6
8
1,1
5
4,355 15,204
78,910 97,889
19,6
93
1
3
1,65
2,6
13,4 18,284
18,708
55
1,352
1,7
170
270
15,388 46,540
6,555 20,417
40
120
19,9
46,39
2,45
14,5
3,762
9,5
24,882
81,98
21,187
39,7
3,487
4,113
3
8
42,1 99,750
20,350 33,379
23,15
35,5
9,866 34,775
42,608 64,840
10,371 30,556
5,164
16,5
31,150 70,515
18,350 42,040
a cabo
Perc
30,000
35,207
45,161
33,582
29,980
42,136
66,667
68,940
62,813
30,357
20,000
22,000
28,644
80,612
21,075
33,333
63,462
73,288
34,015
79,529
62,963
33,064
32,106
33,333
42,897
16,897
39,600
30,351
53,368
84,780
37,500
42,206
60,966
65,211
28,371
65,713
33,941
31,297
44,175
43,649
Tabela 4.7
em 40 reas metropolitanas dos EUA.
Percap Taxa Custo Ncabo Ntv
9839 14,95
10
16
13
10606
15
7,5
15
11
10455
15
7
11
9
8958
10
7
22
10
11741
25
10
20
12
9378
15
7,66
18
8
10433
15
7,5
12
8
10167
15
7
17
7
9218
10
5,6
10
8
10519
15
6,5
6
6
10025 17,5
7,5
8
6
9714
15
8,95
9
9
9294
10
7
7
7
9784 24,95
9,49
12
7
8173
20
7,5
9
7
8967 9,95
10
13
6
10133
25
7,55
6
5
9361 15,5
6,3
11
5
9085
15
7
16
6
10067
20
5,6
6
6
8908
15
8,75
15
5
9632
15
8,73
9
6
8995 5,95
5,95
10
6
7787
25
6,5
10
5
8890
15
7,5
9
7
8041 9,95
6,25
6
4
8605
20
6,5
6
5
8639
18
7,5
8
4
8781
20
6
9
4
8551
10
6,85
11
4
9306
10
7,95
9
6
8346 9,95
5,73
8
5
8803
15
7,5
8
4
8942 17,5
6,5
8
5
8591
15
8,25
11
4
9163
10
6
11
6
7683
20
7,5
8
6
317
7924 14,95
6,95
8
5
8454 9,95
7
10
4
8429
20
7
6
4
2
0
-4
-2
Componente do Desvio
6
4
2
0
-2
-4
Componente do Desvio
-2
-1
-2
-1
Percentil da N(0,1)
(b)
Percentil da N(0,1)
(a)
Figura 4.8: Grficos normais de probabilidades referentes aos modelos loglinear de Poisson(a) e log-linear binomial negativo (b) ajustados aos dados
sobre demanda de TV a cabo.
Como so dados de contagem podemos pensar inicialmente num modelo de Poisson em que nassi denota o nmero de assinantes na i-sima regio
tal que nassi P(i ), em que
logi = + 1 domici + 2 percapi + 3 taxai + 4 custoi + 5 ncaboi + 6 ntvi
=
para i = 1, . . . , 40. No entanto, o ajuste do modelo forneceu desvio D(y; )
225 para 33 graus de liberdade indicando fortes indcios de sobredisperso,
318
=
fico normal de probabilidades (Figura 4.8b) bem como o desvio D (y; )
42, 35 fornecem indcios de ajuste adequado. No entanto, pela Figura 4.9,
notamos uma rea altamente influente (observao #14) e outra rea com
moderada influncia (observao #1). A rea #14 apresenta custos altos de
3
2
Distancia de Cook
0.8
0.6
0.4
0.0
0.2
Medida h
14
1.0
50
100
150
200
250
10
20
30
40
3
1
Variavel z
Indice
(b)
Valor Ajustado
(a)
10
20
30
40
Indice
(c)
Preditor Linear
(d)
319
3,311
3,49
5,060
2,89
Portanto, um modelo mais recomendado envolveria apenas as variveis
explicativas domic e custo, ou seja, com parte sitemtica dada por logi = +
= 41, 05
1 domici + 4 custoi . O desvio desse modelo fica dado por D (y; )
para 35 graus de liberdade (P= 0, 22), indicando um ajuste adequado. As
novas estimativas sem as reas #1 e # 14 (erro padro aproximado) ficam
320
n
X
(yi
i )2
i=1
/(n p),
(4.7)
Aplicao
Como ilustrao, vamos considerar os dados descritos na Tabela 4.9 (McCullagh e Nelder, 1989, Seo 6.3.2) e tambm no arquivo navios.dat em
que avarias causadas por ondas em navios de carga so classificadas segundo
o tipo do navio (A-E), ano da fabricao (1:1960-64, 2:1965-69, 3:1970-74 e
4:1975-79) e perodo de operao (1:1960-74 e 2:1975-79).
321
Tabela 4.9
Distribuio de avarias em navios de
carga segundo o tipo do navio, ano de
fabricao perodo de operao
e total de meses em operao.
Tipo Ano Perodo Meses Avarias
A
1
1
127
0
A
1
2
63
0
A
2
1
1095
3
A
2
2
1095
4
A
3
1
1512
6
A
3
2
3353
18
A
4
2
2244
11
B
1
1
44882
39
B
1
2
17176
29
B
2
1
28609
58
B
2
2
20370
53
B
3
1
7064
12
B
3
2
13099
44
B
4
2
7117
18
C
1
1
1179
1
C
1
2
552
1
C
2
1
781
0
C
2
2
676
1
C
3
1
783
6
C
3
2
1948
2
C
4
2
274
1
D
1
1
251
0
D
1
2
105
0
D
2
1
288
0
D
2
2
192
0
D
3
1
349
2
D
3
2
1208
11
D
4
2
2051
4
E
1
1
45
0
E
2
1
789
7
E
2
2
437
7
E
3
1
1157
5
E
3
2322
2161
12
E
4
2
542
1
2
1
0
-1
-3
-2
Componente do Desvio
2
1
0
-1
-2
-3
Componente do Desvio
-2
-1
-2
Percentil da N(0,1)
(a)
-1
Percentil da N(0,1)
(b)
Figura 4.10: Grficos normais de probabilidades referentes ao modelo loglinear de Poisson (a) e log-linear de quase-verossimilhana (b) ajustados aos
dados sobre avarias em navios de carga.
Foi tambm considerado o tempo em que cada navio ficou em operao
(em meses). Inicialmente, sugerimos um modelo log-linear de Poisson com
offset dado por log(meses) e efeitos principais. Assim, denotamos por Yijk
o nmero de avarias observadas para o navio do tipo i, construdo no ano j
que operou no perodo k e vamos supor que Yijk P(ijk tijk ), em que tijk
q
ii ,
= di /
1h
Grupo
G1
G2
E1
y11
y21
Gr
yr1
Exposio
E2 E3
y12 y13
y22 y23
yr2 yr3
Es
y1s
y2s
yrs
Yij = n} =
i,j
325
n!
a
i,j ijij ,
i,j aij !
i,j
= ++ =
i=1 j=1
r X
s
X
= e
i=1 j=1
ij = Pr
i,j
ij = 1, que exp( ) = 1/
P P
i
exp{1(i) +
P r{Y = a; Y++ = n}
,
P r{Y++ = n}
326
i,j
X
i,j
aij logij
logaij !.
i,j
Portanto, maximizarmos Ly (, ) com relao a equivalente a maximizarmos Ly|n () com relao a . Isso quer dizer que as estimativas de mxima
verossimilhana para o vetor so as mesmas sob o modelo log-linear multinomial com probabilidades 11 , . . . , rs e sob o modelo log-linear de Poisson
de mdias 11 , . . . , rs . As matrizes de segundas derivadas com relao a ,
para os dois modelos, so tais que
2 Ly|n ()
2 Ly (, )
=
.
T
T
Devido linearidade em (4.8) segue que a matriz de informao observada
para (, T )T bloco-diagonal com elementos dados por 2 Ly (, )/ 2
K =
o
n 2
y (,)
Ey L
2
0
o .
n 2
Ly (,)
Ey
T
= [Ey { 2 Ly (, )/ T }]1 .
Vary ()
327
Vary|n () = Ey|n
,
T
coincidindo com a varincia assinttica do modelo no condicional sob a
restrio = n. Contudo, do ponto de vista prtico, as varincias assintticas
devem coincidir uma vez que a estimativa de mxima verossimilhana
de
de dada por = n.
entre os nveis (i, j) e (i , j ) dos dois primeiros fatores, constante nos nveis
do terceiro fator. Se omitimos no modelo (4.9) a interao de segunda ordem
mais uma interao de primeira ordem, dizemos que os dois fatores omitidos
correspondentes interao de primeira ordem so independentes do terceiro
fator. Por exemplo, se omitimos 123(ijk) e 23(jk) , ijk, ficando com a parte
sistemtica
4.4.2 Aplicaes
Associao entre renda e satisfao no emprego
A Tabela 4.12 apresenta o resultado de uma pesquisa com 901 indivduos
(Agresti, 1990, pgs. 20-21) classificados segundo a renda anual e o grau de
330
1
0
-1
-3
-2
Componente do Desvio
Tabela 4.12
Classificao de indivduos segundo a renda
e o grau de satisfao no emprego.
Grau de Satisfao
Renda (US$) Alto Bom Mdio Baixo
<6000
20
24
80
82
6000-15000
22
38
104
125
15000-25000
13
28
81
113
>25000
7
18
54
92
-2
-1
Percentil da N(0,1)
331
Tabela 4.13
Estimativas dos parmetros do modelo log-linear
de Poisson ajustado ao dados sobre renda e
satisfao no emprego.
Efeito
Parmetro Estimativa E/E.Padro
Constante
2,651
18,80
Renda 2
1(2)
0,338
3,71
Renda 3
1(3)
0,132
1,389
Renda 4
1(4)
-0,186
-1,81
Grau 2
2(2)
0,555
3,49
Grau 3
2(3)
1,638
11,87
Grau 4
2(4)
1,894
13,93
Vamos supor que Yij P(ij ) com parte sistemtica inicialmente dada
2
1
0
-1
-3
-2
Componente do Desvio
1
0
-1
-2
-3
Componente do Desvio
-2
-1
-2
Percentil da N(0,1)
(a)
-1
Percentil da N(0,1)
(b)
Figura 4.12: Grficos normais de probabilidades referentes ao modelo loglinear de Poisson (a) e log-linear de quase-verossimilhana (b) ajustados aos
dados sobre doena das coronrias.
333
No
1
2
3
4
117 121 47 22
85 98 43 20
119 209 68 43
67 99 46 33
Vamos considerar agora os dados da Tabela 4.14 (Everitt, 1977) referente classificao de 1330 pacientes segundo trs fatores: doena das
coronrias (sim ou no), nvel de colesterol (1: menor do que 200 mg/100 cc,
2: 200-219, 3: 220-259 e 4: 260 ou +) e presso arterial (1: menor do que
127 mm Hg, 2: 127-146, 3: 147-166 e 4: 167 ou +). Os dados esto tambm
descritos no arquivo heart.dat. Denotamos por Yijk o nmero de pacientes
nos nveis (i, j, k) dos trs fatores: doena das coronrias, nvel de colesterol
e presso arterial, respectivamente. Vamos supor que Yijk P(ijk ) com
parte sistemtica inicialmente dada por (modelo saturado)
se
y = 0,
P {Y = y} =
fZ (y)
y = 1, 2, . . . ,
(1 ) {1fZ (0)} se
em que 0 < < 1 e fZ (y) denota a funo de probabilidades de uma varivel
aleatria Z, por exemplo, Poisson ou binomial negativa. Portanto, desde que
P
y=1 fZ (y) = 1 fZ (0), segue que
P {Y 1} = (1 )
X
y=1
fZ (y)/{1 fZ (0)}
y=0
X
y=1
y(1 )
fZ (y)
{1 fZ (0)}
(1 ) X
yfZ (y)
=
{1 fZ (0)} y=1
=
e
2
E(Y ) =
E(Z)(1 )
{1 fZ (0)}
X
y=1
y 2 (1 )
fZ (y)
{1 fZ (0)}
(1 ) X 2
=
y fZ (y)
{1 fZ (0)} y=1
=
Da segue que
E(Z 2 )(1 )
.
{1 fZ (0)}
(1 )
E2 (Z)(1 )
2
Var(Y ) =
E(Z )
.
{1 fZ (0)}
{1 fZ (0)}
( + y)
fZ (y) =
(y + 1)()
337
y
yi = 0,
yi = 1, 2, . . . ,
E(Zi )(1 )
{1 fZ (0)}
i (1 )
=
{1 ei }
T
exi (1 )
.
=
[1 exp{exp(xTi )}]
i =
Portanto,
logi = xTi + log(1 ) log[1 exp{exp(xTi )}].
+ (1 )fZ (0) se
(1 )fZ (y)
se
y = 0,
y = 1, 2, . . . ,
em que 0 < < 1 e fZ (y) denota a funo de probabilidades de uma varivel aleatria Z, por exemplo, Poisson ou binomial negativa. Desde que
P
P
y=1 fZ (y) = 1 fZ (0) obtemos
y=0 P {Y = y} = + (1 )fZ (0)} + (1
){1 fZ (0)} = + (1 ) = 1.
X
y=1
= (1 )
yfZ (y)
y=1
= (1 )E(Z)
e
2
E(Y ) =
X
y=1
y 2 (1 )fZ (y)
= (1 )
y 2 fZ (y)
y=1
= (1 )E(Z 2 ).
339
yi = 0,
yi = 1, 2, . . . ,
Por exemplo, podemos supor que Zi P(i ) com i = exi e log{i /(1
T
i
e
T
=
1
e xi
T
u
1+e i
T
e xi
.
=
T
{1 + eui }
Isto ,
logi = xTi log{1 + eui }.
T
340
4.6 Exerccios
O ajuste de modelos truncados em zero (modelos de Hurdle) ou de
modelos inflacionados de zeros no R pode ser realizado atravs da library
pscl (Jackman, 2008) acionada atravs do comando
require(pscl).
Os ajustes de modelos de Hurdle usam o comando hurdle() enquanto
os ajustes de modelos inflacionados de zeros usam o comando zeroinfl().
4.6 Exerccios
1. Seja Y uma varivel aleatria com distribuio binomial negativa, isto
, Y o nmero de ensaios at a ocorrncia do r-simo sucesso, em que
a probabilidade de sucesso em cada ensaio. Mostre que a funo de
probabilidades de Y pode ser expressa na forma exponencial. Calcule
e V (). Use a forma abaixo para a funo de probabilidades de Y
y1 r
(1 )(yr) ,
f (y; , r) =
r1
y
4.6 Exerccios
3. Sejam Y1 e Y2 variveis aleatrias independentes tais que Yi P(i ),
i = 1, 2. Considere a razo de taxas = 1 /2 . Encontre a varincia
VarA ().
assinttica de ,
Casos
Pessoas-Anos
Nvel de Exposio
Alto
Baixo
68
47
9018
13783
4.6 Exerccios
a fora do indivduo, respectivamente. Tente selecionar um modelo
apropriado apenas com os efeitos principais. Interprete os resultados e
faa uma anlise de diagnstico.
6. (Breslow e Day, 1987, pgs. 140-142). Os dados do arquivo canc1.dat
so provenientes de um estudo de seguimento para estudar a associao
entre a taxa anual de cncer nasal em trabalhadores de uma refinaria de
nquel no Pas de Gales e algumas variveis explicativas: idade no primeiro emprego (4 nveis), ano do primeiro emprego (4 nveis) e tempo
decorrido desde o primeiro emprego (5 nveis). So tambm apresentados o nmero de casos de cncer nasal e o total de pessoas-anos para
cada combinao desses trs fatores. Proponha um modelo log-linear
com resposta de Poisson sendo o nmero de casos de cncer nasal com
offset dado por log(pessoas-anos). Considere inicialmente apenas os
efeitos principais dos trs fatores: idade no primeiro emprego, ano do
primeiro emprego e tempo decorrido desde o primeiro emprego. Verifique se possvel incluir alguma interao de primeira ordem. Faa
uma anlise de diagnstico com o modelo final e interprete os resultados, por exemplo, fazendo uma comparao das taxas estimadas de
cncer nasal entre os nveis de um mesmo fator.
7. (Hinde, 1982). No arquivo rolos.dat so apresentados os dados referentes produo de peas de tecido numa determinada fbrica. Na
primeira coluna tem-se o comprimento da pea (em metros) e na segunda coluna o nmero de falhas. Faa inicialmente um grfico do
nmero de falhas contra o comprimento da pea. Ajuste um modelo
log-linear de Poisson apropriado. Faa uma anlise de resduos e verifique se h indcios de sobredisperso. Em caso afirmativo ajuste um
modelo de quase-verossimilhana e um modelo log-linear com distribui343
4.6 Exerccios
o binomial negativa. Interprete os resultados pelas razes de mdias
(x + 1)/(x), em que x denota o comprimento da pea.
8. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi P(i )
P
P
e parte sistemtica dada por i = pj=1 xij j tal que ni=1 xij xi = 0,
9. Considere um experimento em que duas mquinas, M1 e M2, so observadas durante o mesmo perodo sendo computados para cada uma
o nmero de peas defeituosas produzidas, conforme descrito pelo esquema abaixo.
P. Defeituosas
M1 M2
y1
y2
2
= (1 + e ) ,
)
Var(
me
4.6 Exerccios
(i) Obtenha a matriz modelo X. (ii) Calcule as varincias assintticas
(iii) Mostre tambm que Cov(
= 0 e comente.
Var(
) e Var().
, )
(iv) Como fica o teste de escore para testar H0 : = 0 contra H1 : 6=
0? Qual a distribuio nula assinttica da estatstica do teste?
11. Sejam Yij variveis aleatrias mutuamente independentes tais que Yij
BN(i , ) para i = 1, 2 e j = 1, . . . , m com parte sistemtica dada por
m
0 (
y2 y1 )2
,
2
y (
y + 0 )
em que y = (
y1 + y2 )/2 e 0 denota a estimativa de sob H0 .
12. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi BN(i , )
P
345
4.6 Exerccios
Curso
Pedagogia
Geografia
Fsica
Resultado da Avaliao
Aprovado Reprovado Reavaliao
32
16
3
32
18
10
35
14
14
4.6 Exerccios
restrio 1 + 2 + 3 = 1. Encontre a matriz de informao de
Fisher K para = (2 , 3 )T no modelo multinomial. Mostre que
as estimativas de mxima verossimilhana para coincidem nos dois
modelos log-lineares. Mostre tambm que K = K quando = n,
comente.
17. (Bishop, Fienberg e Holland, 1975, p. 143). A tabela abaixo apresenta o resultado de uma pesquisa em que 1008 pessoas receberam
duas marcas de detergente, X e M, e posteriormente responderam s
seguintes perguntas: maciez da gua (leve, mdia ou forte); uso anterior do detergente M (sim ou no); temperatura da gua (alta ou
baixa); preferncia (marca X ou marca M). Esses dados esto descritos
no arquivo detergente.dat.
Maciez
Temperatura Uso de M Preferncia Leve Mdia Forte
Alta
Sim
X
19
23
24
M
29
47
43
No
X
29
33
42
M
27
23
30
Baixa
Sim
X
57
47
37
M
49
55
52
No
X
63
66
68
M
53
50
42
Ajustar um modelo log-linear de Poisson para explicar ijk , a proporo de indivduos que responderam, respectivamente, nvel de temperatura (i=1 alta, i=2 baixa), uso prvio de M (j=1 sim, j=2 no),
preferncia (k=1 X, k=2 M) e nvel de maciez ( = 1 leve, = 2
mdio, = 3 forte). Selecionar atravs do mtodo AIC os efeitos principais significativos. Depois incluir apenas as interaes significativas
347
4.6 Exerccios
de primeira ordem. Interpretar os resultados e fazer uma anlise de
diagnstico.
18. Supor que Yij P(ij ), para i = 1, . . . , r e j = 1, . . . , c, com parte
sistemtica dada por
logij = + i + j ,
em que 1 = 1 = 0. Supor ainda que os i s referem-se aos efeitos
do fator A e os j s aos efeitos do fator B. Defina um modelo multinomial equivalente e mostre que a representao acima corresponde
independncia (no sentido probabilstico) entre os fatores A e B.
19. Seja o modelo trinomial em que 0 = P r(Y = 0), 1 = P r(Y = 1) e
2 = P r(Y = 2) com a restrio 0 + 1 + 2 = 1. Suponha que Y = 0
se (Z0 = 1, Z1 = 0, Z2 = 0), Y = 1 se (Z0 = 0, Z1 = 1, Z2 = 0) e Y = 2
se (Z0 = 0, Z1 = 0, Z2 = 1). Note que Z0 + Z1 + Z2 = 1. Portanto, a
funo de probabilidades de (Z0 , Z1 , Z2 ) fica dada por
g(z0 , z1 , z2 ; 0 , 1 , 2 ) = 0z0 1z1 2z2 .
Logo, para uma amostra aleatria de tamanho n a funo de probabilidades de Y = (Y1 , . . . , Yn )T pode ser expressa na forma
z0i z1i z2i
1i 2i .
g(y; 0 , 1 , 2 ) = ni=1 0i
4.6 Exerccios
(a) Verifique que 0i = {1 + e1i + e2i }1 , 1i = e1i /{1 + e1i + e2i }
e 2i = e2i /{1 + e1i + e2i }.
349
Captulo
Modelos de Quase-Verossimilhana
5.1 Introduo
Wedderburn (1974) props uma funo biparamtrica, denominada funo de
quase-verossimilhana, que engloba algumas funes de verossimilhana da
famlia exponencial. Todavia, na maioria das situaes no possvel atravs
da funo de quase-verossimilhana recuperar a verdadeira distribuio da
varivel resposta. Se Y a varivel aleatria de interesse o logaritmo da
funo de quase-verossimilhnaa definido por
Z
1
yt
Q(; y) = 2
dt,
y V (t)
2 V (t) y
y
=
.
2 V ()
350
5.1 Introduo
Aplicando as condies abaixo de regularidade
n
o
Q(;Y )
(i) E
=0 e
(ii) E
n
Q(;Y )
o2
= E
2 Q(;Y )
2
E
.
(iii) E Q(;Y
2
2
Exemplos
Normal
Vamos supor V () = 1 e < , y < . Logo, o logaritmo da funo de
|y = 2 {(y )2 /2},
Q(; y) =
2
2
5.1 Introduo
Poisson
Vamos supor V () = e y 0, > 0. Logo, obtemos
Z
yt
Q(; y) =
dt
2t
y
1
(ylogt t)|y
=
2
1
=
{ylog ylogy + y}.
2
Se assumirmos 2 = 1 e y > 0 temos que Q(; y) proporcional ao logaritmo
da funo de verossimilhana de uma P().
Para y = 0 obtemos
Q(; y) =
t
dt = 2 |0 = 2 ,
2
t
yt
dt
t)
y
Z
Z
y
1
1
1
=
dt 2
dt
2
y t(1 t)
y (1 t)
1
t
y
|y + 2 log(1 t)|y
log
=
2
1t
y
1
=
[log{(1 ) log{y/(1 y)}] + 2 {log(1 ) log(1 y)},
2
Q(; y) =
2 t(1
352
5.1 Introduo
Para y = 0 temos que
Z
t
dt
t)
0
Z
1
t
= 2
dt
0 t(1 t)
1
log(1 t)|0
=
2
1
=
log(1 ),
2
Q(; y) =
2 t(1
(1 t)
dt
t)
1
Z
1
1
=
2
1 t
1
logt|1
=
2
1
=
log,
2
Q(; y) =
2 t(1
2
A funo Q(; y) obtida acima no corresponde a nenhuma funo com ve-
rossimilhana conhecida. Portanto, apenas para algumas funes de quaseverossimilhana tem-se uma funo de verossimilhana correspondente.
n
X
Q(i ; yi ).
(5.1)
i=1
g(i ) = i = xTi ,
(5.2)
5.2.1 Estimao
Denotando Q() = Q((); y), podemos mostrar que a funo quase-escore
para fica expressa na forma
Q()
1
U =
= 2 DT V1 (y ),
354
K = E
2 Q()
T
1 T 1
D V D.
2
(5.3)
e da segue
Var
(Yi i )
p
V (i )
(Yi i )
p
V (i )
= 1,
= 2,
X (yi
i )2
1
.
=
(n p) i=1 V (
i )
2
355
n Z
X
i=1
i=1
yi
yi t
dt,
V (t)
D(y;
D(y;
)
2q ,
2
para 2 fixo que pode ser estimado consistemente, como ocorre com os MLGs.
Testes tipo Wald e tipo escore so tambm possveis de serem desenvolvidos.
Usando resultados do Captulo 1 podemos mostrar que
1 ) = {DT V1/2 M2 V1/2 D1 }1 ,
Var(
1
em que M2 = I H2 , H2 = V1/2 D2 (DT2 VD2 )1 DT2 V1/2 , D1 = W1/2 V1/2 X1
Var
1 )
1,
W =
(
1
1 ) denota que a varincia est sendo avaliada em .
J o teste
em que Var(
quase-escore para testar H0 : 1 = 0 contra H1 : 1 6= 0 fica dado por
0
)T Var
1 )U (
),
0 (
SR = U1 (
1
em que
Q()
1
1 T 1
=
D V (y ),
2 1
U1 =
0 = (0T ,
0T )T e
0 sendo
com todas as quantidades sendo avaliadas em
2
2
a estimativa de 2 sob H0 . Sob H0 e sob condies usuais de regularidade
temos que, para n , W , SR 2q .
357
5.2.5 Resduos
O no conhecimento da verdadeira funo de verossimilhana de dificulta
o desenvolvimento de alguns mtodos de diagnstico. Tanto o estudo de
resduos como de medidas de influncia dependem em geral do conhecimento
de L(). O que tem sido proposto em modelos de quase-verossimilhana
no sentido de avaliar a qualidade do ajuste so grficos de resduos. Uma
sugesto (vide McCullagh e Nelder, 1989, Cap. 9) o grfico do resduo de
Pearson
yi
i
rPi = p
V (
i )
contra alguma funo dos valores ajustados, como por exemplo contra g(
i ),
em que g() a funo de ligao. Espera-se uma distribuio aleatria dos
resduos em torno do eixo zero. Tendncias diferentes, como por exemplo
aumento da variabilidade, podem indicar que a funo V (i ) no adequada.
Um outro resduo que pode tambm ser utilizado, embora de forma descritiva,
dado por
d( yi ;
i )
,
t Di = p
ii
1h
em que d(yi ;
i ) a raiz quadrada com sinal de yi
i do i-simo compo-
5.2.6 Influncia
Uma verso da distncia de Cook para os modelos de quase-verossimilhana
fica dada por
LDi =
ii
h
rP2 i ,
2
(1 hii )
em que Q()
5.2.8 Aplicaes
Mosca do chifre
No arquivo mosca.dat apresentado parte dos dados de um experimento
desenvolvido para estudar a distribuio do nmero de caros em placas de
esterco de gado bovino no estado de S. Paulo (Paula e Tavares, 1992). Essas
placas so depsitos de ovos da mosca do chifre (Haematobia irritans), uma
das pragas mais importantes da pecuria brasileira. Os caros so inimigos
naturais da mosca do chifre uma vez que se alimentam de ovos e larvas dessas
moscas. No arquivo mosca.dat tem-se a distribuio do nmero de caros
de quatro espcies segundo algumas variveis de interesse: (i) N, nmero de
partes da posio da placa onde foram coletados os caros, (ii) Posio, posio na placa onde foram coletados os caros (1: lateral, 0: central), (iii)
Regio, regio onde a placa foi coletada (1: So Roque, 2: Pindamonhangaba, 3: Nova Odessa e 4: Ribeiro Preto) e (iv) Temp, temperatura no local
da coleta (em o C).
359
Tabela 5.1
Estimativas dos parmetros do modelo de quase-verossimilhana
com funo V () = 2 ajustado aos dados
sobre a mosca do chifre.
Com todos os pontos
Sem pontos aberrantes
Efeito
Estimativa E/E.Padro Estimativa E/E.Padro
Constante
-0,828
-0,74
-2,575
-2,13
Posio
-0,288
-0,64
0.380
0,78
Pinda
-0,424
-0,66
-0,910
-1,31
N. Odessa
-1,224
-1,71
-1,836
-2,36
R. Preto
-2,052
-2,98
-2,589
-3,46
Temp.
0,029
0,67
0,087
1,84
2
5,129
5,913
Pensou-se inicialmente, como trata-se de dados de contagem, num modelo log-linear de Poisson para explicar o nmero mdio de caros segundo
as variveis explicativas. Denotando por Yijk o nmero de caros coletados na i-sima posio da k-sima placa e j-sima regio, vamos supor que
Yijk P(ijk ), ijk = Nijk ijk , i = 1, 2 e j = 1, . . . , 6, com Nijk denotando
(5.4)
logijk = + i + j + Tempjk ,
(5.5)
em que
3
2
1
-1
Residuo de Pearson
ijk )/
ijk contra log
ijk (Figura 5.1).
-2
-1
361
84
28
2
1
0
Residuo de Pearson
61
-2
-1
0,114
0,098
364
0.5
14
1
3
0.0
0.1
Resduo de Pearson
0.3
0.2
Distncia de Cook
0.4
10
20
30
40
1.5
ndice
1.0
0.5
0.0
0.5
Preditor Linear
0.5
14
2
1
3
0.0
0.1
Resduo de Pearson
0.3
0.2
Distncia de Cook
0.4
10
20
30
40
1.5
ndice
1.0
0.5
0.0
0.5
Preditor Linear
0.6
0.4
0.0
0.2
Area Afetada
0.8
10
Variedade
0.6
0.4
0.0
0.2
Area Afetada
0.8
Local
1.5
65
1
0
Resduo de Pearson
1.0
0.0
0.5
Distncia de Cook
38
20
40
60
80
ndice
Preditor Linear
de resduos que o segundo ajuste mais adequado embora algumas observaes sejam destacadas como possivelmente influentes. As observaes #24,
369
Ry
1
1
D(y;
)
log{2 2 V (y)},
2 2
2
1
2
o par-
1
0
76
52
Resduo de Pearson
0.6
65
0.0
0.2
0.4
Distncia de Cook
0.8
1.0
24
20
40
60
80
ndice
Preditor Linear
371
(5.6)
(5.7)
n
X
i=1
K =
n
X
DTi Vi Di ,
(5.8)
(5.9)
i=1
1/2
1/2
1/2
Var(Yi ) = 1 Vi Ri Vi ,
(5.10)
1/2
i = 1 Vi Ri ()Vi ,
em que i a matriz de varincia-covarincia de Yi se a verdadeira correlao
entre os elementos de Yi for dada por Ri (). Note que Ri () uma matriz
ri ri que depende de um nmero finito de parmetros = (1 , . . . , q )T ,
sendo denominada matriz trabalho. Para estimarmos devemos resolver o
(5.11)
n
X
i=1
DTi 1
i (yi i ).
Note que (5.11) reduz-se a U = 0 quando Ri () = Iri , isto , quando ignorada a estrutura de correlao intraunidade experimental. Na verdade S ()
depende tambm de e = (1 , . . . , q )T que so estimados separadamente
de .
374
5.4.1 Estimao
O processo iterativo para a estimao de , que uma modificao do mtodo
escore de Fisher, dado por
(m+1)
G
(m)
G
n
X
(m)T (m) (m) 1
+{
Di }
Di i
i=1
n
X
(m)T
Di
(m)
i=1
(m)
(5.12)
{yi i }],
G ) d Np (0, ),
n(
em que
= lim [n(
n
n
X
i=1
n
X
1
DTi 1
i Di ) {
i=1
1
DTi 1
i Var(Yi )i Di }(
n
X
1
DTi 1
i Di ) ].
i=1
)=
H1 (
G
n
X
T
1 D
i ),
(D
i
i
i=1
G e
G ). Entretanto, se a
i sendo avaliado em
i avaliado em (,
,
com D
G ) pode ser inconsismatriz trabalho Ri () definida incorretamente H1 (
1
Simtrica ou permutvel
Neste caso assumimos Ri = Ri (), em que o (j, j )-simo elemento de Ri
fica dado por Rijj = 1, para j = j , e Rijj = , para j 6= j . Um estimador
Autoregressiva AR(1)
Aqui tambm assumimos Ri = Ri (), em que o (j, j )-simo elemento de
r 1
i
X
i(j+1) )
1X
1
(yij
) (yi(j+1)
q ij
q
=
.
n i=1 (ri 1) j=1
Vi(j+1)
Vij
Parmetro de disperso
O parmetro de disperso 1 pode ser estimado consistentemente por
ri
n X
X
(yij
ij )2
1
1
,
=
(N p) i=1 j=1
Vij
376
Pn
i=1 ri .
Resduos
Aplicando para as EEGs um procedimento similar quele apresentado na
Seo 1.10.2 chega-se ao seguinte resduo de Pearson:
rPij
iW
1/2 (V
i )1 (yi
i)
eTij A
i
q
=
,
ijj
1h
1/2
para i = 1, . . . , n e j = 1, . . . , ri , em que Ai
1/2
1/2
= Wi R1
i Wi
uma
matriz
1/2
1/2
377
Alavanca
Duas medidas de alavanca so usualmente aplicadas em EEGs. Medida de
ijj e
alavanca referente ao j-simo indivduo do i-simo grupo, dada por h
medida de alavanca referente ao i-simo grupo, definida por
ri
X
hi = 1
hijj .
ri j=1
ijj e h
i ou contra os valores ajustados so recomenGrficos de ndices para h
dados.
Influncia
Uma verso aproximada da distncia de Cook para avaliar o impacto da
G dada por
eliminar individual das observaes na estimativa
LDij =
ijj
h
rP2 ij .
(1 hijj )
5.5 Exemplos
5.5 Exemplos
5.5.1 Ataques epilpticos
No arquivo ataques.dat (Diggle, Liang e Zeger, 1994, Seo 8.4) so resumidos os resultados de um ensaio clnico com 59 indivduos epilpticos os quais
foram aleatorizados de modo que cada um recebesse uma droga antiepilptica
denominada progabide ou placebo. Os dados de cada indivduo consistiram
de um nmero inicial de ataques epilpticos num perodo de oito semanas
antes do tratamento, seguido do nmero de ataques em cada perodo de duas
semanas, num total de quatro perodos, aps o tratamento. O interesse da
pesquisa saber se a droga reduz a taxa de ataques epilpticos.
Para ajustar esses modelos no R usaremos a library gee, que deve ser
acionada atravs do comando
require(gee).
Os ajustes podem ser feitos de forma muito similar aos MLGs desde que os
dados estejam descritos de forma apropriada. Existem outras formas de gerar
dados longitudinais atravs de outras subrotinas que facilitam, por exemplo,
a elaborao de grficos de perfis. Nesses casos, ser necessrio informarmos
nos comandos de ajuste como as unidades experimentais esto dispostas e o
tipo de correlao intraunidade experimental a ser assumida.
No caso dos ataques epilpticos uma possvel distribuio marginal
para os dados a distribuio de Poisson, uma vez que tem-se dados de
contagem. Contudo, observando-se a tabela abaixo, onde esto descritos os
valores amostrais para a razo varincia/mdia para os 10 grupos experimentais, nota-se um forte indcio de sobredisperso sugerindo que o parmetro
de disperso no deve ser fixado como sendo igual a um.
379
100
5.5 Exemplos
60
0
20
40
Ataques
80
placebo
progabide
10
12
14
16
Tempo
Placebo
Progradibe
5.5 Exemplos
Assumimos que Yijk P(ij tj ), tj denota o nmero de semanas do j-simo
log10 = ,
log1j = + ,
log20 = + e
log2j = + + + ,
(5.13)
(5.14)
20
5.5 Exemplos
(49,1)
(18,1)
(29,1)
(38,1)
(25,4)
10
(5,1)
15
(15,1)
10
20
30
40
50
60
Unidade Experimental
Tabela 5.3
Estimativas dos parmetros do modelo log-linear de Poisson
aplicado aos dados sobre ataques epilpticos.
Com todos os pacientes
Sem o paciente #49
Parmetro Estimativa z-robusto Estimativa z-robusto
1,347
8,564
1,347
8,564
0,112
0,965
0,112
0,965
0,027
0,124
-0,107
-0,551
-0,105
-0,491
-0,302
-1,768
0,771
0,593
1
19,68
10,53
Se denotarmos por ij = E(Yijk ), a parte sistemtica do modelo em
382
10
5
5
15
20
5.5 Exemplos
Percentil da N(0,1)
5.5 Exemplos
lao a ser assumida.
As estimativas dos parmetros (erro padro aproximado) so apresentadas na Tabela 5.3. No h portanto nenhum indcio de efeito de tratamento.
Para a anlise de resduos vamos considerar o resduo de Pearson rPij definido na Seo 5.4.3. A gerao de envelopes para esse resduo um pouco
mais complexa do que no caso usual de respostas independentes, uma vez
que requer o conhecimento da distribuio conjunta das respostas de cada
indivduo. No entanto, mesmo quando essa distribuio no totalmente
desconhecida possvel, em alguns casos, gerar a distribuio emprica dos
dados (vide, por exemplo, Venezuela et al., 2007).
Nota-se pela Tabela 5.3 que a estimativa do parmetro de disperso
1 muito diferente da suposio de = 1 para modelos com resposta
de Poisson, sugerindo indcios fortes de sobredisperso. Assim, para uma
anlise de resduos mais
q apropriada deve-se considerar o resduo de Pearson
rP cujo grfico descrito na Figura 5.10. Nota-se 7
padronizado rP ij =
ij
resduos com valores superiores a 10,0, todos referentes a medidas de diferen-
384
5.5 Exemplos
As novas estimativas (vide Tabela 5.3) indicam evidncia de que o tratamento
com a droga progabide reduz o nmero mdio de ataques epilpticos, ou seja,
(18,1)
(49,1)
4
0
Distncia de Cook
(15,1)
10
20
30
40
50
60
Unidade Experimental
5.5 Exemplos
paciente foi observado em quatro ocasies em que mediu-se a condio respiratria (boa ou ruim). Foram tambm observados o sexo e a idade (em
anos) de cada paciente alm da pr-existncia de um nvel base (sim ou no).
Apenas como ilustrao descrevemos abaixo a incidncia do problema respiratrio em cada ocasio segundo os dois tratamentos.
Visita 1 Visita 2 Visita 3 Visita 4
Tratamento
22/27
13/27
5/27
1/27
Placebo
20/29
18/29
21/29
15/29
Nota-se pela tabela acima que na primeira visita h uma incidncia alta para
ambos os tratamentos de pacientes em condio respiratria ruim, contudo
a partir da segunda visita nota-se uma queda acentuada para os pacientes
tratados com a droga ativa e pouca variao para os pacientes tratados com
placebo. Portanto, h fortes indcios de que a droga reduz a chance de
condio respiratria ruim. Os dados completos desse experimento esto
descritos no arquivo respiratorio.dat.
Vamos denotar por Yij a condio (=1 ruim, =0 boa) do i-simo paciente na j-sima ocasio, i = 1, . . . , 56 e j = 1, 2, 3, 4. Como trata-se de
resposta binria ser assumido marginalmente que Yij Be(ij ) com parte
sistemtica dada por
ij
log
+ 1 Idadei + 2 Trati + 3 Sexoi + 4 Basei ,
1 ij
em que Idadei denota a idade (em anos), Trati (=0 droga ativa, =1 placebo), Sexoi (=0 feminino, =1 masculino) e Basei (=0 ausncia do nvel
base, =1 presena do nvel base) do i-simo paciente. Seguindo a sugesto
de Myers, Montgomery e Vining (2002, Seo 6.5) ser assumida uma estrutura de correlao AR(1) para as respostas de cada paciente, ou seja, que
386
5.5 Exemplos
0
1
3
Resduo de Pearson
= 0, 275.
(18,4)
10
(28,4)
20
30
40
50
Unidade Experimental
387
2
6
Resduo de Pearson
5.5 Exemplos
Percentil da N(0,1)
Tabela 5.4
Estimativas dos parmetros do modelo logstico aplicado
aos dados sobre condio respiratria.
Correlao AR(1)
Independncia
Parmetro Estimativa z-robusto Estimativa z-robusto
-0,377
-0,386
-0,404
-0,474
1
0,043
3,380
0,048
3,443
2
1,001
3,066
1,070
3,425
3
-2,003
-2,988
-2,178
-3,162
4
0,492
0,586
0,498
0,977
0,275
0,00
388
0.5
5.5 Exemplos
(18,4)
0.2
0.3
(53,4)
0.0
0.1
Distncia de Cook
0.4
(28,4)
10
20
30
40
50
Unidade Experimental
5.5 Exemplos
todos os demais caem no intervalo [-2,2], indicando um bom ajuste do modelo
com estrutura de correlao AR(1). O grfico normal de probabilidades com
o resduo de Pearson (Figura 5.14) no indica afastamentos da suposio de
distribuio marginal Bernoulli com estrutura de correlao AR(1). J o
grfico da distncia de Cook descrito na Figura 5.15 destaca trs medidas de
pacientes diferentes sendo duas dessas medidas destacadas tambm no grfico
com o resduo de Pearson. Contudo, o ajuste sem considerarmos esses trs
pacientes no causa mudanas inferenciais.
5.5 Exemplos
Placebo
3.5
3.0
2.5
2.0
1.5
1.0
0.5
A
3.5
3.0
Escore
2.5
2.0
1.5
1.0
0.5
B
3.5
3.0
2.5
2.0
1.5
1.0
0.5
Incio
3 Meses
6 Meses
Perodo
Figura 5.16: Grfico de perfis para o escore dos voluntrios que receberam
placebo, lquido tipo A e lquido tipo B referente aos dados sobre placas
dentrias.
O objetivo do estudo verificar se pelo menos um dos novos lquidos
reduz o nmero mdio de placas dentrias. Seja Yijk o escore do k-simo
indivduo do i-simo grupo (=1 controle, =2 lquido A, =3 lquido B) e jsimo perodo (=1 incio do tratamento, =2 aps 3 meses, =3 aps 6 meses),
k = 1, . . . , nij com n1j = 39, n2j = 34 e n3j = 36. Foram omitidas das nossas
anlises quatro observaes para as quais no foi possvel obter o valor do
escore. Na Tabela 5.5 descrevemos os valores mdios com os respectivos
erros padro para os grupos formados. Nota-se um decrscimo no valor
mdio aps 3 meses de escovao para os trs tratamentos, sendo a reduo
mais acentuada para os lquidos A e B. Nota-se tambm um aumento da
variabilidade. De 3 meses para 6 meses de escovao o decrscimo continua
para o escore mdio dos grupos que receberam os lquidos A e B, havendo
391
5.5 Exemplos
uma reduo mais evidente para o grupo tratado com o lquido B. Esse
grupo tambm apresenta as menores variabilidades. Essas tendncias podem
ser observadas quando so considerados os perfis individuais dos voluntrios
para os trs tipos de lquido ao longo do tempo conforme descrito na Figura
5.16.
Tabela 5.6
Estimativas dos parmetros do modelo log-linear gama aplicado aos
dados sobre placas dentrias.
Parmetro Estimativa z-robusto Parmetro Estimativa z-robusto
0,941
44,407
()22
-0,308
-3,124
2
0,002
0,080
()32
-0,319
-3,835
3
-0,033
-1,138
()23
-0,333
-3,266
2
-0,278
-7,335
()33
-0,492
-5,792
3
-0,004
-8,321
0,38
1
5,68
Os pesquisadores verificaram aps uma anlise descritiva dos dados
que a distribuio gama mais apropriada para descrever a resposta do que
a distribuio normal. Assim, vamos assumir que Yijk G(ij , ). Seguindo
5.5 Exemplos
havendo indcios de uma reduo mais acentuada com o lquido B de 3 meses
0
2
Resduo de Pearson
20
40
60
80
100
Unidade Experimental
393
2
2
Residuo de Pearson
5.5 Exemplos
Percentil da N(0,1)
5.6 Exerccios
(22,3)
0.015
0.010
0.000
0.005
Distncia de Cook
0.020
0.025
(70,3)
20
40
60
80
100
Unidade Experimental
5.6 Exerccios
1. Supor as funes de varincia V (t) = t3 e V (t) = t + t2 /k para t >
0, k > 0. Encontre para cada caso a funo Q(; y) e verifique sob
395
5.6 Exerccios
quais restries as funes encontradas so proporcionais a funes de
verossimilhana da famlia exponencial.
2. Considere a seguinte funo de quase-verossimilhana:
Z
1
yt
Q(; y) = 2
dt,
y V (t)
em que V (t) = t(1 + t) para t > 0. (i) Desenvolva essa funo de quaseverossimilhana. (ii) Verifique se possvel recuperar alguma distribuio da famlia exponencial. Em caso afirmativo qual a distribuio?
(iii) Supor agora uma amostra aleatria de n variveis aleatrias independentes com funo de quase-verossimilhana Q(i ; yi ) dada acima.
Como fica a funo quase-desvio? (iv) Como estimar 2 ?
3. Considere novamente o arquivo claims.dat descrito no Captulo 2
(exerccio #20), em que 9 variveis so observadas para uma amostra aleatria de 996 aplices de seguros de veculos extrada do livro de
de Jong e Heller (2008). A varivel expos (exposio do veculo), que
varia no intervalo (0,1), ser considerada agora como varivel resposta.
Inicialmente, faa uma anlise descritiva dos dados e procure agrupar
as variveis categricas em um nmero menor de categorias. Aplique modelos de quase-verossimilhana com funes V () = (1 ) e
V () = 2 (1 )2 , em que denota o valor esperado para a exposio
5.6 Exerccios
funes escore e de informao para ficam, respectivamente, dadas
por:
U =
e
K = E
1 T 1
D V (y )
2
U()
1 T 1
D V D.
2
5.6 Exerccios
(c) Proponha um teste tipo escore para testar H0 : 1 = 0 contra
H1 : 1 6= 0.
7. Como fica a diferena entre desvios para testar H0 : 1 = 0 contra H1 :
1 6= 0 num modelo de quase-verossimilhana com V (i ) = 2i (1 i )2 ,
g(i ) = i = xTi e = ( T1 , T2 )T ?
8. (Park, Shin e Park, 1998). Vamos supor que o vetor de respostas seja
agora dado por Yij = (Yij1 , . . . , YijT )T , em que Yijt denota a resposta
para o j-simo elemento do i-simo grupo no instante t, i = 1, . . . , g e
j = 1, . . . , ri . Supor ainda que E(Yijt ) = i , Var(Yijt ) = Vi 1 e que
a equao de
Yijt pertence famlia exponencial. Mostre que dado
estimao generalizada para i pode ser expressa na forma S(
i ) = 0,
em que
S(i ) =
ri
X
j=1
fechada.
n
X
{1 + (ri 1)
}1 xi (yi ni
i ) = 0,
i=1
398
5.6 Exerccios
em que yi = yi1 + + yiri . Sugesto: use a relao abaixo
1
1
R1
i () = (1 ) [Iri {1 + (ri 1)} J],
por log 1
= . Responda s seguintes questes: (i) como fica a
s seguintes questes:
399
5.6 Exerccios
(i) calcule Var(Y2 Y1 ),
(ii) chame = 2 1 e calcule P( < Y2 Y1 < + ) = 1 ,
0 < < 1 e > 0, em que 1 = P(z < Z < z), Z N(0, 1),
Dia
1
Mistura
Mtodo
1
2
3
4
1
64,5 66,3 74,1 66,5
2
68,3 69,5 73,8 70,0
3
70,3 73,1 78,0 72,3
1
2
3
65,2 65,0
69,2 70,3
71,2 72,8
73,8 64,8
74,5 68,3
79,1 71,5
1
2
3
66,2 66,5
69,0 69,0
70,8 74,2
72,3 67,7
75,4 68,6
80,1 72,4
400
5.6 Exerccios
Analise os dados atravs de equaes de estimao generalizadas com
estrutura de correlao simtrica. Faa anlise de diagnstico.
14. (Myers, Montgomery e Vining, 2002, Seo 6.5). No arquivo ratosgee.dat esto os dados de um experimento em que 30 ratos tiveram
uma condio de leucemia induzida. Trs drogas quimio-terpicas foram utilizadas no tratamento dos animais. Foram coletadas de cada
animal a quantidade de clulas brancas (WBC), a quantidade de clulas
vermelhas (RBV) e o nmero de colnias de clulas cancerosas (RESP)
em quatro perodos diferentes. Assuma distribuio de Poisson para
RESP em cada perodo e verifique atravs de um modelo log-linear se
existe diferenas significativas entre os trs tratamentos considerando
WBC e RBC como variveis explicativas. Compare os resultados supondo estruturas de correlao independente e AR(1). Faa uma anlise de diagnstico.
15. (Myers, Montgomery e Vining, 2002, Seo 6.5). No arquivo artrite.dat
esto os dados de um ensaio clnico em que 20 pacientes com artrite foram aleatorizados de modo que 10 receberam o medicamento
auronofin e os outros 10 receberam placebo. Foram observadas as
variveis explicativas gnero (1: masculino, 0: feminino) e a idade
do paciente em anos alm do tratamento (0: placebo, 1: auronofin).
Os pacientes foram consultados em 4 ocasies (1: incio, 2: 1 ms, 3:
2 meses e 4: 3 meses) a respeito do seu estado avaliado pelo prprio
paciente (1: ruim, 2: regular, 3: bom). Faa inicialmente uma anlise
descritiva com os dados.
Seja Yij o estado do i-simo paciente na j-sima ocasio (=1 bom,
=0 regular ou ruim) para i = 1, . . . , 20 e j = 1, 2, 3, 4. Assuma que
401
5.6 Exerccios
Yij Be(ij ), em que ij a probabilidade do estado ser considerado bom pelo i-simo paciente na j-sima ocasio. Proponha uma
EEG para explicar ij atravs de uma regresso logstica e considerando as estruturas de correlao simtrica e AR(1) entre as ocasies
de um mesmo paciente. Considere no modelo apenas os efeitos principais tratamento, idade, gnero e ocasio. Compare os modelos
atravs de mtodos de diagnstico e para o modelo escolhido faa uma
interpretao atravs de razes de chances.
402
Apndice A
Captulo 1
canc3.dat: tipo de tumor (0:benigno, 1:maligno), idade (em anos), sexo
(1:masculino, 2:feminino), HL e FF (1:ausente, 2:discreta, 3:moderada,
4:intensa).
canc4.dat: grupo de passagem (0 a 28), presena de massa tumoral (1:sim,
0:no), caquexia (1:sim, 0:no) e tempo de sobrevivncia (em dias).
capm.dat: taxa de retorno Tbill, retorno Microsoft, retorno SP500, retorno
GE e retorno Ford.
censo.dat: unidade da federao, escolaridade mdia (anos de estudo) e
renda mdia (em reais).
imoveis.dat: imposto do domiclio (em 100 USD), rea do terreno (em 1000
ps quadrados), rea construda (em 1000 ps quadrados), idade da
residncia (em anos) e preo de venda do imvel (em 1000 USD).
403
Apndice A
reg1.dat: rea (em mil ps quadrados) e preo (em mil USD).
reg2.dat: sigla do estado, taxa do combustvel (em USD), porcentagem de
motoristas licenciados, renda per capita (em USD), ajuda federal s
estradas do estado (em mil USD) e consumo per capita de combustvel
(em gales por ano).
reg3.dat: nome do estado, populao estimada em julho de 75, renda per
capita em 74 (em USD), proporo de analfabetos em 70, expectativa
de vida 69-70, taxa de criminalidade em 76 (por 100000 habitantes),
proporo de estudantes que concluram o segundo grau em 70, nmero
de dias do ano com temperatura abaixo de zero graus Celsus e rea do
estado (em milhas quadradas).
reg4.dat: x1, x2, x3, x4, e octanas. A resposta o nmero de octanas.
salary.dat: salrio anual (em mil USD), sexo, posio na empresa (escore
de 1 a 9) e experincia (em anos).
trees.dat: dimetro (em polegadas), altura (em ps) e volume da rvore
(em ps cbicos).
vendas.dat: total de telhados vendidos (em mil metros quadrados), gastos
pela loja com publicidade (em mil USD), nmero de clientes cadastrados na loja (em milhares), nmero de marcas concorrentes do produto
e potencial da loja.
Captulo 2
claims.dat: valor do veculo (em 10000 dolares australianos), exposio do
veculo, nmero de sinistros no perodo, custo total dos sinistros (em
404
Apndice A
dolares australianos), tipo do veculo (em 11 categorias), idade do veculo (em 4 categorias), sexo do condutor principal, rea de residncia
do condutor principal (em 6 categorias) e idade do condutor principal
(em 6 categorias).
dfilme.dat: tempo de durao do filme (em horas) e densidade mxima do
filme.
energy.dat: total de energia consumida num ms (em kilowatts-hora) e demanda de energia na hora de pico.
insurance.dat: valor pago do seguro (dolares australianos), representao
legal (0:no, 1:sim), ms em que ocorreu o acidente e tempo operacional.
milho.dat: quantidade de nitrognio, quantidade de fosfato e produtividade
de milho (libras/acre).
pesca.dat: frota (Santos e Ubatuba), ano (95 a 99), trimestre (1 a 4), latitude (de 23,25 a 28,25 ), longitude (de 41,25 a 50,75 ), dias de pesca,
captura (quantidade em kg de peixes capturados) e cpue (captura por
unidade de esforo).
restaurante.dat: faturamento anual (em mil USD) e gastos com publicidade (em mil USD).
snack.dat: fora necessria para o cisalhamento, tipo de snack (1:A, 2:B,
3:C, 4:D, 5:E), nmero de semanas.
sobrev.dat: nmero de clulas brancas, tempo de sobrevivncia (em semanas) e caracterstica morfolgica (AG=1 positivo, AG=0 negativo).
turbina.dat: tipo de turbina (1 a 5) e tempo de durao do motor (em
milhes de ciclos).
405
Apndice A
vidros.dat: tempo de resistncia (em horas), voltagem (1:200, 2:250, 3:300,
4:350) e temperatura (1:170 graus Celsus, 2:180 graus Celsus).
Captulo 3
besouros.dat: besouros mortos, besouros expostos e dose.
caduquice.dat: escore no exame psicolgico, ocorrncia de caduquice (1:sim,
0:no).
camundongos: sexo (1:macho, 0:fmea), tratamento (1:sim, 0:controle), casos e expostos.
dengue.dat: idade (em anos) do entrevistado, nvel scio-econmico (1:alto,
2:mdio, 3:baixo), setor da cidade onde mora o entrevistado (1:setor 1,
2:setor 2) e diagnstico da doena (1:sim, 0:no).
diabetes.dat: massa corporal, histrico familiar (1:presena, 0:ausncia) e
atividades fsicas (1:presena, 0:ausncia) para os casos e para os controles, respectivamente.
dose1.dat: dose, caramujos expostos e caramujos mortos.
dose2.dat: dose, caramujos expostos e caramujos mortos.
dose3.dat: dose, caramujos expostos e caramujos mortos.
equipamentos.dat: tempo, nmero de equipamentos expostos, nmero de
equipamentos que falaharam.
gestantes.dat: idade (0:< 30, 1:30 ou +), nmero de cigarros consumidos
por dia (0:< 5, 1:5 ou +), tempo de gestao (0:<=260 dias, 1:> 260
dias), crianas no sobreviventes e crianas sobreviventes.
406
Apndice A
grahani.dat: nmero de lagartos da espcie grahani, total de lagartos, perodo do dia (1:manh, 2:meio-dia, 3:tarde), comprimento da madeira
(1:curta, 2:cumprida), largura da madeira (1:estreita, 2:larga) e local
de ocupao (1:claro, 2:escuro).
insetic.dat: nmero de insetos mortos, nmero de insetos expostos, dose
do inseticida, inseticida DDT, inseticida -DDT e inseticida DDT +
-DDT (1:presena, 0:ausncia).
leuce.dat: idade do paciente (em anos), mancha diferencial da doena, infiltrao na medula, clulas com leucemia, malignidade da doena, temperatura mxima antes do tratamento, tratamento (1:satisfatrio, 0:no),
tempo de sobrevivncia (em meses) e situao (1:sobrevivente, 0:no
sobrevivente).
matched.dat: estrato, observao (1:caso, 2:controle), idade da paciente
no momento da entrevista (em anos), diagnstico (1:caso, 0:controle),
tempo de escolaridade (em anos), grau de escolaridade (0:nenhum, 1:segundo grau, 2:tcnico, 3:universitrio, 4:mestrado, 5:doutorado), checkup regular (1:sim, 2:no), idade da primeira gravidez, idade do incio
da menstruao, nmero de abortos, nmero de filhos, peso (em libras), idade do ltimo perodo menstrual e estado civil (1:casada, 2:
divorciada, 3:separada, 4:viva, 5:solteira). Observaes perdidas so
denotadas por NA.
meninas.dat: garotas menstruando, garotas entrevistadas e idade mdia.
morgan.dat: concentrao (R, D, M), dose, insetos expostos, insetos mortos.
407
Apndice A
olhos.dat: cor dos olhos dos pais, cor dos olhos dos avs, nmero total de
filhos e nmero de filhos com olhos claros.
prefauto.dat: preferncia comprador tipo de automvel (1:americano, 0:japons), idade do comprador (em anos), sexo do comprador (0:masculino, 1:feminino) e estado civil do comprador (0:casado, 1:solteiro).
pregibon.dat: resposta (1:ocorrncia, 0:ausncia), volume e razo.
pulso.dat: pulsao em repouso (1:normal, 0:alta), hbito de fumar (1:sim,
2:no) e peso (em kg).
rotifers.dat: densidade, rotifers suspensos, rotifers expostos e espcie (1:
Polyarthra, 0:Keratella).
sementes.dat: temperatura da germinao, nvel da umidade, nvel da temperatura, nmero de sementes que germinaram.
Captulo 4
breslow.dat: nmero de casos de cncer, total de pessoas-anos, nmero de
cigarros por dia (1:no fumante, 2:1-9 cigarros, 3:10-30 cigarros, 4:+
30 cigarros) e faixa-etria (1:40-49 anos, 2:50-59 anos, 3:60-69 anos,
4:70-80 anos).
canc1.dat: idade no primeiro emprego com 4 nveis (1:<20, 2:20-27, 3:27.534.9, 4:35+ anos), ano do primeiro emprego com 4 nveis (1:<1910,
2:1910-1914, 3:1915-1919, 4:1920-1924), tempo decorrido desde o primeiro emprego com 5 nveis (1:0-19, 2:20-29, 3:30-39, 4:40-49, 5:50+
anos), nmero de casos de cncer e o total de pessoas-anos de observao.
408
Apndice A
detergente.dat: temperatura da gua, uso de M, preferncia (X,M), maciez
da gua, nmero de pessoas.
emprego.dat: nvel de renda (1: < USD 6000, 2: USD 6000-15000, 3: USD
15000-25000, 4: > USD 25000), grau de satisfao (1:alto, 2: bom, 3:
mdio, 4: baixo) e nmero de indivduos.
geriatra.dat: nmero de quedas no perodo, interveno (0:educao somente, 1:educao e exerccios fsicos), sexo (0:feminino, 1:masculino),
balano e fora.
heart.dat: doena das coronrias (1:sim, 2:no), nvel de colesterol (1:menor do que 200 mg/100 cc, 2:200-219, 3:220-259, 4:260 ou +),presso
arterial (1:menor do que 127 mm Hg, 2:127-146, 3:147-166, 4:167 ou +)
e nmero de indivduos.
navios.dat: tipo do navio (1:A, 2:B, 3:C, 4:D, 5:E), ano da fabricao (1:6064, 2:65-69, 3:70-74, 4:75-79), perodo de operao (1:60-74, 2:75-79),
tempo de operao (em meses) e nmero de avarias.
nitrofen: dosagem de nitrofen, total de ovos eclodidos.
quine.dat: etnia (A:aborgine, N:no aborgine), sexo (M:masculino, F: feminino), ano (F0:8a srie, F1:1o ano ensino mdio, F2:2o ano ensino
mdio, F3:3o ano ensino mdio), desempenho (SL:baixo, AL:normal) e
dias ausentes no ano letivo.
recrutas.dat: hbito de nadar (ocasional, frequente), local onde costuma
nadar (piscina, praia), faixa-etria (15-19, 20-25, 25-29), sexo (masculino, feminino) e nmero de infeces de ouvido.
rolos.dat: comprimento do tecido (em metros) e nmero de falhas.
409
Apndice A
store.dat: nmero de clientes, nmero de domiclios, renda mdia anual (em
USD), idade mdia dos domiclios (em anos), distncia entre a rea e o
competidor mais prximo (em milhas) e distncia entre a rea e a loja
(em milhas).
tvcabo.dat: nmero de domiclios na rea (em milhares), porcentagem de
domiclios com TV a cabo, renda per capita (em USD) por domiclio
com TV a cabo, taxa de instalao de TV a cabo (em USD), custo
mdio mensal de manuteno de TV a cabo (em USD), nmero de
canais a cabo disponveis na rea e nmero de canais no pagos com
sinal de boa qualidade disponveis na rea.
Captulo 5
artrite.dat: paciente, ocasio (1:incio, 2:1 ms, 3:2 meses, 4:3 meses), gnero (1:masculino, 0:feminino), idade (em anos), tratamento (0:placebo, 1:auronofin), resultado (1:ruim, 2:regular, 3:bom).
ataques.dat: indivduo, perodo (1:antes do tratamento, 2:1o perodo aps
o tratamento, 3:2o perodo aps o tratamento, 4:3o perodo aps o
tratamento), nmero de semanas em cada perodo, nmero de ataques
em cada perodo e tratamento (0:placebo, 1:progabide).
cevada.dat: incidncia da mancha (proporo), local (1 a 9) e variedade (1
a 10).
mosca.dat: nmero de caros coletados espcie2, espcie3, espcie6, espcie14, nmero de partes da placa, posio (1:lateral, 0:central), regio
(1:So Roque, 2:Pindamonhangaba, 3:Nova Odessa, 4:Ribeiro Preto)
e temperatura (em graus Celsus).
410
Apndice A
mistura.dat: painel, dia, mtodo, mistura, porcentagem de reflectncia do
pigmento.
ratosgee.dat: animal, perodo, quantidade de clulas brancas, quantidade
de clulas vermelhas e nmero de colnias de clulas cancerosas.
respiratorio.dat: paciente, tratamento (0:droga ativa, 1:placebo), sexo (0:feminino, 1:masculino), idade (em anos), nvel base (0:ausncia, 1:presena) e condio do paciente nas visitas (0:boa, 1:ruim).
rinse.dat: voluntrio, perodo (1:incio, 2:aps 3 meses, 3:aps 6 meses),
tratamento (1:placebo, 2:rinse A, 3:rinse B) e escore.
411
Bibliografia
Bibliografia
Beckman R. J.; Nachtsheim, C. J. e Cook, R. D. (1987). Diagnostics for
mixed-model analysis of variance. Technometrics 29, 413-426.
Belsley, D. A.; Kuh, E. e Welsch, R. E. (1980). Regression Diagnostics.
John Wiley, New York.
Bliss, C. I. (1935). The calculation of the dosage-mortality curve. Annals
of Applied Biology 22, 134-167.
Bishop, Y. M. M.; Fienberg, S. E. e Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press, Cambridge.
Boice, J. D. e Monson, R. R. (1977). Breast cancer in women after repeated
fluoroscopic examinations of the chest. Journal of the National Cancer
Institute 59, 823-832.
Box, G. E. P. e Cox, D. R. (1964). An analysis of transformations (with
discussion). Journal of the Royal Statistical Society B 26, 211-252.
Breslow, N. E. e Clayton, D. G. (1993). Approximate inference in generalized linear mixed models. Journal of the American Statistical Association 88, 9-25.
Breslow N. E. e Day, N. E. (1980). Statistical Methods in Cancer Research, Vol. I, The Analysis of Case-Control Studies. IARC Scientific
Publications, International Agency for Research on Cancer, Lyon.
Breslow, N. E. e Day, N. E. (1987). Statistical Methods in Cancer Research,
Vol. II, The Design and Analysis of Cohort Studies. IARC Scientific
Publications, International Agency for Research on Cancer, Lyon.
Buse, A. (1982). The likelihood ratio, Wald and Lagrange multiplier tests:
an expository note. The American Statistician 36, 153-157.
413
Bibliografia
Cardoso-Neto, J. e Paula, G. A. (2001). Wald one-sided test using generalized estimating equations approach. Computational Statistics and Data
Analysis 36, 475-495.
Casella, G. e Straederman, W. E. (1980). Confidence bands for linear regression with restricted preditor variables. Journal of the American
Statistical Association 75, 862-868.
Chatterjee, S. e Hadi, A. S. (1988). Sensitivity Analysis in Linear Regression. New York: Wiley.
Collett, D. (1991). Modelling Binary Data. Chapman and Hall, London.
Cook, R. D. (1977). Detection of influential observations in linear regressions. Technometrics 19, 15-18.
Cook, R. D. (1987). Influence assessment. Journal of Applied Statistics 14,
117-131.
Cook, R. D. (1986). Assessment of local influence (with discussion). Journal
of the Royal Statistical Society B 48, 133-169.
Cook, R. D.; Pea, D. e Weisberg, S. (1988). The likelihood displacement:
A unifying principle for influence measures. Communications in Statistics, Theory and Methods 17, 623-640
Cook, R. D. e Weisberg, S. (1982). Residuals and Influence in Regression.
Chapman and Hall, London.
Cordeiro, G. M. (1986). Modelos Lineares Generalizados. Livro texto de
minicurso, VII Simpsio Nacional de Probabilidade e Estatstica, UNICAMP, Campinas, SP.
414
Bibliografia
Cordeiro, G. M. e McCullagh, P. (1991). Bias correction in generalized
linear models. Journal of the Royal Statistical Society B 53, 629-643.
Cordeiro, G. M.; de P. Ferrari, S. L. e Paula, G. A. (1993). Improved score
tests for generalized linear models. Journal of the Royal Statistical
Society B 55, 661-674.
Cordeiro, G. M.; Paula, G. A. e Botter, D. A. (1994). Improved likelihood
ratio tests for dispersion models. International Statistical Review 62,
257-274.
Cordeiro, G. M. e Paula, G. A. (1989a). Improved likelihood ratio statistics
for exponential family nonlinear models. Biometrika 76, 93-100.
Cordeiro, G. M. e Paula, G. A. (1989b). Modelos de Regresso para a
Anlise de Dados Univariados. Livro texto de minicurso, 17o Colquio
Brasileiro de Matemtica, IMPA, Rio de Janeiro.
Cordeiro, G. M. e Paula, G. A. (1992). Estimation, large-sample parametric tests and diagnostics for non-exponential family nonlinear models. Communications in Statististics - Simulation and Computation
21, 149-172.
Cornfield, J. (1951). A method of estimating comparative rates from clinical
data. Applications to cancer of the lung, breast and crevix. Journal of
the National Cancer Institute 11, 1269-1275.
Cornfield, J. (1956). A statistical problem arising from retrospective studies.
In: Proceedings of the Third Berkeley Symposium, Berkeley, University
of California Press, pgs. 133-148.
Cox, D. R. (1970). The Analysis of Binary Data. Methuen, London.
415
Bibliografia
Cox, D. R. (1972). Regression models and life tables (with discussion).
Journal of the Royal Statistical Society B 74, 187-220.
Cox, D. R. e Hinkley, D. V. (1974). Theorical Statistics. Chapman and
Hall, London.
Cox, D. R. e Oakes, D. (1984). Analysis of Survival Data. Chapman and
Hall, London.
Cox, D. R. e Snell, E. J. (1968). A general definition of residuals (with
discussion). Journal of the Royal Statistical Society B 30, 248-275.
Cox, D. R. e Snell, E. J. (1989). The Analysis of Binary Data, 2nd Edition.
Chapman and Hall, London.
Davison, A. C. e Gigli, A. (1989). Deviance residuals and normal scores
plots. Biometrika 76, 211-221.
Davison, A.C. e Tsai, C-L. (1992). Regression model diagnostics. International Statistical Review 60, 337-353.
Day, N. E. e Byar, D. P. (1979). Testing hypothesis in case-control studiesequivalence of Mantel-Haenszel statistics and logit score tests. Biometrics 35, 623-630.
de Souza, F. A. M. e Paula, G. A. (2002). Deviance residuals for an angular
response. Australian and New Zealand Journal of Statistics 44, 345356.
Diggle, P. J.; Liang, K. Y. e Zeger, S. L. (1994). Analysis of Longitudinal
Data. Oxford University Press.
416
Bibliografia
Dixon, W. J. (1987). BMDP Statistical Software. University of California
Press, Berkeley.
Efron, B. (1988). Logistic regression, survival analysis and the KaplanMeier curve. Journal of the American Statistical Association 83, 414425..
Emerson, J. D.; Hoaglin, D. C. and Kempthorne, P. J. (1984). Leverage in
least squares additive-plus-multiplicative fits for two-way tables. Journal of the American Statistical Association 79, 329-335.
Escobar, L. A. e Meeker, W. Q. (1992). Assessing influence in regression
analysis with censored data. Biometrics 48, 507-528.
Everitt, B. S. (1977). The Analysis of Contingency Tables. Chapman and
Hall, London.
Everitt, B. S. (1994). A Handbook of Statistical Analysis using S-Plus.
Chapman and Hall, London.
Fahrmeir, L. e Kaufmann, H. (1985). Consistency and asymptotic normality of the maximum likelihood estimator in generalized linear models.
Annals of Statistics 13, 342-368.
Fahrmeir, L. e Klinger, J. (1994). Estimating and testing generalized linear
models under inequality constraints. Statistical Papers 35, 211-229.
Farhrmeir, L. e Tutz, G. (1994). Multivariate Statistical Modelling based on
Generalized Linear Models. Springer, New York.
Feigl, P. e Zelen, M. (1965). Estimation of exponential survival probabilities
with concomitant information. Biometrics 21, 826-838.
417
Bibliografia
Finney, D. J. (1971). Probit Analysis, 3rd. Edition. Cambridge University
Press, Cambridge.
Finney, D. J. (1978). Statistical Methods in Biological Assay, 3rd. Edition.
Cambridge University Press, Cambridge.
Fieller, E. C. (1954). Some problems in interval estimation. Journal of the
Royal Statistical Society B 16, 175-185.
Fung, W. K. (1993). Unmasking outliers and leverage points: A Confirmation. Journal of the American Statistical Association 88, 515-519.
Fung, W. K. e Kwan, C. W. (1997). A note on local influence based on
normal curvature.Journal of the Royal Statistical Society B 59, 839843.
Galea, M.; Paula, G. A. e Bolfarine, H. (1997). Local influence in elliptical
linear regression models. The Statistician 46, 71-79.
Galea, M.; Paula, G. A. e Uribe-Opazo, M. (2003). On influence diagnostic
in univariate elliptical linear regression models. Statistical Papers 44,
23-45.
Galea, M.; Riquelme, M. e Paula, G. A. (2000). Diagnostic methods in
elliptical linear regression models. Brazilian Journal of Probability and
Statistics 14, 167-184.
Galves, J. A.; Paula, G. A. e Goebbels, M. (1998). Relatrio de Anlise Estatstica sobre o Projeto: Evoluo Temporal da Variao Prclise/nclise no Portugus Clssico. RAECEA-9810, IME-USP.
Gray, J. B. (1989). On the use of regression diagnostics. The Statistician
38, 97-105.
418
Bibliografia
Gu, H. e Fung, W. K. (1998). Assessing local influence in canonical correlation analysis. Annals of the Institute of Statistical Mathematics 50,
755-772.
Hadgu, A. e Koch, G. (1999). Application of generalized estimating equations to a dental randomized clinical trial. Journal of Biopharmaceutical
Statistics 9, 161-178.
Hand, D. J.; Daly, F.; Lunn, A. D.; McConway, K. J. e Ostrowski, E. (1994).
A Handbook of Small Data Sets. Chapman and Hall, London.
Hannan, J. e Harkness, W. (1963). Normal approximation to the distribution of two independent binomials, conditional to the sum. Annals of
Mathematical Statistics 34, 1593-1595.
Hastie, T. e Tibshirani, R. (1990). Generalized Additive Models. Chapman
and Hall, London.
Hinde, J. (1982). Compoud poisson regression models. In R. Gilchrist Ed.,
GLIM82, pgs. 109-121. Springer, New York.
Hinde, J. e Demtrio, C. G. B (1998). Overdispersion: model and estimation. Computational Statistics and Data Analysis 27, 151-170.
Hoaglin, D. C. e Welsch, R. E. (1978). The hat matrix in regression and
ANOVA. The American Statistician 32, 17-22.
Hosmer, D. W. e Lemeshow, S. (1989). Applied Logistic Regression. John
Wiley, New York.
Innes, J. R. M.; Ulland, B. M.; Valerio, M. G.; Petrucelli, L.; Fishbein, L.;
Hart, E. R.; Pallota, A. J.; Bates, R. R.; Falk, H. L.; Gart, J. J.; Klein,
419
Bibliografia
M.; Mitchell, I. e Peters, J. (1969). Biossay of pesticides and industrial
chemicals for tumorigenicity in mice: A preliminary note. Journal of
the National Cancer Institute 42, 1101-1114.
Jrgensen, B. (1983). Maximum likelihood estimation and large-sample inference for generalized linear and nonlinear regression models.Biometrika
70, 19-28.
Jrgensen, B. (1987). Exponential dispersion models (with discussion).
Journal of the Royal Statistical Society B 49, 127-162.
Jrgensen, B. (1996). The Theory of Dispersion Models. Chapman and
Hall, London.
Kim, M. G. (1995). Local influence in multivariate regression. Communications in Statistics, Theory Methods 20, 1271-1278.
Kwan, C. W. e Fung, W. K. (1998). Assessing local influence for specific
restricted likelihood: Applications to factor analysis. Psychometrika
63, 35-46.
Lawless, J. F. (1982). Statistical Models and Methods for Lifetime Data.
John Wiley, New York.
Lawless, J. F. (1987). Negative binomial and mixed Poisson regression. The
Canadian Journal of Statistics 15, 209-225.
Lawrence, A. J. (1988). Regression transformation diagnostics using local
influence. Journal of the American Statistical Association 84, 125-141.
Lee, E. T. (1991). Statistical Methods for Survival Data Analysis, Second
Edition. John Wiley, New York.
420
Bibliografia
Lee, Y. e Nelder, J. A. (1996). Hierarchical generalized linear models. Journal of the Royal Statistical Society B 58, 619-678.
Lee, Y. e Nelder, J. A. (2001). Hierarchical generalised linear models: a
synthesis of generalised linear models, random-effect models and structured dispersions. Biomerika 88, 987-1006.
Leemis, L. M. e Trivedi, K. S. (1996). A comparison of aproximate interval
estimators for the Bernoulli parameter. The American Statistician 50,
63-68.
Liang, K. Y. e Zeger, S. L. (1986). Longitudinal data analysis using generalized linear models. Biometrika 73, 13-22.
Liu, S. Z. (2000). On local influence for elliptical linear models. Statistical
Papers 41, 211-224.
Mantel, N. (1963). Chi-square tests with one degree of freedom: extensions
of the Mantel-Haenszel procedure. Journal of the American Statistical
Association 58, 690-700.
Mantel, N. e Haenszel, B. F. (1959). Statistical aspects of the analysis of
the data from retrospective studies of disease. Journal of the National
Cancer Institute 22, 719-748.
McCullagh, P. (1983). Quasi-likelihood functions. Annals of Statistics 11,
59-67.
McCullagh, P. (1987). Tensor Methods in Statistics. Chapman and Hall,
London.
McCullagh, P. e Nelder, J. A. (1989). Generalized Linear Models, 2nd.
Edition. Chapman and Hall, London.
421
Bibliografia
McCulloch, C. E. e Searle, S. R. (2001). Linear and Generalized Linear
Mixed Models. Wiley, New York.
Milicer, H. e Szczotka, F. (1966). Age at menarche in Warsaw girls in 1965.
Human Biology 38, 199-203.
Montgomery, D. C.; Peck, E. A. e Vining, G. G. (2001). Introduction to
Linear Regression Analysis, Third Edition. John Wiley, New York.
Myers, R.H.; Montgomery, D. C. e Vining, G. G. (2002). Generalized Linear Models: With Applications in Engineering and the Sciences. John
Wiley, New York.
Moolgavkar, S. H.; Lustbader, E. D. e Venzon, D. J. (1984). A geometric approach to non-linear regression diagnostics with application to
matched case-control studies. Annals of Statistics 12, 816-826.
Morgan, B. J. T. (1992). Analysis of Quantal Response Data. Chapman
and Hall, London.
Narula, S. C. e Stangenhaus, G. (1988). Anlise de Regresso L1 . Notas de
minicurso do VIII Simpsio Nacional de Probabilidade e Estatstica,
IMPA, Rio de Janeiro, RJ.
Nelder, J. A. e Pregibon, D. (1987). An extended quasi-likelihood function.
Biometrika 74, 221-232.
Nelder, J. A. e Wedderburn, R. W. M. (1972). Generalized linear models.
Journal of the Royal Statistical Society A 135, 370-384.
Neter, J.; Kutner, M. H.; Nachtsheim, C. J. e Wasserman, W.(1996). Applied Linear Regression Models, 3rd Edition. Irwin, Illinois,
422
Bibliografia
Nyquist, H. (1991). Restricted estimation of restricted generalized linear
models. Applied Statistics 40, 133-141.
OHara Hines, R. J.; Lawless, J. F. e Carter, E. M. (1992). Diagnostics
for a cumulative multinomial generalized linear model with application to grouped toxicological mortality data. Journal of the American
Statistical Association 87, 1059-1069.
Ortega, E. M. M.; Bolfarine, H. e Paula, G. A. (2003). Influence diagnostic
in generalized log-gamma regression models. Computational Statistics
and Data Analysis 42, 165-186.
Palmgren, J. (1981). The Fisher information matrix for log linear models
against conditionally on observed explanatory variables. Biometrika
68, 563-566.
Pan, J. X.; Fang, K. T. e von Rosen (1997). Local influence assessment
in the growth curve model with unstructured covariance. Journal of
Statistical Planning and Inference 62, 263-278.
Park, T. P.; Shin, D. W. e Park, C. G. (1998). A generalized estimating
equations approach for testing ordered group effects with repeated measurements. Biometrics 54, 1645-1653.
Paula, G. A. (1993). Assessing local influence in restricted regression moldels. Computational Statistics and Data Analysis 16, 63-79.
Paula, G. A. (1995). Influence and residuals in restricted generalized linear
models. Journal of Statistical Computation and Simulation 51, 315352.
423
Bibliografia
Paula, G. A. (1996). Influence diagnostic in proper dispersion models. Australian Journal of Statistics 38, 307-316.
Paula, G. A. (1997). Estimao e Testes em Modelos de Regresso com Parametros Restritos. Livro texto de minicurso da 5a Escola de Modelos
de Regresso, realizada de 26 a 28-02-97 em Campos do Jordo, SP.
Paula, G. A. (1999). Leverage in inequality constrained regression models.
The Statistician 48, 529-538.
Paula, G. A. e Artes, R. (2000). One-sided test to assess correlation in
logistic linear models using estimating equations. Biometrical Journal
42, 701-714.
Paula, G. A.; Barbosa, L. S. e Ferreira, R. F. G. (1989). Relatrio de Anlise
Estatstica sobre o Projeto: Comportamento Biolgico Evolutivo do
Tumor KB no Decorrer de suas Passagens Seriadas em Ratos Nude
Adultos. RAE-CEA8904, IME-USP.
Paula, G. A. e Cordeiro, G. M. (1986). Alguns modelos no-lineares via o
Glim. Atas do VII Simpsio Nacional de Probabilidade e Estatstica,
UNICAMP, So Paulo, pp. 204-217.
Paula, G. A.; Denaro-Machado, L.; Ogata, T. T.; Machado, J. C.; Matta,
M. S. e Petrella, S. M. C. N. (1992). Caquexia cancerosa em modelo
experimento rato nude atmico/tumor humano KB. Revista Laes Haes
76, 28-30.
Paula, G. A. e Oshiro, C. H. (2001). Relatrio de Anlise Estatstica sobre
o Projeto: Anlise de Captura por Unidade de Esforo do Peixe-Batata
na Frota Paulista. RAE-CEA0102, IME-USP.
424
Bibliografia
Paula, G. A. e Peres, C. A. (1988). Diagnostics for GLMs with linear inequality parameter constraints. Communications in Statistics, Theory
and Methods 17, 4205-4219.
Paula, G. A. e Tuder, R. M. (1986). Utilizao da regresso logstica para
aperfeioar o diagnstico de processo infeccioso pulmonar. Revista Cincia e Cultura 40, 1046-1050.
Paula, G. A.; Sevanes, M. e Ogando, M. A. (1988). Relatrio de Anlise
Estatstica sobre o Projeto: Estudo de Plantas Brasileiras com Efeito
Moluscicida em Biomphalaria Glabrata. RAE-CEA8824, IME-USP.
Paula, G. A. e Sen, P. K. (1995). One-sided tests in generalized linear
models with parallel regression lines. Biometrics 51, 1494-1501.
Paula, G. A. e Tavares, H. R. (1992). Relatrio de Anlise Estatstica
sobre o Projeto: caros Associados ao Esterco Bovino. Subsdios para
Controle Biolgico da Mosca do Chifre. RAECEA 9206, IME-USP
Peduzzi, P. N.; Hardy, R. J. e Holford, T. T. (1980). A stepwise variable
selection procedure for nonlinear regression models. Biometrics 36,
511-516.
Pea, D. e Yohai, V. (1999). A fast procedure for outlier diagnostics in large
regression problems. Journal of the American Statistical Association
94, 434-445.
Pettitt, A. N. e Bin Daud, I. (1989). Case-weight measures of influence for
proportional hazards regression. Applied Statistics 38, 51-67.
Piegorsch, W. W. e Casella, G. (1988). Confidence bands for logistic regression with restricted predictor variables. Biometrics 44, 739-750.
425
Bibliografia
Pregibon, D. (1981). Logistic regression diagnostics. Annals of Statistics 9,
705-724.
Pregibon, D. (1982). Score tests in GLIM with applications. Lecture Notes
in Statistics 14, 87-97. Springer-Verlag, New York.
Pregibon, D. (1984). Data analytic methods for matched case-control studies. Biometrics 40, 639-651.
Ramanathan, R. (1993). Statistical Methods in Econometrics. Wiley, New
York.
Rao, C. R. (1973). Linear Statistical Inference and Its Applications, Second
Edition. Wiley, New York.
Ratkowsky, D. A. (1983). Nonlinear Regression Modelling. Marcel Dekker,
New York.
Ross, W. H.(1987). The geometry of case deletion and the assessment of
influence in nonlinear regression. Canadian Journal of Statistics 15,
91-103.
Ryan, B. F. e Joiner, B. L. (1994). Minitab Handbook, Third Edition. Duxbury Press, Belmont.
Seber, G. A. F. e Wild, C. J. (1989). Nonlinear Regression. John Wiley,
New York.
Sen, P. K. e Singer, J. M. (1993). Large Sample Methods in Statistics: An
Introduciton with Applications. Chapman and Hall, London.
Silva, G. L. (1992). Modelos Logsticos para Dados Binrios. Dissertao
de Mestrado, IME-USP.
426
Bibliografia
Spector, P. (1994). An Introduction to S and S-Plus. Duxbury Press, Belmont.
St. Laurent, R. T. e Cook, R. D. (1992). Leverage and superleverage in
nonlinear regression. Journal of the American Statistical Association,
87, 985-990.
Stukel, T. A. (1988). Generalized logistic models. Journal of the American
Statistical Association 83, 426-431.
Svetliza, C. F. (2002). Modelos No-Lineares com Resposta Binomial Negativa. Tese de Doutorado, IME-USP.
Svetliza, C. F. e Paula, G. A. (2001). On diagnostics in log-linear negative
binomial models. Journal of Statistical Computation and Simulation
71, 231-244.
Svetliza, C. F. e Paula, G. A. (2003). Diagnostics in nonlinear negative
binomial models. Communications in Statistics, Theory Methods 32,
1227-1250.
Thomas, W. e Cook, R. D. (1990). Assessing influence on predictions from
generalized linear models. Technometrics 32, 59-65.
Tsai,C. H. e Wu, X. (1992). Assessing local influence in linear regression models with first-order autoregressive or heteroscedastic error structure.
Statistics and Probability Letters 14, 247-252.
Venables, W. N. e Ripley, B. D. (1999). Modern Applied Statistics with
S-Plus, Third Edition. Springer, New York.
Wang, P. C. (1985). Adding a variable in generalized linear models. Technometrics 27, 273-276.
427
Bibliografia
Wedderburn, R. W. M. (1974). Quasi-likelihood functions, generalized linear models and the Gauss-Newton method. Biometrika 61, 439-447.
Wedderburn, R. W. M. (1976). On the existence and uniqueness of the
maximum likelihood estimates for certain generalized linear models.
Biometrika 68, 27-32.
Wei, B. C. (1998). Exponential Family Nonlinear Models. Lecture Notes in
Statistics Vol. 130. Springer, New York.
Wei, B.C.; Hu, Y.Q. e Fung, W.K. (1998). Generalized leverage and its
applications. Scandinavian Journal of Statistics 25, 25-37.
Williams, D. A. (1984). Residuals in generalized linear models. In: Proceedings of the 12th. International Biometrics Conference, Tokyo, pp.
59-68.
Williams, D. A. (1987). Generalized linear model diagnostic using the deviance and single case deletion. Applied Statistics 36, 181-191.
Wolf, (1955). On estimating the relationship between blood group and
disease. Annals of Human Genetic 19, 251-253.
Wood, F. S. (1973). The use of individual effects and residuals in fitting
equations to data. Technometrics 15, 677-687.
428