Regressão em Modelo Computacional

MODELOS DE REGRESSO
com apoio computacional

Gilberto A. Paula
Instituto de Matemtica e Estatstica
Universidade de So Paulo
e-mail:giapaula@ime.usp.br
Prefcio
A rea de modelagem estatstica de regresso recebeu um grande impulso

desde a criao dos modelos lineares generalizados (MLGs) no incio da dcada de 70. O crescente interesse pela rea motivou a realizao de vrios
encontros informais no incio dos anos 80, a maioria deles na Inglaterra, at
que em 1986 foi realizado na cidade de Innsbruck na ustria o 1st International Workshop on Statistical Modelling(1st IWSM). Esse encontro tem
sido realizado anualmente sendo que o ltimo (27th IWSM) aconteceu em
julho de 2012 em Praga, Repblica Checa. O 28th IWSM ser realizado em
julho de 2013 em Palermo, Itlia. No Brasil a rea comeou efetivamente a
se desenvolver a partir de meados da dcada de 80 e em particular aps a 1a
Escola de Modelos de Regresso (1EMR) realizada na Universidade de So
Paulo em 1989. As demais escolas ocorreram desde ento a cada dois anos
sendo que as duas ltimas (11EMR e 12EMR) foram realizadas em 2009 e
2011 nas cidades de Recife e Fortaleza, respectivamente.
Este texto comeou a ser desenvolvido a partir de 1994 quando a disciplina Modelos Lineares Generalizados passou a ser ministrada regularmente no programa de ps-graduao em Estatstica do IME-USP. Uma verso preliminar deste texto foi publicada em 2004 no IME-USP. O texto
direcionado para alunos que tenham cursado um semestre de inferncia es-
Prefcio
tatstica e que tenham conhecimentos de regresso linear. Portanto, trata-se
de um segundo curso de modelagem estatstica de regresso com um enfoque
inferencial bsico e vrias aplicaes. O texto tem sido tambm utilizado na
disciplina Tpicos de Regresso ministrada aos alunos do ltimo ano do
Bacharelado em Estatstica do IME-USP.
No Captulo 1 introduzimos a classe dos modelos lineares generalizados
juntamente com alguns conceitos bsicos. Em seguida discutimos a estimao
dos parmetros, propriedades assintticas dos estimadores de mxima verossimilhana e a aplicao de alguns testes estatsticos mais conhecidos. Uma
reviso abrangente de mtodos de diagnstico apresentada na sequncia, em
que definimos pontos de alavanca e discutimos anlise de resduos, mtodos
de deleo de pontos e influncia local, dentre outros procedimentos. Discutimos tambm a seleo de modelos. Sempre que possvel as metodologias
so apresentadas em separado para os modelos normais lineares e posteriormente estendidas para toda a classe dos MLGs. O captulo concludo com
a anlise de 6 conjuntos de dados atravs de MLGs apropriados.
O Captulo 2 dedicado aos modelos com resposta gama e resposta
normal inversa para a anlise de dados assimtricos positivos. Inicialmente
abordamos os modelos com resposta gama e apresentamos alguns resultados
inferenciais e tcnicas de diagnstico. Trs conjuntos de dados so analisados.
Em seguida, alguns modelos usualmente aplicados em Econometria so discutidos e um exemplo apresentado. Em seguida so discutidos modelos com
resposta normal inversa, alguns resultados tericos so apresentados e 2 conjuntos de dados so analisados. No final do captulo discutimos MLGs duplos,
em que a mdia e a disperso so ajustados simultneamente. Apresentamos
o processo de estimao conjunto, alguns procedimentos de diagnstico e um
exemplo ilustrativo.
No Captulo 3 discutimos modelos para a anlise de dados binrios,
com nfase para os modelos logsticos lineares. Inicialmente uma reviso de
ii
Prefcio
procedimentos tradicionais para a anlise de tabelas de contigncia 2 2
apresentada. Duas aplicaes so descritas nesta primeira parte do captulo.
Em seguida abordamos o modelo logstico linear. Alguns procedimentos so

revisados, tais como seleo de modelos, anlise de dados retrospectivos, qualidade do ajuste e tcnicas de diagnstico. Quatro conjuntos de dados so
analisados. Discutimos no final do captulo modelos de dose-resposta, sobredisperso e modelos logsticos aplicados na anlise de dados emparelhados e
mais quatro aplicaes so apresentadas.
No Captulo 4 abordamos alguns modelos para a anlise de dados de
contagem, com destaque para modelos com resposta de Poisson e modelos
com resposta binomial negativa. Inicialmente apresentamos uma reviso de
metodologias tradicionais para a anlise da tabelas de contingncia do tipo
22 com dados de contagem. Uma aplicao apresentada. Em seguida discutimos modelos de Poisson para a anlise de dados de seguimento e modelos
log-lineares de Poisson. Dois exemplos so apresentados. Na sequncia so
derivados modelos com resposta binomial negativa para a anlise de dados
de contagem com sobredisperso. Um processo iterativo para a estimao
dos parmetros, resultados assintticos e metodologias de diagnstico so
apresentados, bem como 3 aplicaes. Modelos log-lineares com resposta de
Poisson so comparados com modelos log-lineares com resposta multinomial,
sendo 2 conjuntos de dados analisados. Finalmente, fazemos uma breve resenha dos modelos com excesso de zeros e discutimos, em particular, os modelos
truncados em zero ou modelos de Hurdle e os modelos inflacionados de zeros.
O Captulo 5 dedicado aos modelos de quase-verossimilhana e s
equaes de estimao generalizadas. Iniciamos o captulo com a introduo do conceito de quase-verossimilhana. Em seguida so apresentados os
modelos de quase-verossimilhana para respostas independentes juntamente
com o processo de estimao, alguns resultados assintticos e tcnicas de
diagnstico. Trs aplicaes so apresentadas. Na sequncia derivamos as
iii
Prefcio
equaes de estimao generalizadas para a anlise de dados correlacionados
no gaussianos. Apresentamos o processo de estimao, alguns resultados
assintticos e metodologias de diagnstico. Esse subtpico ilustrado com 3
aplicaes.
No Apndice A so descritos os conjuntos de dados usados nas aplicaes e nos exerccios propostos e no Apncide B so descritas as subrotinas
em R para o desenvolvimento dos procedimentos de diagnstico para os principais MLGs e EEGs.
No final de cada captulo so propostos exerccios tericos e aplicados,
num total de 105 exerccios, e ao longo do texto so apresentados programas especiais e subrotinas em R, particularmente na anlise dos exemplos.
Procuramos diversificar as aplicaes com conjuntos de dados das diversas
reas do conhecimento, tais como Agricultura, Biologia, Cincias Atuariais, Cincias Sociais, Economia, Engenharia, Geografia, Medicina, Nutrio,
Pesca e Odontologia. Alguns conjuntos de dados so oriundos de trabalhos
desenvolvidos no Centro de Estatstica Aplicada (CEA) do IME-USP.
A pgina na Web onde esto disponveis informaes sobre este texto,
os conjuntos de dados utilizados nos exemplos e exerccios e alguns programas
especficos em R est no seguinte endereo:
http://www.ime.usp.br/giapaula/textoregressao.htm.
Finalizando, gostaramos de agradecer aos alunos que cursaram as
disciplinas Modelos Lineares Generalizados e Tpicos de Regresso e
muito contribuiram com suas sugestes para o aprimoramento dos primeiros
manuscritos.
So Paulo, fevereiro de 2013
Gilberto A. Paula
e-mail:giapaula@ime.usp.br
iv
Sumrio
1 Modelos Lineares Generalizados
1.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Definio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1
Casos particulares . . . . . . . . . . . . . . . . . . . . .
Ligaes cannicas . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1
1.3
1.4
1.5
1.6
1.7
Outras ligaes . . . . . . . . . . . . . . . . . . . . . .
Funo desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1
Resultados assintticos . . . . . . . . . . . . . . . . . . 15
1.4.2
Anlise do desvio . . . . . . . . . . . . . . . . . . . . . 16
Funo escore e informao de Fisher . . . . . . . . . . . . . . 20

1.5.1
Escore e Fisher para . . . . . . . . . . . . . . . . . . 20
1.5.2
Escore e Fisher para . . . . . . . . . . . . . . . . . . 22
1.5.3
Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . 22
1.5.4
Casos particulares . . . . . . . . . . . . . . . . . . . . . 23
Estimao dos parmetros
. . . . . . . . . . . . . . . . . . . 25
1.6.1
Estimao de
. . . . . . . . . . . . . . . . . . . . . 25
1.6.2
Estimao de . . . . . . . . . . . . . . . . . . . . . . 26
1.6.3
Distribuio assinttica . . . . . . . . . . . . . . . . . . 27
Teste de hipteses . . . . . . . . . . . . . . . . . . . . . . . . 28
v
SUMRIO
1.8
1.9
1.7.1
Hipteses simples . . . . . . . . . . . . . . . . . . . . . 28
1.7.2
Modelos encaixados . . . . . . . . . . . . . . . . . . . . 32
1.7.3
Modelo de anlise de varincia . . . . . . . . . . . . . . 37
1.7.4
Regresso linear simples . . . . . . . . . . . . . . . . . 38
1.7.5
Hipteses restritas . . . . . . . . . . . . . . . . . . . . 39
Bandas de confiana . . . . . . . . . . . . . . . . . . . . . . . 40
1.8.1
Modelo normal linear . . . . . . . . . . . . . . . . . . . 40
1.8.2
Extenso para os MLGs . . . . . . . . . . . . . . . . . 41
Tcnicas de diagnstico: Modelo normal linear . . . . . . . . . 41

1.9.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.9.2
Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 45
1.9.3
Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.9.4
Outra interpretao para ti . . . . . . . . . . . . . . . 51
1.9.5
Influncia . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.9.6
Ilustrao . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.9.7
Influncia local . . . . . . . . . . . . . . . . . . . . . . 56
1.9.8
Grfico da varivel adicionada . . . . . . . . . . . . . . 63
1.9.9
Tcnicas grficas . . . . . . . . . . . . . . . . . . . . . 64
1.10 Tcnicas de diagnstico: Extenso para os MLGs . . . . . . . 66

1.10.1 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 66
1.10.2 Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.10.3 Influncia . . . . . . . . . . . . . . . . . . . . . . . . . 72
1.10.4 Influncia local . . . . . . . . . . . . . . . . . . . . . . 73
1.10.5 Grfico da varivel adicionada . . . . . . . . . . . . . . 75
1.10.6 Tcnicas grficas . . . . . . . . . . . . . . . . . . . . . 76
1.11 Seleo de modelos . . . . . . . . . . . . . . . . . . . . . . . . 77
1.11.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 77
1.11.2 Extenso para os MLGs . . . . . . . . . . . . . . . . . 79
1.12 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
vi
SUMRIO
1.12.1 Estudo entre renda e escolaridade . . . . . . . . . . . . 80
1.12.2 Processo infeccioso pulmonar . . . . . . . . . . . . . . 85
1.12.3 Sobrevivncia de bactrias . . . . . . . . . . . . . . . . 88
1.12.4 Estudo seriado com ratos . . . . . . . . . . . . . . . . . 90
1.12.5 Consumo de combustvel . . . . . . . . . . . . . . . . . 94
1.12.6 Salrio de executivos . . . . . . . . . . . . . . . . . . . 97
1.13 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
2 Modelos para Dados Positivos Assimtricos
114
2.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2
Distribuio gama . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.3
Modelos com resposta gama . . . . . . . . . . . . . . . . . . . 118
2.4
2.5
2.3.1
Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 119
2.3.2
Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 120
Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
2.4.1
Comparao de cinco tipos de turbina de avio . . . . 121
2.4.2
Espinhel de fundo . . . . . . . . . . . . . . . . . . . . . 127
2.4.3
Aplicao em seguros . . . . . . . . . . . . . . . . . . . 136
Elasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
2.5.1
Modelo de Cobb-Douglas . . . . . . . . . . . . . . . . . 143
2.5.2
Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 144
2.6
Distribuio normal inversa . . . . . . . . . . . . . . . . . . . 146
2.7
Modelos com resposta normal inversa . . . . . . . . . . . . . . 149
2.8
2.9
2.7.1
2.7.2
Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
2.8.1
Comparao de cinco tipos de snack
2.8.2
Projeo de vendas . . . . . . . . . . . . . . . . . . . . 158
. . . . . . . . . . 150
Modelagem simultnea da mdia e da disperso . . . . . . . . 160

vii
SUMRIO
2.9.1
Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 163
2.9.2
Mtodos de diagnstico . . . . . . . . . . . . . . . . . . 165
2.9.3
Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 169
2.10 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

3 Modelos para Dados Binrios
183
3.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
3.2
Mtodos clssicos: uma nica tabela 2 2 . . . . . . . . . . . 184
3.3
3.4
3.5
3.6
3.2.1
Risco relativo . . . . . . . . . . . . . . . . . . . . . . . 185
3.2.2
Modelo probabilstico no condicional . . . . . . . . . . 187
3.2.3
Modelo probabilstico condicional . . . . . . . . . . . . 188
3.2.4
Teste de hipteses . . . . . . . . . . . . . . . . . . . . . 192
Mtodos clssicos: k tabelas 2 2 . . . . . . . . . . . . . . . . 195

3.3.1
Estimao da razo de chances comum . . . . . . . . . 196
3.3.2
Testes de homogeneidade . . . . . . . . . . . . . . . . . 197
Mtodos clssicos: tabelas 2 k . . . . . . . . . . . . . . . . . 199

Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
3.5.1
Associao entre fungicida e desenvolvimento de tumor 201
3.5.2
Efeito de extrato vegetal . . . . . . . . . . . . . . . . . 203
Regresso logstica linear . . . . . . . . . . . . . . . . . . . . . 204

3.6.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . 204
3.6.2
Regresso logstica simples . . . . . . . . . . . . . . . . 205
3.6.3
Regresso logstica mltipla . . . . . . . . . . . . . . . 209
3.6.4
Bandas de confiana . . . . . . . . . . . . . . . . . . . 210
3.6.5
Seleo de modelos . . . . . . . . . . . . . . . . . . . . 211
3.6.6
Amostragem retrospectiva . . . . . . . . . . . . . . . . 215
3.6.7
3.6.8
3.6.9
Aplicaces . . . . . . . . . . . . . . . . . . . . . . . . . 220
viii
SUMRIO
3.6.10 Modelos de dose-resposta . . . . . . . . . . . . . . . . . 235
3.6.11 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 237
3.6.12 Estimao da dose letal
. . . . . . . . . . . . . . . . . 244
3.6.13 Modelos de retas paralelas . . . . . . . . . . . . . . . . 245

3.6.14 Sobredisperso . . . . . . . . . . . . . . . . . . . . . . 248
3.6.15 Modelo logstico condicional . . . . . . . . . . . . . . . 260
3.7
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
4 Modelos para Dados de Contagem

4.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
4.1.1
4.1.2
4.2
4.3
4.4
281
Mtodos clssicos: uma nica tabela 2 2 . . . . . . . 282
Estratificao: k tabelas 2 2 . . . . . . . . . . . . . . 288
Modelos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 290

4.2.1
Propriedades da Poisson . . . . . . . . . . . . . . . . . 290
4.2.2
Modelos log-lineares: k tabelas 2 2 . . . . . . . . . . 291
4.2.3
Modelos gerais de Poisson . . . . . . . . . . . . . . . . 295
4.2.4
4.2.5
4.2.6
Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 299
Modelos com resposta binomial negativa . . . . . . . . . . . . 303

4.3.1
Distribuio binomial negativa . . . . . . . . . . . . . . 303
4.3.2
Modelos de regresso com resposta binomial negativa . 305
4.3.3
4.3.4
4.3.5
Seleo de modelos . . . . . . . . . . . . . . . . . . . . 311
4.3.6
Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 312
4.3.7
Sobredisperso e quase-verossimilhana . . . . . . . . . 321
Relao entre a multinomial e a Poisson . . . . . . . . . . . . 325

4.4.1
Modelos log-lineares hierrquicos . . . . . . . . . . . . 328

ix
SUMRIO
4.4.2
4.5
4.6
Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 330
Modelos com excesso de zeros . . . . . . . . . . . . . . . . . . 336

4.5.1
Modelos truncados em zero . . . . . . . . . . . . . . . 336
4.5.2
Modelos de regresso truncados em zero . . . . . . . . 338
4.5.3
Modelos inflacionados de zeros . . . . . . . . . . . . . . 338
4.5.4
Modelos de regresso inflacionados de zeros
. . . . . . 340
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
5 Modelos de Quase-Verossimilhana
350
5.1
Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
5.2
Respostas independentes . . . . . . . . . . . . . . . . . . . . . 354

5.2.1
Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 354
5.2.2
Estimador de momentos . . . . . . . . . . . . . . . . . 355
5.2.3
Funo quase-desvio . . . . . . . . . . . . . . . . . . . 356
5.2.4
Teste de hipteses . . . . . . . . . . . . . . . . . . . . . 356
5.2.5
Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . 358
5.2.6
Influncia . . . . . . . . . . . . . . . . . . . . . . . . . 358
5.2.7
Seleo de Modelos . . . . . . . . . . . . . . . . . . . . 359
5.2.8
Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 359
5.3
Classe estendida . . . . . . . . . . . . . . . . . . . . . . . . . . 370
5.4
Respostas correlacionadas . . . . . . . . . . . . . . . . . . . . 372
5.5
5.4.1
Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 375
5.4.2
Estruturas de correlao . . . . . . . . . . . . . . . . . 376
5.4.3
Mtodos de diagnstico . . . . . . . . . . . . . . . . . . 377
5.4.4
Seleo de modelos . . . . . . . . . . . . . . . . . . . . 378
Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
5.5.1
Ataques epilpticos . . . . . . . . . . . . . . . . . . . . 379
5.5.2
Condio Respiratria . . . . . . . . . . . . . . . . . . 385
5.5.3
Placas dentrias . . . . . . . . . . . . . . . . . . . . . . 390

x
SUMRIO
5.6
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
xi
Captulo
Modelos Lineares Generalizados
1.1 Introduo
Durante muitos anos os modelos normais lineares foram utilizados na tentativa de descrever a maioria dos fenmenos aleatrios. Mesmo quando o
fenmeno sob estudo no apresentava uma resposta para a qual fosse razovel a suposio de normalidade, algum tipo de transformao era sugerida
a fim de alcanar a normalidade procurada. Provavelmente a transformao
mais conhecida foi proposta por Box e Cox (1964), a qual transforma o valor
observado y (positivo) em
z=
y 1
se 6= 0
logy se = 0,
sendo uma constante desconhecida. O objetivo da transformao de Box

e Cox, quando aplicada a um conjunto de valores observados, produzir
aproximadamente a normalidade, a constncia de varincia e tambm a linearidade E(Z) = , em que = 1 + 2 x2 + + p xp . No entanto, isso
1
1.1 Introduo
raramente ocorre para um nico valor de (Box e Draper, 1987).
Com o desenvolvimento computacional ocorrido na dcada de 70, alguns modelos que exigiam a utilizao de processos iterativos para a estimao dos parmetros comearam a ser mais aplicados, como por exemplo
o modelo normal no linear. Todavia, a proposta mais interessante e podemos dizer inovadora no assunto foi apresentada por Nelder e Wedderburn
(1972), que propuseram os modelos lineares generalizados (MLGs). A ideia
bsica consiste em abrir o leque de opes para a distribuio da varivel
resposta, permitindo que a mesma pertena famlia exponencial de distribuies, bem como dar maior flexibilidade para a relao funcional entre a
mdia da varivel resposta e o preditor linear . Assim, por exemplo, para
dados de contagem, em vez de aplicarmos a transformao y no sentido

de buscarmos a normalidade dos dados e constncia de varincia, podemos
supor que a distribuio de Y Poisson e que a relao funcional entre a
mdia de Y e o preditor linear dada por log = . Essa relao funcional
conveniente, uma vez que garante para quaisquer valores dos parmetros
do preditor linear um valor positivo para . Similarmente, para propores,
podemos pensar na distribuio binomial para a resposta e numa relao
funcional do tipo log{/(1 )}, em que a proporo esperada de suces-
sos. Nelder e Wedderburn propuseram tambm um processo iterativo para a

estimao dos parmetros e introduziram o conceito de desvio que tem sido
largamente utilizado na avaliao da qualidade do ajuste dos MLGs, bem
como no desenvolvimento de resduos e medidas de diagnstico.
Inmeros trabalhos relacionados com modelos lineares generalizados foram publicados desde 1972. Um aplicativo, GLIM (Generalized Linear Interactive Models) (ver Aitkin et al., 1989), foi desenvolvido para o ajuste dos MLGs
e hoje outros aplicativos, tais como o S-Plus (http://www.insightful.
1.1 Introduo
com), R (http://www.r-project.org), SAS(http://www.sas.com), STATA
(http://www.stata.com), MATLAB (http://www.mathworks.com) e SUDAAN
(http://www.rti.org/sudaan) apresentam rotinas para o ajuste dos MLGs.
Os modelos de quase-verossimilhana, que estendem a ideia dos MLGs
para situaes mais gerais incluindo dados correlacionados, foram propostos por Wedderburn (1974). Os modelos de disperso (Jrgensen, 1983)
ampliam o leque de opes para a distribuio da varivel resposta. Liang
e Zeger (1986) estendem os modelos de quase-verossimilhana propondo as
equaes de estimao generalizadas (EEGs) que permitem o estudo de variveis aleatrias correlacionadas no gaussianas. Os modelos no lineares de
famlia exponencial (Cordeiro e Paula, 1989 e Wei, 1998) admitem preditor
no linear nos parmetros. Temos ainda os modelos aditivos generalizados
(Hastie e Tibshirani, 1990) que supem preditor linear formado tambm por
funes semiparamtricas e os modelos lineares generalizados mistos (Breslow e Clayton, 1993 e McCulloch e Searle, 2001) que admitem a incluso de
efeitos aleatrios gaussianos no preditor linear. Recentemente, Lee e Nelder
(1996, 2001) estenderam o trabalho de Breslow e Clayton propondo modelos
lineares generalizados hierrquicos em que o preditor linear pode ser formado
por efeitos fixos e efeitos aleatrios no gaussianos. Muitos desses resultados so discutidos no livro de Lee, Nelder e Pawitan (2006). Extenses de
MLGs para sries temporais, anlise de dados de sobrevivncia, modelos de
espao de estado e outros modelos multivariados so descritas, por exemplo,
em Fahrmeir e Tutz (2001). Referncias de texto no assunto so os livros de
McCullagh e Nelder (1989) e Cordeiro (1986).
Neste captulo introduzimos os modelos lineares genralizados e apresentamos vrios resultados relacionados com estimao, teste de hipteses,
mtodos de diagnstico e seleo de modelos na classe dos MLGs.
1.2 Definio
1.2 Definio
Sejam Y1 , . . . , Yn variveis aleatrias independentes, cada uma com funo
densidade ou funo de probabilidades na forma dada abaixo
f (yi ; i , ) = exp[{yi i b(i )} + c(yi , )].
(1.1)
Podemos mostrar sob as condies usuais de regularidade

logf (Yi ; i , )
E
= 0 e
i
"
2 #

2
logf (Yi ; i , )
logf (Yi ; i , )
= E
,
E
i2
i
i, que E(Yi ) = i = b (i ) e Var(Yi ) = 1 V (i ), em que Vi = V (i ) =
di /di a funo de varincia e 1 > 0 ( > 0) o parmetro de disperso
(preciso). A funo de varincia desempenha um papel importante na famlia exponencial, uma vez que a mesma caracteriza a distribuio. Isto , dada
a funo de varincia, tem-se uma classe de distribuies correspondentes, e
vice-versa. Para ilustrar, a funo de varincia definida por V () = (1 ),
0 < < 1, caracteriza a classe de distribuies binomiais com probabili-
dades de sucesso ou 1 . Uma propriedade interessante envolvendo a
distribuio de Y e a funo de varincia a seguinte:

p
(Y ) d N(0, V ()),
quando .
Ou seja, para grande Y segue distribuio aproximadamente normal de

mdia e varincia 1 V (). Esse tipo de abordagem assinttica, diferente
da usual em que n grande, foi introduzida por Jrgensen (1987).
Os modelos lineares generalizados so definidos por (1.1) e pela parte
sistemtica
g(i ) = i ,
4
(1.2)
1.2 Definio
em que i = xTi o preditor linear, = (1 , . . . , p )T , p < n, um
vetor de parmetros desconhecidos a serem estimados, xi = (xi1 , . . . , xip )T
representa os valores de variveis explicativas e g() uma funo montona
e diferencivel, denominada funo de ligao. Apresentamos a seguir as
distribuies mais conhecidas pertencentes famlia exponencial.
1.2.1 Casos particulares

Normal
Seja Y uma varivel aleatria com distribuio normal de mdia e varincia
2 , Y N(, 2 ). A funo densidade de Y expressa na forma
1
1
1
2
1
y2
exp{ 2 (y )2 } = exp[{ 2 (y ) {log2 2 + 2 }],
2
2
2
2
em que < , y < e 2 > 0. Logo, para = , b() = 2 /2, = 2 e
2
c(y, ) = 12 log/2 y2 obtemos (1.1). Verificamos facilmente que a funo

de varincia dada por V () = 1.
Poisson
No caso de Y P(), a funo de probabilidades fica dada por
e y /y! = exp{ylog logy!},
em que > 0 e y = 0, 1, . . .. Fazendo log = , b() = e , = 1 e
c(y, ) = logy! obtemos (1.1). Segue portanto que V () = .
Binomial
Seja Y a proporo de sucessos em n ensaios independentes, cada um com
probabilidade de ocorrncia . Assumimos que nY B(n, ). A funo de
5
1.2 Definio
probabilidades de Y fica ento expressa na forma

n
n
ny
nny
(1)
= exp log
+ ny log
+ nlog(1 ) ,
ny
1
ny
em que 0 < , y < 1. Obtemos (1.1) fazendo = n, = log{/(1 )},

b() = log(1 + e ) e c(y , ) = log y . A funo de varincia aqui fica dada
por V () = (1 ).
Gama
Seja Y uma varivel aleatria com distribuio gama de mdia e coeficiente
de variao 1/2 , denotamos Y G(, ). A funo densidade de Y dada
por

1
y
y
d(logy) = exp[{(y/) log} log() +
exp
()
log(y) logy],
em que y > 0, > 0, > 0 e () =
R
0
t1 et dt a funo gama. Logo,
fazendo = 1/, b() = log() e c(y, ) = ( 1)logy + log log()

obtemos (1.1).
Para 0 < < 1 a densidade da gama tem uma pole na origem e decresce
monotonicamente quando y . A exponencial um caso especial quando
= 1. Para > 1 a funo densidade assume zero na origem, tem um

mximo em y = / e depois decresce para y . A 2k um outro
caso especial quando = k/2 e = k. A distribuio normal obtida
fazendo . Isto , quando grande Y N(, 1 V ()). Temos que
= E2 (Y )/Var(Y ) o inverso do coeficiente de variao de Y ao quadrado,

p
ou seja, = 1/(CV )2 , em que CV = Var(Y)/E(Y ). A funo de varincia
da gama dada por V () = 2 .
1.3 Ligaes cannicas
Normal inversa
Seja Y uma varivel aleatria com distribuio normal inversa de mdia e
parmetro de preciso , denotada por Y NI(, ) e cuja funo densidade
dada por

(y )2
1
y
1
1/2
3
p
exp
= exp 2 +
log(2y /) +
,
22 y
2
2
y
2y 3
em que y > 0, > 0. Fazendo = 21 2 , b() = (2)1/2 e c(y, ) =
1
log{/(2y 3 )} 2y
2
obtemos (1.1). A normal inversa se aproxima da normal
quando . Ou seja, para grande temos que Y N(, 1 V ()). A

funo de varincia fica aqui dada por V () = 3 .
Na Tabela 1.1 apresentamos um resumo dessas distribuies.

Tabela 1.1
Principais distribuies pertencentes famlia exponencial.
Distribuio
b()
V ()
Normal
2 /2
2
1
Poisson
e
log
1
Binomial
log(1 + e ) log{/(1 )}
n
(1 )
2
Gama
log()
1/
1/(CV
)
2
N.Inversa
2
1/22
1.3 Ligaes cannicas

Supondo conhecido, o logaritmo da funo de verossimilhana de um MLG
com respostas independentes pode ser expresso na forma
L() =
n
X
i=1
{yi i b(i )} +
n
X
c(yi , ).
i=1
Um caso particular importante ocorre quando o parmetro cannico () coinP

cide com o preditor linear, isto , quando i = i = pj=1 xij j . Nesse caso,
7
1.3 Ligaes cannicas

L() fica dado por
L() =
n
X
{yi
p
X
j=1
i=1
Definindo a estatstica Sj =
L() =
p
X
j=1
xij j b(
Pn
i=1
p
X
xij j )} +
j=1
n
X
c(yi , ).
i=1
Yi xij , L() fica ento reexpresso na forma
p
n
n
X
X
X
sj j
xij j ) +
b(
c(yi , ).
j=1
i=1
i=1
Logo, pelo teorema da fatorizao a estatstica S = (S1 , . . . , Sp )T suficiente

minimal para o vetor = (1 , . . . , p )T . As ligaes que correspondem a tais
estatsticas so chamadas de ligaes cannicas e desempenham um papel
importante na teoria dos MLGs. As ligaes cannicas mais comuns so
dadas abaixo.
Distribuio
Normal
Ligao
Binomial
n
o
log 1 =
Poisson
Gama
N. Inversa
log =
1 =
2 =
Uma das vantagens de usarmos ligaes cannicas que as mesmas

garantem a concavidade de L() e consequentemente muitos resultados assintticos so obtidos mais facilmente. Por exemplo, a concavidade de L()
garante a unicidade da estimativa de mxima verossimilhana de , quando
essa existe. Para ligaes no cannicas Wedderburn (1976) discute condies para a existncia da concavidade de L().
1.3.1 Outras ligaes

Ligao probito
Seja a proporo de sucessos de uma distribuio binomial. A ligao
probito definida por
1 () = ,
em que () a funo de distribuio acumulada da normal padro.
8
1.3 Ligaes cannicas
Ligao complemento log-log

A distribuio do valor extremo (logaritmo da exponencial) tem funo densidade dada por
f (y) = exp{y exp(y)},
em que < y < . Logo, a funo de distribuio acumulada fica dada
por
1.0
F (y) = 1 exp{exp(y)}.
0.0
0.2
0.4
F(y)
0.6
0.8
Logistica
V.Extremo
-3
-2
-1
Figura 1.1: Funo de distribuio acumulada das curvas logstica e do valor

extremo.
O modelo binomial com ligao complemento log-log definido tal que
= 1 exp{exp()},
9
1.3 Ligaes cannicas

ou, equivalentemente,
log{log(1 )} = .
A ligao logito definida de forma similar. A funo densidade da
distribuio logstica dada por
f (y) =
exp(y)
,
{1 + exp(y)}2
em que < y < . Da segue que a funo de distribuio acumulada

fica expressa na forma
ey
.
(1 + ey )
O modelo logstico binomial obtido substituindo F (y) por e y por na
F (y) =
expresso acima. Como no caso binomial o parmetro de interesse sempre

uma probabilidade, fica muito razovel que funes de distribuies acumuladas sejam utilizadas para gerarem novas ligaes e consequentemente
novos modelos. Na Figura 1.1 apresentamos a F (y) da distribuio logstica
e da distribuio do valor extremo para valores de y variando no intervalo
[3 , 3]. Temos que a curva logstica simtrica em torno de F (y) = 1/2,
enquanto que a curva do valor extremo apresenta comportamentos distintos
para F (y) 1/2 e F (y) > 1/2.
Ligao de Box-Cox
Uma classe importante de ligaes, pelo menos para observaes positivas,
a classe de ligaes de Box-Cox definida por
= ( 1)/,
para 6= 0 e = log para 0. A ideia agora aplicarmos a transfor-
mao de Box-Cox, definida na Seo 1.1, na mdia da varivel resposta ao

10
30
1.3 Ligaes cannicas
10
20
= 0, 5
= 0, 6
= 0, 8
10
Figura 1.2: Ligao de Box-Cox para alguns valores de .

invs de transformarmos a prpria varivel resposta. Temos na Figura 1.2 o
comportamento de para alguns valores de e para variando no intervalo
[0 , 10].
Ligao de Aranda-Ordaz
Uma outra transformao importante foi proposta por Aranda-Ordaz (1981)
para dados binrios. A transformao dada por

(1 ) 1
= log
,
em que 0 < < 1 e uma constante desconhecida. Quando = 1 temos a

ligao logito = log{/(1)}. Quando 0 temos {(1) 1}/
log(1 )1 de modo que = log{log(1 )} e obtemos portanto a ligao

11
1.0
1.3 Ligaes cannicas
0.0
0.2
0.4
0.6
0.8
= 0, 5
= 1, 0
= 2, 0
-3
-2
-1
Figura 1.3: Ligao de Aranda-Ordaz para alguns valores de .

complemento log-log. Na Figura 1.3 temos o comportamento de para alguns
valores de . Em muitas situaes prticas o interesse pode ser testarmos
se o modelo logstico apropriado, H0 : = 1, contra a necessidade de uma
transformao na ligao, H1 : 6= 1.
Os MLGs so ajustados no aplicativo R atravs do comando glm. Para
ilustrarmos uma aplicao, vamos supor que temos interesse em ajustar um

modelo de Poisson com ligao cannica e que a varivel resposta denotada por resp com variveis explicativas cov1 e cov2. Podemos mandar os
resultados do ajuste para um arquivo (objeto no R), por exemplo com nome
fit.poisson, atravs do comando
fit.poisson = glm( resp cov1 + cov2, family=poisson).
Com o comando
summary(fit.poisson)
podemos obter um resumo dos resultados do ajuste.
12
1.4 Funo desvio
1.4 Funo desvio

Sem perda de generalidade, vamos supor que o logaritmo da funo de verossimilhana seja agora definido por
L(; y) =
n
X
L(i ; yi ),
i=1
em que i = g 1 (i ) e i = xTi . Para o modelo saturado (p = n) a funo

L(; y) estimada por
L(y; y) =
n
X
L(yi ; yi ).
i=1
Ou seja, a estimativa de mxima verossimilhana de i fica nesse caso dada

y).
por
i = yi . Quando p < n, denotamos a estimativa de L(; y) por L(;
Aqui, a estimativa de mxima verossimilhana de i ser dada por
i =
g 1 (
i ), em que i = xT .
i
A qualidade do ajuste de um MLG avaliada atravs da funo desvio

= D(y; )
= 2{L(y; y) L(;
y)},
D (y; )
que uma distncia entre o logaritmo da funo de verossimilhana do modelo saturado (com n parmetros) e do modelo sob investigao (com p pa Um valor
rmetros) avaliado na estimativa de mxima verossimilhana .
pequeno para a funo desvio indica que, para um nmero menor de parmetros, obtemos um ajuste to bom quanto o ajuste com o modelo saturado.
Denotando por i = i (
i ) e i = i (
i ) as estimativas de mxima verossimilhana de para os modelos com p parmetros (p < n) e saturado (p = n),
fica, alternativamente, dada
respectivamente, temos que a funo D(y; )
por
n
X
=2
D(y; )
{yi (i i ) + (b(i ) b(i ))}.
i=1
13
1.4 Funo desvio

Apresentamos a seguir a funo desvio para alguns casos particulares.
O desvio no R sai com o nome deviance aps o ajuste do modelo e o nmero
=
de graus de liberdade correspondente dado por np. Denotamos D(y; )
Pn 2
i ) em que d2 (yi ;
i ) ser denominado componente do desvio no
i=1 d (yi ;
escalonado.
Normal
Aqui i = i , logo i = yi e i =
i . O desvio fica portanto dado por
n
n
X
X
2
2
=2
D(y; )
{yi (yi
i ) +
i /2 yi /2} =
(yi
i )2 ,
i=1
i=1
que coincide com a soma de quadrados de resduos.
Poisson
Nesse caso temos i = logi , o que implica em i = logyi para yi > 0 e
i = log
i . Assim,
n
X
=2
D(y; )
{yi log(yi /
i ) (yi
i )}.
i=1
vale 2
Se yi = 0 o i-simo termo de D(y; )
i . Resumindo, temos o seguinte
resultado para o modelo de Poisson:

2{yi log(yi /
i ) (yi
i )} se yi > 0;
2
d (yi ;
i ) =
2
i
se yi = 0.
Binomial
No caso binomial em que assumimos Yi B(ni , i ), i = 1, . . . , k, obtemos
i = log{yi /(ni yi )} e i = log{
i /(1
i )} para 0 < yi < ni . Logo, o
desvio assume a seguinte forma:
=2
D(y; )
k
X
i=1
[yi log(yi /ni

i ) + (ni yi )log{(1 yi /ni )/(1
i )}].
14
1.4 Funo desvio

vale 2ni log(1
Todavia, quando yi = 0 ou yi = ni , o i-simo termo de D(y; )
i ) ou 2ni log
i , respectivamente. Portanto, os componentes do desvio no
caso binomial assumem as seguintes formas:
i ) + (ni yi )log{(1 yi /ni )/(1

i )} se 0 < yi < ni ;
yi log(yi /ni
2
2ni log(1
i )
se yi = 0;
d (yi ;
i ) =
2ni log
i
se yi = ni .
Gama
No caso gama, i = 1/yi e i = 1/

i . Assim, segue que o desvio (quando
todos os valores so positivos) pode ser expresso na forma

=2
D(y; )
n
X
i=1
{log(yi /
i ) + (yi
i )/
i }.
Se algum componente de yi igual a zero o desvio fica indeterminado. Mc nesse caso por
Cullagh e Nelder (1989) sugerem substituir D(y; )
= 2C(y) + 2
D (y; )
n
X
i=1
log
i + 2
n
X
yi /
i ,
i=1
em que C(y) uma funo arbitrria, porm limitada. Podemos, por exemP
plo, usar C(y) = ni=1 yi /(1 + yi ).
Normal inversa
Para esse caso i = 1/2yi2 e i = 1/2

2i . A funo desvio fica ento dada
por
=
D(y; )
n
X
(yi
i )2 /(yi
2i ).
i=1
1.4.1 Resultados assintticos

Embora seja usual compararmos os valores observados da funo desvio com
os percentis da distribuio qui-quadrado com n p graus de liberdade,
15
1.4 Funo desvio

no segue assintoticamente uma 2np . No caso binomial
em geral D(y; )
segue sob a hiptese de que o
quando k fixo e ni para cada i, D(y; )
modelo verdadeiro uma 2kp . Isso no vale quando n e ni i (1 i )
permanece limitado. Para o modelo de Poisson, quando i para todo

2np . No caso normal, como conhecido para 2
i, temos que D(y; )
2 2np . Lembre que E{2r } = r, assim um valor do desvio

fixo, D(y; )
prximo de np pode ser uma indicao de que o modelo est bem ajustado.
depende do parmetro de disperso

Em geral, para os casos em que D (y; )
1 , o seguinte resultado (Jrgensen, 1987) para a distribuio nula da funo
desvio pode ser utilizado:
2np , quando .
D (y; )
Isto , quando a disperso pequena, fica razovel compararmos os valores
com os percentis da 2np . Em particular, para o caso
observados de D (y; )
P
normal linear, o resultado acima diz que ni=1 (yi
i )2 / 2 2np quando
2 0. No caso do modelo gama, o desvio estar bem aproximado por uma
qui-quadrado com n p graus de liberdade medida que o coeficiente de
variao ficar prximo de zero.
1.4.2 Anlise do desvio

Vamos supor para o vetor de parmetros a partio = ( T1 , T2 )T , em que
1 um vetor q-dimensional enquanto 2 tem dimenso pq e conhecido
(ou fixo). Portanto, podemos estar interessados em testar as hipteses H0 :
1 = 0 contra H1 : 1 6= 0. As funes desvio correspondentes aos modelos
0 ) e D(y; ),
respectivamente, em
sob H0 e H1 sero denotadas por D(y;
0 a estimativa de mxima verossimilhana sob H0 . A estatstica da
que
16
1.4 Funo desvio

razo de verossimilhanas fica nesse caso dada por
0 ) D(y; )},
RV = {D(y;
(1.3)
isto , a diferena entre dois desvios. Como conhecido, sob a hiptese nula,
RV 2q quando n . De forma similar, podemos definir a estatstica
0 ) D(y; )}/q
{D(y;
,
F=
D(y; )/(n
p)
(1.4)
cuja distribuio nula assinttica uma Fq,(np) quando o denominador de

(1.4) uma estimativa consistente de 1 (ver, por exemplo, Jrgensen,
1987). A vantagem de utilizarmos (1.4) em relao a (1.3) que a estatstica F no depende do parmetro de disperso. O resultado (1.4) tambm
verificado quando e n arbitrrio. Quando desconhecido a
estatstica da razo de verossimilhanas assume uma expresso diferente de

(1.3). A estatstica F acima fica, no caso normal linear, reduzida forma
conhecida dada abaixo
n
n
X
X
F = (qs2 )1 { (yi
0i )2
(yi
i )2 },
i=1
em que s2 =
Pn
i=1 (yi
i=1
i )2 /(n p) o erro quadrtico mdio do modelo
com p parmetros. A forma da estatstica F dada em (1.4) pode ser obtida,
em particular, quando testamos uma hiptese de igualdades lineares num

modelo de regresso normal linear.Como ilustrao, vamos supor o modelo
y = X + W + ,
em que N(0, 2 In ), X uma matriz n p, In a matriz identidade
de ordem n, W aqui uma matriz n q, ambas de posto completo, =

(1 , . . . , p )T e = (1 , . . . , q )T . Vamos supor as hipteses
H0 : C = 0 contra H1 : C 6= 0,
17
1.4 Funo desvio

em que = ( T , T )T e C uma matriz k (p + q) de posto completo. O
acrscimo na soma de quadrados de resduos devido s restries em H0

dado por
T {C(ZT Z)1 CT }1 (C),
ASQ(C = 0) = (C)
= (ZT Z)1 ZT y e Z = (X, W). A estatstica F para testarmos H0
em que
fica ento dada por
F=
ASQ(C = 0)/k
,
D(y; )/(n
p q)
o desvio do modelo completo com p + q parmetros e

em que D(y; )
0 ) D(y; ),
com D(y;
0 ) sendo o desvio do modelo
ASQ(C = 0) = D(y;
sob H0 . Portanto, F assume a forma
0 ) D(y; )}/k
{D(y;
F=
,
D(y; )/(n
p q)
e segue, sob H0 , uma distribuio Fk,(npq) . No caso de testarmos H0 : = 0
contra H1 : 6= 0, a matriz C tem dimenso q (p + q) com a i-sima linha
tendo o valor 1 na posio p + i e zeros nas demais posies. Essa formulao
pode tambm ser aplicada quando testamos a incluso de novas covariveis

num modelo de regresso normal linear.
Para ilustrarmos o uso das diferenas de desvios para hipteses em modelos encaixados, vamos supor um MLG com dois fatores, A e B. O fator A
com n(A) nveis e o fator B com n(B) nveis. Descrevemos na Tabela 1.2 os
possveis testes envolvendo os dois fatores. Em particular, se o interesse testarmos a incluso do fator B dado que o fator A j est no modelo, devemos
A ) D(y;
A+B )} com os nveis crticos da
comparar a diferena {D(y;
distribuio qui-quadrado com {n(B) 1} graus de liberdade. Alternativa-
mente, podemos comparar o valor observado da estatstica F correspondente

com os nveis da distribuio F com {n(B) 1} e {n n(A) n(B) + 1}
18
1.4 Funo desvio

graus de liberdade. No caso normal linear construmos a tabela ANOVA utilizando a estatstica F no lugar da diferena entre desvios. A vantagem disso
o fato do parmetro de disperso 1 no precisar ser estimado. Atravs
do comando anova() o R fornece uma tabela ANODEV para os ajustes colocados como objetos. Por exemplo, vamos supor que os objetos fit1.reg,
fit2.reg e fit3.reg correspondam aos ajustes de um MLG com um, dois
e trs fatores, respectivamente. Ento, o comando
anova(fit1.reg,fit2.reg,fit3.reg)
fornece uma tabela ANODEV comparando os trs fatores.
Tabela 1.2
Anlise do desvio (ANODEV) supondo dois fatores na parte sistemtica.
Modelo
Desvio
Diferena
G.L.
Testando
Constante
D0
D0 DA
n(A) 1
A ignorando B
D0 DB
n(B) 1
B ignorando A
+A
DA
DA DA+B
n(B) 1
B|A ignorando AB
+B
DB
DB DA+B
n(A) 1
A|B ignorando AB
+A+B
DA+B
DA+B DAB {n(A) 1}
AB|A + B
{n(B) 1}
+A+B+AB DAB
Como aplicao do ANODEV, vamos considerar o exemplo descrito na
Seo 1.12.2 em que um modelo logstico linear ajustado para explicar a
ocorrncia de cncer de pulmo em pacientes com processo infeccioso pulmonar. A parte sistemtica do modelo representada abaixo
1 + SEXO + IDADE + HL + FF,
em que 1 denota a presena de intercepto no modelo, SEXO (1:feminino,
0:masculino), IDADE (em anos) e HL e FF so dois fatores com 4 nveis
19
1.5 Funo escore e informao de Fisher

cada um representando a intensidade de dois tipos de clula. Na Tabela 1.3
resumimos alguns resultados.
Tabela 1.3
Anlise do desvio referente ao exemplo sobre processo
infeccioso pulmonar.
Modelo
Desvio Diferena G.L.
Testando
Constante 236,34
+ SEXO
235,20
1,14
SEXO
+ IDADE
188,22
46,98
IDADE | SEXO
+ HL
162,55
25,67
+ FF
157,40
5,15
HL | SEXO +
IDADE
FF | SEXO +
IDADE + HL
Para calcularmos os nveis descritivos das diferenas apresentadas na

Tabela 1.3, usamos o comando pchisq(dv,q) do R. Por exemplo, para calcularmos o nvel descritivo referente ao efeito do fator SEXO, fazemos
1 - pchisq(1.14,1)
e obtemos P = 0, 285. Similarmente, para testarmos a incluso de FF dado
que j temos no modelo 1+SEXO+IDADE+HL, fazemos
1 - pchisq(5.15,3)
e obtemos P = 0, 1611, indicando que o fator FF no significativo a 10%.

1.5.1 Escore e Fisher para
Vamos considerar a partio = ( T , )T e denotarmos o logaritmo da
funo de verossimilhana por L(). Para obtermos a funo escore para o
20

parmetro calculamos inicialmente as derivadas

n
X
di di i db(i ) di di i
=
yi
d
d
di di di j
i
i
j
i=1
L()/j
n
X
i=1
{yi Vi1 (di /di )xij i Vi1 (di /di )xij }
r

n
X
i
=
(yi i )xij ,
Vi
i=1
em que i = (di /di )2 /Vi . Logo, podemos escrever a funo escore na forma
matricial
U () =
L()
= XT W1/2 V1/2 (y ),
em que X uma matriz n p de posto completo cujas linhas sero de-
notadas por xTi , i = 1, . . . , n, W = diag{1 , . . . , n } a matriz de pesos,
V = diag{V1 , . . . , Vn }, y = (y1 , . . . , yn )T e = (1 , . . . , n )T .
Para obtermos a matriz de informao de Fisher precisamos das deri-
vadas
2
L()/j
n
X
d 2 i
=
(yi i ) 2
di
i=1
n
X
di
di
2
xij xi
n
X di
di d2 i
+
(yi i )
x
x
ij i
di di2
di
i=1
i=1
di
di
cujos valores esperados ficam dados por

E L()/j

2
n
X
di di
xij xi
=
di di
i=1
=
=
21
n
X
(di /di )2
i=1
n
X
i=1
Vi
i xij xi .
xij xi
2
xij xi ,

Logo, podemos escrever a informao de Fisher para na forma matricial

2 L()
K () = E
= XT WX.
T
Em particular, para ligao cannica (i = i ), essas quantidades tomam formas simplificadas

U = XT (y ) e K = XT VX,
respectivamente. Se particionarmos o vetor de parmetros tal que =
( T1 , T2 )T , a funo escore e a matriz de informao de Fisher ficam para
o parmetro 1 , respectivamente, dadas por U1 = XT1 W1/2 V1/2 (y )
e K1 1 = XT1 WX1 .
1.5.2 Escore e Fisher para

A funo escore para o parmetro fica dada por
L()
n
n
X
X
=
{yi i b(i )} +
c (yi , ),
U () =
i=1
i=1
em que c (yi , ) = dc(yi , )/d. Para obtermos a informao de Fisher

P
para temos que calcular 2 L()/2 = ni=1 c (yi , ), em que c (yi , ) =
d2 c(yi , )/d2 . Assim, a informao de Fisher para fica dada por

K () =
n
X
E{c (Yi , )}.
i=1
1.5.3 Ortogonalidade
Temos que 2 L()/ =
Pn p
i Vi1 (yi i )xi . Portanto, verificamos
i=1
facilmente que e so ortogonais, isto , K () = E[ 2 L()/] = 0.

22

Logo, segue que a matriz de informao de Fisher para bloco diagonal
sendo dada por K = diag{K , K }. A funo escore para fica dada
por U = (UT , U )T . Discutimos a seguir alguns casos particulares.
1.5.4 Casos particulares

Normal
A funo de varincia no caso normal dada por V () = 1 (d/d = 1).
Logo, = (d/d)2 . Em particular para ligao cannica ( = ), obtemos
= 1. Assim,
U = 2 XT (y ) e K = 2 XT X,
como conhecido. Temos ainda o resultado
n
n
X
X
2i
U =
(yi i ) +
c (yi , ),
2
i=1
i=1
em que c (yi , ) = 1/2 yi2 /2. Da segue que c (yi , ) = 1/22 e portanto
P
K = ni=1 E{c (Yi , )} = n/22 .
Poisson
Aqui a funo de varincia dada por V () = . Logo, = (d/d)2 . Para

ligao cannica (log = ) os pesos so as prprias mdias, isto = .
Em particular, para ligao raiz quadrada ( = ), obtemos = 1. Assim,

U = XT V1/2 (y ) e K = XT X.
Binomial
No caso binomial, a funo de varincia definida por V () = (1 ),
em que 0 < < 1. Portanto, temos = (1 )(d/d)2 . Por conveno

23

assumimos que = n(1 )(d/d)2 e = 1. No caso de ligao cannica
(log{/(1 )} = ) os pesos so as varincias das binomiais, isto =
n(1 ). As matrizes U e K ficam nesse caso dadas por

U = XT (y ) e K = XT VX,
em que X uma matriz k p, y = (y1 , . . . , yn )T , = (n1 1 , . . . , nk k )T e
V = diag{n1 1 (1 1 ), . . . , nk k (1 k )}.
Gama
Para o caso gama V () = 2 . Logo, = 2 (d/d)2 . Em particular, para
um modelo log-linear (log = ), obtemos d/d = , o que implica em
= 1. Assim, U = XT V1/2 (y ) e K = XT X, similarmente ao
caso normal. Para ligao cannica, = 2 . A funo escore para fica

dada por
U =
n
n
X
X
yi
c (yi , ),
( + logi ) +
i
i=1
i=1
em que c (yi , ) = logyi + log + 1 () e () = ()/() a fun-
o digama. Da segue que c (yi , ) = 1/ () e portanto K =

P
ni=1 E{c (Yi , )} = n{ ()1}/, em que () = d()/d a funo
trigama.
Normal inversa
Nesse caso a funo de varincia dada por V () = 3 . Assim, =
3 (d/d)2 . Pode ser muito razovel aplicarmos aqui um modelo log-linear,
uma vez que as respostas so sempre positivas. No entanto, diferente dos modelos log-lineares com resposta de Poisson, os pesos aqui so inversamente
proporcionais s mdias, isto = 1 . Em particular para ligao cannica, = 3 , e portanto U = XT (y ) e K = XT VX. Temos ainda
24
1.6 Estimao dos parmetros

o resultado
n
n
X
X
1
yi
U =
c (yi , ),
( 2 )+
2i
i
i=1
i=1
em que c (yi , ) = 1/2 1/2yi . Da segue que c (yi , ) = 1/22 e portanto

P
K = ni=1 E{c (Yi , )} = n/22 .
1.6
1.6.1
Estimao dos parmetros

Estimao de
O processo iterativo de Newton-Raphson para a obteno da estimativa de

mxima verossimilhana de definido expandindo a funo escore U em
torno de um valor inicial (0) , tal que
(0)
(0)
U
= U + U ( (0) ),
em que U denota a primeira derivada de U com respeito a T , sendo

(0)
U (0) e U , respectivamente, essas quantidades avaliadas em (0) . Assim,

repetindo o procedimento acima, chegamos ao processo iterativo
(m)
(m+1) = (m) + {(U )1 }(m) U ,

m = 0, 1, . . .. Como a matriz U pode no ser positiva definida, a aplicao
do mtodo escore de Fisher substituindo a matriz U pelo correspondente

valor esperado K pode ser mais conveniente. Isso resulta no seguinte pro-
cesso iterativo:
(m)
(m)
(m+1) = (m) + {K1
U ,
}
m = 0, . . .. Se trabalharmos um pouco o lado direito da expresso acima,

chegaremos a um processo iterativo de mnimos quadrados reponderados
(m+1) = (XT W(m) X)1 XT W(m) z(m) ,
25
(1.5)

m = 0, 1, . . ., em que z = + W1/2 V1/2 (y ). A quantidade z desem-
penha o papel de uma varivel dependente modificada, enquanto W uma

matriz de pesos que muda a cada passo do processo iterativo. A convergn-
cia de (1.5) ocorre em geral num nmero finito de passos, independente dos
valores iniciais utilizados. usual iniciarmos (1.5) com (0) = g(y).
Apenas como ilustrao, para o caso logstico binomial, obtemos =
n(1) e varivel dependente modificada dada por z = +(yn)/n(1 ).
Lembrando, para o modelo normal linear no preciso recorrermos ao pro-
cesso iterativo (1.5) para a obteno da estimativa de mxima verossimi assume a forma fechada
lhana. Nesse caso,
= (XT X)1 XT y.
Observamos que o lado direito de (1.5) no depende de . Portanto, para

no preciso conhecermos .
obtermos
1.6.2
Estimao de
Igualando a funo escore U a zero chegamos seguinte soluo:

n
X
i=1
X
= 1 D(y; )

c (yi , )
{yi i b(i )},
2
i=1
denota o desvio do modelo sob investigao. Verificamos que

em que D(y; )
a estimativa de mxima verossimilhana para nos casos normal e normal
inversa, igualando U a zero, dada por
=
n
.
D(y; )
Para o caso gama, a estimativa de mxima verossimilhana de sai da equao

= D(y; ).
2n{log ()}
26

A equao acima pode ser resolvida diretamente pelo R atravs do comando
require(MASS) (Venables e Ripley, 1999). Como ilustrao, vamos supor
que os resultados do ajuste sejam guardados em fit.model. Ento, para
encontrarmos a estimativa de mxima verossimilhana de com o respectivo
erro padro aproximado devemos usar os comandos
require(MASS)
gamma.shape(fit.model).
Um outro estimador consistente para (de momentos) que no envolve
processo iterativo baseado na estatstica de Pearson, sendo dado por
(n p)
= Pn (y )2 .
i
i
}
i=1 { V (
i )
tem sido consistentemente estimado. O R solta a

A suposio aqui que
que no consistente para .
estimativa = (n p)/D(y; )
1.6.3 Distribuio assinttica

e so assintoticamente normais e independentes
Para mostrarmos que
vamos usar os resultados abaixo
E(U ) = 0 e Var(U ) = K ,
com as funes escore de e sendo, respectivamente, expressas nas formas
P
U = ni=1 Ui , em que
n
q
X
1
Ui = i Vi (yi i )xi e U =
Ui ,
i=1
com Ui = {yi i b(i )} + c (yi , ). Portanto, para n grande, temos que
U Np+1 (0, K ). Em particular, assintoticamente U Np (0, K ) e

U N(0, K ) e U e U so independentes.
27
1.7 Teste de hipteses

Expandindo U em srie de Taylor em torno de obtemos
),
U
= U + U (
o estimador de mxima verossimiem que U = U / T . Assim, como
lhana de temos que U = 0 e da segue a relao
= + (U )1 U .
Supondo que para n grande U
= K (para ligao cannica K = U ),
ento obtemos
= + K1
U ,
Np+1 (, K1 ). Como K = diag{K , K }
ou seja, para n grande
e
ento assintoticamente segue que Np (, K1 ) e N(0, K1 ) e
so independentes. Demonstraes mais rigorosas desses resultados podem
ser encontradas, por exemplo, em Fahrmeir e Kaufmann (1985) e Sen e Singer

(1993, Cap. 7).
1.7
Teste de hipteses
1.7.1 Hipteses simples

Buse (1982) apresenta de uma forma bastante didtica a interpretao geomtrica dos testes da razo de verossimilhanas, escore e Wald para o caso de
hipteses simples. Apresentamos a seguir as generalizaes para os MLGs.
Vamos supor, inicialmente, a seguinte situao de hipteses simples:
H0 : = 0 contra H1 : 6= 0 ,
em que 0 um vetor p-dimensional conhecido e tambm assumido
conhecido.
28
Teste da razo de verossimilhanas

O teste da razo de verossimilhanas, no caso de hipteses simples, usualmente definido por
L( 0 )}.
RV = 2{L()
Essa estatstica pode tambm ser expressa, para os MLGs, como a diferena
entre duas funes desvio
0 ) D(y; )},
RV = {D(y;
0 = g1 (
0 = X 0 . Em particular, para o caso normal linear,
em que
0 ),
P
P
obtemos RV = { ni=1 (yi
0i )2 ni=1 (yi
i )2 }/ 2 .
Teste de Wald
O teste de Wald definido, nesse caso, por

0 ],
0 ]T Var
1 ()[
W = [
denota a matriz de varincia-covarincia assinttica de
)
em que Var(
Para os MLGs, Var(
= K1 ().
Assim, a estatstica de
)
estimada em .
Wald fica reexpressa na forma
0 ]T (XT WX)[
0 ].
W = [
Em particular, para o caso de p = 1, o teste de Wald equivalente ao teste

t2 usual
W =
( 0 )2
.
)
Var(
Um problema com a estatstica de Wald, especialmente quando () no

linear em , a dependncia de W com a parametrizao utilizada. Isto
, duas formas diferentes e equivalentes para (), podem levar a diferentes
valores de W .
29
Teste de escore
O teste de escore, tambm conhecido como teste de Rao, definido quando
= 0 por
U ()
( 0 ),
0 ()U
SR = U ( 0 )T Var
denota que a varincia assinttica de
est sendo estimada
0 ()
em que Var
sob H0 . Para os MLGs temos que
0 X)1 U ( 0 ),
SR = 1 U ( 0 )T (XT W
0 estimado sob H0 , embora tenha a forma do modelo em H1 . A
em que W
estatstica de escore pode ser muito conveniente em situaes em que a hiptese alternativa bem mais complicada do que a hiptese nula. Nesses casos,
somente seria necessrio estimarmos os parmetros sob H1 quando o modelo
em H0 fosse rejeitado. Novamente, ilustrando o caso normal linear, temos que
a estatstica de escore fica expressa na forma SR = (y X 0 )T X(XT X)1
XT (y X 0 )/ 2 . Observamos que, nesse caso, as estatsticas RV e W
coincidem com SR .
Teste F
A estatstica F, que foi definida em (1.4), assume a seguinte forma para o
caso de hipteses simples:
F=
0 ) D(y; )}/p
{D(y;
,
D(y; )/(n
p)
que para e sob H0 segue uma Fp,(np) . Esse resultado vale tambm
para n quando colocamos no denominador da estatstica F uma esti-
mativa consistente para 1 . Uma propriedade interessante das estatsticas
RV , SR e F o fato de serem invariantes com reparametrizaes. Isso pode

30

ser muito til na construo de regies de confiana para os parmetros. A
estatstica F tem a vantagem adicional de no depender do parmetro de
disperso 1 . Como essa estatstica pode ser obtida diretamente de funes
desvio, talvez seja a mais conveniente para uso prtico. Assintoticamente e
sob a hiptese nula, temos que RV , W e SR 2p .
Uma regio assinttica de confiana para baseada no teste de Wald
e com coeficiente de confiana (1 ), dada por

)T (XT WX)(
) 1 2 (1 )],
[; (
p
em que 2p (1) denota o percentil (1) de uma distribuio qui-quadrado
com p graus de liberdade. Como essa regio pode depender da parametrizao utilizada quando no linear (ver, por exemplo, Ratkowsky, 1983),
pode ser mais conveniente, nesses casos, construirmos a regio utilizando
uma das estatsticas invariantes. Em particular, se a estatstica da razo de
verossimilhanas for escolhida, a regio assinttica fica dada por
L()} 2 (1 )].
[; 2{L()
p
Se estamos interessados num subconjunto 1 q-dimensional, a regio assinttica de confiana utilizando as estatsticas de Wald e da razo de verossimilhanas ficam, respectivamente, dadas por
1
1 )T Var
1 )(
1 ) 1 2 (1 )]
[; (
(
q
e
L(,
2 ())} 2 (1 )],
[; 2{L()
q
() a estimativa de mxima verossimiem que aqui q-dimensional e
2
lhana de 2 dado (ver, por exemplo, Seber e Wild, 1989).
31
1.7.2 Modelos encaixados

conhecido
Vamos supor novamente a partio = ( T1 , T2 )T definida na Seo 1.4.2 e
as seguintes hipteses: H0 : 1 = 01 contra H1 : 1 6= 01 . Para esse caso
temos
0 ) D(y; )},
RV = {D(y;
0 a estimativa de mxima verossimilhana do MLG com parte
em que
P
P
sistemtica = 10 + 2 , em que 10 = qj=1 xj j0 e 2 = pj=q+1 xj j . A
quantidade 10 desempenha o papel de um offset (parte conhecida no preditor linear), conforme a nomenclatura de modelos lineares generalizados.
Para ilustrarmos a utilizao do offset, vamos supor um modelo de Poisson
com ligao log-linear, resposta resp, covariveis cov1 e cov2 e offset dado
por logt0. Para ajustarmos o modelo e armazenarmos os resultados em
fit1.poisson devemos fazer
fit1.poisson = glm(resp cov1 + cov2 + offset(logt0),
family= poisson).
Esse tipo de recurso muito utilizado em estudos de seguimento em que cada
indivduo observado durante um tempo diferente (vide Exemplo 1.12.4).
Como ilustrao, vamos supor um MLG com distribuio normal inversa,

ligao cannica e preditor linear dado por = 1 + 2 cov2 + 3 cov3 e que
o interesse testarmos H0 : 2 = b, em que b uma constante diferente
de zero, contra H1 : 2 6= b. Os ajustes correspondentes a H0 e H1 so,
respectivamente, dados por
fit1.ni = glm( resp cov3 + offset(b*cov2),

family=inverse.gaussian)
fit2.ni = glm( resp cov2+cov3, family=inverse.gaussian).
32
Logo, de (1.4), a estatstica F para testarmos H0 : 2 = b contra H1 : 2 6= b
fica dada por
d1 = deviance(fit1.ni)
d2 = deviance(fit2.ni)
F = (d1 - d2)/(d2/(n-3)).
Em particular, o offset desaparece para b = 0. O ajuste, nesse caso, fica
simplesmente dado por
fit1.ni = glm( resp cov3, family=inverse.gaussian).
Teste de Wald
Para testarmos H0 , a estatstica de Wald fica expressa na forma
1 0 ]T Var
1 )[
1 0 ],
1 (
W = [
1
1
1 sai do vetor
= (
T ,
T )T . Usando resultados conhecidos de
em que
1
2
1 dada por
lgebra linear, mostramos que a varincia assinttica de
1 ) = 1 [XT W1/2 M2 W1/2 X1 ]1 ,
Var(
1
em que X1 sai da partio X = (X1 , X2 ), sendo portanto nq, X2 n(pq),
M2 = In H2 e H2 = W1/2 X2 (XT2 WX2 )1 XT2 W1/2 a matriz de projeo
ortogonal de vetores do Rn no subespao gerado pelas colunas da matriz
W1/2 X2 . Em particular, no caso normal linear, temos as simplificaes H2 =

1 ) = 2 [XT (In H2 )X1 ]1 .
X2 (XT X2 )1 XT e Var(
2
Teste de escore
A funo escore pode ser expressa na forma U = 1/2 XT W1/2 rP , em que
rP = 1/2 V1/2 (y ) conhecido como resduo de Pearson. Observamos
33

que rP tem a mesma distribuio de Y, no entanto, E(rP ) = 0 e Var(rP ) =
In . O teste de escore definido por
0 )T Var
1 )U (
0 ),
0 (
SR = U1 (
1
0 = ( 0T ,
0T )T e
em que U1 () = L()/ 1 = XT1 W1/2 V1/2 (y ),
1
2
0
a estimativa de mxima verossimilhana de 2 sob o modelo com parte
2
01 = X1 01 e 2 = X2 2 .
01 + 2 , isto , sob H0 , em que
sistemtica =
1 ), chegaremos ao
Se trabalharmos um pouco mais a expresso para Var(
seguinte resultado:
1 ) = 1 (RT WR)1 ,
Var(
em que R = X1 X2 C e C = (XT2 WX2 )1 XT2 WX1 . Aqui C uma matriz
n q cuja j-sima coluna o vetor de coeficientes da regresso linear (com
pesos W) da j-sima coluna de X1 sobre X2 . Assim, R pode ser interpretado

como sendo uma matriz nq de resduos. A j-sima coluna de R corresponde
aos resduos ordinrios da regresso linear (com pesos W) da j-sima coluna
de X1 sobre X2 . Assim, o teste de escore fica reexpresso na forma (vide
Cordeiro, Ferrari e Paula, 1993)
1/2rP0 ,
0R
0 )1 XT W
TW
1/2 X1 (R
SR = rTP0 W
0
0
1
0
0.
0eR
0 sendo avaliadas em
com as quantidades rP0 , W
Para ilustrarmos o clculo da estatstica de escore, vamos supor um
MLG com preditor linear dado por = 1 + 2 cov2 + 3 cov3 + 4 cov4 e
que o interesse testarmos H0 : 3 = 4 = 0. As matrizes X1 e X2 sero
ento dadas por X1 = [cov3 , cov4 ] e X2 = [1 , cov2 ]. Se temos um modelo
de Poisson, por exemplo com ligao cannica, ento como j vimos = .
0 = diag{
Logo, W
0 , . . . ,
0 }, em que
0 , . . . ,
0 so os pesos sob H0 , ou seja,
1
os pesos do modelo ajustado de Poisson com preditor linear = 1 + 2 cov2 .

34

0, R
0,
Portanto, precisamos apenas fazer esse ajuste e da computamos W
0 por W, rP0 por rp
rP0 e finalmente SR . Chamando no R os pesos por w, W
0 por R, os passos para o clculo de SR so dados abaixo
eR
X1 = cbind(cov3 , cov4)
X2 = cbind(1 , cov2)
fit.poisson = glm( resp cov2, family=poisson)
rp = resid(fit.poisson, type=pearson)
w = fit.poisson$weights
W = diag(w)
A = solve(t(X2)%*%W%*%X2)
C1 = A%*%t(X2)%*%W%*%cov3
C2 = A%*%t(X2)%*%W%*%cov4
C = cbind(C1 , C2)
R = X1 - X2%*%C
SR = solve(t(R)%*%W%*%R)
SR = t(rp)%*%sqrt(W)%*%X1%*%SR%*%t(X1)%*%sqrt(W)%*%rp.
Em particular, para o caso normal linear, C = (XT2 X2 )1 XT2 X1 e rP =
0 ), em que
0 )T X1 (RT R)1 XT1 (y
(y )/. Logo, SR = 2 (y
R = X1 X2 (XT2 X2 )1 XT2 X1 = (In H2 )X1 . Aqui, tambm as estatsticas
da razo de verossimilhanas e de Wald coincidem com a estatstica de escore.

Isso em geral vale para o modelo normal linear.
A estatstica de Wald fica, analogamente ao caso anterior, dada por
1 0 ].
1 0 ]T [R
TW
R][

W = [
1
1
segue os mesmos passos descritos para o clculo do teste de
O clculo de R
escore, com a nica diferena de que os pesos sairo do ajuste do modelo com
todos os parmetros. As mudanas nos comandos so as seguintes:
35

fit1.poissom = glm( resp cov2 + cov3 + cov4,
family=poisson)
w = fit1.poisson$weights
W = diag(w).
Sob H0 e para grandes amostras, temos que RV , W e SR 2q .
desconhecido
No caso de ser desconhecido e o interesse for testarmos H0 : 1 = 01 contra H1 : 1 6= 01 , as estatsticas RV , SR e W assumem formas diferentes
daquelas apresentadas para o caso de ser conhecido. Em particular, denotamos por 0 e as estimativas de mxima verossimilhana de sob H0 e
H1 , respectivamente. Para facilitarmos a notao da estatstica RV usamos
o resultado c(y, ) = d()+a(y)+u(y) vlido para algumas distribuies da

famlia exponencial dada em (1.1) (por exemplo normal, gama e normal inversa), em que a(), d() e u() so funes diferenciveis. Assim, a estatstica
da razo de verossimilhanas fica expressa na forma
)
d(0 )},
0 t(
0 )} + 2n{d()
RV = 2{t(
Pn
b(i ) + a(yi )} e i = (i ). Para o modelo

P
gama, por exemplo, temos que t() = ni=1 {log(yi /i ) yi /i } e d() =
em que t() =
i=1 {yi i
log log(). A estatstica de Wald fica, por sua vez, dada por
1 0 ]T Var
1 )[
1 0]
1 (
W = [
1
1
1 0 ]T (R
1 0 ].
TW
R)[

= [
1
1
J a estatstica de escore assume a forma

0 )T Var
1 )U (
0)
0 (
SR = U1 (
1
1/2rP0 ,
0R
0 )1 XT W
1/2 X1 (R
TW
= rTP0 W
0
0
1
0
36
em que rP0
q
0 = (
0T , 0 )T a estimativa de mxima
1 (y
0) e
= 0 V
0
verossimilhana de sob H0 . As trs estatsticas seguem assintoticamente e

sob H0 uma distribuio 2q .
1.7.3 Modelo de anlise de varincia

Vamos supor o modelo de anlise de varincia balanceado com um fator e
dois grupos
g(ij ) = + i ,
em que i = 1, 2, j = 1, . . . , m, 1 = 0, 2 = e conhecido. Vamos
considerar as hipteses H0 : = 0 contra H1 : 6= 0. Aqui X2 um vetor
2m 1 de 1 s enquanto X1 um vetor 2m 1 com 0 s nas m primeiras
posies e 1 s nas m restantes. Da segue que XT2 WX2 = m(1 + 2 ),

XT2 WX1 = m2 , C = 2 /(1 + 2 ) e consequentemente
RT WR =
m1 2
,
(1 + 2 )
em que 1 e 2 so os pesos correspondentes aos dois grupos. A estatstica

de escore fica ento dada por
SR
m
2 X 0
=
r
m j=1 P2j
!2
em que rP0 2j , j = 1, . . . , m, so os resduos estimados de Pearson, sob H0 , cor1/2

respondentes ao segundo grupo, sendo dados por r0 = 1/2 (y2j
0 )/V0 .
P2j
Em particular, sob a hiptese nula,

0 = y. Assim, obtemos a simplificao
SR =
m
(
y1 y2 )2 ,
2V0
(1.6)
em que y1 e y2 so as mdias amostrais correspondentes aos dois grupos e

V0 = V (
y ) a funo de varincia sob a hiptese nula1 .
1
no caso binomial tomar yi = yi /m e V (

y ) = y(1 y)
37

Similarmente, podemos mostrar que a estatstica de Wald fica dada
por
W =
m
1
2 2
,
(
1 +
2)
(1.7)
em que denota a estimativa de mxima verossimilhana de . Mostramos

na Tabela 1.4 como ficam as expresses das estatsticas SR e W para alguns
casos da famlia exponencial.
Tabela 1.4
Expresses para as estatsticas de escore e de Wald.
Distribuio
SR
W
m
m 2
2
Normal
(
y y2 )
2 2 1
2 2
1.7.4
m
y1 y2 2
(
y1 +
y2 )
Poisson
m
(
y
2
y 1
Binomial
2m
(y
y(2my) 1
Gama
m
(
y1
2
y2
y2 )2
m(
y1 y2 )2 2
(
y12 +
y22 )
Normal inversa
m
(
y1
2
y3
y2 )2
m(
y1 y2 )3 2
(
y13 +
y23 )
y2 )2
y2 ) 2
2 y1 (my1 )y2 (my2 )

m y1 (my1 )+y2 (my2 )
Regresso linear simples
Vamos supor agora um MLG com parte sistemtica na forma linear simples
g(i ) = + xi , i = 1, . . . , n,
e as hipteses H0 : = 0 contra H1 : 6= 0 com conhecido. Nesse caso
P
P
P
Pn
2
obtemos Rj = (xj ni=1 i ni=1 i xi )/ ni=1 i e RT WR =
i=1 i Ri .
P
TW
0R
0 =
0j = xj x e R
Consequentemente, R
0 n (xi x)2 . Aqui,
0
tambm obtemos
= y.
38
i=1

A estatstica de escore fica portanto dada por
P
{ ni=1 xi (yi y)}2
Pn
SR =
,
)2
V0
i=1 (xi x
(1.8)
em que V0 = V (
y ).
Similarmente, obtemos para a estatstica de Wald

W
= 2
n
X
i2 ,
iR
(1.9)
i=1
em que a estimativa de sob H1 .
1.7.5 Hipteses restritas

Podemos ter interesse, em algumas situaes prticas, em testarmos hipteses na forma de igualdades lineares, isto , H0 : C = 0 contra H1 : C 6= 0,
em que C uma matriz k p de posto completo. A estimativa de m-
xima verossimilhana sob a hiptese alternativa coincide com a estimativa

no entanto, obtermos a estimativa
de mxima verossimilhana irrestrita ,
de mxima verossimilhana sob H0 pode ser mais complexo, requerendo o uso
de algum procedimento iterativo. Nyquist (1991) prope um processo iterativo para a obteno da estimativa de mxima verossimilhana em MLGs
com parmetros restritos na forma C = 0. O processo iterativo dado
abaixo
(m+1) (XT W(m) X)1 CT {C(XT W(m) X)1 CT }1 C
(m+1) ,
=
(m+1)
c
(m+1) (1.5) avaliado na estimativa restrita (m) . A
m = 0, 1, . . ., em que
c
matriz de varincia-covarincia assinttica de c dada por

c ) = 1 (XT WX)1 [In CT {C(XT WX)1 CT }1 C(XT WX)1 ].
Var(
39
1.8 Bandas de confiana

Os testes estatsticos assumem formas similares aos testes do caso irrestrito.
Em particular, quando conhecido, o teste da razo de verossimilhanas
fica dado por
0 ) D(y; )},
RV = {D(y;
0 denota aqui a estimativa de mxima verossimilhana de sob
em que
H0 : C = 0. J, o teste de escore, assume a forma
c )T (XT W
c ),
0 X)1 U (
SR = 1 U (
c . Finalmente, o teste de Wald fica dado
0 aqui avaliado em
em que W
por
0]T [Var(C
1 [C
0]
W = [C
)]
1 T 1
T CT [C(XT WX)
=
C ] C.
Sob H0 e para grandes amostras, as estatsticas RV , W e SR seguem uma

distribuio 2k . A distribuio nula assinttica dos testes acima para o caso
H0 : C = 0 contra H1 H0 , em que H1 : C 0, uma mistura de
distribuies do tipo qui-quadrado. Fahrmeir e Klinger (1994) discutem esse
tipo de teste em MLGs (ver tambm Paula, 1997).
1.8 Bandas de confiana

1.8.1 Modelo normal linear
Uma banda de confiana de coeficiente 1 pode ser construda para (z) =
zT , z IRp (ver, por exemplo, Casella e Strawderman, 1980). Temos que
Np (0, 2 (XT X)1 ). Logo, uma banda de confiana de coeficiente
1 para a mdia (z), z IRp , fica dada por
c {zT (XT X)1 z}1/2 , z IRp ,

zT
40
1.9 Tcnicas de diagnstico: Modelo normal linear

em que c tal que P r{2p c } = 1 . importante observarmos que z
um vetor p 1 que varia livremente no IRp enquanto X uma matriz fixa

com os valores das variveis explicativas.
1.8.2 Extenso para os MLGs

Uma banda assinttica de confiana de coeficiente 1 pode ser tambm
construda para (z) = g 1 (zT ), z IRp (Piegorsch e Casella, 1988) ge-
neralizando os resultados da seo anterior. Assintoticamente temos que

Np (0, 1 (XT WX)1 ). Logo, uma banda assinttica de confiana
de coeficiente 1 para o preditor linear zT , z IRp , fica dada por
zT
1 c {zT (XT WX)1 z}1/2 , z IRp ,
em que c tal que P r{2p c } = 1 . Aplicando a transformao g 1 ()
podemos, equivalentemente, encontrar uma banda assinttica de confiana

de coeficiente 1 para (z), dada por
g 1 [zT
p
1 c {zT (XT WX)1 z}1/2 ] z IRp .
Lembramos que z um vetor p 1 que varia livremente no IRp , enquanto X
uma matriz fixa com os valores das variveis explicativas. As quantidades

W e devem ser estimadas consistentemente.

1.9.1 Introduo
Uma etapa importante na anlise de um ajuste de regresso a verificao
de possveis afastamentos das suposies feitas para o modelo, especialmente
para o componente aleatrio e para a parte sistemtica do modelo, bem
41

como a existncia de observaes discrepantes com alguma interferncia desproporcional ou inferencial nos resultados do ajuste. Tal etapa, conhecida
como anlise de diagnstico, tem longa data, e comeou com a anlise de
resduos para detectar a presena de pontos aberrantes e avaliar a adequao
da distribuio proposta para a varivel resposta. Uma referncia importante
nesse tpico o artigo de Cox e Snell (1968) em que apresentada uma forma
bastante geral de definir resduos.
Belsley, Kuh e Welsch (1980) e Cook e Weisberg (1982) discutem a
padronizao de resduos para o caso normal linear. Pregibon (1981) prope
o componente do desvio como resduo na classe dos modelos lineares generalizados e sugere uma padronizao que comprovada por Cordeiro (1982)(ver
tambm McCullagh, 1987) que usa as aproximaes propostas por Cox e Snell
(1968). McCullagh (1987) apresenta uma outra forma de padronizao para
o componente do desvio em que procura corrigir os efeitos de assimetria e
curtose. Atkinson (1981) prope a construo por simulao de Monte Carlo
de uma banda de confiana para os resduos da regresso normal linear, a qual
denominou envelope, e que permite uma melhor comparao entre os resduos
e os percentis da distribuio normal padro. Williams (1984,1987) discute,
com base em estudos de simulao, a aproximao da forma padronizada
proposta por Pregibon (1981) encontrando fortes evidncias de concordncia entre a distribuio emprica do componente do desvio padronizado e a
distribuio normal padro para vrios MLGs. Williams (1987) tambm discute a construo de envelopes em MLGs. Davison e Gigli (1989) estendem
a proposta de Cox e Snell (1968) e definem uma forma geral de padronizao
para o componente do desvio, mesmo quando a funo de distribuio acumulada no expressa em forma fechada. Fahrmeir e Tutz (1994) estendem
o trabalho de McCullagh (1987) para modelos mais gerais, no pertencentes
42

famlia exponencial de distribuies. Paula (1995) apresenta uma forma
padronizada para o componente do desvio em MLGs com parmetros restritos e verifica, atravs de estudos de simulao, forte concordncia na maioria
dos modelos estudados entre a distribuio emprica do resduo padronizado
e a distribuio normal padro, generalizando para parmetros restritos os
resultados de Williams. De Souza e Paula (2002) usam o mtodo proposto
por Davison e Gigli (1989) a fim de obterem uma forma padronizada para o
componente do desvio em modelos de regresso von Mises, os quais tm sido
aplicados na anlise de dados circulares. A construo de envelopes com o
resduo proposto tambm discutida no trabalho. Svetliza e Paula (2003),
Ortega, Paula e Bolfarine (2007), Leiva et al. (2007) e Barros, Paula e Leiva
(2008) estudam a distribuio emprica do resduo componente do desvio,
respectivamente, em modelos no lineares com resposta binomial negativa
e modelos para anlise de dados de sobrevivncia log-gama generalizados e
Birnbaum-Saunders com dados censurados.
Um outro tpico importante na anlise de diagnstico a deteco de
observaes influentes, isto , pontos que exercem um peso desproporcional
nas estimativas dos parmetros do modelo. Durante a dcada de 70 surgiram
vrias propostas relacionadas com a influncia das observaes nas estimativas dos coeficientes do modelo normal linear. O estudo da diagonal principal
da matriz de projeo H = X(XT X)1 X apresentada por Hoaglin e Welsch
(1978), em que X denota a matriz modelo, motivou a definio de pontos
de alavanca que receberam esse nome por terem um peso desproporcional no
prprio valor ajustado. Esses pontos em geral so remotos no subespao gerado pelas colunas da matriz X, ou seja, tm um perfil diferente dos demais
pontos no que diz respeito aos valores das variveis explicativas. Dependendo
da localizao, tais pontos podem exercer forte influncia nas estimativas dos
43

coeficientes da regresso. Extenses da definio de pontos de alavanca para
modelos normais no lineares so dadas em St. Laurent e Cook (1992). Wei,
Hu e Fung (1998) estendem a definio de pontos de alavanca para modelos
bastante gerais cuja varivel resposta seja contnua. Nessa generalizao so
includos outros mtodos de estimao, alm de mxima verossimilhana,
e outros enfoques tais como enfoque bayesiano. Paula (1999) discute pontos de alavanca em modelos normais lineares com parmetros restritos, com
extenses para os MLGs.
A deleo de pontos talvez seja a tcnica mais conhecida para avaliar o impacto da retirada de uma observao particular nas estimativas da
regresso. A distncia de Cook(1977), originalmente desenvolvida para modelos normais lineares, foi rapidamente assimilada e estendida para diversas
classes de modelos. Por exemplo, Moolgavkar, Lustbader e Venzon (1984)
estendem a metodologia para regresso no linear com aplicaes em estudos
emparelhados, Ross (1987) discute a geometria da deleo de casos em regresso no linear, Cook, Pea e Weisberg (1988) comparam o afastamento pela
verossimilhana com medidas tradicionais de deleo de pontos tais como
a distncia de Cook e o DFFITSi , esse ltimo proposto por Belsley, Kuh
e Welsch (1980) e Paula e Peres (1988) discutem a deleo de pontos em
MLGs com parmetros restritos. Davison e Tsai (1992) e Cordeiro e Paula
(1992) estendem a metodologia para modelos cuja distribuio no pertence
famlia exponencial de distribuies. Galea, Riquelme e Paula (2000) investigam a metodologia em modelos elpticos multivariados. Algumas referncias
nesse tpico so, dentre outras, os textos de Carvalho e Dachs (1982), Cook e
Weisberg (1982), Atkinson (1985) e Chattergee e Hadi (1988). Um problema
que pode ocorrer com a deleo individual de pontos o que se denomina
masking effect ou seja, deixar de detectar pontos conjuntamente discrepan-
44

tes. Embora esse procedimento de deleo mltipla de pontos no seja muito
popular, provavelmente em virtude do custo computacional envolvido, existem vrios procedimentos robustos para a deteco de pontos discrepantes,
muitos dos quais com um custo computacional relativamente baixo (ver, por
exemplo, Fung, 1993; Pea e Yohai, 1999). Como em geral esses procedimentos tm sido desenvolvidos para modelos lineares, abre-se uma perspectiva
de pesquisas em classes mais abrangentes, tais como os MLGs.
Contudo, uma das propostas mais inovadoras na rea de diagnstico
em regresso foi apresentada por Cook (1986) que prope avaliar a influncia
conjunta das observaes sob pequenas mudanas (perturbaes) no modelo
ou nos dados, ao invs da avaliao pela retirada individual ou conjunta de
pontos. Essa metodologia, denominada influncia local, teve uma grande
receptividade entre os usurios e pesquisadores de regresso, havendo inmeras publicaes no assunto em que a metodologia aplicada em classes
particulares de modelos ou estendida para situaes mais gerais.
As metodologias descritas acima sero inicialmente derivadas para o
modelo normal linear clssico sendo estendidas em seguida para os MLGs.
Vamos considerar, portanto, o modelo de regresso normal linear
yi = 1 + 2 x2i + . . . + p xpi + i ,
i = 1, . . . , n, em que os erros i s so variveis aleatrias independentes normalmente ditribudas de mdia zero e varincia constante 2 .
1.9.2 Pontos de alavanca

O resduo para a i-sima observao pode ser definido como uma funo do
tipo ri = r(yi ,
i ) que procura medir a discrepncia entre o valor observado e
o valor ajustado da i-sima observao. O sinal de ri indica a direo dessa
45

discrepncia. A definio mais usual de resduo dada por ri = yi
i
(resduo ordinrio), todavia h outras formas de definir resduo que veremos

mais adiante. O vetor de resduos ordinrios definido por r = (r1 , . . . , rn )T .
= y Hy = (In H)y,
Logo, da regresso normal linear segue que r = y
em que H = X(XT X)1 XT a matriz de projeo ortogonal de vetores do

Rn no subespao gerado pelas colunas da matriz X.
A matriz H simtrica e idempotente e conhecida como matriz hat,
= Hy. Por ser idempotente, temos que posto(H) =

uma vez que faz
Pn
T
T
1
tr(H) =
i=1 hii = p. O elemento hii = xi (X X) xi desempenha um
papel importante na construo de tcnicas de diagnstico. Adicionalmente,
temos que
1
n
hii
1
c
(ver, por exemplo, Cook e Weisberg, 1982), em que
c o nmero de linhas de X idnticas a xTi . O i-simo valor ajustado fica

ento dado por
yi = hii yi +
(1.10)
hji yj ,
i6=j
e pelo fato da matriz H ser idempotente

X
h2ij = hii (1 hii ).
j6=i
Em particular, hii = 1 implica em yi = yi , todavia a recproca no necessariamente verdadeira. Logo, para valores altos de hii predomina na expresso
(1.10) a influncia de yi sobre o correspondente valor ajustado. Assim,
muito razovel utilizar hii como uma medida da influncia da i-sima observao sobre o prprio valor ajustado. Temos tambm que hii = yi /yi , ou
seja, hii corresponde variao em yi quando yi acrescido de um infinitsimo.
Supondo que todos os pontos exeram a mesma influncia sobre os
tr(H)
= np .
n
hii 2p
, que
n
valores ajustados, podemos esperar que hii esteja prximo de

Convm ento examinar, por exemplo, aqueles pontos tais que
46

so conhecidos como pontos de alavanca ou de alto leverage e geralmente
esto localizados em regies remotas no subespao gerado pelas colunas da
matriz X. Esses pontos podem ser tambm informativos com relao a .

Uma outra maneira de entendermos hii construindo a matriz Jacobiana de alavancas (ver, por exemplo, St. Laurent e Cook, 1993; Paula, 1999)
quando a i-sima observao perturbada de modo que o novo valor observado seja dado por yi (b) = yi + b, em que b uma constante real. O novo
vetor de valores ajustados fica dado por
(b) = X(XT X)1 XT y(b),
y
em que y(b) = (y1 , . . . , yi1 , yi + b, yi+1 , . . . , yn )T . A matriz Jacobiana de
alavancas definida por
1
},
J(b) = lim {
y(b) y
b0 b
e representa a variao no vetor de valores ajustados sob uma variao infinitesimal no i-simo valor observado. Podemos verificar que
J(b) = X(XT X)1 XT f = Hf ,
em que f um vetor n1 de zeros com o valor 1 na i-sima posio. Portanto,
temos que hii representa a variao no valor predito da i-sima observao
quando o valor observado acrescido de um infinitsimo.
Para ilustrarmos como so obtidos os valores hii no R, vamos supor um
modelo normal linear de varivel resposta resp, fatores A e B e covariveis
cov1 e cov2 e que os resultados do ajuste so armazenadas em fit.model.
Esse modelo pode ser ajustado de duas formas
fit.model = lm( resp A + B + cov1 + cov2)
ou, alternativamente, como um MLG
47

fit.model = glm( resp A + B + cov1 + cov2,
family=gaussian).
claro que a primeira maneira mais simples. Para gerarmos a matriz
modelo (incluindo a constante) fazemos
X = model.matrix( A + B + cov1 + cov2).
Assim, temos em X a matriz modelo correspondente. O clculo da matriz

de projeo H pode ser feito seguindo os passos descritos abaixo
H = X% %solve(t(X)% %X)% %t(X).
Logo, podemos obter hii extraindo os elementos da diagonal principal de H

h = diag(H).
Outras maneiras mais geis de extrairmos os elementos hii s de uma regresso
linear so atravs dos comandos
h = lm.influence(fit.model)$hat
h = hat(X,T).
Para construirmos um grfico de ndices para hii , a fim de detectarmos pontos
de alavanca, fazemos
plot(h, xlab=Indice, ylab= Alavanca).
1.9.3 Resduos
Dos resultados descritos na seo anterior segue que E(r) = (In H)E(Y) = 0
e Var(r) = 2 (In H). Isto , ri tem distribuio normal de mdia zero e
varincia Var(ri ) = 2 (1 hii ). Alm disso, a covarincia entre ri e rj , i 6= j,
fica dada por Cov(ri , rj ) = 2 hij .
Como os ri s tm varincias diferentes, devemos express-los em forma
padronizada a fim de conseguirmos uma comparabilidade entre os mesmos.

Uma definio natural seria dividirmos ri pelo respectivo desvio padro. Ob-
48

temos assim o resduo studentizado
ti =
em que s2 =
Pn
2
i=1 ri /(n
ri
, i = 1, . . . , n,
s(1 hii )1/2
p).
No entanto, como ri no independente de s2 , ti no segue uma distribuio t de Student como se poderamos esperar. Cook e Weisberg (1982)
mostram que t2i /(n p) segue uma distribuio beta com parmetros
1
2
(n p 1)/2. Logo, temos que E(ti ) = 0, Var(ti ) = 1 e Cov(ti , tj ) =
hij /{(1 hii )(1 hjj )}1/2 , i < j. O problema da dependncia entre ri e s2
pode ser contornado substituindo s2 por s2(i) , o erro quadrtico mdio correspondente ao modelo sem a i-sima observao. O ndice (i) indica que a
i-sima observao foi excluda. Podemos mostrar que
(n p 1)s2(i)
ri2
(n p)s2
=
+ 2
,
2
2
(1 hii )
e da segue pelo teorema de Fisher-Cochran (ver, por exemplo, Rao, 1973,

p.185) a independncia entre s2(i) e ri2 . Alm disso, obtemos
(n p 1)s2(i) =
n
X
j=1
rj2
ri2
(1 hii )
e da segue, aps alguma lgebra, que

n p t2i
2
2
.
s(i) = s
np1
(1.11)
Assim, fica fcil mostrarmos que o novo resduo studentizado

ti =
ri
s(i) {1 hii }1/2
segue uma distribuio tnp1 . Se ainda substituimos (1.11) na expresso

acima mostramos que ti uma transformao montona de ti ,
1/2

np1
ti = ti
.
n p t2i
49

O resduo ti pode ser calculado pela sequncia de comandos
lms = summary(fit.model)
s = lms$sigma
r = resid(lms)
ti = r/(s*(1-h) .5).
Logo, o resduo ti fica dado por
tsi = ti*((n-p-1)/(n-p-ti 2)) .5.
Devemos substituir n e p pelos respectivos valores numricos.
Vrias quantidades do modelo linear ajustado podem ser obtidas diretamente no R atravs do uso de algumas funes apropriadas (ver Spector,
1994), as quais so teis na aplicao das tcnicas de diagnstico. Resumimos
na Tabela 1.5 alguns casos.
Tabela 1.5
Quantidades teis para diagnstico obtidas no R.
Smbolo
Descrio
Funo
Elemento
h
Alavanca
lm.influence() hat
Coeficientes
coef()
r
Resduos
resid()
s
Desvio padro
summary()
sigma
amostral
s(i)
Desvio padro
lm.influence() sigma
sem observao i
(i)
Coeficiente sem
lm.influence() coef
observao i
summary()
(XT X)1 Covarincia de
cov.unscaled
2
sem s
Como ilustrao, vamos supor um ajuste com resultados no objeto
fit.model e que o interesse obtermos a estimativa do desvio padro da
varivel resposta Yi sem considerarmos a i-sima observao. Aplicamos
50

em R a funo lm.influence(fit.model)$sigma e obtemos um vetor de
dimenso n com todas as estimativas do desvio padro de Yi excluindo cada
observao correspondente. Como veremos a seguir o resduo ti pode ser
interpretado como uma estatstica para avaliarmos se a i-sima observao
aberrante.
1.9.4 Outra interpretao para ti

Vamos supor que o i-simo ponto suspeito de ser aberrante. Essa hiptese
pode ser testada atravs do modelo
yj = 1 + 2 x2j + . . . + p xpj + j + j ,
(1.12)
j = 1, . . . , n, em que j = 1 para j = i e j = 0 em caso contrrio.

Usando resultados da Seo 1.4.2 podemos mostrar que, sob a hiptese
H0 : = 0, o acrscimo na soma de quadrados de resduos dado por
0 ) D(y; )
= 2 (1 hii ),
D(y;
Assim, uma vez que D(y;
0) =
em que = ri (1 hii )1 e ri = yi xTi .
(n p)s2 , a estatstica F para testarmos H0 : = 0 contra H1 : 6= 0 fica
dada por
F= n
2 (1 hii )
o
.
ri2
2
(n p)s (1hii ) /(n p 1)
Assintoticamente a estatstica F segue, sob H0 , distribuio qui-quadrado

com 1 grau de liberdade. Trabalhando um pouco a expresso acima chegamos
ao seguinte resultado:
F=
ri2 (n p 1)
= t2
i .
2
2
s (1 hii )(n p ti )
Portanto, valores altos para |ti | indicam, significativamente, que o i-simo
ponto aberrante.
51
1.9.5 Influncia
Vamos supor conhecido. Ento, o logaritmo da funo de verossimilhana
fica agora expresso na forma
L () =
n
X
j Lj (),
(1.13)
j=1
em que Lj () denota o logaritmo da funo de verossimilhana correspondente j-sima observao e j um tipo de perturbao, definida tal que
0 j 1. Quando j = 1, j, significa que no h perturbao no modelo
e quando j = 0 significa que a j sima observao foi excluda.
A estimativa de mnimos quadrados para fica, supondo a estrutura

(1.13), dada por
= (XT X)1 XT y,
em que = diag{1 , . . . , n }. Em particular, quando apenas a i-sima ob-
servao perturbada, isto , quando i = e j = 1 para j 6= i, obtemos

=
(1 )ri
(XT X)1 xi .
{1 (1 )hii }
(1.14)
Para = 0, significando que o i-simo ponto foi excludo, (1.14) fica

expressa na forma simplificada
(i) =
ri
(XT X)1 xi ,
(1 hii )
(1.15)
que bastante conhecida da regresso normal linear (ver, por exemplo, Cook
e Weisberg, 1982).
A medida de influncia mais conhecida baseada na regio de confiana
de coeficiente (1 ) para o parmetro ,
)T (XT X)(
) ps2 Fp,(np) (1 ),
(
52

Tal medida,
que para o caso de p = 2 um elipside no R2 centrado em .
conhecida como distncia de Cook, definida por

D =

)T (XT X)(

)
(
,
ps2
(1.16)
de ,
segundo a
e mede quanto a perturbao = (1 , . . . , n )T afasta
mtrica M = XT X. Por exemplo, se D > Fp,(np) (1 ), significa que
a perturbao est deslocando o contorno do elipside para um contorno

correspondente a um nvel de significncia menor do que .
Em particular, quando o i-simo ponto excludo, a distncia de Cook
fica expressa na forma

(i) )T (XT X)(

(i) )
(
ps2
2

hii 1
ri
=
1/2
s(1 hii )
(1 hii ) p
Di =
= t2i
hii 1
.
(1 hii ) p
Portanto, Di ser grande quando o i-simo ponto for aberrante (ti grande)
e/ou quando hii for prximo de um. A distncia de Cook pode ser calculada
da seguinte maneira:
di = (ti 2)*h / (p*(1-h)).
A distncia Di poder no ser adequada quando ri for grande e hii for pequeno. Nesse caso, s2 pode ficar inflacionado e no ocorrendo nenhuma
compensao por parte de hii , Di pode ficar pequeno. Uma medida supostamente mais apropriada foi proposta por Belsley, Kuh e Welsch (1980), sendo
definida por
|ri |
DFFITSi =
s(i) (1 hii )1/2
53
hii
(1 hii )
1/2
|ti |
hii
(1 hii )
O DFFITSi calculado conforme abaixo
1/2
dfit = abs(tsi)*(h/(1-h)) .5.

Como o valor esperado de hii
p
,
n
razovel darmos mais ateno queles
pontos tais que

DFFITSi 2
p
(n p)
1/2
Aparentemente Di e DFFITSi seriam medidas de influncia competitivas,

uma vez que DFFITSi parece ser mais adequada para avaliar a influncia
nas estimativas dos coeficientes de um ponto aberrante com hii pequeno. No
entanto, como mostram Cook, Pea e Weisberg (1988) Di e DFFITSi medem coisas diferentes. Ambas podem ser expressas a partir da medida mais
geral de influncia denominada afastamento pela verossimilhana (likelihood
displacement) proposta por Cook e Weisberg (1982). A medida Di mede
essencialmente a influncia das observaes nos parmetros de posio, enquanto DFFITSi tem o propsito de medir a influncia das observaes nos
parmetros de posio e escala. Como pouco provvel que um ponto com
ri alto e hii pequeno seja influente nas estimativas dos coeficientes, o uso
de Di no compromete a deteco de observaes influentes. Cook, Pea e
Weisberg observam tambm que DFFITSi no um medida completa de influncia nos parmetros de posio e escala simultaneamente, podendo falhar
em algumas situaes. Uma medida mais geral nesse caso proposta pelos
autores.
Atkinson (1985) props uma outra medida de influncia que um
aperfeioamento do DFFITSi ,
Ai =
(n p) hii
p (1 hii )
54
1/2
|ti |.

Aqui, quando o experimento for balanceado, isto , todos os hii s forem iguais,
obtemos Ai = |ti |. A vantagem de Ai que a mesma pode ser utilizada em
grficos normais de probabilidades.
4
3
1
3
1
x
(a)
x
(b)
6
y
x
(c)
x
(d)
Figura 1.4: Ilustrao de pontos aberrantes, influentes e de alavanca.
1.9.6 Ilustrao
As Figuras 1.4a-1.4d ilustram as diferenas entre pontos aberrantes, de alavanca e influentes. Na Figura 1.4a temos os pontos alinhados sem nenhum
tipo de perturbao. Na Figura 1.4b perturbamos o ponto #3 fazendo-o
aberrante. Note que a excluso do mesmo (reta pontilhada) altera apenas
55

o intercepto, isto , os valores ajustados. um ponto que no est muito
afastado dos demais, logo tem um valor para hii relativamente pequeno. J
na Figura 1.4c, perturbamos o ponto #5 de modo que o mesmo fique mais
afastado no subespao gerado pelas colunas da matriz X. um ponto de
alavanca, todavia a eliminao do mesmo no muda praticamente nada nas
estimativas dos parmetros. Como um ponto com hii relativamente alto, as
varincias dos valores ajustados dos pontos prximos ao mesmo sero maiores do que as varincias dos valores ajustados correspondentes aos demais
pontos. Finalmente, na Figura 1.4d, perturbamos novamente o ponto #5
fazendo-o agora influente e tambm alavanca. O mesmo, alm de mudar a
estimativa da inclinao da reta ajustada, continua mais afastado do que os
demais.
As possveis situaes discutidas acima, quando detectadas num ajuste
de regresso, devem ser examinadas cuidadosamente antes de qualquer deciso. Encontrarmos razes que expliquem o fato dos pontos terem um comportamento atpico com relao aos demais pontos podem ajudar-nos a entendermos melhor a relao entre as variveis explicativas e o fenmeno sob
investigao como tambm a traarmos uma estratgia de utilizao do modelo ajustado, que no necessariamente implica na eliminao de tais pontos
que deve ser o ltimo recurso a ser utilizado. Mudanas na distribuio postulada para a varivel resposta, incluso, eliminao ou mesmo transformao de variveis explicativas ou uso de mtodos robustos (vide, por exemplo,
Venables e Ripley, 1999, Cap.8) podem atenuar a influncia de observaes.
1.9.7 Influncia local

Um dos mtodos mais modernos de diagnstico foi proposto por Cook (1986).
A ideia bsica consiste em estudar o comportamento de alguma medida parti-
56

cular de influncia segundo pequenas perturbaes (influncia local) nos
dados ou no modelo. Isto , verificar a existncia de pontos que sob modificaes modestas no modelo causam variaes desproporcionais nos resultados.
Podemos, por exemplo, querer avaliar a influncia que pequenas mudanas nas varincias das observaes causam nas estimativas dos parmetros. Nesse caso, podemos utilizar a distncia de Cook como medida de
referncia. Por outro lado, se o interesse estudarmos a influncia local das
observaes no ajuste, a sugesto de Cook perturbarmos as covariveis ou a
varivel resposta e utilizarmos alguma medida adequada para quantificarmos
a influncia das observaes. Como ilustrao, vamos supor que uma varivel
explicativa que representa uma distncia particular perturbada localmente
e detectamos atravs de uma medida de influncia que pontos com distncias altas produzem variaes acentuadas na medida adotada. Isso sugere
que a varivel explicativa sob estudo bastante sensvel para valores altos,
podendo no ser uma boa preditora nesses casos.
Mais de 400 artigos foram publicados no assunto nos ltimos 20 anos.
Por exemplo, na classe de erros normais, Lawrence (1988) investiga a aplicao de influncia local em modelos lineares com parmetros na transformao
da resposta, Beckman, Nachtsheim e Cook (1987) apresentam estudos de influncia em modelos de anlise de varincia com efeito misto, Tsai e Wu
(1992) investigam influncia local em modelos autoregressivos de 1a. ordem
e modelos heteroscedsticos e Paula (1993) aplica influncia local em modelos
lineares com restries nos parmetros na forma de desigualdades lineares.
Saindo da classe de erros normais temos, por exemplo, o trabalho de Pettitt
e Bin Daud (1989) que investigam influncia local em modelos de Cox com
riscos proporcionais, Escobar e Meeker (1992) adaptam influncia local numa
classe paramtrica de modelos para anlise de sobrevivncia, OHara Hines,
57

Lawless e Carter (1992), Kim (1995) e Pan, Fang e von Rosen (1997) aplicam
mtodos de influncia local em regresso multivariada. Mais recentemente,
Galea, Paula e Bolfarine (1997), Liu (2000), Galea, Paula e Uribe-Opazo
(2003), Osorio, Paula e Galea (2007) e Russo, Paula e Aoki (2009) apresentam estudos de influncia local em modelos de contornos elpticos, enquanto
Kwan e Fung (1998) aplicam a metodologia em anlise fatorial, Gu e Fung
(1998) em anlise de correlao cannica, Paula (1996) em modelos prprios
de disperso e Ortega, Bolfarine e Paula (2003) em modelos log-gama generalizados com dados censurados. Svetliza e Paula (2003) discutem influncia
local em modelos com resposta binomial negativa. Esses ltimos modelos
tm sido muito usados para corrigir problemas de sobredisperso, frequentemente encontrados em modelos com resposta de Poisson. Galea, Leiva e
Paula (2004), Leiva et al. (2007) e Barros, Paula e Leiva (2008) aplicam a
metodologia de influncia local em modelos Birnbaum-Saunders comumente
utilizados em confiabilidade e anlise de dados de sobrevivncia. Uma discusso interessante a respeito do uso de influncia local apresentada por Fung
e Kwan (1997). Os autores mostram que o afastamento pela verossimilhana
uma medida de influncia invariante com mudanas de escala nos dados,
fato que no ocorre com outras medidas de influncia propostas.
Curvatura normal
Para formalizar o mtodo de influncia local vamos denotar por L() o logaritmo da funo de verossimilhana do modelo postulado e um vetor
r-dimensional. No caso de MLGs podemos ter = ( T , )T e r = p + 1
ou simplesmente = quando for conhecido. Seja um vetor q 1
de perturbaes, restritas a um conjunto aberto IRq . Em geral temos

q = n. As perturbaes so feitas no logaritmo da verossimilhana de modo
58

que o mesmo assume a forma L(|). Denotando o vetor de no perturbao
por 0 , assumimos que L(| 0 ) = L(). A fim de verificarmos a influncia
consideramos
das perturbaes na estimativa de mxima verossimilhana ,
o afastamento pela verossimilhana
L(
)},
LD() = 2{L()
denota a estimativa de mxima verossimilhana sob o modelo
em que
L(|). Com a definio acima temos que LD() 0.
A ideia de influncia local consiste basicamente em estudarmos o com-
portamento da funo LD() em torno de 0 . O procedimento procura selecionar uma direo unitria , k k= 1, e ento estudar o grfico de LD( 0 +a)
contra a, em que a IR. Esse grfico conhecido como linha projetada. Em
particular, temos que LD( 0 ) = 0, assim LD( 0 + a) tem um mnimo local
em a = 0. Cada linha projetada pode ser caracterizada por uma curvatura

normal C () em torno de a = 0. Essa curvatura interpretada como sendo
o inverso do raio do melhor crculo ajustado em a = 0. Uma sugesto
considerarmos a direo max que corresponde maior curvatura denotada
por Cmax . Por exemplo, o grfico de max contra a ordem das observaes
pode revelar quais observaes que sob pequenas perturbaes exercem uma
influncia desproporcional em LD(). Cook(1986) usa conceitos de geometria diferencial para mostrar que a curvatura normal na direo assume a
forma
1 |,
C () = 2|T T L
a matriz de informao observada de Fisher enquanto

em que L
uma matriz r q com elementos ij = 2 L(|)/i j , avaliados em =

e = 0 , i = 1, . . . , r e j = 1, . . . , q.
)1 , corresTemos que o mximo de T B, em que B = T (L
ponde ao maior autovalor (em valor absoluto) de B. Portanto, Cmax corres59

ponde ao maior autovalor da matriz B e max denota o autovetor correspondente.
Assim, o grfico de |max | contra a ordem das observaes pode revelar
aqueles pontos com maior influncia na vizinhana de LD(0 ). Tais pontos

podem ser responsveis por mudanas substanciais nas estimativas dos parmetros sob pequenas perturbaes no modelo ou nos dados. Seria, portanto,
prudente olharmos com mais cuidado esses pontos a fim de entendermos
melhor a influncia dos mesmos e consequentemente tentarmos propor uma
forma segura de usarmos o modelo ajustado. Quando Cmax no for muito
maior do que o segundo autovalor, pode ser informativo olharmos tambm
os componentes do segundo autovetor. provvel, nesse caso, que o segundo
autovetor destaque algum tipo de influncia particular das observaes nas
estimativas. O maior autovalor da matriz B pode ser obtido pelo comando
abaixo
Cmax = eigen(B)$val[1].
De forma similar, o autovetor correspondente padronizado e em valor absoluto obtido com os comandos
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Grficos alternativos, tais como de Ci contra a ordem das observaes, em
que i denota um vetor n 1 de zeros com um na i-sima posio tm sido
sugeridos (ver, por exemplo, Lesaffre e Verbeke, 1998; Zhou e Zhang, 2004).
P
Nesse caso devemos padronizar Ci = Ci / nj=1 Cj . Uma sugesto olharmos
em que C
= Pn Cj /n.
com mais ateno aqueles pontos tais que Ci > 2C,
Por outro
curvatura
j=1
T
T T
lado, se o interesse est num subvetor 1 de = ( 1 , 2 ) , ento a
1 B1 )|,
normal na direo fica dada por C ( 1 ) = 2|T T (L
60

sendo
0
0
1
0 L
B1 =
2 2
denotando a informao de Fisher observada para 2 . O grfico

com L
2 2
1 B1 ) contra a ordem das observaes
do maior autovetor de T (L
1 . Outras formas de
pode revelar os pontos com maior influncia local em
extrao de grficos so propostas por Poon e Poon (1999).
Ponderao de casos
Para ilustrar uma aplicao particular consideramos o modelo normal linear
com 2 conhecido e esquema de perturbao ponderao de casos, em que
n
1 X
i (yi xTi )2
L(|) = 2
2 i=1
com 0 i 1. A matriz nesse caso fica dada por XT D(r)/ 2 em que

= 2 (XT X)
D(r) = diag{r1 , . . . , rn } com ri = yi yi . Logo, desde que L
a curvatura normal na direo unitria fica dada por

C () =
2 T
| D(r)HD(r)|,
2
com H = X(XT X)1 XT . Portanto, max o autovetor correspondente ao

maior autovalor (em valor absoluto) da matriz B = D(r)HD(r). Se tomarmos a direo i correspondente i-sima observao, a curvatura normal
assume a forma simplificada Ci =
2
h r2 .
2 ii i
Os grficos de ndices de max e
Ci podem revelar aquelas observaes mais sensveis ao esquema de perturbao adotado.

Clculos similares para 2 desconhecido levam ao seguinte = (T1 , T2 )T
em que 1 = XT D(r)/
2 e 2 = r(2)T /2
4 com r(2)T = (r12 , . . . , rn2 ) e
61

= diag{XT X/
L
2 , n/2
4 }. Logo, a curvatura normal na direo uni
tria fica dada por
C () =
2 T
| {D(r)HD(r) + r(2) r(2)T /2n
2 }|.
Quando o interesse verificarmos a influncia local das observaes na

estimativa de um coeficiente particular 1 devemos considerar a curvatura
normal C (1 ) = 2|T B|, em que
B = D(r)X{(XT X)1 B1 }XT D(r)
sendo B1 = diag{0, (XT2 X2 )1 } com X2 saindo da partio X = (X1 , X2 ).
Aqui X1 um vetor n 1 correspondente varivel explicativa sob estudo e
X2 uma matriz n (p 1) correspondente s demais variveis explicativas.
Cook (1986) mostra que max , nesse caso, assume a forma
Tmax =
vr
v r
p 1 1 ,..., pn n
Cmax
Cmax
em que v1 , . . . , vn so os resduos ordinrios da regresso linear de X1 sobre as

colunas de X2 , ou seja, o vetor v = (v1 , . . . , vn )T dado por v = (In H2 )X1 ,
H2 = X2 (XT2 X2 )1 XT2 . Aqui, a matriz B tem posto m = 1. Logo, h
apenas um autovalor diferente de zero. Nesse caso, podemos tanto utilizar o

procedimento descrito acima para calcularmos max como obt-lo diretamente
sem precisar calcularmos a matriz H2 . Como ilustrao, vamos supor que os
resultados do ajuste esto armazenados em fit.model. Para extrairmos o
vetor r precisamos fazer
r = resid(fit.model).
Se o modelo tem as covariveis cov1 e cov2 alm dos fatores A e B, o vetor
max correspondente, por exemplo covarivel cov1, sai de
fit = lm( cov1 A + B + cov2 - 1)
62

v = resid(fit)
lmax = v*r
tot = t(lmax)%*%lmax
lmax = lmax/sqrt(tot)
lmax = abs(lmax).
1.9.8 Grfico da varivel adicionada

Vamos supor novamente o modelo de regresso dado em (1.12), em que
agora uma varivel adicional qualquer. Definindo Z = (X, ), podemos
mostrar facilmente que a estimativa de mnimos quadrados de = ( T , )T
= (ZT Z)1 ZT y. Em particular obtemos, aps alguma lgebra,
dada por
que
=
T (In H)y
T r
=
.
T (In H)
T (In H)
o coeficiente da regresso linear passando pela origem do vetor de

Isto ,
resduos r = (In H)y sobre o novo resduo = (In H), dado por
= ( T v)1 T r
= { T (In H)(In H)}1 T (In H)(In H)y

T (In H)y
.
=
T (In H)
Portanto, um grfico de r contra pode fornecer informaes sobre a evidncia dessa regresso, indicando quais observaes que esto contribuindo para
a relao e quais observaes que esto se desviando da mesma. Esse grfico,
conhecido como grfico da varivel adicionada, pode revelar quais pontos que
esto influenciando (e de que maneira) a incluso da nova varivel no modelo.
Para ilustrarmos a construo do grfico da varivel adicionada, vamos
supor novamente o modelo com duas covariveis e dois fatores. O grfico da
63

varivel adicionada para avaliarmos a influncia das observaes no coeficiente de cov1, pode ser construdo com os comandos
fit = lm( resp cov2 + A + B)
r = resid(fit)
fit1 = lm( cov1 cov2 + A + B)
v = resid(fit1)
plot(v,r, xlab= residuo v, ylab= residuo r).
1.9.9 Tcnicas grficas

Geralmente para detectarmos pontos suspeitos de serem aberrantes e/ou influentes recorremos aos seguintes grficos: (i) pontos aberrantes, o grfico
de ti contra a ordem das observaes; (ii) heteroscedasticidade, o grfico de
ti contra yi (valores ajustados); (iii) pontos influentes, grficos de Di , Ci ,
DFFITSi , hii ou |max | contra a ordem das observaes; (iv) falta de algum
termo extra, grfico de ti contra yi ou contra as covariveis que esto ou no

foram includas no modelo, (v) correlao entre as observaes, grfico de ti
contra o tempo ou contra a ordem em que h suspeita de correlao, e (vi)

afastamentos da normalidade, grfico normal de probabilidades. Esse ltimo
o grfico de t(i) contra os valores esperados das estatsticas de ordem da
normal padro, Z(i)

s. Temos que
E(Z(i) )
=
i 3/8
n + 1/4
em que () a funo de distribuio acumulada da N(0, 1). H tambm o

grfico meio-normal de probabilidades, definido como sendo o grfico de |t(i) |
contra os valores esperados de |Z(i) |. Temos a aproximao

n + i + 1/2
1
E(|Z(i) |) =
.
2n + 9/8
64

Em particular, o grfico de Ai contra E(|Z(i) |) pode ser indicado para detec-
tarmos simultaneamente pontos aberrantes e/ou influentes. O grfico normal

de probabilidades com a reta ajustada pode ser construdo com os comandos
dados abaixo
qqnorm(tsi , ylab= Residuo Studentizado)
qqline(tsi).
O comando qqline() traa uma reta unindo os pontos formados pelo pri-
meiro e terceiro quartis dos resduos e da distribuio normal padro. Devido

dificuldade de avaliarmos se o grfico normal de probabilidades se afasta
efetivamente da reta ajustada, a construo de um tipo de banda de confiana para os resduos pode ser muito til para detectarmos afastamentos
srios da normalidade. Esse grfico pode tambm ser informativo sobre a
existncia de pontos discrepantes ou mesmo sobre a falta de homogeneidade
de varincias. Todavia, como a distribuio conjunta dos resduos t(i) s bastante complicada e o uso simples das varincias dos ti s para a construo
de tais bandas pode introduzir algum vis no clculo do coeficiente de confiana, Atkinson (1985) sugere a construo de um tipo de banda de confiana
atravs de simulaes, a qual denominou envelope. O procedimento consiste basicamente em gerarmos resduos que tenham mdia zero e matriz de
varincia-covarincia (In H). Descrevemos o mtodo nos passos seguintes:
1. Geramos n observaes N(0, 1) as quais so armazenadas em y = (y1 , . . . , yn )T ;
2. Ajustamos y contra X e obtemos ri = yi yi , i = 1, . . . , n. Temos que
E(ri ) = 0, Var(ri ) = 1 hii e Cov(ri , rj ) = hij ;
3. Obtemos ti = ri /{1 hii }1/2 , i = 1, . . . , n;

4. Repetimos os passos (1)-(3) m vezes. Logo, teremos os resduos gerados
tij , i = 1, . . . , n e j = 1, . . . , m.
65
1.10 Tcnicas de diagnstico: Extenso para os MLGs

5. Colocamos cada grupo de n resduos em ordem crescente, obtendo t(i)j ,
i = 1, . . . , n e j = 1, . . . , m;
6. Obtemos os limites t(i)I = minj t(i)j e t(i)S = maxj t(i)j . Assim, os limites
correspondentes ao i-simo resduo sero dados por t(i)I e t(i)S .
A sugesto de Atkinson (1985) gerar m = 19 vezes. Desse modo, a
probabilidade do maior resduo de um envelope particular exceder o limite
superior fica sendo
= 1/20. Adaptamos um programa descrito em Everitt
(1994) para gerao dos envelopes de um modelo de regresso normal linear
considerando m = 100. Para rodarmos o programa preciso apenas colocarmos o modelo ajustado em fit.model. Da, devemos fazer
source(envel_norm)
em que envel_norm o nome do arquivo externo onde deve estar o programa
para gerao dos envelopes (ver Apndice B).

1.10.1 Pontos de alavanca
Como j foi mencionado na Seo 1.9.2 a ideia principal que est por trs
do conceito de ponto de alavanca (ver, por exemplo, Hoaglin e Welsch, 1978;
Cook e Weisberg, 1982; Emerson, Hoaglin e Kempthorne, 1984; St. Laurent
e Cook, 1992 e Wei, Hu e Fung, 1998) de avaliarmos a influncia de yi
sobre o prprio valor ajustado yi . Essa influncia pode ser bem representada
pela derivada yi /yi que coincide, como foi visto na Seo 1.9.2, com hii no
caso normal linear. Wei, Hu e Fung (1998) propuseram uma forma bastante
/yT )nn quando a resposta contnua e
geral para obteno da matrix ( y
que pode ser aplicada em diversas situaes de estimao. No caso de MLGs
66

/yT pode ser obtida da forma geral
para conhecido a matriz y
)1 L
y }| ,
c = y
GL
= {D (L
T
y
= 2 L()/ T e L
y = 2 L()/yT . Teem que D = /, L
mos que
y = XT V1 N,
D = NX e L
pelo seu
em que N = diag{d1 /d1 , . . . , dn /dn }. Se substituirmos L
valor esperado (XT WX), obtemos aproximadamente

T
1 N.
c = NX(X
GL
WX)1 XT V
c ii pode ser expresso na forma

Assim, o elemento GL
c ii =
xi ,
GL
i xTi (XT WX)
em que i = (di /di )2 /Vi . Em particular, para ligao cannica em que

T
= (XT VX) obtemos exatamente GL
c = VX(X
L
VX)1 XT .
Outra definio de pontos de alavanca que tem sido muito utilizada na
classe dos MLGs, embora no coincida exatamente com a expresso acima,

exceto no caso de resposta contnua e ligao cannica, construda fazendo
num MLG
uma analogia entre a soluo de mxima verossimilhana para
e a soluo de mnimos quadrados de uma regresso normal linear ponde obtida na convergncia do processo
rada. Considerando a expresso para
iterativo dado em (1.5), temos que
1 T
= (XT WX)
X Wz,
pode ser interpretado como

1/2 V
1/2 (y ).
+W
Portanto,
com z =
1/2 z contra as
sendo a soluo de mnimos quadrados da regresso linear de W
67

1/2 X. A matriz de projeo da soluo de mnimos quadrados
colunas de W
fica dada por
da regresso linear de z contra X com pesos W
1 T 1/2
=W
1/2 X(XT WX)
H
X W ,
ii da diagonal principal de H
para
que sugere a utilizao dos elementos h
detectarmos a presena de pontos de alavanca nesse modelo de regresso
normal linear ponderada. Essa extenso para MLGs foi proposta por Pre ii = GL
c ii , ou seja, para
gibon (1981). Podemos verificar facilmente que h
coincidem. No caso de ligao cannica essa igualc eH
grandes amostras GL
ii depende de
dade vale para qualquer tamanho amostral. Como em geral h
ii contra os
ii sugerimos para detectar pontos de alavanca o grfico de h
valores ajustados.
Moolgavkar, Lustbader e Venzon (1984) estendem a proposta de Pregibon para modelos no lineares e sugerem o uso dos elementos da diagonal
principal da matriz de projeo no plano tangente soluo de mxima ve para detectar pontos de alavanca. Hosmer e Lemeshow
rossimilhana ()
(1989) mostram, contudo, que o uso da diagonal principal da matriz de pro deve ser feito com algum cuidado em regresso logstica e que as
jeo H
interpretaes so diferentes daquelas do caso normal linear.
1.10.2 Resduos
A definio de um resduo studentizado para os MLGs pode ser feita analogamente regresso normal linear como veremos a seguir. Todavia, no necessariamente as propriedades continuam valendo. Assim, torna-se importante
a definio de outros tipos de resduo cujas propriedades sejam conhecidas
ou pelo menos estejam mais prximas das propriedades de ti .
Uma primeira proposta seria considerarmos o resduo ordinrio da soluo de mnimos quadrados da regresso linear ponderada de z contra X,
68

que definido por
1/2 [z
1/2 (y ).
] = V
r = W
1 1 , temos aproximadamente Var[r ]
Se assumirmos que Var(z)
= W
=
Logo, podemos definir o resduo padronizado
1 (In H).
1/2 (yi
i )
tSi = q
,
ii )
Vi (1 h
em que hii o i-simo elemento da diagonal principal da matriz H. Fica

desempenha o papel de
W
1/2 z, isto , H
fcil mostrarmos que r = (In H)
matriz de projeo ortogonal local, como na regresso normal linear em que

W identidade.
no fixo nem conhecido, bem como z no
No entanto, na prtica,
segue distribuio normal. Uma implicao desse fato que as propriedades

de ti no so mais verificadas para tSi . Williams (1984) mostra atravs de
estudos de Monte Carlo que a distribuio de tSi em geral assimtrica,
mesmo para grandes amostras.
Outros resduos cujas distribuies poderiam estar mais prximas da
normalidade tm sido sugeridos para os MLGs. Por exemplo, o resduo de
Anscombe
tAi =
1/2 {(yi ) (
i )}
,
V 1/2 (
i ) (
i )
em que () uma transformao utilizada para normalizar a distribuio de

Y . Para os MLGs essa transformao definida por
Z
() =
V 1/3 (t)dt.
0
Em particular, para os principais MLGs o resduo de Ascombe descrito na

tabela dada abaixo.
69
Distribuio
Normal R
Binomial
Poisson
1/3
3 2/3
1/3
t
(1
t)
dt
()
2
0
Gama
31/3
N. Inversa
log
Contudo, os resduos mais utilizados em modelos lineares generalizados
so definidos a partir dos componentes da funo desvio. A verso padronizada (ver McCullagh, 1987; Davison e Gigli, 1989) a seguinte:
1/2 d(yi ;
i )
d (yi ;
i )
= p
,
t Di = p
ii
ii
1h
1h
em que d(yi ;
i ) = 2{yi (i i ) + (b(i ) b(i ))}1/2 . O sinal de d(yi ;
i )
o mesmo de yi
i . Williams (1984) verificou atravs de simulaes que
a distribuio de tDi tende a estar mais prxima da normalidade do que as
distribuies dos demais resduos. McCullagh (1987, p. 214) mostra para os

MLGs que a distribuio de probabilidades de
d (Yi ; i ) + 3i /6
p
1 + (1423i 94i )/36
aproximadamente N(0, 1), em que 3i e 4i so os coeficientes de assimetria e curtose de L(i )/i , respectivamente, e d (Yi ; i ) o i-simo com avaliado no parmetro verdadeiro. Podemos
ponente do desvio D (y; )
mostrar usando resultados de Cox e Snell (1968) que E{d (Yi ; i )} = 0 e
Var{d (Yi ; i )} = 1 hii , em que os termos negligenciados so de O(n1 ).
p
ii para d (yi ;
i ).
Esses resultados reforam o uso da padronizao 1 h
Um quarto resduo foi definido por Williams (1987) e pode ser inter-
pretado como uma mdia ponderada entre tSi e tDi ,

ii t2 }1/2 .
ii )t2 + h
tGi = sinal(yi
i ){(1 h
Si
Di
Williams (1987) verificou tambm atravs de simulaes e para alguns MLGs
que tGi tem esperana ligeiramente diferente de zero, varincia excedendo um,
assimetria desprezvel e alguma curtose.
70

O R solta os resduos di = d(yi ;
i ) e rPi sem o termo 1/2 . Precisamos,
s bem como exportanto, para padroniz-los, calcular os correspondentes h
ii
ii .
trair nos casos em que 6= 1. Inicialmente, ilustramos como calcular h
Vamos supor um modelo com duas covariveis e dois fatores e que os resul-
tados do ajuste so armazenados em fit.model. A matriz X obtida com

um dos comandos abaixo
X = model.matrix( cov1 + cov2 + A + B)
X = model.matrix(fit.model).
Os elementos da diagonal principal
Em V podemos armazenar a matriz V.
de V devem ser obtidos dos valores ajustados do modelo, os quais por sua
vez so extrados atravs do comando fitted(fit.model). Como exemplo,
a matriz com as funes de varincia estimadas seria obtida para um modelo
de Poisson da forma seguinte:
V = fitted(fit.model)
V = diag(V).
tambm depende dos valores ajustados, no enEm particular, a matriz W
tanto, como a matriz de pesos, podemos obt-la diretamente fazendo
w = fit.model$weights
W = diag(w).
ii
podemos obter os elementos h
Assim, uma vez obtida a matriz W
com os comandos
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H).
Armazenando em fit a estimativa (o R solta 1 ), os componentes do
desvio e os resduos studentizados so obtidos da seguinte maneira:
rd = resid(fit.model, type= deviance)
71

td = rd*sqrt(fi/(1-h))
rp = resid(fit.model, type= pearson)
rp = sqrt(fi)*rp
ts = rp/sqrt(1 - h).
Lembrando que para ligaes cannicas W e V coincidem.
1.10.3 Influncia
Supondo conhecido, o afastamento pela verossimilhana quando eliminamos a i-sima observao denotado por
L(
(i) )},
LDi = 2{L()
sendo portanto uma medida que verifica a influncia da retirada da i-sima
No sendo possvel obtermos uma forma analtica para
observao em .
LDi , usual utilizarmos a segunda aproximao por srie de Taylor em torno
Essa expanso leva ao seguinte resultado:
de .
T {L
()}(
LDi
).
= ( )
pelo correspondente valor esperado e por
(i) , ob ()
Substituindo L
temos

(i) )T (XT WX)(

(i) ).
LDi
= (
(1.17)
Assim, teremos uma boa aproximao para LDi quando L() for aproxima
damente quadrtica em torno de .
(i) ,
Como em geral no possvel obtermos uma forma fechada para
a aproximao de um passo tem sido utilizada (ver, por exemplo, Cook e
Weisberg, 1982), que consiste em tomarmos a primeira iterao do processo
iterativo pelo mtodo escore de Fisher quando o mesmo iniciado em .

72

Essa aproximao, introduzida por Pregibon (1981), dada por
1 =
+ {L
1 L(i) (),
()}
(i)
em que L(i) () o logaritmo da funo de verossimilhana sem a i-sima
por K()
obtemos
()
observao. Substituindo novamente L
p
1
r
i 1 T
P
i
=
(X WX)1 xi
(1.18)
(i)
(1 hii )
e, finalmente, substituindo a expresso acima em (1.17) temos que

(
)
ii
h
LDi
t2Si .
=
(1 hii )
A distncia de Cook aproximada fica facilmente obtida com o comando

LD = h*(ts 2)/(1 - h).
A validade da aproximao de um passo tem sido investigada por alguns pesquisadores. A constatao que a mesma em geral subestima o
verdadeiro valor de LDi , no entanto suficiente para chamar a ateno dos
pontos influentes.
1.10.4 Influncia local

A metodologia de influncia local pode ser facilmente estendida para a classe
de MLGs. Em particular, se considerarmos conhecido e perturbao de
Pn
casos em que L(|) =
i=1 i Li () com 0 i 1, ento a matriz
assume a forma
p T 1/2
D(rP ),
X W
p
em que D(rP ) = diag{

rP1 , . . . , rPn } e rPi = (yi
i )/ Vi o i-simo
por (XT WX)
resduo de Pearson estimado. Assim, se substituirmos L
=
temos que a curvatura normal na direo unitria assume a forma

rP )|.
C () = 2|T D(rP )HD(
73

Se o interesse calcularmos a curvatura normal na direo i da i-sima
ii r2 .
observao, ento podemos avaliar o grfico de ndices de Ci = 2h
Pi
Em particular, o vetor max para avaliarmos a influncia local das observaes nas estimativas dos parmetros o autovetor correspondente ao
maior autovalor da seguinte matriz n n:
rP ).
B = D(rP )HD(
Para obtermos max , a maneira mais simples construirmos a matriz B e
extrairmos o seu autovetor correspondente ao maior autovalor. Os comandos
so os seguintes:
B = diag(rp)%*% H %*% diag(rp)
Cmax = eigen(B)$val[1]
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Por outro lado, se temos interesse em detectar observaes influentes na
estimativa de um coeficiente particular, associado por exemplo varivel
explicativa X1 , o vetor max fica dado por
Tmax =
v r
v r
p1 P1 , . . . , pn Pn
Cmax
Cmax
em que v1 , . . . , vn so agora obtidos da regresso linear de X1 contra as

isto v = V
1/2 X1 V
1/2 X2 (XT
colunas de X2 com matriz de pesos V,
2
2)
VX
1.
XT2 VX
Para ligao no cannica os resultados continuam valendo desde que

a matriz observada de Fisher seja substituda pela matriz de informao de
Fisher.
74
1.10.5 Grfico da varivel adicionada

Apresentamos a seguir a verso do grfico da varivel adicionada para os
MLGs. Vamos supor um MLG com p parmetros, 1 , . . . , p , conhecido, e
que um parmetro adicional est sendo includo no modelo. O interesse
testarmos H0 : = 0 contra H1 : 6= 0.
Seja (, ) o preditor linear com p + 1 parmetros, isto

(, ) = XT + Z.
A funo escore para dada por

U =
L(, )
= 1/2 ZT W1/2 rP ,
em que Z = (z1 , . . . , zn )T . De resultados anteriores temos que

Var(
) = 1 [ZT W1/2 MW1/2 Z]1 ,
em que M = In H. Logo, Var(
) = 1 (RT WR)1 com R = Z XC e
C = (XT WX)1 XT WZ.
Portanto, a estatstica de escore para testarmos H0 : = 0 contra

H1 : 6= 0 fica dada por
1/2 Z)2 /(ZT W
1/2 M
W
1/2 Z),
SR = (rTP W
(sob H0 ). Sob H0 , SR 2 quando
rP e M
so avaliados em
em que W,
1
n .
Wang (1985) mostra que a estatstica de escore acima coincide com
a estatstica F de uma regresso linear ponderada para testar a incluso da

varivel Z no modelo. Nessa regresso linear, o grfico da varivel adicionada
W
1/2 Z. O resduo pode
formado pelos resduos rP e = 1/2 (In H)
75

de
ser obtido facilmente aps a regresso linear ponderada (com pesos W)
Z contra X. Temos que = ( T )1 T r.
Logo, o grfico de rP contra pode revelar quais observaes esto
contribuindo mais na significncia de . A principal dificuldade para construirmos o grfico da varivel adicionada em MLGs a obteno do resduo
, uma vez que o resduo rP obtido facilmente como j vimos anteriormente. Para ilustrarmos o clculo de num modelo particular, vamos supor
que temos duas covariveis e dois fatores e que o interesse construirmos o
grfico da varivel adicionada correspondente covarivel cov1. Precisamos
inicialmente ajustar o modelo com os dois fatores e a outra covarivel e calcu cujos valores sero armazenados em W. Lembrando que W
lar a matriz W
a matriz estimada de pesos. Supondo, por exemplo, que temos um modelo
de Poisson com ligao cannica, os passos para construirmos o grfico so
os seguintes:
fit.poisson = glm( resp cov2 + A + B, family=poisson)
w = fit.poisson$weights
W = diag(w)
rp = resid(fit.poisson, type =pearson)
X = model.matrix(fit.poisson)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
v = sqrt(W)%*%cov1 - H%*%sqrt(W)%*%cov1
plot(v, rp, xlab=Residuo v, ylab=Residuo rp).
1.10.6 Tcnicas grficas

As tcnicas grficas mais recomendadas para os MLGs so as seguintes: (i)
grficos de tDi contra a ordem das observaes, contra os valores ajustados e
76
1.11 Seleo de modelos

contra as variveis explicativas, ou contra o tempo ou alguma ordem em que
h suspeita de correlao entre as observaes; (ii) grfico normal de probabilidades para tDi com envelope, (iii) grfico de zi contra i para verificarmos
a adequao da funo de ligao (uma tendncia linear indica adequao da
ligao) e (iv) grficos de LDi , Ci ou |max | contra a ordem das observaes.
Os envelopes, no caso de MLGs com distribuies diferentes da normal, so

construdos com os resduos sendo gerados a partir do modelo ajustado (ver,
por exemplo, Williams, 1987). No Apndice B so relacionados programas
para gerar envelopes em alguns MLGs.

1.11.1 Modelo normal linear
Existem vrios procedimentos para a seleo de modelos de regresso, embora nenhum deles seja consistente, ou seja, mesmo para amostras grandes
selecione com probabilidade um as variveis explicativas com coeficiente de
regresso no nulo. Os procedimentos mais conhecidos so maior R2p , menor s2p , Cp , forward, backward, stepwise e AIC (ver, por exemplo, Neter et
al., 1996, Cap. 8), alm de outros mtodos que usam computao intensiva.
Alguns desses mtodos sero descritos brevemente a seguir.
Mtodo forward
Iniciamos o mtodo pelo modelo = . Ajustamos ento para cada varivel
explicativa o modelo
= + j xj , (j = 1, . . . , q).
Testamos H0 : j = 0 contra H1 : j 6= 0. Seja P o menor nvel descritivo
dentre os q testes. Se P PE , a varivel correspondente entra no modelo.

77

Vamos supor que X1 tenho sido escolhida. Ento, no passo seguinte ajustamos os modelos
= + 1 x1 + j xj , (j = 2, . . . , q).
Testamos H0 : j = 0 contra H1 : j 6= 0. Seja P o menor nvel descritivo
dentre os (q 1) testes. Se P PE , a varivel correspondente entra no
modelo. Repetimos o procedimento at que ocorra P > PE .
Mtodo backward
Iniciamos o procedimento pelo modelo
= + 1 x1 + + q xq .
Testamos H0 : j = 0 contra H1 : j 6= 0 para j = 1, . . . , q. Seja P o maior
nvel descritivo dentre os q testes. Se P > PS , a varivel correspondente sai

do modelo. Vamos supor que X1 tenho sado do modelo. Ento, ajustamos
o modelo
= + 2 x2 + + q xq .
Testamos H0 : j = 0 contra H1 : j 6= 0 para j = 2, . . . , q. Seja P o
maior nvel descritivo dentre os (q 1) testes. Se P > PS , ento a varivel
correspondente sai do modelo. Repetimos o procedimento at que ocorra

P PS .
Mtodo stepwise
uma mistura dos dois procedimentos anteriores. Iniciamos o processo com
o modelo = . Aps duas variveis terem sido includas no modelo, verificamos se a primeira no sai do modelo. O processo continua at que
nenhuma varivel seja includa ou seja retirada do modelo. Geralmente adotamos 0, 15 PE , PS 0, 25. Uma sugesto seria usar PE = PS = 0, 20.
78
Mtodo de Akaike
O mtodo proposto por Akaike (1974) basicamente se diferencia dos procedimentos anteriores por ser um processo de minimizao que no envolve testes
estatsticos. A ideia bsica selecionarmos um modelo que seja parcimonioso,
ou em outras palavras, que esteja bem ajustado e tenha um nmero reduzido
de parmetros. Como o logaritmo da funo de verossimilhana L() cresce
com o aumento do nmero de parmetros do modelo, uma proposta razovel
seria encontrarmos o modelo com menor valor para a funo
+ p,
AIC = L()
em que p denota o nmero de parmetros. No caso do modelo normal linear
podemos mostrar que AIC fica expresso, quando 2 desconhecido, na forma
AIC = nlog{D(y;
)/n} + 2p,
=
em que D(y; )
Pn
i=1 (yi
i )2 .
1.11.2 Extenso para os MLGs

Os mtodos de seleo de modelos descritos na seo anterior podem ser
estendidos diretamente para os MLGs. Algumas observaes, contudo, so
necessrias. Nos casos de regresso logstica e de Poisson o teste da razo
de verossimilhanas, pelo fato de ser obtido pela diferena de duas funes
desvio, aparece como o mais indicado. Para os casos de regresso normal,
normal inversa e gama o teste F, por no exigir a estimativa de mxima
verossimilana do parmetro de disperso, o mais indicado. Isso no impede
que outros testes sejam utilizados. J o mtodo de Akaike pode ser expresso
numa forma mais simples em funo do desvio do modelo. Nesse caso, o
critrio consiste em encontrarmos o modelo tal que a quantidade abaixo seja
79
1.12 Aplicaes
minimizada
+ 2p,
AIC = D (y; )
denota o desvio do modelo e p o nmero de parmeem que D (y; )
tros. Os mtodos stepwise e de Akaike esto disponveis no R. O mtodo
stepwise est disponvel apenas para modelos normais lineares. O comando
stepwise definido por stepwise(Xvar, resposta), em que Xvar denota
a matriz com os valores das variveis explicativas e resposta denota o vetor com as respostas. Para rodarmos o critrio de Akaike precisamos usar
antes o comando require(MASS). Uma maneira de aplicarmos o critrio de
Akaike partindo do maior modelo cujos resultados so guardados no objeto
fit.model. Da, ento, devemos usar o comando stepAIC(fit.model).
1.12 Aplicaes
1.12.1 Estudo entre renda e escolaridade
O conjunto de dados descrito na Tabela 1.6, extrado do censo do IBGE de
2000, apresenta para cada unidade da federao o nmero mdio de anos de
estudo e a renda mdia mensal (em reais) do chefe ou chefes do domiclio.
Esses dados esto tambm armazenados no arquivo censo.dat. Para lermos
os dados no R e coloc-los num arquivo com o mesmo nome externo, devemos
fazer
censo.dat = scan(censo.dat, what=list(uf= ,
escolar=0, renda=0)).
Propomos inicialmente um modelo normal linear simples em que Y
denote a renda e X a escolaridade. O modelo fica portanto dado por
yi = + xi + i , i = 1, . . . , 27,
80
1.12 Aplicaes
com a suposio de que i N(0, 2 ), sendo os erros mutuamente indepen-
dentes. Estamos supondo que a amostra da Tabela 1.6 um corte transversal,

isto , as informaes sobre renda e escolaridade das unidades da federao
so referentes a um determinado instante do tempo. Nesse caso, os erros so
devidos variabilidade da renda (dada a escolaridade) nos diversos instantes
do tempo. Assumimos que a relao funcional entre yi e xi a mesma num
determinado intervalo do tempo.
Tabela 1.6
Escolaridade e renda mdia
domiciliar no Brasil em 2000.
RR 5,7 685 AP 6,0 683
AC 4,5 526 RO 4,9 662
PA 4,7 536 AM 5,5 627
TO 4,5 520 PB 3,9 423
MA 3,6 343 RN 4,5 513
SE 4,3 462 PI 3,5 383
BA 4,1 460 PE 4,6 517
AL 3,7 454 CE 4,0 448
SP 6,8 1076 RJ 7,1 970
ES 5,7 722 MG 5,4 681
SC 6,3 814 RS 6,4 800
PR 6,0 782 MT 5,4 775
GO 5,5 689 MS 5,7 731
DF 8,2 1499
As estimativas dos parmetros (erro padro) so dadas por

= 381, 28
(69, 40) e = 199, 82 (13, 03), indicando que o coeficiente angular da reta
altamente significativo. Essa estimativa pode ser interpretada como o incremento esperado na renda mdia domiciliar de uma unidade da federao se
o tempo de escolaridade mdio domiciliar naquela unidade for acrescido de
81
0.20
DF
0.0
0.10
Medida h
1000
200
600
Renda
1400
0.30
1.12 Aplicaes
10
Escolaridade
(a)
20
25
Indice
(b)
-2
DF
Residuo Studentizado
DF
Distancia de Cook
15
10
15
20
25
400
Indice
(c)
600
800
1000
1200
Valor Ajustado
(d)
Figura 1.5: Reta ajustada do modelo aditivo-normal e grficos de diagnstico

para o exemplo sobre renda e escolaridade.
um ano.
A estimativa de dada por s = 77, 22, enquanto que o coeficiente
de determinao foi de R2 = 0, 904. O ajuste do modelo e a exibio dos
resultados podem ser obtidos com os comandos abaixo
attach(censo.dat)
fit1.censo = lm(renda escolar)
summary(fit1.censo).
Ou, alternativamente, transformando o arquivo censo.dat num arquivo do
tipo data.frame, atravs dos comandos
censo.dat = data.frame(censo.dat)
82
1.12 Aplicaes
fit1.censo = lm(renda escolar, data=censo.dat)
0.20
DF
0.0
0.10
Medida h
1000
200
600
Renda
1400
0.30
400
600
Escolaridade
(a)
1000
1400
Valor Ajustado
(b)
0.0
2
1
0
-1
-2
-3
0.2
0.4
Componente do Desvio
MA
Distancia de Cook
800
10
15
20
25
400
Indice
(c)
600
800
1000
1400
Valor Ajustado
(d)
Figura 1.6: Curva ajustada do modelo multiplicativo-gama e grficos de

diagnstico para o exemplo sobre renda e escolaridade.
Pela Figura 1.5 onde so apresentados alguns grficos de diagnstico,
alm da reta ajustada aos dados, notamos uma forte discrepncia do Distrito
Federal que aparece como ponto de alavanca, influente e aberrante. Alm
disso, notamos pela Figura 1.5d indcios de heteroscedasticidade, ou seja, um
aumento da variabilidade com o aumento da escolaridade. Isso pode tambm
ser notado na Figura 1.5a. Assim, podemos propor um modelo alternativo,
83
1.12 Aplicaes
por exemplo, com efeitos multiplicativos conforme dado abaixo
i = e+xi ei , i = 1, . . . , 27,
com a suposio de que i G(1, ), sendo os erros mutuamente indepen-
dentes. Podemos ajustar esse modelo no R atravs dos comandos
fit2.censo = glm(renda escolar, family=Gamma(link=log))

Tabela 1.7
Estimativas de algumas quantidades com todos os pontos e quando
as observaes mais discrepantes so excludas do modelo gama.
Estimativa Com todos
Excludo
Excludo
Excludos
os pontos
DF
MA
DF e MA
4,98 (0,068) 5,00 (0,078) 5,03 (0,067) 5,06 (0,077)
0,28 (0,013) 0,27 (0,015) 0,27 (0,012) 0,26 (0,015)
192(52)
188(52)
223(62)
223(63)
Na Figura 1.6 temos o ajuste do modelo gama aos dados bem como
alguns grficos de diagnstico que destacam DF como ponto de alavanca e
MA como ponto influente.
Na Tabela 1.7 temos uma anlise confirmatria e verificamos poucas
variaes nas estimativas dos parmetros com a eliminao dessas unidades
da federao. Finalmente, na Figura 1.7 temos os grficos normais de probabilidades para os modelos com efeitos aditivos (Figura 1.7a) e com efeitos
multiplicativos (Figura 1.7b) e notamos uma melhor acomodao e distribuio dos pontos dentro do envelope gerado no segundo caso. Pelo valor
84
1
0
-2
-1
2
0
-3
-2
1.12 Aplicaes
-2
-1
-2
Percentil da N(0,1)
(a)
-1
Percentil da N(0,1)
(b)
Figura 1.7: Grficos normais de probabilidades para os modelos ajustados

aditivo-normal (a) e multiplicativo-gama (b) aos dados sobre renda e escolaridade.
da estimativa do parmetro de disperso conclumos que o modelo gama
aproxima-se bem de um modelo normal heteroscedstico.
Portanto, o modelo final ajustado fica dado por
y = e4,98+0,28x .
Desse modelo podemos extrair a seguinte intrepretao: e = e0,28 = 1, 32(32%)

o aumento relativo esperado para a renda se aumentarmos em 1 ano a escolaridade mdia.
1.12.2 Processo infeccioso pulmonar

Utilizaremos agora os dados referentes a um estudo de caso-controle realizado
no Setor de Anatomia e Patologia do Hospital Helipolis em So Paulo, no
perodo de 1970 a 1982 (Paula e Tuder, 1986) (ver arquivo canc3.dat).
Um total de 175 pacientes com processo infecioso pulmonar atendido no
hospital no perodo acima foi classificado segundo as seguintes variveis: Y,
85
1.12 Aplicaes
tipo de tumor (1: maligno, 0: benigno); IDADE, idade em anos; SEXO (0:
masculino, 1: feminino); HL, intensidade da clula histicitos-linfcitos (1:
ausente, 2: discreta, 3: moderada, 4: intensa) e FF, intensidade da clula
fibrose-frouxa (1: ausente, 2: discreta, 3: moderada, 4: intensa). Para ler os
dados do arquivo canc3.dat e armazen-los num arquivo do R com o mesmo
nome, fazemos
canc3.dat = scan(canc3.dat, what=list(tipo=0, idade=0, sexo=0,
hl=0, ff=0)).
Devemos informar o sistema que as variveis SEXO, HL e FF so qualitativas,
isto , devemos transform-las em fatores. Os comandos so os seguintes:
attach(canc3.dat)
sexo = factor(sexo)
sexo = C(sexo,treatment)
hl = factor(hl)
hl = C(hl,treatment)
ff = factor(ff)
ff = C(ff,treatment).
O comando C(sexo,treatment), que optativo, cria uma varivel binria
que assume valor zero para o sexo masculino e valor um para o sexo feminino.
Analogamente, o comando C(hl,treatment) cria variveis binrias para os
nveis discreto, moderado e intenso do fator HL. O mesmo faz o comando
C(ff,treatment) para o fator FF. Essa maneira de transformarmos todo
fator de k nveis em k 1 variveis binrias, denominado casela de referncia,
padro em MLGs, porm pode no ser a modelagem mais conveniente em

outras situaes de interesse prtico. A casela de referncia seria, nesses dois
casos, o nvel ausente.
Vamos considerar, como exemplo, a aplicao do modelo logstico ape-
86
1.12 Aplicaes
nas com os efeitos principais
Pr{Y = 1 | } = {1 + exp()}1 ,
em que = 1 + 2 IDADE + 3 SEXO +
P4
i=1
4i HLi +
P4
i=1
5i FFi , com
SEXO, HLi e FFi sendo variveis binrias correspondentes aos nveis de

SEXO, HL e FF, respectivamente. Assumimos que 41 = 51 = 0. Uma
observao importante que devido ao fato da amostragem ter sido retrospectiva, o uso do modelo acima para fazermos previses somente vlido se
corrigirmos a estimativa da constante, 1 (ver, por exemplo, McCullagh e
Nelder, 1989, p. 113). Discutimos isso na Seo 3.6.6. Para ajustarmos o
modelo acima, os passos so dados abaixo
fit1.canc3 = glm( tipo sexo + idade + hl + ff,
family=binomial)
summary(fit1.canc3).
Tabela 1.8
Estimativas dos parmetros referentes ao modelo logstico ajustado aos dados
sobre processo infeccioso pulmonar.
Efeito
Estimativa
Efeito
Estimativa
Efeito Estimativa
Constante -1,850(1,060)
HL(2) -0,869(0,945)
FF(2) -0,687(0,502)
Sexo
0,784(0,469)
HL(3) -2,249(0,968)
FF(3) -1,025(0,525)
Idade
0,065(0,013)
HL(4) -3,295(1,466)
FF(4) 0,431(1,123)
As estimativas dos parmetros (erro padro aproximado) so apresen = 157, 40 (166 graus
tadas na Tabela 1.8. O desvio do modelo foi de D(y; )
de liberdade), indicando um ajuste adequado. Como podemos observar, h
indcios de que a chance de processso infecioso maligno seja maior para o
sexo feminino do que para o sexo masculino. Notamos tambm que a chance
de processo maligno aumenta significativamente com a idade e h indicaes
87
1.12 Aplicaes
de que tanto para a clula FF quanto para HL a chance de processo maligno
diminui medida que aumenta a intensidade da clula. Esse exemplo ser
reanalizado no Captulo 3.
1.12.3 Sobrevivncia de bactrias

Descrevemos na Tabela 1.9 (Montgomery, Peck e Vining, 2001, pgs. 201-202)
o nmero de bactrias sobreviventes em amostras de um produto alimentcio
segundo o tempo (em minutos) de exposio do produto a uma temperatura
de 300o F .
Tabela 1.9
Nmero de bactrias sobreviventes e tempo de exposio.
Nmero 175 108 95 82 71 50 49 31 28 17 16 11
Tempo
1
2 3 4 5 6 7 8 9 10 11 12
Na Figura 1.8a apresentamos o grfico do nmero de bactrias sobreviventes contra o tempo de exposio. Notamos uma tendncia decrescente
e quadrtica. Supondo que as amostras do produto enlatado submetidos
temperatura de 300o F tm o mesmo tamanho, podemos pensar, em princpio,
que Yi P(i ), com Yi denotando o nmero de bactrias sobreviventes na
i-sima amostra i = 1, . . . , n. Como para i grande razovel assumirmos
que Yi segue uma distribuio aproximadamente normal (ver Seo 4.2.1),

propomos inicialmente os seguintes modelos:
yi = + tempoi + i
yi = + tempoi + tempo2i + i ,
em que i N(0, 2 ). As estimativas dos parmetros so apresentadas na
Tabela 1.10. Pelos grficos de envelope (Figuras 1.8b e 1.8c) notamos indcios
de que a distribuio dos erros pode estar incorrretamente especificada. A
88
1.12 Aplicaes
maioria dos resduos assume valor negativo. Notamos a presena de um
ponto aberrante, observao #1. Uma outra tentativa seria aplicar resposta
a transformao raiz quadrada que conhecida no caso da Poisson como
estabilizadora da varincia alm de manter a aproximao normal (ver Seo
4.2.1). Logo, podemos pensar em adotar os seguintes modelos alternativos:
yi = + tempoi + i
yi = + tempoi + tempo2i + i ,
em que i N(0, 2 ). As estimativas dos parmetros so apresentadas na
Tabela 1.10.
Tabela 1.10
Estimativas de algumas quantidades para os modelos com resposta
transformada ajustados aos dados sobre sobrevivncia
de bactrias.
Parmetro
Linear-Y Quadrtico-Y Linear- Y Quadrtico- Y
142,20(11,26) 181,20(11,64) 12,57(0,38)

13,64(0,51)
-12,48(1,53)
-29,20(4,11) -0,82(0,05)
-1,27(0,18)
1,29(0,31)
0,04(0,01)
R2
86,9%
95,5%
96,1%
97,8%
Notamos uma melhora na qualidade do ajuste, particularmente no segundo caso. Porm, ainda h indcios pelos grficos de envelope (Figuras
1.8d e 1.8e) de violao nas suposies para os modelos, alm da presena da
observao #1 como ponto aberrante. Decidimos, ento, propor um modelo
log-linear de Poisson em que assumimos
Yi P(i ) e logi = + tempoi .
As estimativas dos parmetros so apresentadas na Tabela 1.11.
89
1.12 Aplicaes
Tabela 1.11
Estimativas dos parmetros do modelo
de Poisson ajustado aos dados sobre
sobrevivncia de bactrias.
Parmetro Estimativa E/E.Padro
5,30
88,34
-0,23
-23,00
Desvio
8,42 (10 g.l.)
Pelo grfico de envelope (Figura 1.8f) no h evidncias de que o modelo esteja mal ajustado. Notamos tambm que a observao #1 foi acomodada dentro do envelope gerado. Parece, portanto, que esse ltimo modelo
o que melhor se ajusta aos dados dentre os modelos propostos. O modelo
ajustado fica ento dado por
(x) = e5,300,23x ,
em que x denota o tempo de exposio. Logo, se diminuirmos de uma unidade
o tempo de exposio a variao no valor esperado fica dada por
(x 1)
= e0,23 = 1, 259.
(x)
Ou seja, o nmero esperado de sobreviventes aumenta aproximadamente
25,9%.
1.12.4 Estudo seriado com ratos

O exemplo a seguir provm de um estudo seriado com um tipo de tumor
maligno para avaliar a influncia da srie (passagem do tumor) na morte
(caquexia) de um certo tipo de rato (ver Paula, Barbosa e Ferreira, 1989;
90
1.12 Aplicaes
-1
2
10
8
6
4
2
0
-2
6
4
2
0
-2
100
50
Sobreviventes
150
-1
Percentil da N(0,1)
Percentil da N(0,1)
(d)
-1
Percentil da N(0,1)
(e)
-3 -2 -1
(c)
2
0
-2
6
4
2
0
-2
Percentil da N(0,1)
(b)
Tempo
(a)
-1
12
-1
Percentil da N(0,1)
(f)
Figura 1.8: Diagrama de disperso e grficos normais de probabilidades referentes aos modelos ajustados aos dados sobre sobrevivncia de bactrias.
Paula et al., 1992). Os dados esto descritos no arquivo canc4.dat. Um
total de 204 animais teve o tumor inoculado num determinado momento da
srie. Para cada animal, alm do grupo de passagem, foram observadas as
variveis presena de MASSa tumoral, caquexia e o tempo de observao (em
dias). Esses dados so resumidos na Tabela 1.12. Para inserirmos os dados
diretamente no R e armazen-los no arquivo canc4a.dat, devemos fazer
canc4a.dat = scan(what=list(obs=0,rd=0))
1:
6 2597 13 3105 8 2786
2:
12 1613 3 411 1 232.
Agora, precisamos introduzir os fatores grupo de passagem e massa tumoral

91
1.12 Aplicaes
fnames = list(gp=c(P0-P6, P7-P18, P19-P28),
mt=c(sim, nao)).
Para informarmos o sistema a ordem em que os dados foram lidos, podemos
usar o comando fac.design. Em seguida, fazemos o emparelhamento
rato.design = fac.design(c(3,2), fnames, rep=1)
attach(canc4a.dat)
rato.df = data.frame(obs,rd,rato.design).
As informaes completas sobre os dados esto armazenadas no arquivo
rato.df. Para uma verificao basta bater
rato.df.
Podemos agora (opcionalmente) criar uma matriz modelo no padro dos
MLGs
attach(rato.df)
gp = C(gp,treatment)
mt = C(mt,treatment).
Vamos supor que Oij , o nmero de ratos caquticos no nvel i de massa
tumoral e grupo de passagem j, segue uma distribuio de Poisson de mdia
ij tij , i = 1, 2 e j = 1, 2, 3. Temos que ij denota a taxa de caquexia (nmero
mdio de mortes por unidade de tempo) e tij o total de ratos-dias no nvel
(i, j). Consideramos inicialmente o modelo de Poisson com parte sistemtica
logij = + i + j ,
em que 1 = 0 e 1 = 0, que equivale suposio de tempos exponenciais
como ser visto na Seo 4.2.2. Com essa notao, ser o efeito correspondente classe P0 P6 com desenvolvimento de massa, 2 a diferena entre
os efeitos dos grupos sem e com o desenvolvimento de massa tumoral, 2 a

diferena entre os efeitos das classes P7 P18 e P0 P6 e 3 a diferena
entre os efeitos das classes P19 P28 e P0 P6. Em particular, quando

92
1.12 Aplicaes
expressamos os valores esperados de mortes para tij na forma de um modelo
log-linear, teremos um offset dado por logtij . Ou seja, o modelo que iremos
ajustar no R tem parte sistemtica dada por logij = logtij + + i + j .
Logo, precisamos definir o offset no ajuste.
Tabela 1.12
Nmero de ratos caquticos (O) e ratos dias de
observao (R-D) segundo o grupo de passagem
e o desenvolvimento de massa tumoral.
Massa
Grupo de passagem
tumoral
P0-P6
P7-P18
P19-P28
Sim
O
6
13
8
R-D
2597
3105
2786
No
O
R-D
12
1613
3
411
1
232
Os passos so os seguintes:
logt0 = log(rd)
canc4a.fit = glm( obs gp + mt + offset(logt0),
family=poisson)
summary(canc4a.fit).
As estimativas dos parmetros (erro padro aproximado) so dadas
por
= 5, 875 (0, 312), 2 = 0, 334 (0, 365), 3 = 0, 040 (0, 434) e
= 0, 84 com
2 = 0, 860 (0, 343). O desvio do modelo dado por D(y; )
2 graus de liberdade. Pelas estimativas acima notamos que o fator grupo
de passagem no significativo. O ajuste do modelo sem esse efeito levou
s estimativas
= 5, 750 (0, 192) e 2 = 0, 802 (0, 315) com um desvio de
= 1, 99 (4 graus de liberdade). Logo, o teste da razo de verossimiD(y; )
lhanas para testar H0 : 2 = 3 = 0 vale 1, 99 0, 84 = 1, 15 com 2 graus de
liberdade, o que implica em no rejeitarmos a hiptese H0 . Assim, o modelo

93
1.12 Aplicaes
adotado inclui somente o efeito massa tumoral. Temos que 2 significativamente diferente de zero. A estimativa 2 = 0, 802 indica que os ratos que
desenvolvem massa tumoral (tumor maligno) sobrevivem mais do que os ratos que no desenvolvem o tumor! Esse resultado pode parecer em princpio
contraditrio, todavia devemos lembrar que todos os ratos tiveram tumor
inoculado mas nem todos desenvolveram massa tumoral. Assim, pode ser
razovel pensarmos que aqueles ratos que no desenvolveram massa tumoral
na verdade teriam resistido muito para que a mesma no se desenvolvesse,
levando os mesmos a algum tipo de esgotamento e consequentemente a um
tempo mdio de vida menor do que o tempo mdio dos ratos em que o tumor
se desenvolveu.
Uma maneira alternativa de avaliarmos a suposio de distribuio de
Poisson para Oij com mdia ij tij atravs da incluso do termo logtij como
covarivel, em vez de offset. Isto , supormos a parte sistemtica
logij = + logtij + i + j
. Assim, podemos testar H0 : = 1 contra H1 : 6= 1. A no rejeio
de H0 indica que a suposio de distribuio de Poisson para Oij parece ser

razovel. No exemplo acima obtemos = 1, 390(0, 439), o que nos leva a no
rejeitarmos H0 .
1.12.5 Consumo de combustvel

No arquivo reg2.dat(Gray, 1989) so apresentadas as siglas dos 48 estados norte-americanos contguos juntamente com as seguintes variveis: taxa
(taxa do combustvel no estado em USD), licena (proporo de motoristas
licenciados), renda (renda percapita em USD), estradas (ajuda federal para
as estradas em mil USD) e consumo (consumo de combustvel por habitante).
94
1.12 Aplicaes
O interesse nesse estudo tentar explicar o consumo de combustvel pelas
variveis taxa, licena, renda e estradas. O modelo proposto o seguinte:
yi = + 1 taxai + 2 licencai + 3 rendai + 4 estradasi + i ,
em que yi denota o consumo anual de combustvel (por habitante) no isimo estado, enquanto i so variveis aleatrias independentes normalmente
distribudas de mdia zero e varincia 2 . Ajustamos o modelo acima no R
e mandamos os resultados para o objeto fit1.reg2. Da ento aplicamos
o mtodo de Akaike para selecionarmos o submodelo com menor AIC. Para
tal, aplicamos os comandos
require(MASS)
stepAIC(fit1.reg1).
A varivel estradas foi eliminada. Os resultados do modelo selecionado so
apresentados na Tabela 1.13.
Tabela 1.13
Estimativas dos parmetros referentes
ao modelo normal linear ajustado aos
dados sobre consumo de combustvel.
Efeito
Estimativa E/E.Padro
Constante
307,33
1,96
Taxa
-29,48
-2,78
Licena
1374,77
7,48
Renda
-0,07
-4,00
s2
65,94
R2
0,675
Portanto, podemos dizer que para cada aumento de uma unidade na

renda, o consumo mdio de combustvel diminui 0,07 unidades. Para cada
95
1.12 Aplicaes
WY
0.20
NY
CT
Distancia de Cook
0.15
0.10
0.0
0.05
Alavanca
NV
0.1
SD
0.2
0.3
TX
10
20
30
40
10
Indice
(a)
20
30
40
Indice
(b)
2
0
-4
-2
2
0
-2
-4
WY
WY
10
20
30
40
400
Indice
(c)
500
600
700
Valor Ajustado
(d)
Figura 1.9: Grficos de diagnstico referentes ao modelo normal linear ajustado aos dados sobre consumo de combustvel.
aumento de 1% na porcentagem de motoristas licenciados o consumo mdio
de combustvel aumenta 13,75 unidades, e para cada aumento de 1% no
imposto do combustvel o consumo mdio diminui 29,48 unidades.
Na Figura 1.9 temos alguns grficos de diagnstico e como podemos
notar h um forte destaque para o estado de WY, que aparece como influente
(Figura 1.9b) e aberrante (Figura 1.9c). Outros estados, tais como CT, NY,
SD, TX e NV (Figura 1.9a) aparecem como remotos no subespao gerado pelas
colunas da matrix X, embora no sejam confirmados como influentes. No
96
1.12 Aplicaes
h indcios pela Figura 1.9d de heteroscedasticidade.
Pelo grfico de envelope (Figura 1.10a) no h indcios fortes de afastamentos da suposio de normalidade para os erros, apesar da influncia no
grfico do estado de WY. O grfico de envelope sem esse estado (Figura 1.10b)
confirma esse suposio.
Analisando os dados referentes ao estado de WY notamos que o mesmo
tem uma taxa de 7% (abaixo da mdia de 7,67%), uma renda percapita anual
de USD 4345 (ligeiramente acima da mdia de USD 4241,83), uma proporo
de motoristas licenciados de 0,672 (acima da mdia de 0,570), porm um
consumo mdio de combustvel muito alto 968 (quando a mdia nacional
era de 576,77). Talvez as longas distncias do estado tenham obrigado os
motoristas a um consumo alto de combustvel. A eliminao desse estado
muda substacialmente algumas estimativas, embora no mude a inferncia. A
estimativa da varivel licena cai 13,2%, a estimativa do intercepto aumenta
27,8%, o s2 cai 17,1% e o R2 aumenta 4,1%. As demais estimativas no
sofrem grandes variaes. A incluso de alguma varivel que leve em conta a
densidade demogrfica de cada estado, conforme sugerido por Gray (1989),
poderia explicar melhor o estado de WY pelo modelo proposto.
1.12.6 Salrio de executivos

Vamos considerar agora os dados descritos no arquivo salary.dat sobre o
salrio anual (em mil USD) de uma amostra aleatria de 220 executivos
(145 homens e 75 mulheres)(Foster, Stine e Waterman, 1998, pgs. 180-188).
O salrio ser relacionado com as seguintes variveis explicativas: sexo (1:
masculino; 0: feminino), anos de experincia no cargo e posio na empresa
97
1
0
-3
-2
-2
-1
2
0
1.12 Aplicaes
-2
-1
-2
Percentil da N(0,1)
(a)
-1
Percentil da N(0,1)
(b)
Figura 1.10: Grficos normais de probabilidades com todos os pontos (a) e

sem o estado de WY (b), referentes ao modelo normal linear ajustado aos
dados sobre consumo de combustvel.
(varia de 1 a 9), quanto maior o valor mais alta a posio. Apresentamos a
seguir a comparao dos salrios mdios segundo o sexo.
Sexo
Masculino
Feminino
Amostra Mdia E.Padro

145 144,11
1,03
75 140,47
1,43
Diferena
Estimativa
3,64
E.Padro
1,77
Teste-t valor-P
2,06
0,04
O valor-P indica diferena ao nvel de 5%. Ignorando as demais variveis

notamos que os executivos ganham em mdia mais do que as executivas.
Pela Figura 1.11 notamos indcios de aumento do salrio com o aumento da posio e com o aumento da experincia para ambos os sexos,
sugerindo inicialmente um modelo linear do tipo
yi = + 1 sexoi + 2 experi + 3 posici + i ,
98
160
120
140
Salario Mulheres
150
130
110
Salario Homens
170
1.12 Aplicaes
10
15
20
25
15
20
Experiencia Mulheres
160
120
140
Salario Mulheres
150
130
110
Salario Homens
170
Experiencia Homens
10
Posicao Homens
Posicao Mulheres
Figura 1.11: Grficos de disperso entre salrio e as variveis explicativas

experincia e posio.
em que yi denota o salrio do i-simo executivo da amostra. Vamos supor
ainda que i so erros independentes e normalmente distribudos de mdia
zero e varincia 2 .
Aplicando o mtodo AIC nenhuma varivel retirada do modelo. As
estimativas so apresentadas na Tabela 1.14. Notamos portanto que na presena de experincia e posio as mulheres ganham em mdia mais do que
os homens. Quando essas variveis so ignoradas, ocorre o contrrio, como
foi visto na anlise descritiva. Experincia e posio so variveis importantes e devem tambm permanecer no modelo. Vamos verificar a seguir se
possvel incluirmos alguma interao de 1a. ordem. Essas interaes so de
99
1.12 Aplicaes
interesse e tambm interpretveis. Por exemplo, presena de interao entre
os fatores sexo e experincia significa que a diferena entre os salrios mdios
de executivos e executivas no a mesma medida que varia o tempo de
experincia.
Tabela 1.14
ao modelo normal linear ajustado aos
dados sobre salrio de executivos.
Efeito
Constante
115,262
82,25
Experincia
-0,472
-4,17
Sexo
-2,201
-2,04
Posio
6,710
21,46
2
R
0,71
s
6,77
Tabela 1.15
Testes F para avaliar a incluso
de cada interao de 1a. ordem no
modelo normal linear ajustado aos
dados sobre salrio de executivos.
Interao
F-valor valor-P
Sexo*Exper
1,615
0,20
Sexo*Posico
0,001
0,97
Exper*Posio
7,594
0,00
Na Tabela 1.15 so apresentados os valores da estatstica F bem como o
valor-P correspondente para testar a ausncia das interaes sexo*experincia,
sexo*posio e experincia*posio, respectivamente, dado que esto no modelo constante + sexo + experincia + posio. Portanto, ser includa no
modelo apenas a interao experincia*posio. As estimativas do modelo
final com a interao experincia*posio so apresentadas na Tabela 1.16.
100
50
100
150
0.04
144
0.02
0.06
30
30
4
0.0
178 213
Distancia de Cook
191
139
0.02
Medida h
0.10
1.12 Aplicaes
200
50
100
50
100
150
200
4
2
0
-2
Residuo Padronizado
4
2
0
0
200
Indice
(b)
-2
Residuo Padronizado
Indice
(a)
150
120
Indice
(c)
130
140
150
160
Valor Ajustado
(d)
Figura 1.12: Grficos de diagnstico referentes ao modelo normal linear ajustado aos dados sobre salrio de executivos.
Na Figura 1.12 so apresentados grficos de diagnstico. Algumas
observaes aparecem como pontos de alavanca (Figura 1.12a), trs observaes so destacadas como possivelmente influentes (Figura 1.12b) e no h
indcios de pontos aberrantes e heteroscedasticidade (Figuras 1.12c e 1.12d).
Retirando as observaes mais influentes, #4 e #30, notamos variaes desproporcionais em algumas estimativas, embora no ocorram mudanas inferencias. Esses pontos causam variaes, respectivamente, de -14% e 11% na
estimativa do coeficiente de sexo. A observao #4 uma executiva com
salrio anual de USD 139 mil, posio 7 e 13,9 anos de experincia (salrio
relativamente baixo para essa posio e experincia) e a observao #30
101
1.12 Aplicaes
de um executivo com salrio anual de USD 110 mil, posio 2 e 2,4 anos de
experincia (menor salrio entre os executivos).
0
-2
-4
Tabela 1.16
ao modelo normal linear final ajustado
aos dados sobre salrio de executivos.
Efeito
Constante
108,042
36,48
Experincia
0,336
1,07
Sexo
-2,811
-2,58
Posio
8,096
13,73
Exper*Posio
-0,135
-2,75
R2
0,72
s
6,67
-3
-2
-1
Percentil da N(0,1)
Figura 1.13: Grfico normal de probabilidades referente ao modelo normal

linear final ajustado aos dados sobre salrio de executivos.
102
1.12 Aplicaes
O modelo final ajustado portanto dado por
y = 108, 042 + 0, 336 exper 2, 811 sexo
+8, 096 posic 0, 135 posic exper.
Por exemplo, desse modelo, qual o salrio previsto para executivos com
5 anos de experincia e posio 4?
Executiva: USD 139,406 mil
Executivo: USD 136,595 mil.
O modelo ajustado para o grupo de mulheres dado por
y = 108, 042 + 8, 096 posic + (0, 336 0, 135 posic) exper.
Examinando a equao acima notamos que as executivas com posio alta
e muita experincia tendem a ganhar menos do que executivas com posio
alta e menos experincia. Isso quer dizer que aquelas executivas que permaneceram menos tempo no cargo tendem a ganhar mais do que aquelas que
ficarem mais tempo no cargo. Mesmo resultado para os homens.
Notamos neste exemplo a importncia da interao na interpretao
dos resultados. Ignorando as variveis posio e experincia temos que o
salrio mdio dos executivos significativamente maior do que o salrio mdio
das executivas. Porm, quando essas variveis entram no modelo ocorre
o contrrio, para uma mesma posio e mesma experincia as executivas
ganham em mdia mais. Pela Figura 1.13 notamos que no h indcios de
afastamentos da suposio de normalidade para os erros.
103
1.13 Exerccios
1.13 Exerccios
1. Se Y pertence famlia exponencial de distribuies, ento a funo
densidade ou funo de probabilidades de Y pode ser expressa na forma
f (y; , ) = exp[{y b()} + c(y; )],
em que b() e c(; ) so funes diferenciveis. Supondo conhecido
seja L() = logf (y; , ) o logaritmo da funo de verossimilhana. Se
L() pelo menos duas vezes diferencivel em mostre que
(

2
2 )

L()
L()
L()
E
=0 e E
= E
.
2. Supondo agora desconhecido mostre que E(U ) = 0 para as distribuies normal, normal inversa e gama.
3. Considere a distribuio estvel cuja densidade dada por
f (y; , ) = a(y, )exp[{(y + 1) log}],
em que > 0, < y < , 1 > 0 o parmetro de disper-
so e a(, ) uma funo normalizadora. Mostre que essa distribuio
pertence famlia exponencial. Encontre a funo de varincia. Obtenha a funo desvio supondo uma amostra de n variveis aleatrias
independentes de mdias i e parmetro de disperso 1 .
4. Considere a seguinte funo densidade de probabilidade:
f (y; , ) =
a(y, )
exp[{y + (1 2 )1/2 }],
(1 + y 2 )1/2
em que 0 < < 1, < y < , 1 > 0 o parmetro de disper-
so e a(, ) uma funo normalizadora. Mostre que essa distribuio

104
1.13 Exerccios
pertence famlia exponencial. Encontre a funo de varincia. Obtenha a funo desvio supondo uma amostra de n variveis aleatrias
independentes de mdias i e parmetro de disperso 1 .
5. Mostre que a distribuio logartmica, com funo de probabilidades
f (y; ) = y /{ylog(1 )},
em que y = 1, 2, . . . e 0 < < 1, pertence famlia exponencial.
Calcule e V (). Obtenha a funo desvio supondo uma amostra de
n variveis aleatrias independentes de parmetros i .
6. (Paula e Cordeiro, 1986). Suponha o MLG em que Yi FE(i , ) e
parte sistemtica dada por g(i ; ) = i = xTi , com escalar desconhecido. Encontre as funes escore U e U , as funes de informao de Fisher K , K e K e descreva o processo iterativo
escore de Fisher para obter a estimativa de mxima verossimilhana de
= ( T , )T . Como iniciar o processo iterativo? Sugesto de notao:
= /, em que = (1 , . . . , n )T .
7. Supor o modelo normal linear com parte sistemtica dada por i =
1 (x1i x1 ) + 2 (x2i x2 ). Sabe-se que a correlao amostral entre x1
P
e x2 dada por corr(x1 , x2 ) = ni=1 (x1i x1 )(x2i x2 )/(n 1)s1 s2 ,
em que s1 e s2 so os respectivos desvios padro amostrais de x1 e x2 .

Calcule a correlao corr(1 , 2 ). Discuta e tente explicar a relao
entre as duas correlaes. Use o fato de que det(XT X)1 > 0.
8. Suponha o modelo de anlise de varincia com erros normais
yij = + i + ij ,
em que ij N(0, 2 ), i = 1, . . . , p e j = 1, . . . , ni . Supor 1 = 0.
Mostre que Var(rij ) = 2 (1 1/ni ).

105
1.13 Exerccios
9. Considere o modelo normal linear
yi = xTi + i , i = 1, . . . , n,
em que i so erros mutuamente independentes tais que i N(0, 2 ).
Considere uma nova observao y(z) (que no est na amostra) e que
satisfaz y(z) = zT + , em que N(0, 2 ). Mostre que um intervalo
de confiana de coeficiente 1 para y(z) pode ser dado por

[
y (z) tnp (1
)s{1 + zT (XT X)1 z}1/2 ],

2
tnp (1 ) o percentil (1 ) da distribuio t

em que y(z) = zT ,
2
2
de Student com n p graus de liberdade e s2 o erro quadrtico mdio

do modelo ajustado.
10. Suponha agora o modelo de regresso normal linear simples

yi = + xi + i , i = 1, . . . , n.
Mostre a equivalncia entre as estatsticas RV , W e SR para testar
H0 : = 0 contra H1 : 6= 0. Supor 2 conhecido.
11. Um critrio tradicional para a validao de modelos de regresso normal
= Pn (yi y(i) )2 ,
linear atravs da estatstica PRESS, definida por
i=1
em que y(i) =
(i)
xTi
denota o valor predito para a i-sima observao
quando esta no considerada no ajuste. O critrio selecionar o

Mostre que
ajuste com menor valor para .
=
n
X
i=1
ri
1 hii
em que ri = yi yi e hii = xTi (XT X)1 xi .

106
2
1.13 Exerccios
12. Suponha duas populaes normais com mdias 1 e 2 , mesma varincia, e que amostras independentes de tamanhos n1 e n2 foram, respectivamente, obtidas das duas populaes. Para o modelo com parte
sistemtica 1 = + e 2 = , mostre que a estatstica F para
testar H0 : = 0 contra H1 : 6= 0 pode ser expressa na forma

simplificada
F= P
(n 2) n1nn2 (
y1 y2 )2
,
(yi y)2 n1nn2 (
y1 y2 )2
em que y, y1 , y2 so as respectivas mdias amostrais.

13. (Paula e Sen, 1995). Suponha um MLG com ligao cannica e parte
sistemtica dada por g(1j ) = 1 +xj e g(2j ) = 2 +xj , j = 1, . . . , r.
Interprete esse tipo de modelo. Obtenha a matriz X correspondente.
Como fica o teste de escore para testar H0 : = 0? O que significa
testar H0 ?
14. Sejam Yij , i = 1, 2, 3 e j = 1, . . . , m, variveis aleatrias mutuamente
independentes pertencentes famlia exponencial tais que E(Yij ) = ij ,
Var(Yij ) = Vij 1 e parte sistemtica dada por g(1j ) = , g(2j ) =
+ e g(3j ) = . Responda s seguintes questes:
(i) como fica a matriz modelo X?
(ii) O que significa testar H0 : = 0? Qual a distribuio nula
assinttica das estatsticas RV , W e SR ?
Var().
(iii) Calcular a varincia assinttica de ,

(iv) Mostre que a estatstica do teste de escore para testar H0 : = 0
contra H1 : 6= 0 fica dada por
SR =
107
m(
y2 y3 )2
.
2V0
1.13 Exerccios
15. Mostre (1.14) e (1.15). Use o seguinte resultado de lgebra linear:
(A + UVT )1 = A1
(A1 U)(VT A1 )
,
1 + VT A1 U
em que A uma matriz no singular e U e V so vetores coluna. Mostre

primeiro que XT X = XT X(1)xi xTi e XT y = XT y(1)xi yi ,
em que uma matriz de 1 s com na i-sima posio.
16. (Cook e Weisberg, 1982). Suponha o modelo de regresso dado em
(1.12). Mostre que N(, 2 /(1 hii )). Mostre tambm que, sob a
hiptese H1 : 6= 0, a estatstica F tem uma distribuio F1,(np1) (),

em que =
1 2 (1hii )
2
2
o parmetro de no centralidade. Comente
sobre o poder desse teste para 0 hii < 1. Use o resultado: se Y
Nn (, 2 I) ento yT y/ 2 2n (), em que = 12 T / 2 .
17. (Pregibon, 1982). Mostre que a estatstica de escore para testar que o isimo ponto aberrante num MLG com conhecido e parte sistemtica
g(i ) = xTi dada por t2Si , em que
(yi
i )
tSi = q
,
Vi (1 hii )
1
ii =
Qual a dis
sendo
i , Vi e h
i xTi (XT WX)
xi avaliados em .
tribuio nula assinttica de t2Si ? Como seria interpretado o grfico de

t2Si contra a ordem das observaes? Sugesto : chame = X + z,
em que z um vetor n 1 de zeros com 1 na i-sima posio, calcule
Var(
) e U e teste H0 : = 0 contra H1 : 6= 0.
18. Mostrar que a expresso para AIC no modelo normal linear com 2
desconhecido pode ser escrita na forma equivalente
AIC = nlog{D(y; )/n}

+ 2p,
108
1.13 Exerccios
=
em que D(y; )
Pn
i=1 (yi
i )2 .
19. No arquivo reg3.dat so descritas as seguintes variveis referentes a

50 estados norte-americanos: (i) estado (nome do estado), (ii) pop
(populao estimada em julho de 1975), (iii) percap (renda percapita
em 1974 em USD), (iv) analf (proporo de analfabetos em 1970), (v)
expvida (expectativa de vida em anos 1969-70), (vi) crime (taxa de
criminalidade por 100000 habitantes 1976), (vii) estud (porcentagem
de estudantes que concluem o segundo grau 1970), (viii) ndias (nmero
de dias do ano com temperatura abaixo de zero grau Celsus na cidade
mais importante do estado) e (ix) area (rea do estado em milhas
quadradas).
O objetivo do estudo tentar explicar e varivel expvida usando um
modelo de regresso normal linear dadas as variveis explicativas percap,
analf, crime, estud, ndias e dens, em que dens=pop/area.
Inicialmente faa uma anlise descritiva dos dados, por exemplo com
boxplots de cada uma das variveis que sero consideradas no estudo
e com diagramas de disperso com as respectivas tendncias entre as
variveis explicativas e a varivel resposta. Comente essa parte descritiva. Posteriormente, ajuste o modelo de regresso normal linear com
todas as variveis explicativas e atravs do mtodo AIC faa uma seleo de variveis. Uma vez selecionado o modelo faa uma anlise de
diagnstico e apresente as interpretaes dos coeficientes estimados do
modelo final.
20. (Neter et el., 1996, p. 449). No arquivo vendas.dat so descritas informaes a respeito das vendas no ano anterior de um tipo de telhado
de madeira em 26 filiais de uma rede de lojas de construo. As vari109
1.13 Exerccios
veis esto colocadas na seguinte ordem: (i) telhados, total de telhados
vendidos (em mil metros quadrados), (ii) gastos, gastos pela loja com
promoes do produto (em mil USD), (iii) clientes, nmero de clientes cadastrados na loja (em milhares), (iv) marcas, nmero de marcas
concorrentes do produto e (v) potencial, potencial da loja (quanto
maior o valor maior o potencial). Um dos objetivos do estudo com
esse conjunto de dados tentar prever o nmero esperado de telhados
vendidos dadas as variveis explicativas. Faa inicialmente uma anlise descritiva construindo, por exemplo, os diagramas de disperso de
cada varivel explicativa contra a varivel resposta telhados. Calcule
tambm as correlaes entre as variveis. Use os mtodos stepwise e
AIC para selecionar um modelo de regresso normal linear. Se o modelo selecionado for diferente pelos dois mtodos, adote algum critrio
para escolher um dos modelos. Interprete os coeficientes estimados do
modelo selecionado. Faa uma anlise de diagnstico para verificar se
existem afastamentos srios das suposies feitas para o modelo e se
existem observaes discrepantes.
21. (Wood, 1973). No arquivo reg4.dat esto os dados referentes produo de gasolina numa determinada refinaria segundo trs variveis
observadas durante o processo e uma quarta varivel que uma combinao das trs primeiras. A resposta o nmero de octanas do produto
produzido. A octanagem a propriedade que determina o limite mximo que a gasolina, junto com o ar, pode ser comprimida na cmara
de combusto do veculo sem queimar antes de receber a centilha vinda
das velas. As melhores gasolinas tm uma octanagem alta. Em grandes refinarias, o aumento de um octana na produo de gasolina pode
representar um aumento de alguns milhes de dolares no custo final
110
1.13 Exerccios
da produo. Assim, torna-se importante o controle dessa varivel durante o processo de produo. Use o mtodo AIC para selecionar as
variveis explicativas significativas. Faa uma anlise de diagnstico
com o modelo selecionado. Comente.
22. (Narula e Stangenhaus, 1988, pgs. 31-33). No arquivo imoveis.dat
so apresentados dados relativos a uma amostra de 27 imveis. Na
ordem so apresentados os valores das seguintes variveis: (i) imposto
do imvel (em 100 USD), (ii) rea do terreno (em 1000 ps quadrados),
(iii) rea construda (em 1000 ps quadrados), (iv) idade da residncia
(em anos) e (v) preo de venda do imvel (em 1000 USD). Ajuste um
modelo normal linear do preo de venda contra as demais variveis. Use
o mtodo AIC para selecionar as variveis explicativas. Faa uma anlise de diagnstico com o modelo selecionado. Interprete os coeficientes
estimados.
23. (Ryan e Joiner, 1994, p. 299). No arquivo trees.dat apresentado
um conjunto de dados que tem sido analisado sob diversos pontos de
vista por vrios pesquisadores (ver, por exemplo, Jrgensen, 1989). As
variveis observadas so o dimetro (d), a altura (h) e o volume (v) de
uma amostra de 31 cerejeiras numa floresta do estado da Pensilvnia,
EUA. A relao entre dimetro, altura e volume de uma rvore depende
da forma da mesma e pode-se considerar duas possibilidades
1
v = d2 h
4
para forma cilndrica e
v=
1 2
d h
12
para forma cnica. Em ambos os casos a relao entre logv, logd e logh
111
1.13 Exerccios
dada por
logv = a + blogd + clogh.
Supor inicialmente um modelo linear em que N(0, 2 ). Faa uma
anlise de diagnstico e verifique se possvel melhorar o modelo, por

exemplo incluindo algum termo quadrtico.
24. (Ruppert, 2004). No arquivo capm.dat esto os seguintes dados: Tbill

(taxa de retorno livre de risco), retorno Microsoft, SP500 (retorno do
mercado), retorno GE e retorno FORD de janeiro de 2002 a abril de
2003. Todos os retornos so dirios e esto em porcentagem. Faa
inicialmente os diagramas de disperso entre os excessos de retorno
(yrt rf t ) de cada uma das empresas Microsoft, GE e FORD e os
excessos de retorno do mercado (rmt rf t ), em que yrt denota o retorno

da ao da empresa, rmt o retorno do mercado e rf t indica a taxa livre
de risco durante o t-simo perodo. Posteriormente, ajuste o seguinte

modelo de regresso:
yrt rf t = + (rmt rf t ) + t ,
em que t N(0, 2 ). Verifique a significncia do parmetro e compare e interprete as estimativas intervalares para . Faa uma anlise
de diagnstico para cada modelo ajustado.

25. O conjunto de dados descrito na tabela abaixo refere-se a um estudo
cujo objetivo foi tentar prever o preo de venda de um imvel (em mil
USD) dada a rea total (em mil ps quadrados) numa regio de Eugene,
EUA (Gray, 1989). Esses dados esto armazenados no arquivo externo
reg1.dat.
Tente inicialmente ajustar uma regresso normal linear para explicar
o preo dada a renda. Faa uma anlise de diagnstico e proponha
112
1.13 Exerccios
algum modelo alternativo (se for o caso) a fim de reduzir as eventuais
influncias de observaes discrepantes bem como afastamentos de suposies feitas para o modelo. Interprete as estimativas obtidas para
os coeficientes do modelo proposto.
rea
Preo
800
30,6
950
31,5
910
33,3
950
45,9
1200
47,4
1000
48,9
1180
51,6
1000
53,1
rea
Preo
1380
54,0
1250
54,3
1500
55,2
1200
55,2
1600
56,7
1650
57,9
1600
58,5
1680
59,7
rea
Preo
1500
60,9
1780
60,9
1790
62,4
1900
63,0
1760
64,5
1850
66,0
1800
66,3
1700
67,5
rea
Preo
1370
68,4
2000
68,4
2000
68,7
2100
69,6
2050
70,5
1990
74,7
2150
75,0
2050
75,3
rea
Preo
2200
79,8
2200
80,7
2180
80,7
2250
83,4
2400
84,0
2350
86,1
2500
87,0
2500
90,3
rea
Preo
2500
96,0
2500
101,4
2680
105,9
2210
111,3
2750
112,5
2500
114,0
2400
115,2
3100
117,0
rea
2100
Preo 129,0
4000
165,0
113
Captulo
Modelos para Dados Positivos

Assimtricos
2.1 Introduo
A classe de modelos para a anlise de dados positivos assimtricos bastante ampla incluindo distribuies conhecidas para os erros, tais como gama,
normal inversa, Weibull, Pareto, log-normal e Birnbaum-Saunders (ver, por
exemplo, Leiva, Barros e Paula, 2009). Essas distribuies tm sido particularmente aplicadas na anlise de tempos de sobrevivncia (ou durao) com
forte nfase nas reas mdica e de engenharia (ver, por exemplo, Lawless,
2003). Todavia, dados positivos assimtricos tm sido tambm comuns em
outras reas do conhecimento, como por exemplo pesca, meteorologia, finanas, seguros e aturia (ver, por exemplo, Boland, 2007; Jong e Heller, 2008).
Um componente importante no estudo de dados de sobrevivncia a possibilidade de incorporao nas anlises de observaes para as quais no foi
possvel observar a falha (dados censurados). Com os recentes avanos tecno114
2.2 Distribuio gama

lgicos ocorridos principalmente na fabricao de equipamentos, os tempos
at a ocorrncia de falhas esto ficando cada vez mais longos, aumentando
assim a porcentagem de dados censurados. Isso tambm pode ser notado na
rea mdica com os avanos nos tratamentos e medicamentos. Todavia, a
incluso de dados censurados nos modelos envolve um tipo de anlise mais especfica que est alm das metodologias discutidas neste texto. Sugerimos ao
leitor mais interessado consultar textos de anlise de dados de sobrevivncia,
como por exemplo os livros de Cox e Oakes (1978), Lawless (2003), Collett
(2003), Colosimo e Giolo (2006) e Leiva, Barros e Paula (2009). Portanto,
neste captulo trataremos apenas dados positivos assimtricos no censurados sob modelos com resposta gama e normal inversa, os quais j foram
introduzidos no Captulo 1.
2.2 Distribuio gama

Conforme assumido na Seo 1.2.1 vamos supor que Y uma varivel aleatria com distribuio gama de mdia e coeficiente de variao 1/2 ,
denotamos Y G(, ), e cuja funo densidade expressa na forma

1
y
y
f (yi ; , ) =
d(logy)
exp
()
= exp[{(y/) log} log() + log(y) logy],

em que y > 0, > 0, > 0 e () =
R
0
t1 et dt a funo gama. Na
Figura 2.1 temos a densidade da distribuio gama variando o parmetro

de disperso para fixado. Podemos notar que medida que aumenta a
distribuio gama fica mais simtrica em torno da mdia. Pode ser mostrado
que medida que aumenta Y se aproxima de uma distribuio normal de
mdia e varincia 2 1 . Portanto, a distribuio gama torna-se atrativa
para o estudo de variveis aleatrias assimtricas e tambm simtricas em que
115
2.2 Distribuio gama

a varincia depende de forma quadrtica da mdia. Os momentos centrais
de Y so expressos na seguinte forma:
E(Y )r =
(r 1)!r
,
(r1)
para r = 1, 2, . . .. Assim, expandindo logY em srie de Taylor em torno de

at 2a ordem obtemos
1
1
logY
= log + (Y ) 2 (Y )2 .
2
Portanto, para grande temos que
1
E(logY )
= log 2 E(Y )2
2
1 2
= log 2
2
= log (2)1 e
Var(logY )
= 1 .
Ou seja, a transformao logY estabiliza a varincia medida que o coeficiente de variao de Y fica pequeno. Uma outra transformao dada por
3{(Y /)1/3 1} se aproxima da distribuio normal padro no caso gama
(vide McCullagh e Nelder, 1989, p. 289).
A funo de sobrevivncia e a funo de risco so quantidades usuais

na anlise de dados de sobrevivncia sendo definidas, respectivamente, por
S(t) = P r{Y t} e
P r{t Y < t + |Y t}
.
h(t) = lim
0
116
=2
0.4
0.2
f(x)
0.6
=1
0.0
f(x)
2
0
f(x)
1
= 2
0.0 0.2 0.4 0.6 0.8 1.0
2.2 Distribuio gama
0.8
=8
=6
0.8
0.4
0.4
f(x)
f(x)
0.6
0.8
=4
0.4
0.0
0.0
0.0
0.2
f(x)
1.2
Figura 2.1: Densidades da distribuio gama para alguns valores do parmetro de disperso e supondo = 1.
Em particular, temos que a funo de risco pode ser expressa na forma
h(t) = f (t)/S(t) com f (y) denotando a funo densidade de Y . No caso
da distribuio gama de mdia e parmetro de disperso 1 a funo de
sobrevivncia expressa (ver, por exemplo, Collett, 2003, pgs. 197-198) na
forma
S(t) 1 It (),
em que It () a funo gama incompleta, dada por
1
It () =
()
u1 eu du,
0
com = /. A funo de risco h(t) para a distribuio gama crescente

para > 1 e decrescente para < 1. Em particular, quando t temos
que h(t) .
117
2.3 Modelos com resposta gama

Vamos supor que Y1 , . . . , Yn so variveis aleatrias independentes tais que
Yi G(i , ). Ou seja, estamos assumindo que essas variveis possuem
mdias diferentes e mesmo coeficiente de variao 1/2 . Ademais, vamos

supor que g(i ) = i com i = xTi , xi = (xi1 , . . . , xip )T contendo valores
de variveis explicativas e = (1 , . . . , p )T sendo o vetor de parmetros de
interesse. As ligaes mais usadas no caso gama so identidade (i = i ),
logartmica (logi = i ) e recproca (i = i1 ), esta ltima sendo a ligao

cannica. O processo iterativo para estimao de , como foi visto na Seo
1.6.1, dado por
(m+1) = (XT W(m) X)1 XT W(m) z(m) ,
m = 0, 1, . . ., varivel dependente modificada z = + W1/2 V1/2 (y ),
= (1 , . . . , n )T , y = (y1 , . . . , yn )T , = (1 , . . . , n )T , V = diag{1 , . . . , n }
e W = diag{1 , . . . , n } com i = (di /di )2 /i .
interessante notarmos que sob ligao logartmica os pesos do pro ficam dados por i = 2i2 = 1, de modo
cesso iterativo para obteno de
que o processo iterativo assume a forma simplificada

(m+1) = (XT X)1 XT z(m) ,
em que z = (z1 , . . . , zn )T com zi = i = (yi i )/i e i = exp(i ). A vari fica dada por Var()
= 1 (XT X)1 . Em particular,
ncia assinttica de
se as colunas da matriz X so ortogonais, isto XT X = Ip , em que Ip a
matriz identidade de ordem p, ento Var(j ) = 1 e Cov(j , ) = 0, para
j 6= , ou seja, j e so assintoticamente independentes.
Portanto, a ligao logartmica tem um atrativo especial de possibilitar
o desenvolvimento de experimentos ortogonais como so bem conhecidos em

118

modelos de regresso normal linear. Podemos escolher formas apropriadas
para a matriz X, de modo que XT X = Ip , e assim obtermos estimativas
mutuamente independentes e de varincia constante para os coeficientes do
preditor linear. Myers, Montgomery e Vining (2002, Cap.6) discutem experimentos ortogonais em MLGs e apresentam alguns exemplos. As ligaes
identidade ( = ), raiz quadrada ( = ) e arcoseno (sen1 = ) produzem o mesmo efeito em MLGs com resposta normal, Poisson e binomial,
respectivamente.
Se aplicarmos para suficientemente grande a transformao logartmica na resposta e ajustarmos E(logYi ) = xTi , estaremos fazendo logi =
xTi +21 , ou seja, a menos da constante 21 estaremos obtendo as mesmas
estimativas para de um modelo com resposta gama e ligao logartmica.
2.3.1 Qualidade do ajuste

Como foi visto na Seo 1.4 o desvio de um modelo gama dado por
= D(y; )
em que
D (y; )
=2
D(y; )
n
X
i=1
{log(
i /yi ) + (yi
i )/
i },
(2.1)
Pode ser mostrado facilmente para ligao

com
i = g 1 (
i ) e i = xTi .
Pn
logartmica que o termo
i )/
i = 0 se a parte sistemtica i
i=1 (yi
=
contm um intercepto. Nesse caso, a funo desvio fica dada por D (y; )
Pn
i /yi ). Como desconhecido devemos estim-lo, por exemplo,
2 i=1 log(
atravs de mxima verossimilhana que equivale a resolvermos a seguinte
equao:
= D(y; ),
2n{log ()}
em que () = ()/() a funo digama (vide Seo 1.6.2), ou ento
P
utilizarmos a estimativa consistente 1 = (n p)1 n (yi
i )2 /
2 que
i=1
119

ser discutida no Captulo 5. Supondo que o modelo postulado est correto
segue distribuio qui-quadrado
temos, para grande, que o desvio D (y; )
com (n p) graus de liberdade. Assim, valores altos para o desvio podem
indicar inadequao do modelo ou falta de ajuste.
deve ser
Quando todas as observaes so positivas o desvio D (y; )
utilizado para avaliar a qualidade do ajuste e estimao de . Contudo, se
torna-se inapropriado.
pelo menos uma observao for igual a zero D (y; )
A estimativa para nesse caso fica indeterminada. Como foi mencionado na
por
Seo 1.4, McCullagh e Nelder (1989) sugerem substituir D (y; )
= 2{C(y) +
D (y; )
n
X
i=1
log
i +
n
X
i=1
yi /
i },
em que C(y) uma funo arbitrria, porm limitada. Se a parte sistemtica

=
do modelo contm um intercepto o desvio acima fica dado por D (y; )
Pn
i }.
2{n + C(y) + i=1 log
2.3.2 Tcnicas de diagnstico
O resduo componente do desvio padronizado assume para os modelos gama

a forma
2
{log(
i /yi ) (yi
i )/
i }1/2 ,
t Di = p
1 hii
em que yi > 0 e hii o i-simo elemento da diagonal principal da matriz
H = W1/2 X(XT WX)1 XT W1/2 com i = (di /di )2 /2i . Em particular
quando h um intercepto em i o resduo componente do desvio tDi assume
a forma reduzida
t Di
2
{log(
i /yi )}1/2 .
= p
ii
1h
Estudos de simulao indicam que o resduo tDi se aproxima da normalidade,

particularmente para grande.
120
2.4 Aplicaes
Quando a i-sima observao excluda a distncia de Cook aproximada fica dada por
LDi =
ii (yi
h
i )2
.
ii )2
2i
(1 h
ii contra os valores ajustados

Grficos de tDi e h
i como tambm grficos de
ndices de LDi so recomendados para a anlise de diagnstico.
2.4 Aplicaes
2.4.1 Comparao de cinco tipos de turbina de avio
Apresentamos na Tabela 2.1 (ver Lawless 1982, p. 201) os resultados de um
experimento conduzido para avaliar o desempenho de cinco tipos de turbina
de alta velocidade para motores de avio. Foram considerados dez motores
de cada tipo nas anlises e foi observado para cada um o tempo (em unidades
de milhes de ciclos) at a perda da velocidade. Esses dados esto disponveis
no arquivo turbina.dat.
Tabela 2.1
Tempo at a perda da velocidade de cinco
tipos de turbina de avio.
Tipo de turbina
Tipo I Tipo II Tipo III Tipo IV Tipo V
3,03
3,19
3,46
5,88
6,43
5,53
4,26
5,22
6,74
9,97
5,60
4,47
5,69
6,90
10,39
9,30
4,53
6,54
6,98
13,55
9,92
4,67
9,16
7,21
14,45
12,51
4,69
9,40
8,14
14,72
12,95
5,78
10,19
8,59
16,81
15,21
6,79
10,71
9,80
18,39
16,04
9,37
12,58
12,28
20,84
16,84
12,75
13,41
25,46
21,51
121
2.4 Aplicaes
Denotaremos por Tij o tempo at a perda da velocidade para o jsimo motor de tipo i, i = 1, . . . , 5 e j = 1, . . . , 10. Na tabela abaixo so
apresentadas as mdias, desvios padro e coeficientes de variao amostrais
0.04
0.0
0.02
Densidade
0.06
0.08
para os cinco tipos de turbina.
10
15
20
25
30
Tempo
Figura 2.2: Densidade aproximada para o tempo at a perda da velocidade

para todos os tipos de turbina de avio.
Estatstica
Tipo I Tipo II Tipo III
Mdia
10,69
6,05
8,64
D.Padro
4,82
2,91
3,29
C. Variao 45,09% 48,10% 38,08%
Tipo IV Tipo V
9,80
14,71
5,81
4,86
59,29% 33,04%
Ignorando o tipo de turbina temos na Figura 2.2 a densidade aproximada para o tempo at a perda da velocidade. Se assumirmos que Tij
G(, ) obtemos as estimativas de mxima verossimilhana
= 9, 98 (0, 73)
122
15
5
10
Tempo
20
25
2.4 Aplicaes
Tipo
Figura 2.3: Boxplots sobre desempenho dos quatro tipos de turbina de avio.
e = 4, 01 (0, 77), confirmando pela estimativa de a assimetria direita
para a distribuio do tempo at a perda da velocidade. Contudo, pelos
boxplots correspondentes aos tempos dos cinco grupos (ver Figura 2.3) notamos que as mdias parecem diferir com o tipo de turbina, enquanto os
coeficientes de variao parecem variar menos do que os desvios padro. Isso
sugere que uma distribuio gama de mdias diferentes e coeficiente de variao constante pode ser apropriada para explicar o tempo mdio at a perda
da velocidade.
Vamos assumir ento que Tij segue uma distribuio gama de mdia
i e parmetro de disperso 1 . A fim de facilitarmos as interpretaes
dos resultados ou mesmo fazermos comparaes com o modelo normal linear, vamos propor um modelo gama com ligao identidade, sendo a parte
sistemtica dada por
i = + i ,
123
2.4 Aplicaes
em que 1 = 0. Para ajustarmos o modelo no R devemos fazer o seguinte:
turbina = scan("turbina.dat", list(tipo=0, tempo=0))
attach(turbina)
tipo = factor(tipo)
fit1.turbina = glm(tempo tipo, family=Gamma(link=identity))
summary(fit1.turbina).
As estimativas de mxima verossimilhana ficam dadas por
= 10, 693 (1, 543),
2 = 4, 643 (1, 773), 3 = 2, 057 (1, 983), 4 = 0, 895 (2, 093) e 5 =
4, 013 (2, 623) indicando para o tipo II um tempo mdio de sobrevivncia
significativamente menor do que o tipo I ao nvel de 5%. Para o tipo V notamos um tempo mdio maior do que o tipo I enquanto que os outros trs
tipos apresentam tempos mdios pouco diferentes do tipo I. Esses resultados
confirmam a anlise descritiva apresentada na Figura 2.3. O desvio do mo = 8, 861 5, 804 = 51, 43, com 45 graus de liberdade,
delo foi de D (y; )
que leva a P = 0, 236 e indica um ajuste adequado.
A estimativa de mxima verossimilhana (erro padro aproximado)

do parmetro de preciso dada por = 5, 804 (1, 129), indicando que as
distribuies dos tempos at a perda da velocidade no devem ser muito
assimtricas. Podemos tentar avaliar atravs de um teste apropriado se os
indcios observados pelas estimativas individuais das mdias so verificados
conjuntamente. Vamos, ento, tentar agrupar os tipos I, III e IV. As hipteses apropriadas so dadas por H0 : 4 = 3 = 0 contra H1 : 4 6= 0 ou 3 6= 0
do grupo IV. Como relativamente alto podemos aplicar a estatstica F
= 9, 091 para 47 graus de liberdada na Seo 1.7. Sob H0 obtemos D(y; )
= 8, 861 para 45 graus de liberdade.
dade e sob a hiptese alternativa D(y; )
124
2.4 Aplicaes
A estatstica F fica dada por
(9, 091 8, 861)/2
8, 861/45
= 0, 584,
F =
que leva a P = 0, 562, ou seja, pela no rejeio de H0 . As novas estimativas

so dadas por
= 9, 71 (0, 81), 2 = 3, 66 (1, 19) e 5 = 5, 00 (2, 27).
= 51, 47 para 47 graus de liberdade
Obtemos = 5, 66 (1, 10) e D (y; )
com P = 0, 30.
1.0
0.5
47
0.0
Distancia de Cook
1.5
49
10
20
30
40
50
Indice
Figura 2.4: Grfico da distncia de Cook aproximada referente ao modelo

gama ajustado ao dados sobre desempenho de turbinas de avio.
Na Figura 2.4 temos o grfico de ndices da distncia de Cook aproximada. Notamos um forte destaque para a observao #49 seguida da observao # 47 que correspondem, respectivamente, aos valores 25,46 e 12,75
para o tempo at a perda da velocidade de um dos motores de tipo IV e
tipo II. O valor 25,46, como mostra o boxplot correspondente na Figura 2.3
125
2.4 Aplicaes
destoa dos demais tempos. A eliminao dessa observao aumenta a significncia marginal de 4 , embora esse efeito continue no significativo a 10%.
No h mudanas inferenciais nos demais resultados.
O grfico normal de probabilidades com envelope para os componentes
padronizados do desvio apresentado na Figura 2.5. Notamos, pelo grfico,
que no h indcios de afastamentos srios da suposio de distribuio gama
para os tempos at a perda da velocidade dos motores, bem como para a
suposio de homogeneidade do coeficiente de variao para os cinco grupos.
A sequncia de comandos para construirmos os grficos de diagnstico e
1
0
-1
-2
-3
normal de probabilidades descrita no Apndice B.
-2
-1
Percentil da N(0,1)
Figura 2.5: Grfico normal de probabilidades referente ao modelo gama ajustado aos dados sobre desempenho de turbinas de avio.
Portanto, podemos concluir neste exemplo que no existe diferena
significativa entre os tipos I, III e IV, enquanto os tipos II e V aparecem
126
2.4 Aplicaes
de forma significativa com o menor e maior tempo mdio at a perda da
0.002
0.0
0.001
Densidade
0.003
0.004
velocidade, respectivamente.
200
400
600
cpue
Figura 2.6: Densidade aproximada da cpue para todas as embarcaes.
2.4.2 Espinhel de fundo

O espinhel de fundo definido como um mtodo de pesca passivo, sendo
utilizado em todo o mundo em operaes de pesca de diferentes magnitudes, da pesca artesanal a modernas pescarias mecanizadas. adequado para
capturar peixes com distribuio dispersa ou com baixa densidade, alm de
ser possvel utiliz-lo em reas irregulares ou em grandes profundidades.
um dos mtodos que mais satisfazem s premissas da pesca responsvel, com
alta seletividade de espcies e comprimentos, alta qualidade do pescado, consumo de energia baixo e pouco impacto sobre o fundo ocenico. No arquivo
pesca.dat esto parte dos dados de um estudo sobre a atividade das frotas
pesqueiras de espinhel de fundo baseadas em Santos e Ubatuba no litoral
127
2.4 Aplicaes
paulista (vide Paula e Oshiro, 2001). A espcie de peixe considerada o
peixe-batata pela sua importncia comercial e ampla distribuio espacial.
Uma amostra de n = 156 embarcaes foi analisada no perodo de 1995 a
1999 sendo 39 da frota de Ubatuba e 117 da frota de Santos. As variveis consideradas para cada embarcao so as seguintes: frota (Santos ou
Ubatuba), ano (95 a 99), trimestre (1 ao 4), latitude1 (de 23,25o a 28,25o ),
longitude2 (de 41,25o a 50,75o ), dias de pesca, captura (quantidade de peixes
batata capturados, em kg) e cpue (captura por unidade de esforo, kg/dias
de pesca). Um dos objetivos desse estudo tentar explicar a cpue pelas variveis frota, ano, trimestre, latitude e longitude. Estudos similares realizados
em outros pases verificaram que bastante razovel supor que a cpue tem
distribuio assimtrica direita, como o caso da distribuio gama (vide,
300
100
200
cpue
400
500
600
por exemplo, Goni, Alvarez e Adlerstein, 1999).
Santos
Ubatuba
Frota
Figura 2.7: Boxplots da cpue segundo a frota.

1
2
distncia ao Equador medida ao longo do meridiano de Greenwich

distncia ao meridiano de Greenwich medida ao longo do Equador
128
300
100
200
cpue
400
500
600
2.4 Aplicaes
1995
1996
1997
1998
1999
Ano
Figura 2.8: Boxplots da cpue segundo o ano.
Para lermos o arquivo pesca.dat no R devemos fazer o seguinte:

pesca = source("pesca.dat", list(frota=0, ano=0, trimestre=0,
latitude=0, longitude=0, diaspesca=0, captura=0, cpue=0))
frota = factor(frota)
ano = factor(ano)
trimestre = factor(trimestre).
Antes de propormos um modelo para tentar explicar a cpue mdia pelas variveis explicativas, vamos apresentar uma anlise descritiva dos dados. Na
Figura 2.6, em que temos a distribuio da cpue para todas as embarcaes,
podemos notar uma assimetria acentuada direita confirmando constataes de estudos anteriores. J nas Figuras 2.7, 2.8 e 2.9 so apresentados
os boxplots da cpue segundo os fatores frota, ano e trimestre. Notamos
uma superioridade da frota de Santos em relao frota de Ubatuba, porm
poucas diferenas entre os nveis dos fatores ano e trimestre, embora o ano
129
300
100
200
cpue
400
500
600
2.4 Aplicaes
Trimestre
Figura 2.9: Boxplots da cpue segundo o trimestre.

de 97 tenha uma mediana um pouco superior aos demais anos.
Frota
Santos
Ubatuba
Estatstica
95
Mdia
229,37
D.Padro
148,07
C. Variao 64,55%
n
19
96
97
98
99
193,19 262,67 210,29
197,22
132,55 153,60 122,95
103,45
68,61% 58,48% 58,44% 52,45 %
8
17
27
46
Mdia
47,08
96,09 210,56 174,43
D. Padro
4,73
59,19
77,51
99,16
C. Variao 10,05% 61,60 % 36,81% 56,85%
n
3
12
6
5
140,85
71,59
50,83%
13
Pela Figura 2.10 notamos que a frota de Santos prefere latitudes e

longitudes maiores do que a frota de Ubatuba. Pelos diagramas de disperso
entre cpue e latitude e cpue e longitude apresentados na Figura 2.11 h
indcios de um ligeiro crescimento da cpue com a latitude, porm no est
bem definida a tendncia da cpue com a longitude.
130
2.4 Aplicaes
Na tabela dada a seguir so apresentadas as mdias, desvios padro e
coeficientes de variao amostrais para as frotas de Santos e Ubatuba refe-
42
44
Longitude
26
24
25
Latitude
46
27
28
48
rentes ao perodo 95-99.
Santos
Ubatuba
Santos
Frota
Ubatuba
Frota
500
100
300
cpue
300
100
cpue
500
Figura 2.10: Boxplots da latitude e longitude segunda a frota.
24
25
26
27
28
42
Latitude
44
46
48
Longitude
(a)
(b)
Figura 2.11: Diagramas de disperso da cpue contra latitude (a) e contra

longitude (b).
Portanto, a suposio de coeficiente de variao constante parece ser
131
2.4 Aplicaes
bastante razovel para a frota de Santos. Para a frota de Ubatuba as estimativas de 95 e 97 destoam das demais, porm devemos levar em conta para
essa frota que as amostras so pequenas.
Como todas essas anlises so marginais, no levando em conta a presena das outras variveis, somente atravs de um modelo apropriado que
poderemos conhecer o efeito de cada varivel explicativa na presena das
demais. Definimos ento Yijk como sendo a cpue observada para a i-sima
embarcao da j-sima frota, (Santos, j = 1; Ubatuba j = 2), no k-simo
ano e -simo trimestre (k, = 1, 2, 3, 4). Vamos supor que Yijk G(ijk , )
com parte sistemtica dada por
logijk = + j + k + + 1 Latitudeijk + 2 Longitudeijk ,
(2.2)
em que j , k e denotam, respectivamente, os efeitos da j-sima frota, ksimo ano e -simo trimestre. Como estaremos assumindo parametrizao
casela de referncia teremos as restries 1 = 0, 1 = 0 e 1 = 0. Temos
ainda que latitudeijk e longitudeijk denotam, respectivamente, a latitude e
longitude da i-sima embarcao da frota j no k-simo ano e trimestre .
Ajustamos aos dados o modelo gama com parte sistemtica dada por
(2.2) e aplicando o mtodo de Akaike (vide Seo 1.11.2) retiramos o fator
trimestre, permanecendo no modelo os fatores frota e ano alm das variveis
quantitativas latitude e longitude. Para ajustarmos o modelo e aplicarmos o
mtodo AIC devemos aplicar os seguintes comandos:
attach(pesca)
fit1.pesca = glm(cpue frota + ano + trimestre + latitude
+ longitude, family=Gamma)
summary(fit1.pesca)
require(MASS)
stepAIC(fit1.pesca).
132
2.4 Aplicaes
O procedimento stepAIC assume que o parmetro constante, ou seja,
no muda de um modelo para o outro. Como isso em geral no satisfeito
devemos aplicar algum procedimento alternativo a fim de confirmarmos o
modelo escolhido pelo mtodo AIC. Fizemos isso atravs da estatstica da
razo de versossimilhanas, confirmando a retirada do fator trimestre.
Tabela 2.2
Estimativas dos parmetros referentes ao modelo
gama ajustado aos dados sobre espinhel de fundo.
Efeito
Estimativa
E/E.Padro
Constante
6,898
3,00
Latitude
0,204
2,81
Longitude
-0,150
-1,97
Frota-Ubatuba
-1,359
-3,68
Ano96
-0,064
-0,26
Ano97
0,141
0,74
Ano98
-0,043
-0,25
Ano99
-0,009
-0,06
FrotaUb*Ano96
0,806
1,77
FrotaUb*Ano97
1,452
3,20
FrotaUb*Ano98
1,502
3,32
FrotaUb*Ano99
1,112
2,76
3,67
9,17
O teste da razo de verossimilhanas para incluirmos a interao entre
os dois fatores que permaneceram no modelo, frota e ano, foi de RV = 14, 26
para 4 graus de liberdade e obtemos P = 0, 0065. Portanto, a interao
ser includa no modelo. As estimativas do modelo final que inclui os efeitos
principais latitude, longitude, frota e ano alm da interao entre ano e frota
=
so apresentadas na Tabela 2.2 e o desvio do modelo foi de D (y; )
162, 66 com 144 graus de liberdade e P = 0, 14, indicando um modelo bem
ajustado. Notamos que medida que aumenta a latitude aumenta a cpue,
ocorrendo tendncia contrria medida que aumenta a longitude. Logo, para
133
2.4 Aplicaes
latitudes altas e longitudes baixas (dentro dos limites amostrais), esperamos
valores maiores para a captura por unidade de esforo. Com relao a frota
e ano, como foi includa interao entre esses fatores, a interpretao das
estimativas deve ser feita com um pouco mais de cuidado. Para isso, exibimos
na Figura 2.12 os valores esperados da cpue fixando latitude e longitude
nos valores, respectivamente, 26o e 46o . Notamos pela figura que at 96 os
valores preditos para a frota de Ubatuba nessas latitude e longitude so bem
menores do que os valores preditos para a frota de Santos. Contudo, a partir
de 97 as diferenas entre os valores preditos para as duas frotas diminuem.
Os valores preditos para a frota de Santos variam pouco no perodo 95-99,
200
150
100
Santos
Ubatuba
50
cpue estimada
250
diferentemente dos valores preditos para a frota de Ubatuba.
95
96
97
98
99
Ano
Figura 2.12: Estimativas da cpue mdia para as frotas de Santos e Ubatuba

segundo o ano de operao fixando-se a latitude em 26o e a longitude em 46o
atravs do modelo gama.
134
0.4
0.8
17
0.0
0.4
0.0
Medida h
0.8
Distancia de Cook
1.2
2.4 Aplicaes
50
100
150
200
250
300
50
150
6
5
Variavel z
Indice
(b)
-2
Valor Ajustado
(a)
100
50
100
150
200
250
300
4.0
Valor Ajustado
(c)
4.5
5.0
5.5
Preditor Linear
(d)
Figura 2.13: Grficos de diagnstico referentes ao modelo gama ajustado aos

dados sobre espinhel de fundo.
Os grficos de diagnstico (Figura 2.13) no apresentam pontos de alavanca ou aberrantes, nem indicaes de que a ligao utilizada inadequada.
Contudo, duas observaes aparecem com destaque no grfico de influncia,
as embarcaes #17 e #8. A embarcao #8 da frota de Ubatuba e obteve uma cpue de 350 numa latitude de 24,25o (abaixo da latitude mdia
de 26,22o ) e longitude de 45,25o (prxima da longitude mdia de 46,28o ) no
ano de 98. J a embarcao #17 da frota de Santos, obteve uma cpue
de 450 numa latitude de 24,75o e longitude de 46,25o no ano de 99. Ambas
embarcaes alcanaram cpues bastante altas em latitudes relativamente baixas, contrastando com a tendncia apresentada pelo modelo. A eliminao
135
2.4 Aplicaes
das embarcaes individualmente e em conjunto altera algumas estimativas porm no muda as concluses inferenciais. Todos os efeitos continuam
marginalmente significativos ao nvel de 10%. O grfico normal de probabilidades com envelope gerado (Figura 2.14) no apresenta indcios de que a
0
-2
-4
distribuio gama seja inadequada para explicar a cpue.
-2
-1
Percentil da N(0,1)
Figura 2.14: Grfico normal de probabilidades referente ao modelo gama

ajustado aos dados sobre espinhel de fundo.
2.4.3 Aplicao em seguros

A fim de ilustrarmos uma aplicao na rea de seguros, vamos considerar
parte dos dados descritos em de Jong e Heller (2008, pgs. 14-15) referentes aos
valores pagos de seguros individuais (em dlares australianos) por danos com
acidentes pessoais no perodo de julho de 1989 a junho de 1999. As anlises
136
2.4 Aplicaes
sero restritas ao perodo de janeiro de 1998 a junho de 1999, um total de
769 seguros pagos. Alm do valor pago ao segurado sero consideradas as
seguintes variveis explicativas: legrep, representao legal (0: no, 1: sim)
e optime, tempo operacional para pagamento do seguro. Essa ltima varivel
assume valores no intervalo (0, 100) e por exemplo um valor 23 significa que
23% dos seguros foram pagos antes do seguro em anlise. Como estamos
considerando apenas parte dos dados (referentes aos ltimos 18 meses), os
valores de optime iro variar de 0,1 a 31,9. O subconjunto de dados analisado
log(Valor do Seguro)
8
6
log(Valor do Seguro)
10
10
est descrito no arquivo insurance.dat.
10
15
20
25
30
Tempo Operacional
(a)
10
15
20
25
30
Tempo Operacional
(b)
Figura 2.15: Diagrama de disperso entre o valor pago de seguro e o tempo

operacional para os grupos sem representao legal (a) e com representao
legal (b).
Na Figura 2.15 temos o diagrama de disperso entre o logaritmo do
valor pago e o tempo operacional para os grupos sem representao legal
137
2.4 Aplicaes
(Figura 2.15a) e com representao legal (Figura 2.15b) e as tendncias ajustadas de forma no paramtrica. Notamos pela Figura 2.15a um crescimento
aproximadamente quadrtico do logaritmo do valor pago com o tempo operacional, contudo a variablidade parece ser maior para valores baixos do tempo
operacional. J para os indivduos com representao legal (Figura 2.15b),
notamos que o logaritmo do valor pago cresce linearmente com o tempo operacional enquanto a variabilidade se mantm aproximadamente constante.
Notamos tambm que os valores pagos de seguro so em geral maiores para
0.00008
0.00000
0.00004
Densidade
0.00008
0.00004
0.00000
Densidade
0.00012
0.00012
o grupo com representao legal.
20000
50000
Valor do Seguro
(a)
40000
100000
Valor do Seguro
(b)
Figura 2.16: Distribuio do valor do seguro para os grupos sem representao legal (a) e com representao legal (b).
Na Figura 2.16 temos a distribuio aproximada do valor pago de se138
2.4 Aplicaes
guro para os dois grupos, sem representao legal (Figrua 2.16a) e com representao legal (Figura 2.16b). Em ambos os grficos podemos notar que a
distribuio fortemente assimtrica direita, sugerindo distribuies gama
ou normal inversa para explicar o valor pago de seguro.
Vamos denotar por Yij o valor pago de seguro para o j-simo indivduo
do i-simo grupo (i = 0, sem representao legal e i = 1 com representao
legal) e j = 1, . . . , ni sendo n0 = 227 e n1 = 542. Conforme sugerido pelas
Figuras 2.16a e 2.16b assumiremos inicialmente Yij G(ij , i ) tais que
log0j = 0 + 10 optimej + 20 optime2j e
log1j = 1 + 11 optimej .
Tabela 2.3
aos modelos com resposta gama ajustados
aos dados sobre seguro.
Parmetro Estimativa
E/E.Padro
0
7,223
44,13
10
0,204
6,72
20
-0,005
-5,08
0
0,78
12,55
1
11
1
8,805
0,023
2,22
140,50
5,48
17,66
As estimativas dos modelos propostos, que foram ajustados separadamente, so descritas na Tabela 2.3. Notamos pelas estimativas que as
tendncias observadas nas Figuras 2.15a e 2.15b foram confirmadas de forma
significativa. Contudo, pelos grficos normais de probabilidades (Figura 2.17)
notamos indcios de afastamentos da distribuio gama para o valor pago de
seguro, principalmente para o grupo com representao legal. Para o grupo
139
2.4 Aplicaes
sem representao legal notamos que os menores valores do seguro foram
superestimados pelo modelo. Os desvios dos dois modelos foram, respectiva = 270, 43 com 224 graus de liberdade e D (y; )
= 581, 72
mente, de D (y; )
com 540 graus de liberdade. Embora as estimativas de 0 e 1 sejam relativamente pequenas, h indcios pelos valores dos desvios que os modelos no
2
0
-4
-2
0
-2
-4
esto bem ajustados.
-3
-2
-1
-3
Percentil da N(0,1)
(a)
-2
-1
Percentil da N(0,1)
(b)
Figura 2.17: Grfico normal de probabilidades para os modelos com resposta

gama ajustados aos dados de seguro para os grupos sem representao legal
(a) e com representaa legal (b).
Analisando os grficos da distncia de Cook (Figura 2.18a) e resduo
componente do desvio contra os valores ajustados (Figrua 2.18b) apenas para
o grupo sem representao legal, notamos que no h indcios de observaes
aberrantes, contudo algumas observaes aparecem como possivelmente influentes. Essas observaes em geral correspondem a valores altos para o
140
2.4 Aplicaes
valor pago de seguro. A eliminao das 10 observaes com mais detaque
na Figura 2.18a no muda a inferncia, todos os coeficientes continuam altamente significativos, porm a estimativa de 10 aumenta quase 20%.
30
203
173
88
99
221
207
0.2
46
227
-4
0.0
-2
0.1
Distancia de Cook
0.3
42
50
100
150
200
2000
Indice
(a)
4000
6000
8000
10000
Valor Ajustado
(b)
Figura 2.18: Grficos de diagnstico para o modelo com resposta gama ajustado aos dados de seguro para o grupo sem representao legal.
Para o grupo com representao legal a utilizao de outras ligaes ou
mesmo outras distribuies so alternativas a fim de tentarmos melhorar a
qualidade do ajuste. Paula et al. (2012) comparam ajustes de modelos com
resposta gama com modelos com resposta log-Birnbaum-Saunders (log-BS)
e log-Birnbaum-Saunders-t (log-BS-t) para explicar o valor pago de seguro
para o grupo com representao legal, obtendo um ajuste satisfatrio com
os modelos log-BS-t. Essa distribuio acomoda melhor as observaes aberrantes que correspondem a valores altos de seguro.
141
2.5 Elasticidade
2.5 Elasticidade
O modelo log-linear com resposta gama pode ser utilizado para a estimao da elasticidade entre a demanda de um produto e seu preo unitrio.
Como ilustrao, vamos supor que Y denota a demanda e X o preo unitrio. usual em Econometria (ver, por exemplo, Gujarati, 2006, Seo 6.4)
assumirmos que
Y = 1 x2 eu ,
(2.3)
sendo u um erro aleatrio, em geral assumido N(0, 2 ). Isso implica em eu

seguir distribuio log-normal de mdia e
2 /2
e varincia e (e 1). Em
vez de uma log-normal podemos assumir, alternativamente, eu G(1, ).

Assim, teremos que a mdia de Y dado x fica dada por
(x) = 1 x2 ,
ou seja log(x) = log1 + 2 logx, um MLG com resposta gama e ligao
logartmica.
Para entendermos a elasticidade entre a demanda e o preo do produto,
vamos supor que o preo aumente r 100% de modo que o novo preo seja
dado por xN = (1 + r)x, para 0 < r < 1. O novo valor esperado para a
demanda fica dado por

(xN ) = 1 xN2
e a razo entre as demandas mdias assume a forma
(xN )
= e2 log(1+r)
(x)
= (1 + r)2 .
Para r pequeno temos a aproximao
(xN )
= (1 + r2 ),
(x)
142
2.5 Elasticidade
de modo que se o preo aumentar 1% (r = 0, 01) a demanda aumenta 2 %,
ou seja,
(xN )
=
(x)
2
1+
100
O parmetro 2 conhecido como elasticidade entre a demanda e o preo do

produto.
2.5.1 Modelo de Cobb-Douglas

O modelo (2.3) pode ser estendido para duas ou mais variveis explicativas
as quais podero representar outros tipos de preo ou mesmo algum tipo
de insumo. Em particular, o modelo de Cobb-Douglas (ver, por exemplo,
Gujarati, Exemplo 7.3) considera a seguinte equao para explicar a demanda
de um produto pelos insumos de mo de obra e capital:
Y = 1 x2 2 x3 3 eu ,
(2.4)
em que Y denota a demanda, x2 o valor do insumo de mo de obra, x3 o

valor do insumo de capital e u o erro aleatrio. Para x3 fixado (x2 fixado) o
parmetro 2 (3 ) mede a elasticidade parcial entre a demanda e o insumo
de mo de obra (capital). A soma 2 + 3 mede os retornos de escala, ou seja,
se 2 + 3 = 1 significa que os retornos so proporcionais, dobrando o uso
de insumos a demanda esperada aumenta duas vezes, triplicando os insumos
h aumento de trs vezes para a demanda esperada, e assim por diante.
Se 2 + 3 < 1 os retornos de escala sero menores, dobrando os insumos
esperamos demanda menor do que o dobro, e se 2 + 3 > 1 os retornos
de escala sero maiores, dobrando os insumos esperamos que a demanda
aumente mais que duas vezes.
Para mostrarmos esses resultados suponha que os novos insumos de
mo de obra e de capital sejam dados por x1N = rx1 e x2N = rx2 , ou seja,
143
2.5 Elasticidade
aumentam r vezes. Assim, a nova demanda esperada ser dada por
(x1N , x2N ) = 1 (rx2 )2 (rx3 )3
= r(2 +3 ) 1 x2 2 x3 3
= r2 +3 (x1 , x2 ),
em que (x1 , x2 ) a demanda esperada inicial. Logo, se 2 + 3 = 1 ento
(x1N , x2N ) = r(x1 , x2 ), ou seja, a demanda esperada aumenta r vezes. Por
outro lado, se 2 + 3 < 1 teremos que (x1N , x2N ) < r(x1 , x2 ), ou seja, a
demanda esperada aumenta menos que r vezes e se 2 + 3 > 1 teremos que
a demanda esperada aumenta mais que r vezes, (x1N , x2N ) > r(x1 , x2 ).
Obviamente que existem vrias distribuies candidatas para explicar
eu , sendo as distribuies gama e normal inversa as candidatas naturais na
classe dos MLGs. Podemos tambm assumir que logu tenha distribuio normal. Contudo, somente atravs de uma anlise de diagnstico que podemos
avaliar a adequao de cada distribuio.
2.5.2 Aplicao
Como ilustrao vamos considerar um experimento aleatorizado descrito em
Griffiths, Hill e Judge (1993, Seo 11.8.1c) em que a produtividade de milho
(libras/acre) estudada segundo vrias combinaes de nitrognio e fosfato
(40, 80, 120, 160, 200, 240, 280 e 320 libras/acre). Os dados esto descritos
no arquivo milho.dat. Nas Figuras 2.19a e 2.19b temos os diagramas de
disperso entre a produtividade de milho e as quantidades de nitrognio e
fosfato, respectivamente, e conforme podemos notar nessas figuras h indcios
de uma tendncia crescente da produtividade com o aumento dos insumos.
Notamos tambm um aumento da variabilidade com o aumento das quantidades de nitrognio e fostato, sugerindo que a suposio de distribuio gama
144
2.5 Elasticidade
ou normal inversa para logu no modelo de Cobb-Douglas pode levar a um
ajuste adequado.
Denotaremos por Yi a produtividade de milho dada a combinao
(x1i , x2i ) de nitrognio e fosfato correspondente i-sima condio experimental (i = 1, . . . , 30). Vamos ento supor que Yi G(i , ) com parte
120
100
40
60
80
Produtividade
100
80
60
40
Produtividade
120
sistemtica dada por logi = + 1 logx1i + 2 logx2i .
50
100
150
200
250
300
50
Nitrogenio
(a)
100
150
200
250
300
Fosfato
(b)
Figura 2.19: Diagramas de disperso entre a quantidade de nitrognio e a

produtividade de milho (a) e a quantidade de fosfato e a produtividade de
milho (b).
As estimativas so descritas na Tabela 2.4, e como podemos notar os
coeficientes so altamente significativos, confirmando as tendncias observadas na Figura 2.19. Na Figura 2.20a temos o grfico normal de probabilidades
que no apresenta observaes aberrantes nem indcios de afastamentos da
distribuio assumida para os erros. Pelo grfico da distncia de Cook (Fi145
2.6 Distribuio normal inversa

gura 2.20b) a observao #1 aparece com mais destaque. Reajustando o
modelo sem essa observao notamos variaes importantes nas estimativas
dos coeficientes 1 e 2 , respectivamente. Porm a inferncia no muda, esses coeficientes continuam sendo altamente significativos. A estimativa de
sugere que a suposio de distribuio log-normal para os erros tambm
pode levar a um ajuste adequado, embora o modelo gama contemple a possibilidade de heteroscedasticidade.
Tabela 2.4
Estimativas dos parmetros referentes ao
modelo de Cobb-Douglas ajustado ao dados
sobre produtividade de milho.
Parmetro Estimativa
E/E.Padro
0,469
1,67
1
0,350
8,30
2
0,410
10,07
46,59
11,99
A fim de verificarmos como ocorrem os retornos de produtividade de

milho com as aplicaes de fosfato e nitrognio vamos encontrar uma estima 1 + 2 ) = 0, 003143, assim uma
tiva intervalar para 1 + 2 . Temos que Var(
estimativa intervalar de coeficiente de confiana de 95% fica dada por [0,35
+ 0,41 + 1,96* 0, 003143] = [0,52; 0,87] que no cobre o valor 1,0. Portanto, dobrando as aplicaes de insumos de nitrognio e fosfato os retornos
esperados de produtividade devem aumentar menos do que duas vezes.

Vamos supor que Y uma varivel aleatria com distribuio normal inversa
de mdia e parmetro de disperso 1 , denotamos Y NI(, ), cuja
146
0.6
0.4
0.2
-2
-1
Distancia de Cook
0.8
0.0
-3
1.0
-2
-1
Percentil da N(0,1)
(a)
10
15
20
25
Indice
(b)
Figura 2.20: Grfico normal de probabilidades (a) e distncia de Cook (b)

referentes ao modelo de Cobb-Douglas ajustado aos dados do experimento
sobre produtividade de milho.
funo densidade expressa na forma

1/2
(y )2
f (y; , ) = p
exp
22 y
2y 3

1
1
y
3
log(2y /) +
,
= exp 2 +
2
2
y
em que y > 0, > 0. Na Figura 2.21 temos a densidade da distribuio
normal inversa variando o parmetro de preciso para fixado. Notamos
que medida que aumenta a distribuio normal inversa fica mais simtrica em torno da mdia. Podemos mostrar que medida que aumenta
Y se aproxima de uma distribuio normal de mdia e varincia 3 1 .
Similarmente distribuio gama, a normal inversa torna-se atrativa para
o estudo de variveis aleatrias assimtricas e tambm simtricas em que a
varincia depende de forma cbica da mdia. Uma discusso sobre as su147
30

posies tericas para a construo da distribuio normal inversa pode ser
0.2
f(x)
=2
f(x)
0.4
0.0
0.0
0.2
f(x)
=1
=3
0.4
=6
f(x)
0.2
0.2
f(x)
0.2
= 10
0.0
0.0
0.0
0.1
f(x)
0.3
=4
0.4
0.4
0.5
0.0 0.1 0.2 0.3 0.4 0.5
0.4
0.6
encontrada, por exemplo, em Leiva, Barros e Paula (2009, Cap. 2).
Figura 2.21: Densidades da distribuio normal inversa para alguns valores

do parmetro de disperso e supondo = 2.
A funo de sobrevivncia da distribuio normal inversa de mdia
e parmetro de disperso 1 (ver, por exemplo, Collett, 2003, pp. 198-199)
dada por
S(t) = {(1 t1 )
t1 exp(2/){(1 + t1 )
p
t1 }.
A funo de risco dada por h(t) = f (t)/S(t) em que f (y) denota a funo
densidade da NI(, ).
148
2.7 Modelos com resposta normal inversa
2.7 Modelos com resposta normal inversa

Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi NI(i , ).
Estamos assumindo que essas variveis possuem mdias diferentes e mesma

disperso 1 . Ademais, vamos supor g(i ) = i em que i = xTi com xi =
(xi1 , . . . , xip )T contendo valores de variveis explicativas e = (1 , . . . , p )T
sendo o vetor de parmetros de interesse. As ligaes mais usadas no caso

normal inversa so identidade (i = i ), logartmica (logi = i ) e recproca
quadrtica (i = i2 ), esta ltima sendo a ligao cannica.

Como foi visto na Seo 1.4 o desvio de um modelo com resposta normal
= D(y; )
em que
inversa dado por D (y; )
n
X
=
D(y; )
(yi
i )2 /(yi
2i ),
(2.5)
i=1
e yi > 0. Como desconhecido devemos

com
i = g 1 (
i ), i = xTi
estim-lo, por exemplo atravs de mxima verossimilhana, cuja soluo
Supondo que o modelo postulado est correto
dada por = n/D (y; ).
segue distribuio qui-quadrado
temos, para grande, que o desvio D (y; )
com (n p) graus de liberdade. Assim, valores altos para o desvio podem
indicar inadequao do modelo ou falta de ajuste.

O resduo componente do desvio padronizado para os modelos com resposta
normal inversa assumem a forma
t Di
2 (yi
i )
=p
,
i yi
ii
1h
149
2.8 Aplicaes
em que yi > 0 e hii o i-simo elemento da diagonal principal da matriz
H = W1/2 X(XT WX)1 XT W1/2 com i = (di /di )2 /3i . Na expresso
para tDi no caso da distribuio normal inversa o sinal do resduo o mesmo
de (yi
i ). Estudos de simulao indicam que o resduo tDi se aproxima da
distribuio normal, particularmente para grande.
Similarmente aos modelos com resposta gama podemos obter uma expresso aproximada para a distncia de Cook quando a i-sima observao
excluda. Essa expresso fica dada por
LDi =
ii (yi
h
i )2
.
ii )2
2i
(1 h

Aqui tambm so sugeridos grficos de tDi e h
i e grficos de ndices de LDi .
2.8 Aplicaes
2.8.1 Comparao de cinco tipos de snack
Vamos considerar nesta seo parte dos dados de um experimento desenvolvido no Departamento de Nutrio da Faculdade de Sade Pblica da USP
em que 5 formas diferentes de um novo tipo de snack, com baixo teor de
gordura saturada e de cidos graxos, foram comparados ao longo de 20 semanas. Neste novo produto a gordura vegetal hidrogenada, responsvel pela
fixao do aroma do produto, foi substituda, totalmente ou parcialmente,
por leo de canola. As formas so as seguintes: A (22% de gordura, 0%
de leo de canola), B (0% de gordura, 22% de leo de canola), C (17% de
gordura, 5% de leo de canola), D (11% de gordura, 11% de leo de canola)
e E (5% de gordura, 17% de leo de canola). O experimento foi conduzido
de modo que nas semanas pares 15 embalagens de cada um dos produtos A,
150
2.8 Aplicaes
B, C, D e E fossem analisadas em laboratrio e observadas diversas variveis
(ver Paula, de Moura e Yamaguchi, 2004). Em particular, vamos estudar o
comportamento da textura dos produtos atravs da fora necessria para o
cisalhamento. Os dados referentes a esta varivel esto disponveis no arquivo
snack.dat.
Para lermos o arquivo snack.dat no R devemos fazer o seguinte:
snack = source("snack.dat", list(cisalhamento=0, grupo=0,
semana=0))
80
40
60
Cisalhamento
100
120
grupo = factor(grupo).
Grupo
Figura 2.22: Boxplots da fora de cisalhamento segundo o grupo e para

todas as semanas.
Notamos pela Figura 2.22, em que so apresentados os boxplots da
fora de cisalhamento segundo o grupo e para todas as semanas, que os
grupos A e C possuem os maiores valores, enquanto o grupo C tem valores
151
2.8 Aplicaes
intermedirios e os grupos D e E tm os menores valores. Nota-se uma
assimetria direita na distribuio da fora de cisalhamento para todos os
grupos. Esssas tendncias so confirmadas pela tabela dada a seguir em que
so apresentadas as mdias, desvio padro e coeficiente de variao para a
fora de cisalhamento para cada grupo.
Grupo A Grupo B Grupo C Grupo D Grupo E
66,201
55,294
61,632
51,027
50,257
18,707
13,143
19,601
10,960
11,402
28,20%
23,80%
31,80%
21,50%
22,70%
80
40
60
Cisalhamento
100
120
Estatstica
Mdia
D.Padro
C. Variao
10
12
14
16
18
20
Semanas
Figura 2.23: Boxplots da fora de cisalhamento segundo a semana e para

todos os grupos.
J na Figura 2.23, em que so apresentados os boxplots para todos os
grupos ao longo das 20 semanas, uma tendncia crescente observada at a
152
2.8 Aplicaes
14a semana seguida de um decrescimento at a ltima semana. Verificamos
tambm, para cada semana, que a distribuio da fora de cisalhamento
mostra-se assimtrica direita sugerindo uma distribuio gama ou normal
inversa. Esssas tendncias so confirmadas pelo grfico de perfis para a fora
de cisalhamento (vide Figura 2.24) e pela tabela dada a seguir em que so
apresentadas as mdias, desvio padro e coeficiente de variao para a fora
de cisalhamento para cada semana.
Estatstica
Mdia
D.Padro
C. Variao
Estatstica
Mdia
D.Padro
C. Variao
Semana 2
50,95
13,12
25,80%
Semana 4
44,66
9,76
21,90%
Semana 6
50,08
15,97
31,90%
Semana 8 Semana 10
55,57
60,15
16,28
14,72
29,30%
24,50%
Semana 12 Semana 14 Semana 16 Semana 18 Semana 20

57,84
71,57
65,18
60,37
52,45
13,61
20,17
16,95
10,25
12,58
23,50%
28,20%
26,00%
17,00%
24,00%
Assim, denotaremos por Yijk a fora de cisalhamento referente ksima rplica do i-simo grupo na j-sima semana, para k = 1, . . . , 15, j =
2, 4, 6, . . . , 20 e i =1(A),2(B),3(C),4(D) e E(5). A fim de compararmos as
duas distribuies assimtricas vamos supor que Yijk G(ij , ) e Yijk
NI(ij , ) com parte sistemtica dada por
ij = + i + 1 semanaj + 2 semana2j ,
(2.6)
em que 1 = 0. Portanto o efeito da forma A, controlando pela semana,

e + i (i=2,3,4,5) so os efeitos das demais formas B, C, D e E, respectivamente. Estamos supondo a mesma tendncia para os cinco tipos de snack.
Alternativamente poderamos incluir interao entre grupo e semana, possibilitando o ajuste de tendncias separadas para cada grupo.
153
60
70
A
B
C
D
E
40
50
Cisalhamento
80
2.8 Aplicaes
10
15
20
Semanas
Figura 2.24: Perfis da fora de cisalhamento segundo as semanas e os grupos.

Para ajustarmos o modelo (2.6) com resposta normal inversa sem interao devemos fazer o seguinte:
s1 = semana
s2 = s1*s1
fit1.snack = glm(cisalhamento grupo + s1 + s2,
family=inverse.gaussian(link=identity))
summary(fit1.snack).
Abaixo seguem os comandos para o ajuste com interao
fit2.snack = glm(cisalhamento grupo + s1 + s2 + s1*grupo
+s2*grupo, family=inverse.gaussian(link=identity))
Este um exemplo em que h uma ligeira superioridade da distribuio
normal inversa em relao distribuio gama. Embora a funo de varincia
154
2.8 Aplicaes
da normal inversa seja cbica enquanto para a gama temos funo de varincia quadrtica, nem sempre possvel diferenciarmos de forma clara os dois
ajustes. Notamos pela Figura 2.25 que o grfico de resduos de Pearson contra os valores ajustados apresenta uma tendncia sistemtica crescente sob
o modelo gama, que amenizada sob o modelo com erros normal inversa.
Os dois modelos ajustam-se muito bem aos dados como podemos notar pelo
= 756, 87 (753 g.l.) com P=0,35
valor do desvio do modelo gama D (y; )
e pelo grfico normal de probabilidades para o modelo com resposta normal
2
1
2
Residuo de Pearson
2
1
0
1
Residuo de Pearson
inversa apresentado na Figura 2.26.
40
45
50
55
60
65
70
40
Valor Ajustado
(a)
45
50
55
60
65
70
Valor Ajustado
(b)
Figura 2.25: Grficos do resduo de Pearson contra os valores ajustados referentes aos modelos gama (a) e normal inversa (b) ajustados aos dados sobre
snacks .
Na Tabela 2.5 so apresentadas as estimativas sob o modelo com resposta normal inversa. Todos os efeitos so altamente significativos, em particular o efeito de semana na forma quadrtica. Controlando esse efeito, a
maior fora mdia de cisalhamento ocorre com o produto sob a forma A (au155
2.8 Aplicaes
sncia de leo de canola) e a menor fora mdia de cisalhamento ocorre com
0
2
4
as formas D e E, confirmando-se as tendncias observadas na Figura 2.22.
Percentil da N(0,1)
Figura 2.26: Grfico normal de probabilidades referente ao modelo com resposta normal inversa ajustado aos dados sobre snacks.
Na Figura 2.27 temos os valores preditos para os 5 grupos ao longo
das 20 semanas. A estimativa do parmetro de preciso indica que a distribuio da fora de cisalhamento em cada grupo, fixando o tempo, aproximadamente normal. Contudo, a varincia depende da mdia. A forma
cbica para a varincia mostrou-se ligeiramente superior forma quadrtica.
Outras formas para ajustarmos a varincia podem ser testadas, como por
exemplo, atravs de modelos de quase-verossimilhana que sero discutidos
no Captulo 5. O paralelismo entre as curvas apresentadas na Figura 2.27
devido no incluso de interao entre semana e grupo. Alternativamente, poderamos incluir uma funo para cada grupo, ou ento, o efeito
156
2.8 Aplicaes
semana poderia ser controlado atravs de funes no paramtricas (ver, por
exemplo, Wood, 2006).
Tabela 2.5
Estimativas dos parmetros referentes ao
modelo com resposta normal inversa
ajustado aos dados sobre snacks.
Efeito
Estimativa
E/E.Padro
Constante
50,564
26,32
Grupo B
-10,916
-6,41
Grupo C
-5,459
-3,03
Grupo D
-15,357
-9,42
Grupo E
-16,596
-10,30
Semana
2,727
8,18
2
Semana
-0,091
-5,90
1005
-
Algumas observaes foram detectadas como possivelmente influentes

(vide Figura 2.28): #2 (2a semana, grupoB), #8 (2a semana, grupo B), #10
(2a semana, grupo B), #311 (2a semana, grupo C), #465 (2a semana, grupo
D) e #744 (ltima semana, grupo E). Embora os valores preditos para a
fora de cisalhamento dessas amostras estejam abaixo da mdia, os valores
observados so em geral altos quando comparados com os valores dos grupos e
das semanas correspondentes. Tambm o fato de 5 dessas observaes terem
ocorrido logo na segunda semana pode ser um indcio de alguma dificuldade
inicial com o experimento. A eliminao dessas 6 observaes do total de
744 observaes leva a algumas variaes desproporcioanis. Por exemplo, as
estimativas dos efeitos dos grupos B e C diminuem por volta de 8%. Todavia,
no ocorrem mudanas inferenciais importantes.
157
60
50
A
B
C
D
E
40
Valor Predito
70
2.8 Aplicaes
10
15
20
Semanas
Figura 2.27: Valores preditos para a fora mdia de cisalhamento para as 5

formas de snacks atravs do modelo com resposta normal inversa.
2.8.2 Projeo de vendas

Whitmore (1986) (ver tambm Faraway, 2006, Cap. 7) apresenta um conjunto de dados em que o valor verdadeiro para as vendas relacionado com
o valor projetado para as vendas de 20 produtos. Os dados esto descritos
na Tabela 2.6. Como as vendas tendem a ter uma variablidade maior para
valores mais altos e os dados so positivos, a suposio de erros normais com
varincia constante no parece ser razovel. Whitmore (1986) sugere uma
distribuio normal inversa para a resposta Yi que denota o total de vendas
reais para o i-simo produto e que i = E(Yi ) relacionada com xi , o i-simo
valor projetado, de forma linear i = xi , ou seja, uma regresso linear passando pela origem. O diagrama de disperso dos dados descrito na Figura
2.29, juntamente com as retas ajustadas sob erros gama e normal inversa.
Notamos que as retas ajustadas so similares.
158
0.20
2.8 Aplicaes
10
465
2
8
0.10
311
0.00
0.05
Distancia de Cook
0.15
744
40
45
50
55
60
65
70
Valor Ajustado
Figura 2.28: Grfico da distncia de Cook contra os valores ajustados referente ao modelo com resposta normal inversa ajustado aos dados sobre
snacks.
Tabela 2.6
Vendas projetadas e reais de
vrios produtos.
Projetada Real Projetada Real
5959 5673
527 487
3534 3659
353 463
2641 2565
331 225
1965 2182
290 257
1738 1839
253 311
1182 1236
193 212
667 918
156 166
613 902
133 123
610 756
122 198
549 500
114
99
Como podemos notar pelos grficos do resduo de Pearson contra os
valores ajustados (Figura 2.30) os dois ajustes no parecem adequados, em159
3000
2000
1000
Vendas Reais
4000
5000
2.9 Modelagem simultnea da mdia e da disperso
Gama
N.Inversa
1000
2000
3000
4000
5000
6000
Vendas Projetadas
Figura 2.29: Modelos ajustados aos dados sobre vendas projetadas sob erros
gama e normal inversa.
bora a suposio de erros gama seja mais razovel do que normal inversa. Por
exemplo, as estimativas para o modelo gama so dadas por = 1, 089(0, 051)
e = 24, 94(7, 83). Assim, notamos pela estimativa de que o total projetado de vendas um bom preditor do total real vendido e a estimativa de
indica que a distribuio do total real de vendas (dado o total projetado)
pode ser aproximada por uma normal heteroscedstica.

Eventualmente o coeficiente de variao pode no ser constante variando com
as observaes. Smyth (1989) introduziu os modelos lineares generalizados
duplos com modelagem conjunta da mdia e do parmetro de preciso (ou
disperso) e desenvolveu um processo de estimao baseado no mtodo de
mxima verossimilhana que descreveremos a seguir. Contudo, outros m160
1
0
Residuo de Pearson
1
0
3
Residuo de Pearson
1000
3000
5000
Valor Ajustado
(a)
1000
3000
5000
Valor Ajustado
(b)
Figura 2.30: Grficos do resduo de Pearson contra os valores ajustados referentes aos modelos com resposta gama (a) e normal inversa (b) ajustados
aos dados sobre vendas projetadas.
todos alternativos de estimao, tais como mxima verossimilhana restrita,
foram propostos mais recentemente com o intuito de reduzir o vis das estimativas de mxima verossimilhana, particularmente dos coeficientes do
componente de disperso. Uma discusso a respeito desses mtodos pode ser
encontrada em Smyth, Huela e Verbyla (2001).
A fim de formalizarmos os MLGs duplos vamos supor que Y1 , . . . , Yn
so variveis aleatrias independentes com funo densidade ou funo de
probabilidades expressa na forma
f (y; i , i ) = exp[i {yi b(i )} + c(y, i )],
em que c(y, i ) = d(i ) + i a(y) + u(y). Essa decomposio, como vimos
na Seo 1.7.2, vale somente para as distribuies normal, normal inversa e
161

gama da famlia exponencial. Alm disso, vamos supor que
g(i ) = i = xTi e h(i ) = i = zTi ,
em que xi = (xi1 , . . . , xip )T e zi = (zi1 , . . . , ziq )T contm valores de variveis
explicativas e = (1 , . . . , p )T e = (1 , . . . , q )T so os parmetros a
serem estimados.
Seja = ( T , T )T , ento o logaritmo da funo de verossimilhana
fica dado por
L() =
n
X
i=1
n
X
i=1
[i {yi i b(i )} + d(i ) + i a(yi ) + u(yi )]

(2.7)
{i ti + d(i ) + u(yi )},
em que ti = yi i b(i ) + a(yi ). Portanto, se i for fixado a expresso (2.7)
coincide com o logaritmo da funo de verossimilhana de um modelo da

famlia exponencial com respostas independentes T1 , . . . , Tn (valores observados t1 , . . . , tn ), parmetros cannicos 1 , . . . , n e parmetro de disperso
igual a 1. Pelas propriedades da famlia exponencial segue que
Ti = E(Ti ) = d (i ) e Var(Ti ) = d (i ).
Essas quantidades so descritas na Tabela 2.7 para as distribuies normal,
normal inversa e gama. Os resultados acima podem ser obtidos, alternativamente, aplicando-se condies usuais de regularidade no logaritmo da
verossimilhana dado em (2.7).
Conforme observado por Verbyla (1989) para as distribuies normal
e normal inversa se chamarmos Di = 2Ti (i = 1, . . . , n) segue que
E(Di ) = 1
e Var(Di ) =
i
162
E2 (Di )
,

em que = 12 . Portanto, a expresso (2.7) pode ser interpretada para os
modelos com resposta normal e normal inversa como um MLG de respostas
1
independentes D1 , . . . , Dn com distribuio gama de mdias 1
1 , . . . , n ,
respectivamente, e parmetro de disperso 1 = 2. Assim, para i fixado,

os parmetros da disperso podem ser estimados alternativamente atravs
de um MLG com respostas independentes gama, funo de ligao h() e
parmetro de disperso igual a 2.
Tabela 2.7
Derivao de algumas quantidades para distribuies da famlia exponencial.
Normal
Normal inversa
Gama
1
ti
yi i 12 (2i + yi2 ) {yi /22i 1
+
(2y
)
}
log(y
/
i
i
i ) yi /i
i
1
1
d()
log
log
log log()
2
2
d ()
(2)1
(2)1
(1 + log) ()
d ()
-(22 )1
-(22 )1
1 ()
2.9.1 Estimao
A funo escore e a matriz de informao de Fisher para podem ser obtidas
facilmente seguindo os passos da Seo 1.5.1. Assim, obtemos
U = XT W1/2 V1/2 (y ) e
K = XT WX,
em que X uma matriz np de linhas xTi (i = 1, . . . , n), W = diag{1 , . . . , n }
com pesos i = (di /di )2 /Vi , V = diag{V1 , . . . , Vn }, = diag{1 , . . . , n },

y = (y1 , . . . , yn )T e = (1 , . . . , n )T .
163

Para obtermos a funo escore para o parmetro , calculamos inicialmente a derivada
L()/j =
n
X
di i
di i
ti + d (i )
di j
di j
i=1
=
=
n
X
i=1
n
X
i=1
1
1
zij ti + d (i )
zij
h (i )
h (i )
zij
{ti + d (i )},
h (i )
em que h (i ) = di /di . Portanto, em forma matricial obtemos

U = ZT H1
(t T ),
em que H = diag{h (1 ), . . . , h (n )}, t = (t1 , . . . , tn )T e T = (E(T1 ), . . . , E(Tn ))T
= (d (1 ), . . . , d (n ))T .
Para obtermos a matriz de informao de Fisher para o parmetro
precisamos das derivadas

2
L()/j

di
di
zij
d (i )h(i )
zi h (i ){ti + d (i )}
zi
=
( )}2
{h
d
d
i
i
i
i=1

n
X
zij zi
h (i )
=
d (i )
{ti + d (i )}
{h (i )}2
h (i )
i=1
n
X
e cujos valores esperados ficam dados por

2
n
X
d (i )
L()
zij zi .
=
E
j
{h (i )}2
i=1
Logo, em forma matricial obtemos
K = ZT PZ,
em que P = V H2
, V = diag{d (1 ), . . . , d (n )}. Devido ortogona-
lidade entre os parmetros i e i , segue diretamente a ortogonalidade entre

164

e . Assim, a matriz de informao de Fisher para bloco diagonal
K = diag{K , K }.
Similarmente aos MLGs podemos desenvolver um processo iterativo
escore de Fisher para encontrar as estimativas de mxima verossimilhana

. Aps algumas manipulaes algbricas obtemos o proceso iterativo
e
(m+1) = (XT (m) W(m) X)1 XT (m) W(m) y(m) e
(2.8)
(m+1) = (ZT P(m) Z)1 ZT P(m) z(m) ,
(2.9)
em que y = X + W1/2 V1/2 (y ), z = Z + V1 H (t T ) e
m = 0, 1, 2, . . . .. Conforme mencionado por Smyth (1989) o processo ite-
rativo (2.8)-(2.9) pode ser resolvido alternando-se as duas equaes at a

convergncia. Pode-se iniciar o processo iterativo (2.8) com as estimativas
do MLG com i comum a todas as observaes.
Sob as condies de regularidade apresentadas na Seo 1.6.3 temos que
Np (, K1 ) e
Nq (, K1
para n grande
), respectivamente. Alm
disso, devido ortogonalidade entre e segue a independncia assinttica

e
.
entre
2.9.2 Mtodos de diagnstico

Faremos nesta subseo uma adaptao de alguns procedimentos de diagnstico para a classe dos MLGs duplos.
Resduos
Na classe dos MLGs duplos podemos definir desvios para a mdia e para a
preciso, respectivamente. O desvio para a mdia assume a mesma expresso
da classe dos MLGs em que somente a mdia ajustada, com i no lugar
Pn 2
) =
i , i ), em
de . Denotaremos esse desvio por D1 (y; ,
i=1 d1 (yi ;
165

que d2
i , i ) = 2i [yi (i i ) + {b(i ) b(i )}]. Para i grande i o
1 (yi ;
) pode ser comparado com os percentis da distribuio quidesvio D1 (y; ,
quadrado com (n p) graus de liberdade. Para o modelo normal heterosceP

) = ni=1 i2 (yi yi )2 .
dstico o desvio para a mdia fica dado por D1 (y; ,
i ) = zT
.
Na prtica deveremos substituir i por i = h1 (
i
O resduo Studentizado, no modelo normal heteroscedstico, assume a

forma
ti =
y yi
pi
,
ii
i 1 h
ii =
1 xi com = diag{ 2 , . . . , 2 }. Para os
em que h
i2 xTi (XT X)
1
n
demais MLGs duplos o resduo componente do desvio para a mdia fica dado
por
em que
d1 (yi ;
i , i )
d (yi ;
i , i )
,
tD1i = 1p
ii
1h
q
= d2
i , i ), o sinal continua sendo o mesmo de
1 (yi ;
ii o i-simo elemento da diagonal principal da matriz

(yi
i ) e h
1 T 1/2 1/2
=
1/2 W
1/2 X(XT
WX)
H
X W ,
ou seja,
1
ii = i
WX)
h
i xTi (XT
xi .
Sugerimos o grfico normal de probabilidades para tD1i e o grfico de tD1i

contra os valores ajustados.
) = Pn d2 (yi ; i , i ) o desvio para a preDenotaremos por D2 (y; ,

i=1 2
2
ciso, em que d (yi ; i , i ) = 2[ti (i ) + {d(i ) d(i )}], i soluo para

2
i sob o modelo saturado sendo dada por d (i ) = ti . Para os modelos com

resposta normal e normal inversa temos que i = (2ti )1 . J para modelos
com resposta gama i a soluo da equao {(i ) logi + 1} = ti . Aqui

166

) pode ser comparado com os
tambm para i grande i o desvio D2 (y; ,
percentis da distribuio qui-quadrado com (n q) graus de liberdade.

O resduo componente do desvio para a preciso fica dado por
tD2i =
i )
d2 (yi ; i ,
,
1 rii
q
i ), o sinal sendo o mesmo de {ti +
em que d2 (yi ; i ,
i ) = d2
2 (yi ; i ,
d (i )} e rii o i-simo elemento da diagonal principal da matriz
=P
1/2 Z(ZT PZ)
1 ZT P
1/2 ,
R
ou seja,
1 zi .
rii = pi zTi (ZT PZ)
Note que pi = d (i ){h (i )}2 . Por exemplo, para ligao logartmica
temos que h(i ) = logi ento h (i ) = 1

e portanto pi = 2i d (i ).
i
Assim, para os modelos com resposta normal e normal inversa segue que pi =
2i (22i )1 =
1
2
e para os modelos com resposta gama pi = i {i (i ) 1}.
Sugerimos o grfico normal de probabilidades para tD2i e o grfico de

tD2i contra os valores ajustados.
Influncia
Para avaliar a sensibilidade das estimativas dos parmetros que modelam a
mdia podemos usar a medida de influncia LDi definida na Seo 1.10.3 com
que ser definida por
i no lugar de ,
(
)
ii
h
LDi =
t2 ,
ii Si
1h
em que
tSi
q
i (yi
i )
= q
.
ii )
Vi (1 h
167

ii contra os valores ajustados so recomendados.
Grficos de ndices de LDi e h
quando a i-sima obserPara avaliar a sensibilidade da estimativa
vao deletada usaremos uma aproximao de um passo, que obtida de
(i) descrita na Seo 1.10.3, dada
forma similar aproximao de uma passo
por
(i) =
1 zi {ti + d (i )}
(ZT PZ)
,
h (i )(1 rii )
(2.10)
em que rii o i-simo elemento da diagonal principal da matriz R.

Uma medida para avaliar a influncia nas estimativas dos parmetros
da preciso fica dada por
)T (ZT PZ)(
)
LDi = (
(i)
(i)

rii
=
t2 ,
1 rii Ti
em que
t Ti
ti + d (i )
p
=
h (i ) pi (1 rii )
ti + d (i )
.
= q
d (i )(1 rii )
Grficos de ndices de LDi e rii contra os valores ajustados so recomendados.

Para os modelos com resposta normal e com resposta normal inversa
o resduo tTi assume a forma
ti + (2i )1
t Ti =
,
( 2i )1 1 rii
e para modelos com resposta gama obtemos
ti + {1 + logi (i )}
.
t Ti = q
{ (i ) 1
}(1
)
ii
i
168

(i)
Verbyla (1993) apresenta uma aproximao de uma passo para
para o caso normal usando um esquema de perturbao especfico para modelos normais heteroscedsticos. Para obtermos a aproximao apresentada
em (2.10) usamos a ponderao de casos usual para MLGs. Estudos sobre a
qualidade da aproximao apresentada em (2.10) ainda no foram desenvolvidos.
2.9.3 Aplicao
Pela anlise descritiva apresentada na Seo 2.8.1 sobre o comportamento
da fora de cisalhamento dos cinco tipos de snack ao longo das 20 semanas e tambm pelo grfico de perfis para a fora de cisalhamento (Figura
2.31) nota-se que o coeficiente de variao no parece ser constante. Assim,
a modelagem dupla da mdia e da preciso pode levar a um ajuste mais
satisfatrio para o modelo com resposta gama. Dessa forma vamos supor
que Yijk G(ij , ij ), em que Yijk denota a fora de cisalhamento referente
k-sima rplica do i-simo grupo na j-sima semana, para k = 1, . . . , 15,
j = 2, 4, 6, . . . , 20 e i =1(A),2(B),3(C),4(D) e E(5), com parte sistemtica

dada por
ij = 0 + i + 6 semanaj + 7 semana2j e
logij = 0 + i + 6 semanaj + 7 semana2j ,
em que 1 = 0 e 1 = 0. Portanto 0 e 0 so os efeitos da forma A,
controlando-se pela semana, na mdia e na preciso, respectivamente, enquanto 0 + i e 0 + i so os efeitos das demais formas B, C, D e E na
mdia e preciso, respectivamente.
O MLG duplo pode ser ajustado no R atravs dos seguintes comandos:
require(dglm)
169

fit3.snack = dglm(cisalhamento grupo + s1 + s2,
grupo + s1 + s2, family=Gamma(link=identity))
0.35
0.25
0.20
0.05
0.10
0.15
CV do Cisalhamento
0.30
A
B
C
D
E
10
15
20
Semanas
Figura 2.31: Perfis do CV da fora de cisalhamento segundo as semanas e os

grupos.
Observarmos que a library dglm faz o ajuste de log(1
i ), ou seja da
disperso, sendo necessrio fazermos as adaptaes nos modelos com resposta
gama e normal inversa para obtermos log(i ), ajuste da preciso. Em particular no caso de modelos normais heteroscedsticos tem-se diretamente o
ajuste de logi2 , em que i2 a varincia.
Na Tabela 2.7 so apresentadas as estimativas com os respectivos erros
padro dos parmetros da mdia e da disperso.
170
0.35
Tabela 2.7
Estimativas dos parmetros referentes ao MLG duplo com resposta
gama ajustado aos dados sobre snacks.
Mdia
Disperso
Efeito
Estimativa E/E.Padro Estimativa
E/E.Padro
Constante
36,990
11,53
1,560
7,27
Grupo B
-10,783
-6,40
0,477
2,95
Grupo C
-3,487
-1,98
0,050
0,31
Grupo D
-14,829
-9,18
0,815
5,05
Grupo E
-15,198
-9,54
0,817
5,06
Semana
5,198
9,88
0,155
3,91
2
Semana
-0,189
-8,88
-0,005
-2,99
0.20
553
0.15
405
0.00
0.05
0.10
Distancia de Cook
0.25
0.30
744
200
400
600
Indice
Figura 2.32: Grfico da distncia de Cook para as estimativas dos coeficientes

da mdia referente ao MLG duplo com resposta gama ajustado aos dados
sobre snacks.
171
1.0
0.6
0.4
0.0
0.2
Distancia de Cook
0.8
744
200
400
600
Indice
Figura 2.33: Grfico da distncia de Cook para as estimativas dos coeficientes

da disperso referente ao MLG duplo com resposta gama ajustado aos dados
sobre snacks.
Podemos notar pelas estimativas dos parmetros da mdia as mesmas
tendncias observadas na Figura 2.22 para o modelo com resposta normal
inversa. O grupo A tem a maior mdia para a fora de cisalhamento enquanto
os grupos D e E tm as menores mdias. Com relao s estimativas dos
parmetros da disperso nota-se que a variabilidade (no sentido do coeficiente
de variao) depende do tempo de forma quadrtica e que os grupos A e C
apresentam maior variabilidade enquanto os grupos D e E apresentam as
menores variabilidades. Essas tendncias esto de acordo com os grficos das
Figuras 2.22, 2.23 e 2.24.
Nota-se ainda que os mesmos efeitos que so significativos para os parmetros da mdia so tambm significativos para os parmetros da disperso.
Apenas trs observaes, #430, #595 e #744, aparecem como possivelmente
influentes nos parmetros da mdia e da disperso, como pode ser observado
pelas Figuras 2.32 e 2.33. A eliminao desses pontos no muda a infern172
0
4
2.10 Exerccios
Percentil da N(0,1)
Figura 2.34: Grfico normal de probabilidades para o resduo componente

do desvio para a mdia referente ao MLG duplo com resposta gama ajustado
aos dados sobre snacks.
cia. Pelos grficos normais de probabilidades para o resduo componente do
desvio para a mdia e para a disperso apresentados nas Figuras 2.34 e 2.35,
respectivamente, no h indcios de inadequao do MLG duplo.
2.10 Exerccios
1. Seja Y G(, ) e considere a varivel aleatria logY . Use a condio
de regularidade E(U ) = 0 para mostrar que E(logY ) = log log +
(), em que U = L(, )/.
2. Seja Y NI(, ) e considere a varivel aleatria Y 1 . Use a condio
de regularidade E(U ) = 0 para mostrar que E(Y 1 ) = 1 + 1 , em

que U = L(, )/.
3. Considere o logaritmo da funo de verossimilhana dado em (2.7).

173
0
2
6
2.10 Exerccios
Percentil da N(0,1)
Figura 2.35: Grfico normal de probabilidades para o resduo componente do

desvio para a disperso referente ao MLG duplo com resposta gama ajustado
aos dados sobre snacks.
Obtenha E(Ti ) e Var(Ti ) a partir das condies usuais de regularidade
E{L()/i } = 0 e E{ 2 L()/2i } = -E{(L()/i )2 }.
4. Mostre que o desvio da distribuio gama para o caso i.i.d., ou seja
= 2nlog(
Yi G(, ), dado por D (y; )
y /
y ), em que y a mdia
geomtrica das observaes, isto y = (ni=1 yi )1/n .
5. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi NI(i , )

com parte sistemtica dada por g(i ) = i = xTi . (i) Calcule a es (ii) Mostre que o
timativa de mxima verossimilhana de e Var().
critrio de Akaike equivale a minimizar

D(y; )
+ 2p,
AIC = nlog
n
P
= ni=1 (yi
em que D(y; )
i )2 /(yi
2i ).
174
2.10 Exerccios
6. Sejam Yi FE(1 , 1 ), i = 1, . . . , m, e Yi FE(2 , 2 ), i = m +
1, . . . , n, variveis aleatrias mutuamente independentes. Encontre a
estimativa comum de mxima verossimilhana para 1 e 2 sob a hiptese H0 : 1 = 2 . Particularize para os casos gama e normal inversa.
7. (Lawless, 1982, p. 338). Na tabela abaixo so apresentados os resultados de um experimento em que a resistncia (em horas) de um
determinado tipo de vidro foi avaliada segundo quatro nveis de voltagem (em kilovolts) e duas temperaturas (em graus Celsus). Esses dados
esto tambm disponveis no arquivo vidros.dat. Na primeira coluna
do arquivo tem-se o tempo de resistncia, na segunda coluna a voltagem( 1: 200kV, 2: 250kV, 3: 300kV e 4: 350kV) e na terceira coluna a
temperatura (1: 170o C e 2: 180o C). Seja Yijk o tempo de resistncia da
k-sima amostra de vidro submetida i-sima temperatura e j-sima
voltagem.
Faa inicialmente uma anlise descritiva dos dados, por exemplo apresentando os perfis mdios da resistncia segundo a voltagem para os
dois nveis de temperatura. Cacule tambm para cada casela algumas
medidas descritivas tais como mdia, desvio padro e coeficiente de
variao. Comente.
O interesse principal desse estudo comparar as resistncias mdias,
denotadas por ij , i = 1, 2 e j = 2, 3, 4. usual neste tipo de estudo assumir respostas com alguma distribuio assimtrica. Assim,
vamos supor que Yijk G(ij , ). Considere inicialmente uma repa-
rametrizao tipo casela de referncia sem interao, em que 11 = ,

1j = + j , 21 = + e 2j = + + j j = 2, 3, 4.
175
2.10 Exerccios
Voltagem(kV)
Temperatura ( C) 200 250 300
170
439 572 315
904 690 315
1092 904 439
1105 1090 628
o
180
959
1065
1065
1087
350
258
258
347
588
216 241 241

315 315 241
455 332 435
473 380 455
Verifique se possvel incluir a interao entre voltagem e temperatura. Procure responder com o modelo final de que forma os nveis
de voltagem e temperatura afetam o tempo mdio de resistncia dos
vidros. Apresente, por exemplo, os perfis mdios ajustados e interprete
a estimativa de disperso. Faa tambm uma anlise de diagnstico.
8. Sejam Yi , i = 1, . . . , n, variveis aleatrias i.i.d. com distribuio normal inversa de mdia e parmetro de preciso .
(i) Como fica a estatstica da razo de verossimilhanas para testar
H0 : = 1 contra H1 : 6= 1?
(ii) Qual a distribuio nula assinttica da estatstica do teste?
9. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi G(i , )
com parte sistemtica dada por logi = 0 + 1 (xi x). Responda aos
itens abaixo:
(a) como fica a matriz de informao de Fisher para = (0 , 1 , )T
e a varincia assinttica de 0 , 1 e ?
176
2.10 Exerccios
(b) Como fica o teste de escore para testar H0 : = 1 contra H1 : 6=
1?
(c) Mostre que a estatstica do teste de escore para testar as hipteses

H0 : 0 = 1, 1 = 0 contra H1 : 0 6= 1 ou 1 6= 0 pode ser expressa
na forma
SR
P

{ ni=1 (xi x)(yi e)}2
0
2
Pn
= 2 n(
y e) +
.
e
)2
i=1 (xi x
Qual a distribuio nula assinttica de SR ?
10. Supor Y1 , . . . , Yn variveis aleatrias independentes tais que Yi FE(, i )

com logi = + zi . Responda s seguintes questes:
(i) como fica a matriz modelo Z?
(ii) Calcule a varincia assinttica de .
(iii) Como fica a estatstica de escore para testar H0 : = 0 contra
H1 : 6= 0? Qual a distribuio nula assinttica da estatstica do
teste?
11. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi NI(i , )

com 1
= . Encontre
e Var(
). Como fica a estatstica de Wald
i
para testar H0 : = 1 contra H1 : 6= 1? Qual a distribuio nula
assinttica da estatstica do teste?
12. Supor Y1 , . . . , Yn variveis aleatrias independentes tais que Yi NI(i , )

P
e i = i1 com i = + (xi x), em que x = n1 ni=1 xi ,

i = 1, . . . , n. Responda s seguintes questes:
(i) como fica a matriz modelo X?
Calcule Cov(
(ii) Calcule as varincias assintticas Var(

) e Var().
, )
e comente.
177
2.10 Exerccios
(iii) Como fica a estatstica de Wald para testar H0 : = 0 contra
H1 : 6= 0? Qual a distribuio nula assinttica da estatstica do
teste?
13. (Cordeiro, Paula e Botter, 1994). Sejam Yi , i = 1, . . . , n, variveis aleatrias independentes com distribuio gama de mdia i e parmetro
de preciso . Mostre que a estatstica da razo de verossimilhanas
para testar H0 : = 1 contra H1 : 6= 1 vale
( 1){1 ()}],
RV = 2n[log log()
em que () a funo gama e () a funo digama. Use o resultado
()
= D/2,
= Pn D(yi ;
log()
em que D
i )/n denota o desvio
i=1
mdio do modelo correspondente.
14. Supor Yij variveis aleatrias mutuamente independentes tais que Yij
G(i , ) para i = 1, 2 e j = 1, . . . , m, sendo log1 = e log2 = +
. (i) Obtenha a matrix modelo X. (ii) Expresse em forma fechada as

(iii) Calcule as varincias
estimativas de mxima verossimilhana
e .
e mostre que Cov(
= 0. (iv) Como
assintticas Var(
) e Var()
, )
fica o teste de escore para testar H0 : = 0 contra H1 : 6= 0? Qual a
distribuio nula assinttica da estatstica do teste?
15. No arquivo energy.dat esto descritos os dados referentes ao consumo

de energia em 53 domiclios (Montgomery, Peck e Vining, 2001, pgs.
175-178) em que o total de energia consumido num determinado ms
(em kilowatts-hora) utilizado para explicar a demanda de energia
na hora de pico. Faa inicialmente uma anlise descritiva dos dados.
Use um modelo de regresso normal linear (com erros homocedsticos)
para explicar a demanda mdia no horrio de pico atravs do consumo
178
2.10 Exerccios
mensal de energia. Proponha, alternativamente, modelos com erros
heteroscedsticos. Compare os ajustes e interprete os coeficientes estimados do modelo escolhido.
16. No arquivo restaurante.dat esto descritos os faturamentos anuais
bem como os gastos com publicidade (em mil USD) de uma amostra
aleatria de 30 restaurantes (Montgomery, Peck e Vining, 2001, pgs.
197-200). O objetivo principal tentar relacionar o faturamento mdio
com o gasto com publicidade. Inicialmente faa uma anlise descritiva
dos dados, em particular o diagrama de disperso entre as variveis.
Tente ajustar inicialmente um modelo de regresso normal linear entre
faturamento e gastos e verifique atravs das tcnicas de diagnstico
se existem afastamentos srios das suposies feitas para o modelo.
Ajustar modelos com erros gama e normal inversa e um modelo normal
heteroscedstico. Compare os resultados.
17. (Myers, Montgomery e Vining, 2002, p. 192). A fim de avaliar-se a
qualidade de um determinado filme utilizado em mquinas fotogrficas,
o tempo de durao do filme (em horas) relacionado com a densidade
mxima do filme sob trs condies experimentais conforme descrito
na tabela abaixo e tambm no arquivo dfilme.dat.
Tempo
72
144
216
288
360
432
504
Dmax Tempo
(72o C)
3,55
48
3,27
96
2,89
144
2,55
192
2,34
240
2,14
288
1,77
336
179
Dmax Tempo
(82o C)
3,52
24
3,35
48
2,50
72
2,10
96
1,90
120
1,47
144
1,19
168
Dmax
(92o C)
3,46
2,91
2,27
1,49
1,20
1,04
0,65
2.10 Exerccios
Faa um diagrama de disperso entre o tempo de durao e a densidade
mxima para cada condio experimental e proponha um modelo com
resposta gama para ajustar esses dados. Aplique mtodos de diagnstico e interprete as estimativas do modelo selecionado.
18. Considere novamente os dados descritos na Tabela 2.6 sobre a relao entre o valor real e o valor projetado das vendas de 20 produtos.
Considere agora um modelo normal heteroscedtico tal que
yi = xi + i e logi2 = 1 + 2 xi ,
com i N(0, i2 ). Verifique a adequao desse modelo atravs de mtodos de diagnstico.
19. (Feigl e Zelen, 1965). Apresentamos a seguir um conjunto de dados

em que pacientes com leucemia foram classificados segundo a ausncia
ou presena de uma caracterstica morfolgica nas clulas brancas. Pacientes classificados de AG positivo foram aqueles com a presena da
caracterstica e pacientes classificados de AG negativo no apresentaram a caracterstica. apresentado tambm o tempo de sobrevivncia
do paciente (em semanas) aps o diagnstico da doena e o nmero de
clulas brancas (WBC) no momento do diagnstico. Esses dados esto
descritos no arquivo sobrev.dat.
Supondo que o tempo de sobrevivncia aps o diagnstico segue uma
distribuio gama, proponha um modelo para explicar o tempo mdio
de sobrevivncia dados log(WBC) e AG(=1 positivo, =0 negativo).
Faa uma anlise de diagnstico com o modelo ajustado e interprete as
estimativas.
180
2.10 Exerccios
AG Positivo
AG Negativo
WBC Tempo
WBC Tempo
2300
65
4400
56
750
156
3000
65
4300
100
4000
17
2600
134
1500
7
6000
16
9000
16
10500
108
5300
22
10000
121 10000
3
17000
4 19000
4
5400
39 27000
2
7000
143 28000
3
9400
56 31000
8
32000
26 26000
4
35000
22 21000
3
100000
1 79000
30
100000
1 100000
4
52000
5 100000
43
100000
65
20. O arquivo claims.dat contm uma amostra aleatria de 996 aplices
de seguros de veculos extradas do livro de de Jong e Heller (2008) referente ao perodo 2004-2005. As variveis do arquivo esto na seguinte
ordem : (i) valorv (valor do veculo em 10000 dolares australianos),
(ii) expos (exposio do veculo), (iii) nsinistros (nmero de sinistros
no perodo), (iv) csinistros (custo total dos sinistros em dolares australianos), (v) tipov (tipo do veculo em 11 categorias), (vi) idadev
(idade do veculo em 4 categorias), (vii) sexoc (sexo do condutor principal), (viii) areac (rea de residncia do condutor principal) e (ix)
idadec (idade do condutor principal em 6 categorias).
Faa inicialmente uma anlise descritiva dos dados e procure agrupar
em um nmero menor de categorias algumas variveis categricas. Con181
2.10 Exerccios
sidere como varivel resposta cmsinistros = csinistros/nsinistros.
Aplique numa primeira etapa modelos com resposta gama e normal
inversa com constante. Faa uma anlise de diagnstico. Numa segunda etapa, se necessrio, aplique modelos duplos com resposta gama
e normal inversa. Faa tambm uma anlise de diagnstico. Para o
modelo final selecionado interprete os coeficientes estimados.
182
Captulo
Modelos para Dados Binrios
3.1 Introduo
Neste captulo apresentamos modelos para a anlise de dados com resposta
binria, isto , que admite apenas dois resultados. Comumente chamado de
sucesso o resultado mais importante da resposta ou aquele que pretendemos
relacionar com as demais variveis de interesse. comum encontrarmos situaes prticas em que esse tipo de resposta aparece. Como ilustrao, seguem
alguns exemplos: (i) o resultado do diagnstico de um exame de laboratrio,
positivo ou negativo; (ii) o resultado da inspeo de uma pea recm fabricada, defeituosa ou no defeituosa; (iii) a opinio de um eleitor a respeito
da implantao do voto distrital, favorvel ou contrrio; (iv) o resultado de
um teste de aptido aplicado a um estudante, aprovado ou reprovado; (v)
o resultado de uma promoo de uma rede de lojas enviando para cada cliente um cupom com desconto, cupom utilizado ou cupom no utilizado num
determinado perodo etc. H tambm situaes em que apenas duas possi-
183
3.2 Mtodos clssicos: uma nica tabela 2 2

bilidades so consideradas de interesse para uma varivel contnua, valores
menores do que um valor de referncia v0 e valores maiores ou iguais a v0 .
Nesses casos, podemos considerar uma nova varivel binria para essas duas
possibilidades. Por exemplo, numa determinada prova de conhecimentos v0
pode ser a nota mnima para ser aprovado no exame, ou o valor mnimo para
um exame de laboratrio ser considerado alterado. Assim, variveis binrias
podem surgir naturalmente num experimento ou serem criadas dependendo
do interesse do estudo.
Inicialmente, apresentamos neste captulo uma resenha dos principais
mtodos clssicos para a anlise de tabelas de contingncia do tipo 2 2. Em
seguida, introduzimos o modelo de regresso logstica para resposta binria
e fazemos uma analogia com os mtodos tradicionais para tabelas 2 2.

Discutimos tambm a seleo de modelos logsticos, mtodos de diagnstico,
alguns tipos de modelos de dose-resposta, sobredisperso e regresso logstica
condicional.

Mtodos clssicos em tabelas de contingncia 2 2 so datados da dcada
de 50. Os primeiros trabalhos foram motivados pelo interesse na inferncia

de certos parmetros com grande aplicabilidade na rea biomdica, especialmente em Epidemiologia. Vrios trabalhos foram publicados durante as
dcadas de 50 e 60 e at hoje as tcnicas desenvolvidas tm sido utilizadas,
particularmente na anlise descritiva dos dados, antes de um tratamento
mais sofisticado atravs de regresso. Apresentamos nesta seo uma resenha das principais tcnicas segundo o ponto de vista inferencial clssico.
Embora a metodologia apresentada possa ser aplicada em qualquer rea do
conhecimento, daremos nfase para a rea biomdica em que tem ocorrido
184

um nmero maior de aplicaes.
3.2.1 Risco relativo

Vamos supor que os indivduos de uma determinada populao sejam classificados segundo um fator com dois nveis, A e B, e a presena ou ausncia
respectivamente. As propores
de uma certa doena, denotados por D e D,
populacionais ficam, nesse caso, descritas conforme a tabela abaixo.
Doena
D
Fator
A B
P1 P3
P2 P4
Portanto, podemos definir outras quantidades:

P1 /(P1 + P2 ) : proporo de indivduos classificados como doentes no grupo
A;
P3 /(P3 + P4 ) : proporo de indivduos classificados como doentes no grupo
B.
A razo entre as duas propores acima foi denominada por Cornfield (1951)
como sendo o risco relativo de doena entre os nveis A e B, ou seja
RR =
P1 (P3 + P4 )
P1 /(P1 + P2 )
=
.
P3 /(P3 + P4 )
P3 (P1 + P2 )
(3.1)
Cornfield (1951) tambm notou que se a doena for rara (P1 << P2 e P3 <<
P4 ) a quantidade (3.1) assume a forma simplificada
=
P1 P4
,
P3 P2
(3.2)
a qual denominou Odds Ratio, que para ns ser denominada razo de chances. Muitas vezes comum ser chamado de risco relativo, embora isso
185

somente seja vlido quando P1 e P3 forem muito pequenos. A grande vantagem do uso de a facilidade inferencial tanto na abordagem tradicional
como na abordagem atravs de regresso.
Como em geral a porcentagem de indivduos doentes muito menor do
que a porcentagem de no doentes, bastante razovel num estudo cujo objetivo avaliar a associao entre algum fator particular e uma certa doena,
que a quantidade de doentes na amostra seja a maior possvel. Assim, a amostragem retrospectiva, em que os indivduos so escolhidos separadamente nos
pode ser mais conveniente do que os demais procedimentos
estratos D e D,
amostrais. Um cuidado, entretanto, devemos ter nesses estudos. importante que os doentes (casos) sejam comparveis aos no doentes (controles)
segundo outros fatores (fatores potenciais de confundimento), possivelmente
associados com a doena. Nos estudos prospectivos, em que a amostragem
feita nos estratos A e B, esse tipo de problema pode ser controlado, embora
em geral seja necessrio um longo perodo at a obteno de um nmero
suficiente de doentes para uma anlise estatstica mais representativa.
Como as inferncias para os estudos retrospectivos e prospectivos so
idnticas, trataremos apenas o caso retrospectivo. Assim, assumimos que no
so amostrados n2
estrato D so amostrados n1 indivduos e no estrado D
indivduos. O nmero observado de indivduos com presena de A nos estra ser denotado por y1 e y2 , respectivamente. Os dados resultantes
tos D e D
dessa amostragem podem ser resumidos conforme a tabela abaixo.
Doena
D
A
y1
y2
Fator
B
n1 y 1
n2 y 2
Total
n1
n2
Discutimos nas sees seguintes a abordagem clssica para analisar a tabela

acima.
186
3.2.2 Modelo probabilstico no condicional

Denotaremos por Y1 e Y2 o nmero de indivduos com presena de A nos estra respectivamente. Ser tambm assumido que essas variveis so
tos D e D,
binomiais independentes de parmetros (n1 , 1 ) e (n2 , 2 ), respectivamente.
Logo, a funo de probabilidades conjunta de (Y1 , Y2 ) fica dada por

n 2 y 1 y2
n1
(1 1 )n1 y1 (1 2 )n2 y2 ,
f (y; ) =
y2 1 2
y1
(3.3)
em que y = (y1 , y2 )T e = (1 , 2 )T . Seguindo a notao da seo anterior,

temos que 1 = P1 /(P1 + P3 ), 1 1 = P3 /(P1 + P3 ), 2 = P2 /(P2 + P4 ) e
1 2 = P4 /(P2 + P4 ). Assim, mostramos que

=
P1 P4
1 (1 2 )
,
=
P3 P2
2 (1 1 )
e consequentemente que 1 = 2 /{2 + 1 2 }. A expresso (3.3) pode
ento ser expressa apenas em funo de (, 2 ),

(1 2 )n
2
, (3.4)
f (y; ) exp y1 log + (y1 + y2 )log
1 2
{2 + 1 2 }n1
em que n = n1 +n2 . As estimativas de mxima verossimilhana de 1 e 2 so
dadas por
1 = y1 /n1 e
2 = y2 /n2 , respectivamente. Logo, a estimativa de
mxima verossimilhana no condicional de fica = y1 (n2 y2 )/y2 (n1 y1 ).
= , o que impossibilita qualquer tipo de inferncia para
Note que E()
pequenas amostras. Por outro lado, para n1 e n2 grandes, segue uma
distribuio normal de mdia e varincia assinttica

1
1
2
.
+
VarA () =
n1 1 (1 1 ) n2 2 (1 2 )
Formalmente, podemos dizer que sob condies gerais de regularidade e assumindo que
n1
n
a > 0, quando n , vale o resultado assinttico
n( ) d N(0, VI ()),
187

em que VI () = 2 {1/a1 (1 1 ) + 1/(1 a)2 (1 2 )}. A varincia
assinttica VI () consistentemente estimada por nVarA ().

Alguns autores preferem trabalhar com log em vez de . Assim,
podemos mostrar, sob condies gerais de regularidade, que a estimativa no
condicional log segue para grandes amostras uma distribuio normal de
= {1/n1 1 (11 )+1/n2 2 (1
mdia log e varincia assinttica VarA (log)
2 )}. De forma equivalente, quando n , temos que
n(log log) d N(0, 2 VI ()).
Esse resultado ser til na construo de intervalos de confiana para .
3.2.3 Modelo probabilstico condicional

Devido aos problemas inferenciais com o modelo no condicional para pequenas amostras, a utilizao de um modelo condicional, cuja construo ser
discutida a seguir, tem sido a soluo encontrada sob o ponto de vista clssico
para fazer inferncias a respeito de .
Assim, aplicando o teorema da fatorizao para a funo de probabilidades (3.4), mostramos que o conjunto de estatsticas (Y1 , Y1 +Y2 ) suficiente
minimal para o vetor de parmetros [log, log{2 /(1 2 )}]. Logo, a distri-
buio de (Y1 , Y2 ) condicionada a Y1 + Y2 = m, dever resultar numa funo
de probabilidades que depende apenas do parmetro de interese . Essa distribuio resultante (ver Cornfield, 1956) tem sido largamente utilizada em
pequenas amostras. Alguns autores questionam, entretanto, o procedimento
adotado, uma vez que a estatstica Y1 + Y2 no ancilar para ; isto , contm informaes a respeito do parmetro (ver discusso, por exemplo, em
Lehnman, 1994, pgs. 546-547).
O condicionamento de (Y1 , Y2 ) em Y1 + Y2 = m produz o modelo caracterizado pela famlia de distribuies hipergeomtricas no centrais, definida
188

por
n1
y1
f (y1 |m; ) = P
n2
y1
my1
,

n2
n1
t
mt
t
(3.5)
em que 0 < < e t varia de max(0, m n2 ) a min(n1 , m). Em particu-
lar, quando = 1, a expresso (3.5) fica reduzida conhecida distribuio

hipergeomtrica central, dada por
f (y1 |m; = 1) =
n2
n1
y1 my1

n1 +n2
m
cuja mdia e varincia so, respectivamente,
E(1) = E(Y1 |m; = 1) =

e
V(1) = Var(Y1 |m; = 1) =
mn1
n
n1 n2 (n m)m
.
n2 (n 1)
Para o modelo condicional (3.5) o logaritmo da funo de verossimilhana fica dado por
(
X n1 n2
t
L() y1 log log
m
t
t
t
Denotaremos por a estimativa de mxima verossimilhana condicional.

Essa estimativa pode ser expressa como a soluo positiva da equao y1 =
Temos que o momento de ordem r da distribuio condicional,
E(Y1 |m; ).
E(Y1r |m; ) dado por E(Y1r |m; ) = Pr ()/P0 (), em que

X n1 n2
t , r = 1, 2, . . .
Pr () =
tr
m
t
t
t
P n1 n2 t
. Assim, a equao de mxima verossimilhana
e P0 () =
t t
mt
para obtermos fica reescrita na forma
y1
P1 ()
= 0.
P0 ()
189
(3.6)

Com o aumento de n1 , n2 , m e n m, fica impraticvel obtermos atravs de
(3.6), uma vez que essa equao contm polinmios em de grau bastante
elevado. Uma sada, nesses casos, resolvermos (3.6) atravs de mtodos
numricos que no requerem a extrao das razes do polinmio P1 ()P01 ()
(ver McCullagh e Nelder, 1989, p. 256 ; Silva, 1992).
consideremos a tabela abaixo.
Para ilustrarmos a obteno de ,
A B Total
1 3
4
1 2
3
Temos, nesse caso, que n1 = 4, n2 = 3 e m = 2. A distribuio condicional

fica ento dada por

X 4 3
3
4
y1
/
t,
f (y1 |m; ) =
t
2
t
2 y1
y1
t
em que o somatrio varia no intervalo 0 t 2. Isso resulta nas probabilidades condicionais
f (0|m; ) = 3/{3 + 12 + 6 2 }
f (1|m; ) = 12/{3 + 12 + 6 2 } e
f (2|m; ) = 6 2 /{3 + 12 + 6 2 }.
= y1 fica ento dada por
A equao E(Y1 |m; )
12 + 122 = 3 + 12 + 62 ,
que equivalente a 62 = 3 ou = 0, 707.
Similarmente ao estimador no condicional, podemos mostrar para
grandes amostras que segue uma distribuio normal de mdia e va = V1 (), em que
rincia assinttica Var()
A
190
1
1
1
1
VA () =
+
+
+
EA () n1 EA () m EA () n2 m + EA ()
1
,
e EA () sai da equao
EA (){n2 m + EA ()}
= ,
(3.7)
{n1 EA ()}{m EA ()}
que para fixo resulta numa equao quadrtica em EA (). Mostramos,
para 6= 1, que a nica raiz de (3.7) que satisfaz max(0, m n2 ) EA ()
min(n1 , m) dada por
EA () = ||r| s|,
em que r = 21 [n/( 1) + m + n1 ] e s = [r2 mn1 /( 1)]1/2 .
Formalmente, podemos dizer que sob condies gerais de regularidade e
assumindo ainda que n1 , n2 , m e nm so grandes, vale o seguinte resultado:
n( ) d N(0, VC ()),
Logo, a varincia assinttica VC ()

em que VC () = limn nVar().
consistentemente estimada por nVar().

Quando = 1, a expresso (3.7) no resulta numa forma quadrtica
em EA (). Verificamos facilmente, nesse caso, que
EA (1) =
mn1
n
n1 n2 m(n m)
.
n3
quando = 1,
Podemos notar que a mdia e a varincia assinttica de ,
VA (1) =
coincidem praticamente com a mdia e a varincia da distribuio condicional

dada em (3.5).
191
3.2.4 Teste de hipteses

Testes exatos
Uma vez conhecida a distribuio condicional que depende apenas do parmetro de interesse , podemos desenvolver testes exatos para pequenas amostras. Um caso de interesse seria testarmos H0 : = 0 contra H1 : < 0 ,
em que 0 um valor conhecido. O nvel descritivo do teste, isto , a probabilidade sob H0 de obteno de valores to ou mais desfavorveis a H0 (no
sentido de H1 ) definido por
PI =
f (t|m; 0 ),
ty1
em que o somatrio vai de max(0, m n2 ) at y1 . Analogamente, para

P
testarmos H0 : = 0 contra H1 : > 0 , teremos PS = ty1 f (t|m; 0 ).
Nesse caso, o somatrio vai de y1 at min(n1 , m). Para o teste bilateral, H0 :
= 0 contra H1 6= 0 , o nvel descritivo definido por P= 2min{PI , PS }.
Em particular, quando fazemos 0 = 1, estamos objetivamente tes-
tando a no existncia de associao entre o fator e a doena, sendo o teste

resultante conhecido como teste exato de Fisher (ver, por exemplo, Everitt,
1977). Nesse caso, o nvel descritivo obtido computando as probabilidades
da distribuio hipergeomtrica central.
Podemos tambm utilizar o modelo condicional (3.5) para a estimao
intervalar de . Os respectivos limites de confiana sero baseados em PI
e PS e denotados por I e S , respectivamente. Como ilustrao, vamos
supor que estamos interessados em construir um intervalo de confiana de
coeficiente (1 ) para . Os limites I e S ficam ento, invertendo a
regio crtica do teste H0 : = 0 contra H1 : 6= 0 , determinados pelas
equaes
192

X
X
=
=
f (t|m; S ) e
f (t|m; I ),
2 ty
2 ty
1
que so polinmios de grau elevado em S e I medida que os tamanhos

amostrais crescem, o que praticamente inviabiliza a soluo dessas equaes.
Nesses casos, a sada procurarmos intervalos assintticos.
Voltando tabela da seo anterior, vamos supor que queremos testar
H0 : = 1 contra H1 : 6= 1. Temos ento os nveis descritivos PI =
f (0|m; = 1) + f (1|m; = 1) = 15/21 e PS = f (1|m; = 1) + f (2|m; =

1) = 18/21 o que leva a P= 1, 0. Por outro lado, os limites I e S ficam
dados por
1
X
X
=
=
f (t|m; S ) e
f (t|m; I )
2
2
t=0
t=1
que equivalente, supondo = 0, 20, a
0, 10 = f (0|m; S ) + f (1|m; S ) e 0, 10 = f (1|m; I ) + f (2|m; I ),

que levam s equaes
4I + 2I2
(I = 0, 0274)
0, 10 =
1 + 4I + 22
I
e
0, 10 =
1 + 4S
(S = 18, 25).
2
1 + 4 S + 2
S
Testes assintticos
Para grandes amostras, n1 , n2 , m e n m grandes, a distribuio condicional
(3.5) se aproxima de uma distribuio normal de mdia EA () e varincia

193

VA () (ver Hannan e Harkness, 1963). Esse fato tem sido utilizado para o
desenvolvimento de testes assintticos para testarmos H0 : = 0 contra
H1 : 6= 0 (H1 : > 0 ou H1 : < 0 ). No caso de H1 : 6= 0 ,
utilizamos a estatstica qui-quadrado dada abaixo
{y1 EA (0 )}2
,
(3.8)
X =
VA (0 )
que sob H0 segue assintoticamente uma distribuio qui-quadrado com 1 grau
2
de liberdade. Para H1 : < 0 e H1 : > 0 , o nvel descritivo dado por

(
)
y1 EA (0 )
PI = P r Z p
VA (0 )
(
)
y1 EA (0 )
PS = P r Z p
,
VA (0 )
respectivamente, em que Z segue um distribuio N(0, 1). Em particular,

quando 0 = 1, a estatstica qui-quadrado (3.8) fica reduzida forma conhecida
2
1
y1 mn
n
X =
.
(3.9)
n1 n2 m(n m)/n3
Um intervalo assinttico de confiana para pode ser obtido utilizando
Os limites desse intervalo so dados por
a distribuio assinttica de log.
q
logI = log z(1/2) VarA (log)

2
logS = log + z(1/2)
VarA (log),
em que z(1/2) o percentil (1 /2) da distribuio normal padro. Esses
limites podem ser expressos em uma outra forma, levando em conta a estatstica qui-quadrado para testarmos H0 : = 1 contra H1 : 6= 1. Essa
194
3.3 Mtodos clssicos: k tabelas 2 2

estatstica dada por
X2 =
2
(log)
,
VarA (log)
(3.10)
que segue, para grandes amostras, uma distribuio qui-quadrado com 1 grau
de liberdade. Assim, os limites ficam reexpressos nas formas
I = (1z(1/2) /X)
e
S = (1+z(1/2) /X) .
Alguns autores (ver Breslow e Day, 1980, p. 135) tm constatado que para
n1 = n2 a probabilidade de cobertura do intervalo (I , S ) em geral menor
do que o valor nominal utilizado. Por outro lado, quando n1 e n2 so muito
diferentes, essa probabilidade de cobertura superestimada. Uma sugesto,
nesses casos, utilizarmos o valor de X obtido do teste condicional (3.9) em
vez do valor obtido do teste no condicional (3.10).

Muitas vezes temos interesse em controlar a associao entre dois fatores binrios atravs de um terceiro fator, comumente chamado de fator de confundimento. O principal objetivo com esse tipo de estratificao eliminarmos
ou pelo menos reduzirmos a influncia desses fatores na associao de interesse. Uma maneira mais eficiente de controlarmos fatores de confundimento
atravs da regresso logstica, que ser discutida na Seo 3.6. Nesta seo, assumiremos apenas um fator de confundimento com k nveis, que so
amostrados ni indivduos no i-simo estrato (n1i casos e n2i controles) e que
os mesmos so classificados conforme a tabela 2 2 abaixo.
195
Doena
D
Fator
A
B
y1i n1i y1i
y2i n2i y2i
Total
n1i
n2i
Seguindo a mesma notao das sees anteriores temos que as estimativas

no condicional e condicional de i so, respectivamente, tais que
P1i (i )
y1i (n2i y2i )
e y1i
i =
= 0.
y2i (n1i y1i )
P0i (i )
As propriedades assintticas de i e i so as mesmas de e da Seo 3.2,
bem como as formas dos testes de hipteses e da estimao intervalar.
3.3.1 Estimao da razo de chances comum

Um teste de interesse quando h k tabelas de contingncia 2 2 verificar-
mos a no existncia de interao entre os estratos, isto , verificarmos se a
associao entre o fator e a doena no muda de um estrato para o outro.

Isso equivalente a verificarmos se as razes de chances so homogneas, ou
seja, testarmos as hipteses
H0 : 1 = = k
H1 : pelo menos dois valores diferentes.
H vrias propostas de estimativas para a razo de chances comum. As
estimativas de mxima verossimilhana no condicional e condicional sero
respectivamente. A primeira estimativa pode ser obdenotadas por e ,
tida facilmente atravs do ajuste de uma regresso logstica, enquanto que a
segunda mais complexa do ponto de vista computacional e ser omitida.
Duas estimativas no iterativas foram propostas por Mantel e Haenszel
(1959) e Wolf (1955), as quais sero denotadas por M H e W , respectiva196

mente. A estimativa de Mantel-Hanszel definida por
Pk
y1i (n2i y2i )/ni
M H = Pi=1
,
k
y
(n
y
)/n
2i
1i
1i
i
i=1
e pode tambm ser expressa como uma mdia ponderada de estimativas no

condicionais
Pk
vi i
M H = Pi=1
,
k
i=1 vi
em que vi = y2i (n1i y1i )/ni . O estimador de Mantel-Hanszel consistente

e assintoticamente normal com varincia assinttica dada por
VarA (M H ) = 2
k
X
ai i1 /(
i=1
k
X
ai ) 2 ,
i=1
em que i = {n1i 1i (1 1i )}1 + {n2i 2i (1 2i )}1 e ai = n1i n2i (1
1i )2i /ni . A estimativa de Wolf dada por

W = exp
Pk
i=1 ui logi
Pk
i=1 ui
em que ui = {1/y1i + 1/(n1i y1i ) + 1/y2i + 1/(n2i y2i )}1 . Esse estimador
tambm consistente e assintoticamente normal com varincia dada por
VarA (W ) = 2 1 ,
M H e W de comum
em que = 1 + + k . Para as estimativas ,
assumimos o modelo no condicional para os dados.
3.3.2 Testes de homogeneidade

Suponha que estamos interessados em testar as hipteses H0 e H1 definidas
na seo anterior. A estatstica da razo de verossimilhanas que assume o
produto de 2k binomiais independentes a mais utilizada nesse caso. Do
197

ponto de vista de anlise preliminar dos dados, duas estatsticas tm sido
sugeridas. A primeira delas, proposta por Hosmer e Lemeshow (1989, p.
74), definida abaixo
2
XHL
k
X
i=1
i (logi logW )2 ,
que segue, sob H0 e assintoticamente (para n1i e n2i grandes, i), uma dis-
tribuio qui-quadrado com k 1 graus de liberdade. A outra estatstica,
definida em Breslow e Day (1980, p. 42), baseada no modelo condicional,

sendo dada por
2
XBD
k
X
{y1i EAi (M H )}2
=
,
VA (M H )
i=1
que tambm segue, sob H0 e para grandes amostras, uma distribuio quiquadrado com k 1 graus de liberdade. A novidade, nesse caso, a utilizao
da estatstica no iterativa de Mantel-Hanszel no lugar da estimativa condi

cional .
Quando a hiptese nula no rejeitada, um teste imediato verificar-
mos a no existncia de associao entre o fator e a doena, mantendo apenas

o efeito da estratificao. Esse teste, conhecido como teste de Mantel-Hanszel
(1959), utiliza a seguinte estatstica:
P
P
{( ki=1 y1i ki=1 EAi (1))}2
2
,
XM H =
Pk
i=1 VAi (1)
que, sob H0 : = 1, segue para grandes amostras (ni grande i ou para
k grande) uma distribuio qui-quadrado com 1 grau de liberdade. Similarmente ao caso de uma nica tabela 2 2, um intervalo assinttico de
confiana para com coeficiente de confiana (1 ) fica dado por
(1z
(I , S ) = M H (1/2)
em que XM H =
p
2
XM
H.
198
/XM H )
3.4 Mtodos clssicos: tabelas 2 k

A dicotomizao de um fator com mais de 2 nveis, a fim de deixarmos
mais simples o estudo da associao entre esse fator e uma determinada
doena, pode omitir informaes relevantes acerca da associao de cada um
dos nveis agrupados e a doena em estudo. Assim, sempre que possvel,
devemos manter para as anlises o maior nmero possvel de nveis do fator.
Uma tabela resultante, nesse caso, dada abaixo.
Doena
D
Nvel 1
y11
y21
Fator
Nvel 2
y12
y22
Nvel k
Pk1
n1 i=1
y
Pk1 1i
n2 i=1 y2i
Total
n1
n2
Analogamente ao caso de uma nica tabela 22, assumimos que so amostra e que (Yi1 , . . . , Yik )T
dos n1 elementos do estrato D e n2 elementos do estrato D
segue uma distribuio multinomial de parmetros (i1 , . . . , ik )T , com ik =
Pk1
1 j=1
ij , i = 1, 2. Comumente, para analisarmos as associaes entre
os nveis do fator e a doena, definimos um nvel do fator como referncia,
que formar com os demais as razes de chances. Escolhendo o nvel 1 como

referncia, as razes de chances ficam dadas por
1 = 1 e j =
1j 21
, j = 2, . . . , k,
2j 11
em que j a razo de chances entre o nvel j e o nvel 1 do fator. As

anlises inferenciais atravs do uso do modelo multinomial so tratadas em
textos correntes de anlise de dados categorizados (ver, por exemplo, Agresti,
1990). Aqui, nos concentraremos no estudo do modelo condicional, que
obtido aps o condicionamento de (Yi1 , . . . , Yik )T , i = 1, 2, nas estatsticas
suficientes minimais Y1j + Y2j = mj , j = 1, , k. O modelo resultante
caracterizado pela distribuio hipergeomtrica multivariada no central
199

que depende apenas dos parmetros de interesse 1 , . . . , k (ver McCullagh
e Nelder, 1989, p. 261). Em particular, a hiptese de ausncia de associao
completa entre os nveis do fator e a doena definida por H0 : j = 1, j, que
ser avaliada atravs da distribuio hipergeomtrica central k-dimensional,
cuja funo de probabilidades o produto de k distribuies hipergeomtricas

centrais
f (y1 |m; = 1) =
k
Y
j=1
n2j
n1j
mj y1j
y1j

n1j +n2j
mj
(3.11)
em que y1 = (y11 , . . . , y1k )T , m = (m1 , . . . , mk )T e = (1 , . . . , k )T . A

mdia, varincia e covarincia correspondentes distribuio (3.11) so, respectivamente, dadas por
Ej (1) = E(Y1j |mj ; = 1) =
Vj (1) = Var(Y1j |mj ; = 1) =
e
m j n1
,
n
n1 n2 (n mj )mj
n2 (n 1)
Cj = Cov(Y1j , Y1 |mj , m ; = 1) =
m j m n1 n2
, j 6= ,
n2 (n 1)
em que n = n1 + n2 . Um teste estatstico para H0 , que tem sido largamente

utilizado para testarmos a homogeneidade de k propores (Armitage, 1971),
dado por
XA2

k
(n 1) X
1
1
2
=
+
{y1j Ej (1)}
n
E
(1)
mj Ej (1)
j
j=1
k

1 X {y1j Ej (1)}2
1
+
,
= (n 1)
n1 n2 j=1
mj
(3.12)
que segue, sob H0 e para valores grandes de n1 , n2 e mj , j, uma distribuio
qui-quadrado com k 1 graus de liberdade. Entretanto, quando os nveis do
fator so quantitativos ou qualitativos ordinais, pode ser mais informativo

200
3.5 Aplicaes
o uso de um teste para a tendncia do risco da doena com o aumento dos
nveis do fator. Como ilustrao, vamos supor que h k doses xj , j = 1, . . . , k,
associadas aos k nveis do fator. Um teste apropriado considerarmos a
regresso dos desvios {y1j Ej (1)} sobre xj (Armitage, 1955; Mantel, 1963).
A estatstica correspondente fica dada por
P
n2 (n 1)[ kj=1 xj {y1j Ej (1)}]2
2
XHOM =
,
P
P
n1 n2 {n kj=1 x2j mj ( kj=1 xj mj )2 }
(3.13)
que segue, para grandes amostras e sob H0 , uma distribuio qui-quadrado
com k 1 graus de liberdade.
Uma outra maneira de analisarmos a associao entre o fator e a doena
atravs da amostragem nos k nveis do fator de interesse. Nesse caso,

a distribuio resultante um produto de k binomiais independentes e a
hiptese de ausncia de associao entre o fator e a doena pode ser avaliada
atravs do ajuste de uma regresso logstica, que ser discutida na Seo 3.6.
Por outro lado, se tambm forem fixados os totais n1 e n2 , a distribuio
condicional resultante uma hipergeomtrica no central k-dimensional que
sob H0 fica reduzida a (3.11). Logo, as estatsticas dadas em (3.12) e (3.13)
podem ser aplicadas, pelo menos numa anlise preliminar dos dados, para
avaliarmos a ausncia de associao total entre o fator e a doena.
Generalizaes de (3.12) e (3.13) para o caso de h estratos so dadas
em Breslow e Day (1980, pgs. 148-149).
3.5 Aplicaes
3.5.1 Associao entre fungicida e desenvolvimento de tumor
Como ilustrao, analisaremos o conjunto de dados apresentado em Innes et
al. (1969), referente a um estudo para avaliar o possvel efeito cancergeno
201
3.5 Aplicaes
do fungicida Avadex. No estudo, 403 camundongos so observados. Desses,
65 receberam o fungicida e foram acompanhados durante 85 semanas, verificando o desenvolvimento ou no de tumor cancergeno. Os demais animais
no receberam o fungicida (grupo controle) e tambm foram acompanhados
pelo mesmo perodo, verificando a ocorrncia ou no de tumor. Dois fatores
potenciais de confundimento, sexo e raa, foram considerados nas anlises.
Os dados do experimento so resumidos na Tabela 3.1.
Tabela 3.1
Classificao dos camundongos quanto a raa (R1 ou R2),
sexo, grupo e ocorrncia ou no de tumor cancergeno.
Estrato
Grupo
Com tumor Sem tumor
Total
Tratado
4
12
16
R1-Macho Controle
5
74
79
Total
9
86
95
R2-Macho
Tratado
Controle
Total
2
3
5
14
84
98
16
87
103
R1-Fmea
Tratado
Controle
Total
4
10
14
14
80
94
18
90
108
R2-Fmea
Tratado
Controle
Total
1
3
4
14
79
93
15
82
97
Em virtude dos valores relativamente altos das marginais das quatro

tabelas 2 2 formadas pela combinao dos fatores sexo e raa, procedemos
inicialmente uma anlise atravs do modelo no condicional. Temos ento, na
primeira coluna da Tabela 3.2, as estimativas pontuais das razes de chances
de tumor maligno entre o grupo tratado e o grupo controle. Na segunda
202
3.5 Aplicaes
coluna apresentamos os intervalos assintticos de 95% para . Notamos que,
embora todas as estimativas sinalizem para uma associao positiva, apenas
o primeiro intervalo de confiana no cobre o valor = 1, evidenciando
associao apenas no primeiro estrato, ao nvel de 5%.
2
O teste de homogeneidade das razes de chances forneceu XBD
= 0, 867
(3 g.l. e P= 0, 833), indicando fortemente pela no rejeio da ausncia de

2
interao entre os estratos. J o teste de Mantel-Hanszel forneceu XM
H =
8, 289 (1 g.l. e P= 0, 004), indicando pela rejeio da hiptese de razo de

chances comum igual a um, isto , de que h fortes indcios de associao
entre os grupos controle e tratado. As estimativas de comum deram M H =
3, 079 e W = 3, 109, com intervalo assinttico de confiana de 95% dado por
[1, 43; 6, 62].
Tabela 3.2
Estimativas das razes de chances de tumor
cancergeno nos estratos de camundongos.
Estrato
Estimativa Intervalo assinttico
R1-Macho
4,93
[1,28 ; 18,97]
R2-Macho
4,00
[0,69 ; 23,09]
R1-Fmea
2,29
[0,64 ; 8,14]
R2-Fmea
1,88
[0,19 ; 48,87]
3.5.2 Efeito de extrato vegetal

Consideremos agora parte dos dados de um experimento (ver Paula, Sevanes e Ogando, 1988) conduzido para avaliarmos o efeito de diversos extratos
vegetais na mortalidade de embries de Biomphalaria Glabrata (hospedeiro
da equistossomose). Para o extrato vegetal aquoso frio de folhas de P. Hyrsiflora consideramos um total de k = 7 grupos sendo que os ni embries do
i-simo grupo foram submetidos a uma dose xi (ppm) do extrato vegetal,
203
3.6 Regresso logstica linear

observando aps o 20o dia o nmero de embries mortos. Os dados so resumidos na Tabela 3.3. Para aplicarmos o teste de tendncia dado em (3.13),
devemos considerar que n = 50 + + 50 = 350, n1 = y1 + + y7 = 178,
n2 = n n1 = 172 e mi = 50, i. Assim, obtemos Ei (1) = 25, 43 para
2
i = 1, . . . , 7. A estatstica forneceu o valor XHOM
= 131, 82, que altamente
significativo, indicando uma forte tendncia crescente para a proporo de

mortes com o aumento da dose.
Tabela 3.3
Distribuio dos embries segundo
os nveis de exposio do estrato
vegetal aquoso.
xi
0 15 20 25 30 35 40
mi 50 50 50 50 50 50 50
yi
4 5 14 29 38 41 47

3.6.1 Introduo
A regresso logstica tem se constitudo num dos principais mtodos de modelagem estatstica de dados. Mesmo quando a resposta de interesse no
originalmente do tipo binrio, alguns pesquisadores tm dicotomizado a resposta de modo que a probabilidade de sucesso possa ser ajustada atravs da
regresso logstica. Isso ocorre, por exemplo, em anlise de sobrevivncia discreta em que a resposta de interesse o tempo de sobrevivncia, no entanto,
em algumas pesquisas, a funo de risco tem sido ajustada por modelos logsticos. Tudo isso se deve, principalmente, pela facilidade de interpretao
dos parmetros de um modelo logstico e tambm pela possibilidade do uso
desse tipo de metodologia em anlise discriminante.
204

Embora a regresso logstica seja conhecida desde os anos 50, foi atravs de Cox (1970) (ver tambm Cox e Snell, 1989) que a regresso logstica
ficou popular entre os usurios de Estatstica. Nesta seo apresentamos alguns resultados relacionados com o modelo logstico linear que completam o
que foi apresentado no Captulo 1, onde vimos esse modelo como um caso
particular de modelos lineares generalizados.
3.6.2 Regresso logstica simples

Vamos considerar inicialmente o modelo logstico linear simples em que (x),
a probabilidade de sucesso"dado o valor x de uma varivel explicativa qualquer definida tal que
log
(x)
1 (x)
= + x,
(3.14)
em que e so parmetros desconhecidos. Esse modelo poderia, por exemplo, ser aplicado para analisar a associao entre uma determinada doena e
a ocorrncia ou no de um fator particular. Seriam ento amostrados, independentemente, n1 indivduos com presena do fator (x=1) e n2 indivduos
com ausncia do fator (x=0) e (x) seria a probabilidade de desenvolvimento
da doena aps um certo perodo fixo. Dessa forma, a chance de desenvolvimento da doena para um indivduo com presena do fator fica dada por
(1)
= e+ ,
1 (1)
enquanto que a chance de desenvolvimento da doena para um indivduo com

ausncia do fator simplesmente
(0)
= e .
1 (0)
Logo, a razo de chances fica dada por

=
(1){1 (0)}
= e ,
(0){1 (1)}
205

dependendo apenas do parmetro . Mesmo que a amostragem seja retrospectiva, isto , so amostrados n1 indivduos doentes e n2 indivduos no doentes, o resultado acima continua valendo. Essa uma das grandes vantagens
da regresso logstica, a possibilidade de interpretao direta dos coeficientes
como medidas de associao. Esse tipo de interpretao pode ser estendido
para qualquer problema prtico.
Vamos supor agora que temos dois estratos representados por x1 (x1 =
0 estrato 1, x1 = 1 estrato 2) e que so amostrados do estrato 1 n11 indivduos com presena do fator e n21 indivduos com ausncia do fator e n12
e n22 , respectivamente, do estrato 2. A probabilidade de desenvolvimento
da doena ser denotada por (x1 , x2 ), com x2 (x2 =1 presena do fator,
x2 = 0 ausncia do fator). Temos aqui quatro parmetros a serem estimados, (0, 0), (0, 1), (1, 0) e (1, 1). Logo, qualquer reparametrizao dever
ter no mximo quatro parmetros (modelo saturado).
Vamos considerar ento a seguinte reparametrizao:

(x1 , x2 )
= + x1 + x2 + x1 x2 ,
log
1 (x1 , x2 )
em que representa o efeito do estrato, o efeito do fator e a interao
entre estrato e fator. Para entendermos melhor essa reparametrizao, vamos
calcular as razes de chances em cada estrato
1 =
e
2 =
(0, 1){1 (0, 0)}

= e
(0, 0){1 (0, 1)}
(1, 1){1 (1, 0)}

= e+ .
(1, 0){1 (1, 1)}
Assim, a hiptese de homogeneidade das razes de chances (H0 : 1 = 2 )

equivalente hiptese de no interao (H0 : = 0). Portanto, a ausncia
de interao entre fator e estrato significa que a associao entre o fator e a
206

doena no muda de um estrato para o outro. Contudo, pode haver efeito
de estrato. Como ilustrao nesse caso, vamos supor que no rejeitamos a
hiptese H0 : = 0. Assim, o logaritmo da chance de desenvolvimento da
doena fica dado por
log
(x1 , x2 )
1 (x1 , x2 )
= + x1 + x2 ,
ou seja, o mesmo nos dois estratos a menos da quantidade . Isso quer dizer
que mesmo no havendo interao entre os dois estratos (razo de chances
constante), as probabilidades de desenvolvimento da doena podem estar em
patamares diferentes. Num estrato essas probabilidades so maiores do que
no outro estrato. Essas interpretaes podem ser generalizadas para trs ou
mais tabelas.
Aplicao
Como ilustrao, vamos considerar novamente o exemplo descrito na Seo
3.5.1, supondo que agora temos apenas os estratos macho e fmea. Os dados
so resumidos na Tabela 3.4 e no arquivo camundongos.dat.
Tabela 3.4
Classificao de camundongos segundo sexo, grupo e
ocorrncia de tumor.
Macho
Fmea
Tumor Tratado Controle
Tratado Controle
Sim
6
8
5
13
No
26
158
28
159
Total
32
166
33
172
Denotamos por (x1 , x2 ) a probabilidade de desenvolvimento de tumor dados x1 (x1 =1 macho, x1 =0 fmea) e x2 (x2 =1 tratado, x2 =0 controle). Para testarmos a hiptese de ausncia de interao (H0 : = 0)
207

0 ) = 0, 832 com os
comparamos o desvio do modelo sem interao D(y;
percentis da distribuio qui-quadrado com 1 grau de liberdade (temos que
o desvio do modelo saturado zero). O nvel descritivo obtido dado por
P= 0, 362, indicando pela no rejeio da hiptese de homogeneidade das razes de chances. Assim, ajustamos o modelo sem interao. As estimativas
resultantes so apresentadas na Tabela 3.5.
Tabela 3.5
logstico ajustado aos dados sobre
ocorrncia de tumor em camundongos.
Efeito
Constante
-2,602
-9,32
Estrato
-0,241
-0,64
Tratamento
1,125
2,81
Os nveis descritivos dos testes para H0 : = 0 e H0 : = 0 so, respectivamente, dados por P= 0, 005 e P= 0, 520, indicando fortemente pela
presena de associao entre a exposio ao fungicida e o desenvolvimento
de tumor e que as probabilidades de desenvolvimento de tumor no so diferentes entre os dois estratos.
Temos que = e , logo um intervalo assinttico de confiana para

com coeficiente (1 ), ter os limites
(I , S ) = exp{ z(1/2)
Var()}.
Para o exemplo acima e assumindo um intervalo de 95%, esses limites ficam

dados por [1, 403; 6, 759].
O valor observado da varivel explicativa no modelo logstico dado
em (3.14) pode representar o valor de alguma varivel quantitativa qualquer
como, por exemplo, a dose ou a log-dose de uma determinada droga. Nesse
208

caso, faz sentido calcularmos a chance de um indivduo que recebeu a dose
x , ser curado, em relao a um outro indivduo que recebeu a dose x. A
razo de chances de cura, entre os dois nveis, fica dada por
(x x) =
(x ){1 (x)}
= exp{(x x)}.
(x){1 (x )}
Portanto, log(x x) proporcional diferena entre as duas doses. Se > 0,

temos que a chance de cura aumenta com o aumento da dose e se < 0 ocorre
o contrrio. Essa interpretao pode ser estendida para qualquer varivel
explicativa quantitativa.
3.6.3 Regresso logstica mltipla

Vamos considerar agora o modelo geral de regresso logstica

(x)
log
= 1 + 2 x2 + + p xp ,
1 (x)
em que x = (1, x2 , . . . , xp )T contm os valores observados de variveis explica pode
tivas. Como vimos na Seo 1.6.1, o processo iterativo para obtermos
ser expresso como um processo iterativo de mnimos quadrados reponderados
(m+1) = (XT V(m) X)1 XT V(m) z(m) ,
em que V = diag{1 (1 1 ), . . . , n (1 n )}, z = (z1 , . . . , zn )T a varivel
dependente modificada, zi = i + (yi i )/i (1 i ), m = 0, 1, . . . e i =
1, . . . , n. Para dados agrupados (k grupos), substitumos n por k, V =

diag{n1 1 (1 1 ), . . . , nk k (1 k )} e zi = i + (yi ni i )/{ni i (1 i )}.
Assintoticamente, n no primeiro caso e para

Np (0, (XT VX)1 ).
caso,
ni
n
ai > 0 no segundo
Uma interpretao interessante pode ser dada para as razes de chances
quando temos (q 1)(q p) das (p1) variveis explicativas do tipo binrio.

209

Como ilustrao, vamos supor q = 4 e que x2 (x2 = 1 presena, x2 = 0
ausncia) e x3 (x3 = 1 presena, x3 = 0 ausncia) representam dois fatores.
Vamos supor ainda que x4 = x2 x3 representa a interao entre os dois fatores.
O modelo fica ento dado por

p
X
(x)
xj j .
log
= 1 + 2 x2 + 3 x3 + 4 x4 +
1 (x)
j=5
Denotaremos por ij a razo de chances entre um indivduo na condio
(x2 = i, x3 = j) em relao a um indivduo na condio (x2 = 0, x3 =
0), para i, j = 0, 1, supondo que os dois indivduos tm os mesmos valores
observados para as demais (p 4) variveis explicativas. Assim, podemos
mostrar facilmente que
10 = exp(2 ),
01 = exp(3 ) e 11 = exp(2 + 3 + 4 ).
Portanto, testarmos a hiptese H0 : 4 = 0 (ausncia de interao) equivalente a testarmos a hiptese de efeito multiplicativo H0 : 11 = 10 01 . Em
particular, se x3 representa dois estratos (x3 = 0, estrato 1; x3 = 1, estrato
2), a razo de chances no primeiro estrato entre presena e ausncia do fator
fica dada por 10 = exp(2 ), enquanto que no segundo estrato essa razo de
chances vale 11 /01 = exp(2 + 4 ). Logo, testarmos H0 : 4 = 0 equivale
tambm a testarmos a hiptese de homogeneidade das razes de chances nos
dois estratos.
3.6.4 Bandas de confiana

Como foi visto na Seo 1.8.2 uma banda assinttica de confiana de coeficiente 1 pode ser construda para (z), z IRp (ver tambm Piegorsch
Np (0, (XT VX)1 ). Logo, uma
e Casella, 1988). Assintoticamente
banda assinttica de confiana de coeficiente 1 para o preditor linear
210

zT , z IRp , fica dada por
zT
c {zT (XT VX)1 z}1/2 , z IRp ,
em que c tal que P r{2p c } = 1 . Aplicando a transformao logito
podemos, equivalentemente, encontrar uma banda de confiana de coeficiente

1 para (z), dada por
c {zT (XT VX)1 z}1/2 ]

exp[zT
, z IRp .
T
T
T
1
1/2
1 + exp[z c {z (X VX) z} ]
importante observarmos que z um vetor p 1 que varia livremente no
IRp , enquanto X uma matriz fixa com os valores das variveis explicativas.
3.6.5 Seleo de modelos

Uma vez definido o conjunto de covariveis (ou fatores) a ser includo num
modelo logstico, resta saber qual a melhor maneira de encontrarmos um modelo reduzido que inclua apenas as covariveis e interaes mais importantes
para explicarmos a probabilidade de sucesso (x). Esse problema poderia
ser resolvido pelos mtodos usuais de seleo de modelos discutidos na Seo 1.11. Contudo, a questo de interpretao dos parmetros crucial num
modelo logstico, implicando que uma forma puramente mecnica de seleo
pode levar a um modelo sem sentido e de difcil interpretao. Particularmente, a incluso de certas interaes impe a permanncia no modelo de
seus respectivos efeitos principais de ordem inferior, na tica do princpio hierrquico. Muitas vezes, variveis consideradas biologicamente importantes
no devem ser deixadas de lado pela sua falta de significncia estatstica.
Assim, a seleo de um modelo logstico deve ser um processo conjugado de
seleo estatstica de modelos e bom senso.
211
Mtodo stepwise
Um dos mtodos mais aplicados em regresso logstica o mtodo stepwise.
O mtodo, como foi visto na Seo 1.11, baseia-se num algoritmo misto de
incluso e eliminao de variveis explicativas segundo a importncia das
mesmas de acordo com algum critrio estatstico. Esse grau de importncia
pode ser avaliado, por exemplo, pelo nvel de significncia do teste da razo
de verossimilhanas entre os modelos que incluem ou excluem as variveis em
questo. Quanto menor for esse nvel de significncia tanto mais importante
ser considerada a varivel explicativa. Como a varivel mais importante por
esse critrio no necessariamente significativa do ponto de vista estatstico,
devemos impor um limite superior PE (os valores usuais esto no intervalo
[0, 15; 0, 25]) para esses nveis descritivos, a fim de atrairmos candidatos importantes em princpio entrada.
Dado que a incluso de novas variveis explicativas num modelo pode
tornar dispensveis outras variveis j includas, faremos a verificao da
importncia dessas variveis confrontando os seus respectivos nveis com um
limite superior PS . As variveis explicativas com um nvel descritivo maior
do que PS sero assim candidatas remoo.
Descrevemos a seguir uma variante desse algoritmo usada por Hosmer
e Lemeshow (1989, Cap. 3) (ver tambm Silva, 1992). A etapa inicial comea
com o ajustamento do modelo apenas com o intercepto e completada pelos
passos seguintes:
1. construmos testes da razo de verossimilhanas entre o modelo inicial
e os modelos logsticos simples formados com cada uma das variveis
explicativas do estudo. O menor dos nveis descritivos associados a cada
teste ser comparado com PE . Se PE for maior, inclumos a varivel
referente quele nvel e passamos ao passo seguinte; caso contrrio,
212

paramos a seleo e adotamos o ltimo modelo;
2. partindo do modelo incluindo a varivel explicativa selecionada no
passo anterior, introduzimos individualmente as demais variveis. Cada
um desses novos modelos testado contra o modelo inicial desse passo.
Novamente, o menor valor dos nveis descritivos comparado com PE .
Se for menor do que PE , implica na incluso no modelo da varivel correspondente e a passagem ao passo seguinte. Caso contrrio, paramos
a seleo;
3. comparamos o desvio do modelo logstico contendo as variveis selecionadas nos passos anteriores com os desvios dos modelos que dele resultam por excluso individual de cada uma das variveis. Se o maior nvel descritivo dos testes da razo de verossimilhanas for menor do que
PS , a varivel explicativa associada a esse nvel descritivo permanece
no modelo. Caso contrrio, ela removida. Em qualquer circunstncia,
o algoritmo segue para o passo seguinte;
4. o modelo resultante do passo anterior ser ajustado, no entanto, antes de tornar-se o modelo inicial da etapa 2 (seleo de interaes de
primeira ordem entre as variveis explicativas includas), avaliamos a
significncia de cada um dos coeficientes das variveis selecionadas, por
exemplo atravs de um teste de Wald. Se alguma varivel explicativa
no for significativa podemos exclu-la do modelo;
5. uma vez selecionadas as variveis explicativas mais importantes", ou
os efeitos principais, damos entrada na etapa 2 com o passo 1 que
agora envolve apenas interaes de primeira ordem entre as variveis
selecionadas, e assim por diante.
213

comum que algumas variveis explicativas ou interaes de interesse ou
com algum significado no estudo sejam mantidas no modelo desde o incio,
mesmo que no sejam significativas. tambm comum que a seleo de
interaes seja feita dentre aquelas de interesse ou com algum significado no
problema.
Uma desvantagem do procedimento descrito pelos passos 1-5 de exigir as estimativas de mxima verossimilhana em cada passo, o que encarece
o trabalho computacional, particularmente quando h muitas variveis explicativas (ou fatores). Alguns autores tm sugerido aproximaes para esse
processo de seleo. O aplicativo cientfico BMDP (Dixon, 1987) usa aproximaes lineares nos testes da razo de verossimilhanas. Peduzzi, Hardy
e Holford (1980) apresentam uma variante desse mtodo baseada no uso da
estatstica de Wald.
Mtodo de Akaike
Um procedimento mais simples para selecionarmos variveis explicativas num
modelo logstico atravs do mtodo de Akaike descrito na Seo 1.11. Uma
sugesto primeiro fazermos uma seleo dos efeitos principais e depois num
segundo passo, das interaes de 1a ordem. Para ilustrarmos uma aplicao
do mtodo, vamos supor que as respostas binrias estejam armazenadas em
resp e as variveis explicativas sejam denotadas por var1, var2 e var3. O
ajuste do modelo logstico apenas com os efeitos principais pode ser realizado
atravs dos comandos
ajuste < glm(resp var1 + var2 + var3, family=binomial).
A seleo dos efeitos principais pode ser realizada pelos comandos

require(MASS)
stepAIC(ajuste).
214

Eventualmente algumas variveis explicativas selecionadas podem no
ser significativas marginalmente e a retirada das mesmas do modelo poder
ser confirmada atravs de algum teste estatstico apropriado, como por exemplo o teste da razo de verossimilhanas. A incluso de interaes de 1a ordem
pode ser feita individualmente dentre aquelas interaes de interesse ou de
fcil interpretao.
3.6.6 Amostragem retrospectiva

Em muitas situaes prticas, especialmente no estudo de doenas raras,
pode ser mais conveniente a aplicao de uma amostragem retrospectiva em
que um conjunto de n1 casos (indivduos com y = 1) e n2 controles (indivduos com y = 0) selecionado aleatoriamente e classificado segundo os
valores de x = (x1 , . . . , xp )T . Esse tipo de planejamento muitas vezes
motivado por questes econmicas ligadas ao custo e a durao do experimento. A amostragem retrospectiva assim constituda levaria diretamente
a um modelo para P r(X = x|y), ao contrrio dos dados prospectivos que
esto associados ao modelo (x) = P r(Y = y|x). Como o desenvolvimento
de um modelo para P r(X = x|y) pode ficar muito complexo medida que o
valor x envolve um nmero maior de variveis explicativas, particularmente
contnuas, a proposta de uma abordagem alternativa atravs da especificao
de um modelo para P r(Y = y|x), de modo a induzirmos um modelo para
P r(X = x|y), tem sido bastante utilizada.
Vamos supor ento um modelo logstico linear para explicarmos (x) =
P r(Y = 1|x). Mostraremos a seguir que a probabilidade (x), a menos de
uma constante adicionada ao intercepto do modelo, coincide com a probabilidade (x) = P r(Y = 1|x, Z = 1) se a seleo amostral no depende de
x, em que Z uma varivel indicadora da classificao amostral (ver, por
215

exemplo, Armitage, 1971). Denotaremos
1 = P r(Z = 1|Y = 1) e
2 = P r(Z = 1|Y = 0),
em que 1 a probabilidade de um caso ser selecionado e 2 a probabilidade
de um controle ser selecionado da populao global. Estamos supondo que
1 e 2 no dependem de x. Portanto
(x) = P r(Y = 1|x, Z = 1)
P r(Z = 1|Y = 1)P r(Y = 1|x)
= P
,
y=0,1 P r(Z = 1|Y = y)P r(Y = y|x)
que pode ser expressa em funo de (x), ou seja

(x) =
=
1 (x)
2 {1 (x)} + 1 (x)
i
h
1+
Assim, obtemos
(x) =
em que =
Pp
j=1
(x)
1(x)
1
2
1
2
(x)
1(x)
i.
elog{1 /2 }+
,
1 + elog{1 /2 }+
xj j .
Portanto, se fazemos uma amostragem retrospectiva e ajustamos um

modelo logstico como se fosse uma amostragem prospectiva, os coeficientes
devem coincidir desde que a seleo tenha sido feita independente de x. Se,
no entanto, temos interesse particular em estimar (x), isto , fazer predies
dado x, devemos corrigir a constante do modelo ajustado, obtendo o novo
intercepto
1 = 1 log(1 /2 ),
em que 1 o intercepto do modelo ajustado. Apresentamos um exemplo
ilustrativo na prxima seo.
216

Como vimos na Seo 1.4 , quando o nmero de grupos k fixo num experimento binomial e
ni
n
segue sob
ai > 0 quando n , o desvio D(y; )
a hiptese do modelo adotado ser verdadeiro uma distribuio qui-quadrado
com (k p) graus de liberdade. Esse resultado no vale quando n

e ni i (1 i ) fica limitado. Nesse caso, Hosmer e Lemeshow (1989) suge-
rem uma estatstica alternativa para avaliao da qualidade do ajuste. Essa

estatstica definida comparando o nmero observado com o nmero esperado de sucessos de g grupos formados. O primeiro grupo dever conter
n1 elementos correspondentes s n1 menores probabilidades ajustadas, as
quais sero denotadas por
(1)
(2)
(n1 ) . O segundo grupo
dever conter os n2 elementos correspondentes s seguintes probabilidades
ajustadas
(n1 +1)
(n1 +2)
(n1 +n2 ) . E assim, sucessivamente, at
o ltimo grupo que dever conter as ng maiores probabilidades ajustadas
(n1 ++ng1 +1)

(n1 ++ng1 +2)
(n) . O nmero observado de suPn1
cessos no primeiro grupo formado ser dado por O1 =
j=1 y(j) , em que
y(j) = 0 se o elemento correspondente fracasso e y(j) = 1 se sucesso. GePn1 ++ni

neralizando, obtemos Oi = j=n
++n
+1 y(j) , 2 i g. A estatstica
1
definida por
C =
g
X
(Oi n
i )2
i
i=1
em que
i1
ni
i (1
i )
n1
1 X
1
1 =
(j) e
i =
n1 j=1
ni
ni ++ni
(j) ,
j=n1 ++ni1 +1
para 2 i g. Hosmer e Lemeshow sugerem a formao de g = 10 grupos de
mesmo tamanho (aproximadamente), de modo que o primeiro grupo contenha ni elementos correspondentes s [n/10] menores probabilidades ajustadas
e assim por diante at o ltimo grupo com n10 elementos correspondentes s
217

[n/10] maiores probabilidades ajustados. Quando no h empates, isto ,
ni = 1, i, fica relativamente fcil montarmos os 10 grupos com tamanhos
aproximadamente iguais. No entanto, quando h empates, pode ser necessrio que dois indivduos com a mesma configurao de covariveis sejam
alocados em grupos adjacentes a fim de que os grupos formados no tenham
tamanhos muito desiguais. Hosmer e Lemeshow verificaram atravs de simulaes que a distribuio nula assinttica de C pode ser bem aproximada por
uma distribuio qui-quadrado com (g 2) graus de liberdade.

Estudos de simulao (ver, por exemplo, Williams, 1984) tm sugerido o
resduo tDi para as anlises de diagnstico em modelos lineares generalizados,
uma vez que o mesmo tem apresentado nesses estudos propriedades similares
quelas do resduo ti da regresso normal linear. Em particular, para os
modelos binomiais, esse resduo expresso, para 0 < yi < ni , na forma
s

1/2
2
yi
ni y i
yi log
t Di =
+ (ni yi )log
,
ii
ni
i
ni ni
i
1h
em que o sinal o mesmo de yi yi . Quando yi = 0 ou yi = ni , o componente
do desvio padronizado toma as formas

t Di =
{2ni |log
i |}1/2
{2ni |log(1
i )|}1/2
p
p
e t Di =
,
ii
ii
1h
1h
respectivamente. O resduo Studentizado tSi , tambm utilizado para avaliarmos a presena de observaes aberrantes mesmo tendo em geral distribuio
assimtrica acentuada, toma a forma
1
(yi ni
i )
tSi = p
.
i (1
i )}1/2
ii {ni
1h
218

Para medirmos a influncia das observaes nas estimativas dos coeficientes,
utilizamos a distncia de Cook aproximada dada por
ii
h
(yi ni
i )2
.
LDi =
ii )2 ni
i (1
i )
(1 h
ii depende das probabiliHosmer e Lemeshow (1989) observam que h
dades ajustadas
i , i = 1, . . . , k, e consequentemente os resduos tSi e tDi e a
medida de influncia LDi tambm dependem. Temos que
hii = ni i (1 i )xTi (XT VX)1 xi ,
com V = diag{n1 1 (11 ), . . . , nk k (1k )}. Hosmer e Lemeshow mostram
ii numa regresso
atravs de um estudo numrico que o comportamento de h
ii na regresso linear
logstica pode ser muito diferente do comportamento de h
para uma mesma matrix modelo X.
Tabela 3.6
Possveis valores para algumas medidas de diagnstico segundo
as probabilidades ajustadas.
Probabilidade ajustada
Medida
0,0-0,1
0,1-0,3
0,3-0,7
0,7-0,9
0,9-1,0
2
tSi
grande ou moderado moderado ou moderado grande ou
pequeno
pequeno
pequeno
LDi
pequeno
grande
moderado
grande
pequeno
hii
pequeno
grande
moderado ou
grande
pequeno
pequeno
A Tabela 3.6 descreve os possveis valores de algumas medidas de di ii pode ser
agnstico em funo das probabilidades ajustadas. A medida h
interpretada de maneira similar medida hii da regresso normal linear para
ii fica em geral
0, 1
i 0, 9. No entanto, quando
i pequena ou alta, h
pequeno o que pode dificultar a deteco de pontos que estejam mais afasta-
dos no subespao gerado pelas colunas da matrix X. A sugesto, portanto,

219

so os grficos de t2Si , t2Di e LDi contra as probabilidades ajustadas
i . Esses grficos podem ser informativos a respeito do posicionamento dos pontos
aberrantes e influentes com relao s probabilidades ajustadas. Os grficos
ii podem ser complementares, pelo menos para
dessas quantidades contra h
verificarmos se as tendncias apresentadas na Tabela 3.11 so confirmadas
para o modelo ajustado.
Outros grficos recomendados em regresso logstica so os grficos da
varivel adicionada e de |max | contra
i .
3.6.9 Aplicaces
Processo infeccioso pulmonar
Voltemos agora ao exemplo discutido na Seo 1.12.2 em que 175 pacientes
com processo infeccioso pulmonar foram classificados de acordo com as variveis tipo de tumor, sexo, idade, nvel de HL e nvel de FF. Para simplicidade
das anlises, iremos reagrupar os nveis de HL e FF de modo que os nveis
de intensidade ausente"e discreto"sejam agora considerados como intensidade baixa"e os nveis moderado"e intenso"sejam agora de intensidade
alta"(ver Tabela 3.7).
Nesse estudo os pacientes foram amostrados retrospectivamente, sendo
que os controles (processo benigno) foram formados por uma amostra de 104
pacientes de um grupo de 270, enquanto que os casos (processo maligno)
foram todos os pacientes diagnosticados com processo infeccioso pulmonar
maligno durante o perodo da pesquisa. Portanto, seguindo a notao da
Seo 3.6.6 , temos que 1 = 1 e 2 = 104/270 1 .
1
Estamos supondo que a razo 1 /2 = 270/104 vale tambm se as amostras tivessem

sido feitas diretamente da populao
220
Tabela 3.7
Descrio das novas variveis referentes ao exemplo
sobre processo infeccioso pulmonar.
Varivel Descrio
Valores
Y
Processo Infecioso
1:maligno
0:benigno
IDADE Idade
em anos
SEXO
Sexo
0:masculino
1:feminino
HL
Intensidade de
1:alta
Histicitos-linfcitos 0:baixa
FF
Intensidade de
1:alta
Fibrose-frouxa
0:baixa
Aplicaremos a seguir o mtodo de seleo stepwise proposto por Hosmer e Lemeshow (1989). Na etapa 1 consideraremos apenas os efeitos principais. Adotaremos PE = 0, 20 (nvel para incluso de covariveis) e PS = 0, 25
(nvel para eliminao de covariveis).
No passo 1 inclumos a varivel explicativa IDADE, uma vez que o nvel
descritivo dessa varivel foi o menor dentre os nveis descritivos das demais
variveis explicativas e tambm foi menor do que PE . No passo seguinte
inclumos a varivel explicativa HL, e agora com duas variveis includas
no modelo verificamos se possvel eliminar uma das duas. O maior nvel
descritivo da IDADE que encontra-se na Tabela 3.8 na linha de referncia do
passo 2. O nvel descritivo dessa varivel no superior a PS , logo mantemos
a IDADE no modelo. Seguindo essa lgica, encontramos os menores nveis
descritivos em cada passo como sendo o elemento da diagonal principal de
cada passo. No passo 3, por exemplo, entra a varivel explicativa SEXO que
tem o menor nvel descritivo que por sua vez menor do que PE . Dado que
SEXO entra no modelo verificamos se uma das duas variveis j includas
no modelo pode sair. Assim, no mesmo passo 3, notamos que o maior nvel
221

descritivo (em asterisco) corresponde varivel explicativa HL que no deve
sair do modelo pois o nvel descritivo no maior do que PS . Seguindo essa
mesma lgica todos os efeitos principais so includos no modelo. Em resumo,
o modelo resultante na etapa 1 o modelo com todos os efeitos principais.
De forma anloga procedemos a etapa 2, cujos nveis descritivos para
tomada de deciso em cada passo encontram-se na Tabela 3.9. Por exemplo,
no passo 1, entra a interao entre IDADE e HL que tem o menor nvel
descritivo que por sua vez menor do que PE . No verificamos nessa etapa se
algum efeito principal deve sair do modelo mesmo que fique no siginifcativo
com a incluso das interaes. Isso pode ser reavaliado aps a seleo do
modelo final. No passo 4, por exemplo, notamos que a interao entre IDADE
e FF no entra no modelo pois o nvel descritivo correspondente maior
do que PE . Assim, como essa interao no entra no modelo, no preciso
verificar a retirada das demais interaes j includas no modelo. Conclumos
ento que apenas trs interaes de primeira ordem sero includas no modelo.
Essas interaes so IDADE HL, HL FF e SEXO FF.
Na etapa 3 nenhuma interao de segunda ordem foi selecionada, uma
vez que o menor nvel descritivo dos testes de incluso foi menor do que PE .
Assim, o modelo resultante contm os efeitos principais e trs interaes de
primeira ordem.
Tabela 3.8
Nveis descritivos referentes etapa 1
do processo de seleo stepwise.
Passo IDADE HL
SEXO FF
1
0,000
0,000 0,288 0,001
2
0,000
0,000 0,100 0,003
3
0,000
0,000 0,050 0,125
4
0,000
0,000 0,072 0,183
5
0,000
0,000 0,072 0,183
222
Nveis
Passo
1
2
3
4
descritivos
IDA*HL
0,013
0,023
0,028
Tabela 3.9
referentes etapa 2 do processo de seleo
HL*FF SEX*FF IDA*FF IDA*SEX
0,014
0,059
0,056
0,657
0,027
0,060
0,231
0,218
0,005
0,012
0,234
0,275
0,208
0,403
stepwise.
HL*SEX
0,063
0,099
0,176
0,794
= 146, 22 (167 graus de liberdade),

O desvio do modelo foi de D(y; )
indicando um ajuste adequado. As Figuras 3.1a-3.1d apresentam alguns gr ii contra os valores
ficos de diagnstico. Na Figura 3.1a temos o grfico de h
ajustados e notamos dois pontos com maior destaque, #6 e #69. No grfico
de resduos tDi , Figura 3.1b, a maioria dos pontos cai dentro do intervalo
[-2,2], com apenas duas observaes, #21 e #172, fora do intervalo, porm
muito prximas aos limites. J o grfico de influncia LDi destaca novamente
a observao #69 e a observao #172. O paciente #172 do sexo feminino,
tem processo maligno, idade 55 anos e nveis altos para HL e FF. Pelos resultados das estimativas seria mais provvel esperarmos de um paciente com
esse perfil um processo benigno. O paciente #69 tambm do sexo feminino, tem 78 anos, nveis altos para HL e FF e no tem processo maligno.
Aqui seria um pouco menos provvel processo benigno para o paciente. Perfil
parecido tem o paciente #6. J o paciente #21 tem processo benigno, 82
anos, do sexo feminino e tem nvel alto para HL e baixo para FF. Seria
mais provvel nesse caso processo maligno para o paciente. Finalmente, temos na Figura 3.1d o grfico normal de probabilidades para o resduo tDi e
no notamos nenhum indcio de que a distribuio utilizada seja inadequada.
Retirando cada uma das observaes destacadas pelos grficos de diagnstico notamos mudana inferencial quando a observao #172 excluda, a
interao SEXO FF deixa de ser significativa. Ou seja, a significncia da
223

interao SEXO FF induzida pela observao #172. Logo, essa interao
deve ser retirada do modelo.
As estimativas dos parmetros do modelo final sem a interao SEXO FF
bem como os valores padronizados pelos respectivos erros padro aproximados encontram-se na Tabela 3.10.
Como temos interesse em estudar a associao entre o tipo de processo

infeccioso pulmonar e as covariveis histolgicas HL e FF, formamos algumas
razes de chances envolvendo essas covariveis. Como ilustrao, a razo de
chances de processo infeccioso maligno entre um paciente no nvel alto de HL
e um paciente no nvel baixo de HL, que denotaremos por HL , supondo que
os pacientes tenham o mesmo sexo, idade e nvel de FF, estimada por
HL = exp{5, 371 + 0, 061IDADE + 2, 255FF}.
Tabela 3.10
logstico ajustado aos dados sobre processo
infeccioso pulmonar.
Efeito
Constante
1
-1,247
-1,36
IDADE
2
0,038
2,23
HL
3
-5,371
-3,34
SEXO
4
0,765
1,60
FF
5
-2,090
-2,36
IDADE*HL
6
0,061
2,18
HL*FF
7
2,255
2,11
Logo, podemos concluir que a chance de processo maligno maior
para pacientes com nvel baixo de HL do que para pacientes com nvel alto
de HL, quando ambos esto no nvel baixo de FF e tambm tenham a mesma
idade. Por outro lado, quando ambos esto na categoria alta de FF, HL fica
maior do que um aps a idade de 52 anos (aproximadamente), indicando
224

uma chance maior de processo maligno para pacientes no nvel alto de HL
aps essa idade.
Analogamente, denotaremos por F F a razo de chances de processo
infeccioso maligno entre um paciente com nvel alto de FF e um paciente
com nvel baixo de FF. Supondo que os pacientes so semelhantes nas demais
covariveis esse parmetro estimado por
F F = exp{2, 090 + 2, 255HL}.
Dessa expresso podemos deduzir que a chance de processo maligno maior
para pacientes com intensidade baixa de FF do que para pacientes com intensidade alta de FF, isso no grupo de pacientes com intensidade baixa de
HL. Ocorre o contrrio no grupo de pacientes com intensidade alta de HL.
Na comparao dos pacientes com relao ao sexo temos que a razo
de chances de processo infeccioso pulmonar entre pacientes do sexo feminino
e masculino estimada por F M = exp(0, 765)
= 2, 15.
Se temos interesse em prever P r{Y = 1|x}, probabilidade de um paciente da populao com um determinado conjunto de valores para as covariveis estar com processo infeccioso maligno, devemos antes estimar 1 fazendo
a correo
1 = 1 log(270/104) = 1, 247 0, 954 = 2, 201.
Tabela 3.11
Discriminao do modelo logstico ajustado
aos dados sobre processo infeccioso pulmonar.
Classificao
Classificao pelo modelo
Correta
Benigno
Maligno
Benigno
81
23
Maligno
13
58
225
0.4
69
1
0
1
0.3
0.2
Alavanca
0.1
172
6
0.0
21
0.0
0.2
0.4
0.6
0.8
0.0
0.2
0.6
0.8
Valor Ajustado
(b)
Valor Ajustado
(a)
0.4
2
1
0
3
0.0
1.0
69
0.5
Distancia de Cook
1.5
172
0.0
0.2
0.4
0.6
0.8
Valor Ajustado
(c)
Percentil da N(0,1)
(d)
Figura 3.1: Grficos de diagnstico referentes ao modelo logstico ajustado

aos dados sobre processo infeccioso pulmonar.
A regresso logstica tem mltiplas utilidades, entre as quais a possibilidade de tambm ser utilizada em anlise discriminante quando h apenas dois grupos para serem discriminados. O objetivo aqui encontrarmos
um modelo ajustado que melhor discrimine os dois grupos. Como aproximadamente 21% dos 341 pacientes foi diagnosticado com processo maligno
podemos verificar qual a taxa de acertos do modelo ajustado. Um critrio
seria classificarmos com processo maligno todo indivduo com probabilidade
ajustada de pelo menos 0,21. Caso contrrio o indivduo seria classificado
com processo benigno. A Tabela 3.11 apresenta a discriminaao feita pelo
modelo ajustado aos dados sobre processo infeccioso pulmonar. Temos que
226

a taxa de acertos de 139/175 = 0,795 (79,5%).
Ocorrncia de vaso-constrio
Como outra aplicao, vamos considerar os dados de um experimento desenvolvido para avaliar a influncia da quantidade de ar inspirado na ocorrncia
de vaso-constrio na pele dos dedos da mo (Finney, 1978; Pregibon, 1981).
Os dados do experimento so descritos na Tabela 3.12 e tambm no arquivo
pregibon.dat. A resposta, nesse exemplo, a ocorrncia (Y = 1) ou ausncia (Y = 0) de compresso de vasos e as covariveis so o logaritmo do
volume e o logaritmo da razo de ar inspirado. Vamos supor para a i-sima
unidade experimental que Yi Be(i ), em que

i
= 1 + 2 log(volume)i + 3 log(razao)i ,
log
1 i
com i denotando a probabilidade de ocorrncia de vaso-constrio.
227
Tabela 3.12
Dados do experimento sobre a influncia da razo e do volume de ar
inspirado na ocorrncia de vaso-constrio da pele dos dedos da mo.
Obs Volume Razo Resposta
Obs. Volume Razo Resposta
1
3,70
0,825
1
20
1,80
1,800
1
2
3,50
1,090
1
21
0,40
2,000
0
3
1,25
2,500
1
22
0,95
1,360
0
4
0,75
1,500
1
23
1,35
1,350
0
5
0,80
3,200
1
24
1,50
1,360
0
6
0,70
3,500
1
25
1,60
1,780
1
7
0,60
0,750
0
26
0,60
1,500
0
8
1,10
1,700
0
27
1,80
1,500
1
9
0,90
0,750
0
28
0,95
1,900
0
10
0,90
0,450
0
29
1,90
0,950
1
11
0,80
0,570
0
30
1,60
0,400
0
12
0,55
2,750
0
31
2,70
0,750
1
13
0,60
3,000
0
32
2,35
0,030
0
14
1,40
2,330
1
33
1,10
1,830
0
15
0,75
3,750
1
34
1,10
2,200
1
16
2,30
1,640
1
35
1,20
2,000
1
17
3,20
1,600
1
36
0,80
3,330
1
18
0,85
1,415
1
37
0,95
1,900
0
19
1,70
1,060
0
38
0,75
1,900
0
39
1,30
1,625
1
As estimativas dos parmetros so descritas na Tabela 3.13 e como
podemos notar as variveis explicativas log(volume) e log(razo) so al = 29, 36 (com 36
tamente significativas. O desvio do modelo foi de D(y; )
graus de liberdade), indicando um ajuste adequado. As Figuras 3.2a-3.2d
descrevem alguns dos grficos sugeridos acima bem como o grfico normal
de probabilidades com envelope para o resduo tDi . Na Figura 3.2a temos o
ii contra os valores ajustados e podemos notar que a observao
grfico de h
#31 destacada mais do que as restantes.
228

Tabela 3.13
logstico ajustado aos dados sobre
vaso-constrio.
1
-2,875
-2,18
2
5,179
4,85
3
4,562
2,49
Na Figura 3.2b temos o grfico de LDi contra os valores ajustados e
notamos duas observaes mais discrepantes, #4 e #18, cujos valores ajustados so menores do que 0, 11. Uma tendncia similar exibida na Figura 3.2c
onde temos o grfico de t2Si contra os valores ajustados. A eliminao da observao #4 levou s novas estimativas 1 = 5, 204(2, 17), 2 = 7, 452(2, 93)
e 3 = 8, 465(3, 246) com variao, respectivamente, de -81%, 64% e 63%. O
= 22, 42 (35 g.l.), variao de 24%.

desvio do modelo reduziu para D(y; )
Resultado parecido ocorreu com a eliminao da observao #18. Nesse
caso obtemos 1 = 4, 757(2, 008), 2 = 6, 879(2, 718) e 3 = 7, 669(2, 937)
com variao, respectivamente, de -66%, 48% e 51%. O desvio caiu para

= 23, 58 (35 g.l.), reduo de 20%. Mesmo com as variaes desproD(y; )
porcionais no houve mudana inferencial. Esses resultados indicam que os

pontos #4 e #18 so influentes e aberrantes. Note que para os dois casos
houve ocorrncia de ar inspirado, porm o valor do volume e da razo so
relativamente baixos contrariando a tendncia observada pelo modelo ajustado. O grfico normal de probabilidades para o resduo tDi (Figura 3.2d) no
fornece indcios de afastamentos srios da suposio de distribuio binomial
para a resposta. Podemos notar a maioria dos pontos dentro do envelope
gerado.
229

Tabela 3.14
Quantidades usadas para o clculo da estatstica C
referente ao modelo logstico ajustado aos dados
sobre vaso-constrio.
Grupo Obervaes
Oi ni
i
1
7,9,10,11,32
0 5
0,0024
2
4,18,21,26,30
2 5
0,0459
3
12,13,22,28,38 0 5
0,2737
4
8,19,23,29,37
1 5
0,5113
5
6,24,31,33,39
3 5
0,6728
6
5,15,34,35,36
5 5
0,7956
7
3,14,20,25,27
5 5
0,8974
8
1,2,16,17
4 4
0,9766
Apresentamos na Tabela 3.14 os grupos formados com as observaes

da Tabela 3.12 para o clculo da estatstica C proposta por Hosmer e Lemeshow (1989). Foram formados sete grupos com cinco observaes cada e
um grupo com quatro observaes. Os termos para o clculo de C so dados
abaixo
C = 0, 0120 + 14, 3157 + 1, 8842 + 1, 9391
+ 0, 1203 + 1, 2846 + 0, 5716 + 0, 0958
= 20, 2233,
cujo nvel descritivo para uma qui-quadrado com 6 graus de liberdade dado
por P= 0, 0025, indicando que o ajuste no adequado. Por outro lado, se
eliminamos as observaes #4 e #18, obtemos C = 5, 9374, que leva ao nvel
descritivo P= 0, 4302. Portanto, as duas observaes destacadas pelas anlises de diagnstico tm grande influncia na falta de ajuste detectada pela
O programa para a gerao do envelope da Figura 3.2d desestatstica C.
230
0.25
0.8
18
0.0
0.4
Distancia de Cook
0.15
0.10
0.0
0.05
Alavanca
0.20
1.2
31
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
14
Valor Ajustado
(a)
0.8
1.0
Valor Ajustado
(b)
1
0
-2
18
-1
10
12
(Resid.Studentizado)^2
0.6
0.0
0.2
0.4
0.6
0.8
1.0
-2
Valor Ajustado
(c)
-1
Percentil da N(0,1)
(d)

aos dados sobre vaso-constrio.
crito no Apndice B. Assumimos que os resultados do ajuste esto disponveis
em fit.model.
Preferncia de consumidores
Para ilustrarmos uma terceira aplicao com resposta binria vamos analisar
parte dos dados descritos no arquivo prefauto.dat sobre a preferncia de
consumidores americanos com relao a automveis. Uma amostra aleatria
de 263 consumidores foi considerada. As seguintes variveis foram observadas
para cada comprador: preferncia do tipo de automvel (1: americano, 0:
231

japons), idade (em anos), sexo (0: masculino; 1: feminino) e estado civil
(0: casado, 1: solteiro). Para maiores detalhes ver Foster, Stine e Waterman
(1998, pgs. 338-339). Na Tabela 3.15 temos a distribuio da preferncia do
comprador segundo o sexo e estado civil, respectivamente.
Tabela 3.15
Distribuio da preferncia do comprador de
automvel segundo o sexo e o estado civil.
Masculino Feminino
Americano 61 (42,4%) 54 (45,4%)
Japons
83 (57,6%) 65 (54,6%)
Total
144
119
Casado
Solteiro
Americano 83 (48,8%) 32 (34,4%)
Japons
87 (51,2%) 65 (65,6%)
Total
170
93
Podemos notar que para ambos os sexos a maior preferncia por

carro japons. Dentre os casados h pequena vantagem por carro japons.
Contudo, essa preferncia bem mais acentuada entre os solteiros. Pelos
boxplots da Figura 3.3 notamos que a idade mediana dos compradores de
automvel americano ligeiramente superior idade mediana dos compradores de automvel japons.
Tabela 3.16
ao modelo logstico ajustado aos dados
sobre preferncia de compradores.
Efeito
Constante
-1,600
-2,31
Idade
0,049
2,30
E.Civil
-0,526
-1,94
232
40
20
30
Idade
50
60
Japones
Americano
Figura 3.3: Boxplots da idade dos compradores de automveis japons e

americano.
Denotamos por Yi a preferncia com relao ao tipo do automvel pelo
i-simo comprador (1: americano, 0: japons). Vamos supor inicialmente
um modelo logstico sem interao em que Yi Be(i ) com

i
log
= 1 + 2 idadei + 3 sexoi + 4 ecivili ,
1 i
sendo i a probabilidade do i-simo comprador preferir automvel americano.
Aplicando o mtodo AIC retiramos a varivel sexo do modelo. As estimativas
dos parmetros do modelo final sem interao so descritas na Tabela 3.16.
No foi significativa a incluso no modelo da interao entre a idade e

o estado civil do comprador. Assim, temos que a preferncia por automvel
americano aumenta com a idade do comprador. Com relao ao estado civil
notamos que os casados preferem mais carro americano do que os solteiros.
233
0.30
0.20
99
0.0
0.10
0.06
223
Distancia de Cook
99
0.02
Medida h
0.10
0.3
0.4
0.5
0.6
0.7
50
150
200
250
50
100
150
200
250
1
0
-1
-2
-1
Indice
(b)
-2
Residuo Componente do Desvio
Valor Ajustado
(a)
100
-3
Indice
(c)
-1 0
Percentil da N(0,1)
(d)

aos dados sobre preferncia de consumidores.
Essa razo de chances (entre casados e solteiros) por carro americano pode
ser estimada por = exp(0, 526) = 1, 69. Nos grficos de diagnstico da
Figura 3.4 duas observaes so destacadas como possivelmente pontos de
alvanca e influentes, #99 (idade de 60 anos, solteira e prefere carro japons)
e #223 (idade de 54 anos, solteiro e prefere carro americano). Porm, no h
indcios de observaes aberrantes nem de afastamentos srios da suposio
de distribuio de Bernoulli para a resposta. Na Tabela 3.17 so apresentadas
as estimativas dos parmetros sem essas duas observaes. Embora ocorram
algumas variaes desproporcionais no h mudana inferencial.
234

Tabela 3.17
logstico ajustado aos dados sobre preferncia
de consumidores sem as observaes #99 e #223.
Efeito
Variao
Constante
-1,942
-2,65
-21,4%
Idade
0,060
2,65
22,4%
E.Civil
-0,474
-1,72
9,9%
Efeito
Variao
Constante
-1,463
-2,07
8,6%
Idade
0,045
2,05
-8,1%
E.Civil
-0,550
-2,02
-4,6%
3.6.10 Modelos de dose-resposta

O modelo logstico frequentemente utilizado em Toxicologia no estudo do
comportamento de determinados medicamentos, que medido pela probabilidade (x) de algum efeito produzido pelo medicamento em estudo, segundo
a dose (ou a log-dose) x aplicada. Essa probabilidade pode ser escrita pela
expresso geral
(x) =
f (u)du,
(3.15)
em que f () representa uma funo densidade de probabilidade, tambm conhecida como funo de tolerncia. Como vimos na Seo 1.3.1, alguns candidatos naturais para f (u) so as funes de densidade da normal padro,
da distribuio logstica e da distribuio do valor extremo, as quais levam
aos modelos probito, logstico e complementar log-log, respectivamente. Utilizamos o preditor linear = 1 + 2 x no lugar de x em (3.15) a fim de
ampliarmos o leque de opes para (x).
Os modelos de dose-resposta visam no somente a predio da probabilidade de sucesso (x) para uma dosagem especfica x, mas tambm a
determinao da dosagem necessria para atingirmos uma probabilidade de
235

sucesso p. Essa dosagem chamada de dose letal. A notao usual para uma
dose letal de 100p% dada por DL100p . Logo,
p = (1 + 2 DL100p ), 0 < p < 1.
A dose letal mais comum em Toxicologia a dose mediana (DL50 ), embora
em certos casos sejam tambm de interesse doses extremas, tais como DL1
ou DL99 . Devemos observar que hoje em dia modelos de dose-resposta so
definidos em vrias reas do conhecimento, em que a dose pode ser a idade,
o peso, a resistncia de um material etc.
Supondo o modelo logstico com preditor linear = 1 + 2 x, a estimativa de mxima verossimilhana de DL100p fica, pela propriedade de invarincia, dada por

1
p
c
DL100p = d() =
log
1 ,
1p
2
a estimativa de mxima verossimilhana de = (1 , 2 )T .

em que
c 100p pode ser obtida aps uma aproximaA varincia assinttica de DL
em torno de , levando
o de primeira ordem por srie de Taylor de d()
ao seguinte:
em que
c 100p ] = D()T (XT VX)1 D(),

VarA [DL

1 1
,
D() = d()/ =
2 22
T

p
.
1 log
1p
1 contm as varincias e covarincia estimadas de

Lembramos que (XT VX)
1 e 2 . Portanto, um intervalo de confiana assinttico de coeficiente (1 )
para DL100p fica dado por
c 100p z(1/2)
DL
236
VarA [d()].
3.6.11 Aplicaes
Exposio de besouros
Tabela 3.18
Mortalidade de besouros expostos
a disulfeto de carbono gasoso.
Dose
Besouros Besouros
log10 CS2
expostos
mortos
1,6907
59
6
1,7242
60
13
1,7552
62
18
1,7842
56
28
1,8113
63
52
1,8369
59
53
1,8610
62
61
1,8839
60
60
Em Bliss (1935) (ver tambm Silva, 1992) encontramos uma situao
tpica para o ajuste de um modelo logstico de dose-resposta. O estudo
baseia-se no comportamento de besouros adultos exposio de disulfeto de
carbono gasoso (CS2 ) durante cinco horas. Os resultados obtidos a partir dos
481 besouros expostos segundo diferentes doses so apresentados na Tabela
3.18 e no arquivo besouros.dat. Ajustando um modelo logstico do tipo
logit{(x)} = 1 +2 x aos dados, em que x denota a dose de CS2 , obtemos as
estimativas 1 = 60, 72(5, 18), 2 = 34, 27(2, 91) e Cov(1 , 2 ) = 15, 04.
= 11, 23 para 6 graus de liberdade, o

O desvio do modelo foi de D(y; )
que leva a um nvel descritivo de P= 0, 0815, indicando um ajuste razovel.
O grfico de envelope descrito na Figura 3.5 confirma essa falta de ajuste.
Talvez a incluso de um termo quadrtico ou mesmo o ajuste de um modelo
logstico no linear (ver Silva, 1992) possam melhorar a qualidade do ajuste.
237
0
-1
-3
-2
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
Percentil da N(0,1)
Figura 3.5: Grfico normal de probabilidades referente ao modelo logstico

ajustado aos dados sobre exposio de besouros.
Uma vez conhecida a covarincia assinttica entre 1 e 2 , podemos
calcular a varincia assinttica de DL100p para alguns valores de p e consequentemente os intervalos assintticos de confiana. Em particular, para
p = 0, 50, obtemos

1
0, 5
log
1
1 0, 5
2
60, 72
1
= =
34, 27
2
= 1, 772.
c 50 =
DL
Um intervalo de confiana assinttico de 95% para DL50 fica ento dado por
s

0,
029
1
T
T
1, 772 1, 96 (0, 029, 0, 052) (X VX)

0, 052
p
= 1, 772 1, 96 0, 00001488
= [1, 764; 1, 780].
238
0.6
0.4
0.0
0.2
Porporcao de Mortos
0.8
1.0
1.65
1.70
1.75
1.80
1.85
1.90
dose
Figura 3.6: Modelo logstico ajustado proporo de besouros mortos.

A Figura 3.6 descreve a curva ajustada e as frequncias observadas.
Como podemos observar os pontos abaixo de
(x) = 0, 50 parecem mais mal
ajustados do que os pontos com resposta estimada acima desse valor. Isso
sugere que um modelo binomial com ligao complemento log-log poderia ser
mais apropriado. A parte sistemtica desse modelo fica expressa na forma
log{log(1 (x))} = 1 + 2 x,
em que x denota a dose de CS2 . As estimativas paramtricas ficam dadas
por 1 = 39, 57(3, 24), 2 = 22, 04(1, 80) e Cov(1 , 2 ) = 5, 82. O desvio
= 3, 45 com 6 graus de liberdade, que leva a

do modelo caiu para D(y; )
um nvel descritivo de P= 0, 751. Logo, no rejeitamos o modelo. O grfico
da curva ajustada (Figura 3.7a) e o grfico normal de probabilidades (Figura

3.7b) confirmam essa indicao de modelo bem ajustado.
239
1
0
-2
-1
0.6
0.4
0.2
-3
0.0
Porporcao de Mortos
0.8
1.0
1.65
1.70
1.75
1.80
1.85
1.90
-1.5
dose
(a)
-0.5
0.0
0.5
1.0
Percentil da N(0,1)
(b)
Figura 3.7: Curva ajustada para a proporo de besouros mortos (a) e grfico
normal de probabilidades sob o modelo complementar log-log (b).
Para o modelo com ligao complemento log-log a estimativa de mxima verossimilhana de DL100p fica dada por
h
i
= 1 log{log(1 p)} 1 ,
c 100p = d()
DL
2
para a qual obtemos a varincia assinttica
em que
c 100p ] = D()T (XT WX)1 D(),

VarA [DL
T
1 1
,
{1 log(log(1 p))} ,
D() = d()/ =
2 22

com W sendo uma matriz diagonal de pesos dados por i = ni i1 (1
240
1.5

i )log2 (1 i ) i = 1, . . . , 8. Em particular, para p = 0, 50, obtemos
i
1 h
log{log(1 0, 5)} 1
2
1
(0, 3665 + 39, 57)
=
22, 04
= 1, 779.
c 50 =
DL
Logo, um intervalo assinttico de 95% para DL50 fica dado por

s

0, 0454
T
T
1
1, 779 1, 96 (0, 0454, 0, 0807) (X WX)

0, 0807
p
= 1, 779 1, 96 0, 00001606
= [1, 771; 1, 787].
Podemos notar que as estimativas intervalares para DL50 so praticamente

as mesmas sob os dois modelos ajustados.
Garotas de Varsvia
Os problemas de dose-resposta no se esgotam em Toxicologia. Milecer e
Szczotka (1966) investigam a idade do incio da menstruao em 3918 garotas de Varsvia. Para 25 mdias de idade foram observadas a ocorrncia
(Y = 1) ou no (Y = 0) do incio de perodos de menstruao nas adolescentes. Os dados desse estudo so apresentados na Tabela 3.19 e no arquivo
meninas.dat. Adotamos o modelo logstico linear

(x)
= 1 + 2 x,
log
1 (x)
em que (x) = P r{Y = 1|x} e x denota a idade mdia. As estimativas
de mxima verossimilhana deram 1 = 21, 23(0, 769), 2 = 1, 63(0, 059)
e Cov(1 , 2 ) = 0, 045. Na Figura 3.8 so apresentadas a curva ajustada
241

= 26, 80
e as frequncias observadas. O desvio do modelo foi de D(y; )
(23 graus de liberdade) para um nvel descritivo de P= 0, 264, indicando um
ajuste adequado.
Idade
9,21
10,21
10,58
10,83
11,08
11,33
11,58
11,83
12,08
12,33
12,58
12,83
Tabela 3.19
Ocorrncia do incio da menstruao em garotas de Varsvia.
Nmero de garotas
Nmero de garotas
Menstruadas Entrevistadas
Idade Menstruadas Entrevistadas
0
376
13,08
47
99
0
200
13,33
67
106
0
93
13,58
81
105
2
120
13,83
88
117
2
90
14,08
79
98
5
88
14,33
90
97
10
105
14,58
113
120
17
111
14,83
95
102
16
100
15,08
117
122
29
93
15,33
107
111
39
100
15,58
92
94
51
108
15,83
112
114
17,53
1049
1049
A estimativa da idade mediana de incio do perodo de menstruao

fica portanto dada por
c 50 = 21, 23 = 13, 02,
DL
1, 63
com o seguinte intervalo assinttico de confiana de 95%:

p
13, 02 1, 96 0, 004524 = [12, 89; 13, 15].
Pelo grfico de envelope descrito na Figura 3.9a notamos que os resduos

apresentam uma tendncia sistemtica dentro do envelope gerado, sugerindo
242
0.8
0.6
0.4
0.2
0.0
Porporcao de Garotas Menstruadas
1.0
10
12
14
16
18
Idade
Figura 3.8: Curva ajustada pelo modelo logstico linear para a proporo de
garotas de Varsvia.
a incluso de um termo quadrtico na parte sitemtica do modelo. O ajuste
de um modelo com parte sistemtica dada por
(x) = 1 + 2 x + 3 x2
forneceu as seguintes estimativas: 1 = 30, 96(5, 24), 2 = 3, 12(0, 78) e
= 23, 40 (22 graus de liberdade) para
3 = 0, 06(0, 03) com desvio D(y, ; )
um nvel descritivo de P= 0, 38. O grfico de envelope descrito na Figura
3.9b confirma a adequao do modelo com termo quadrtico.

Stukel (1988) (ver tambm Silva, 1992) mostra que o uso de um modelo
logstico no linear pode melhorar substancialmente a qualidade do ajuste dos
modelos de dose-resposta apresentados nesta seo.
243
3.6.12 Estimao da dose letal

Intervalos de confiana aproximados para a dose letal DL100p podem ser consc 100p , conforme descrito na
trudos utilizando a varincia assinttica para DL
seo anterior. H, contudo, um outro mtodo que baseado no teorema de

Fieller (1954) e ser descrito a seguir. Chamamos = 01 , em que 0 e 1 so
estimados por 0 e 1 e assumimos que essas estimativas so normalmente
distribudas com mdias 0 e 1 , varincias v00 e v11 e covarincia v01 . Definimos a funo = 0 1 . Ento, se 0 e 1 so estimativas no viesadas
= 0. A varincia de fica, portanto, dada por
de 0 e 1 , obtemos E()
= v00 + 2 v11 2v01 .
v = Var()
(3.16)
Desde que 0 e 1 so normalmente distribudos, ento tambm normalmente distribudo. Consequentemente, a varivel
(0 1 )/ v
segue uma distribuio normal padro. Assim, um intervalo assinttico de
confiana para com coeficiente (1 ) formado pelos valores de tais
que
| 0 1 | z(1/2) v.
Os limites desse intervalo de confiana saem da equao quadrtica

2
02 + 2 12 20 1 z(1/2)
v = 0,
que, aps algumas manipulaes algbricas e usando (3.16), fica dada por
2
2
2
(12 z(1/2)
v11 )2 + (2v01 z(1/2)
20 1 ) + 02 v00 z(1/2)
= 0.
Portanto, as razes da equao acima formam os limites inferior e superior do

intervalo de confiana para . Basta chamarmos = 1 /2 e aplicarmos os
244

resultados acima para encontrarmos um intervalo assinttico de coeficiente
2
1
0
-1
-3
-2
1
0
-1
-2
-3
(1 ) para DL50 .
-2
-1
-2
(a) Percentil da N(0,1)
-1
(b) Percentil da N(0,1)
Figura 3.9: Grficos normais de probabilidades para os modelos logstico com

componente sistemtica linear (a) e no linear (b) ajustados aos dados sobre
garotas de Varsvia.
3.6.13 Modelos de retas paralelas

Modelos de retas paralelas so comumente aplicados na rea de Farmacologia
para compararmos a eficincia de drogas do mesmo tipo, ou seja, com ao
similar (ver, por exemplo, Finney, 1971; Collett, 1991). Nesses estudos,
o interesse principal compararmos as potncias entre as drogas definindo
uma droga particular como nvel base ou droga padro. Para aplicarmos
esses modelos em experimentos com respostas binrias assumimos que Yijk ,
o efeito produzido pela j-sima dose correspondente i-sima droga no k245

simo indivduo, i = 1, . . . , g, j = 1, . . . , di e k = 1, . . . , nij , segue uma
distribuio de Bernoulli com probabilidade de sucesso ij definida tal que
g(ij ) = i + logxij ,
(3.17)
e que as variveis Yijk s so mutuamente independentes. Se tomarmos a

primeira droga como padro, a potncia i da i-sima droga com relao
primeira definida por
logi = (i 1 )/,
i = 1, . . . , g. Essa suposio leva seguinte relao:
g(ij ) = 1 + logi xij ,
isto , x unidades da droga i tm o mesmo efeito que i x unidades da primeira
droga.
Aplicao
A Tabela 3.20 resume os resultados de um experimento (ver Collett, 1991)
em que trs inseticidas so aplicados num determinado tipo de inseto e
verificado o nmero de sobreviventes para cada dose aplicada. Esses dados
esto tambm descritos no arquivo insetic.dat.
Tabela 3.20
Mortalidade de insetos segundo as doses de trs inseticidas.
Dose mg/cm2
Inseticida
2,00
2,64
3,48
4,59
6,06
8,00
DDT
3/50 5/49 19/47 19/50 24/49 35/50
-BHC
2/50 14/49 20/50 27/50 41/50 40/50
DDT + -BHC 28/50 37/50 46/50 48/50 48/50 50/50
Ajustando o modelo (3.17) com ligao logito aos dados, obtemos as
estimativas
1 = 4, 555(0, 361),
2 = 3, 842(0, 333),
3 = 1, 425(0, 285)
246

= 21, 282, para 14 graus
e = 2, 696(0, 214), com desvio dado por D(y; )
de liberdade, P= 0, 0946. Isso quer dizer que o ajuste do modelo de retas
1
0
-1
-2
paralelas parece ser razovel.
-2
-1
Percentil da N(0,1)
Figura 3.10: Grfico normal de probabilidades para o modelo logstico de

retas paralelas ajustado aos dados sobre trs tipos de inseticida.
Temos, portanto, os seguintes ajustes para as trs drogas:

1 (xj )
= 4, 555 + 2, 696logxj (DDT);
log
1
1 (xj )

2 (xj )
log
= 3, 842 + 2, 696logxj (BHC) e
1
2 (xj )

3 (xj )
log
= 1, 425 + 2, 696logxj (DDT + BHC),
1
3 (xj )
para j = 1, . . . , 6. Notamos, pelas estimativas, que h um aumento de
potncia quando as drogas DDT e -BHC so misturadas. Em particu247

lar, a potncia da mistura com relao s drogas DDT e -BHC estimada, respectivamente, por 1 = exp{(1, 425 + 4, 555)/2, 696} = 3, 19 e
2 = exp{(1, 425 + 3, 842)/2, 696} = 2, 45.
Pelo grfico normal de probabilidades (Figura 3.10), notamos que todos os resduos caem dentro do envelope gerado. No entanto, parece haver
uma tendncia no grfico, uma vez que os resduos negativos apresentam-se
ligeiramente abaixo da mdia enquanto os resduos positivos apresentam-se
ligeiramente acima. Isso pode ser um indcio de sobredisperso, isto , que as
rplicas (para cada dose e cada inseticida) no so totalmente independentes.
Em Collett (1991, Cap. 6) h uma discusso sobre o assunto. Apresentaremos a seguir uma abordagem para esse tipo de problema.
3.6.14 Sobredisperso
Sobredisperso ou variao extrabinomial um fenmeno comum que ocorre
na modelagem de dados binrios agrupados e cuja ocorrncia caracterizada
quando a variao observada excede aquela assumida pelo modelo (ver, por
exemplo, Hinde e Demtrio, 1998). Em particular em regresso logstica,
maior que o nmero de graus de liberdade (g p),
quando o desvio D(y; )
pode haver indcios de sobredisperso, em que g o nmero de grupos. Isso
pode ser avaliado mais precisamente pelo nvel descritivo do teste de ajus com os percentis da distribuio qui-quadrado
tamento comparando D(y; )
com (g p) graus de liberdade.
Diferentes circunstncias, entretanto, podem causar um valor alto para
o desvio. Algumas delas representam uma sobredisperso aparente. Por

exemplo, alguns pontos aberrantes podem aumentar substancialmente o valor
do desvio e a simples eliminao desses pontos pode reduzir as evidncias de
sobredisperso. Outra causa aparente de sobredisperso a ausncia de
248

algum termo extra na parte sistemtica do modelo. Medidas de diagnstico
so ferramentas importantes para detectarmos o fenmeno. Em sntese, h
duas possveis causas de sobredisperso: correlao entre as rplicas binrias
ou variao entre as probabilidades de sucesso de um mesmo grupo. Do ponto
de vista prtico difcil distinguirmos entre os dois casos, contudo, como
veremos a seguir, os procedimentos estatsticos para tratarmos o problema
podem ser os mesmos.
Caso I
Vamos supor inicialmente a existncia de g grupos de modo que para o i-simo
grupo sejam observadas ni repeties de uma varivel aleatria Yij Be(i )
(Bernoulli com probabilidade de sucesso i ). O nmero total de sucessos no
i-simo grupo ser definido por

Yi = Yi1 + + Yini .
Segue que E(Yij ) = i e Var(Yij ) = i (1 i ). Vamos supor adicionalmente
a existncia de correlao entre as repeties do i-simo grupo. Logo,

Var(Yi ) =
ni
X
Var(Yij ) +
j=1
ni
ni
X
X
Cov(Yij , Yik ).
j=1 k=1,k6=j
Se essa correlao constante, Corr(Yij , Yik ) = para j 6= k, ento teremos
que Cov(Yij , Yik ) = i (1 i ). Da obtemos

Var(Yi ) =
ni
X
j=1
i (1 i ) +
ni
ni
X
X
j=1 k=1,k6=j
i (1 i )
= ni i (1 i ) + ni (ni 1)i (1 i )
= i2 ni i (1 i ),
em que i2 = 1 + (ni 1). Se exigido que i2 > 0, ento devemos ter
1 + (ni 1) > 0,
249

que implica em > 1/(ni 1). Portanto, haver a restrio
1
1.
ni 1
Assim, assumir valores negativos apenas para ni pequeno. Caso contrrio,

assumir valores positivos. Logo, teremos em geral Var(Yi ) > ni i (1 i )
(sobredisperso).
Caso II
Vamos supor agora que pi representa a probabilidade de sucesso nas respostas
do i-simo grupo tal que E(pi ) = i e Var(pi ) = i (1 i ), 0. Temos
portanto um modelo de efeito aleatrio, que reduz ao modelo usual de efeito

fixo se tomarmos = 0. Assumimos ainda que Yij |pi Be(pi ) de onde segue
que E(Yij |pi ) = pi e Var(Yij |pi ) = pi (1 pi ). Da obtemos

E(Yi ) = E{E(Yi |pi )} = ni i
e
Var(Yi ) = E{Var(Yi |pi )} + Var{E(Yi |pi )}
= ni i (1 i )(1 ) + n2i i (1 i )
= ni i (1 i ){1 + (ni 1)},
que coincidem com os resultados obtidos para o primeiro caso. No entanto
aqui temos a restrio 0.
Estimao
A estimao de tem sido discutida em vrios contextos. No primeiro caso,
por exemplo, pode ser consistentemente estimado por
=
g
X
X
i=1 <
rPi rPi /(N p),

250
(3.18)

p
em que rPi = (yi
i )/
i (1
i ) o resduo de Pearson estimado,
Pg
1
N = 2 i=1 ni (ni 1) e
i a estimativa de mxima verossimilhana de
i supondo = 0. Podemos, contudo, estimar e simultaneamente atra-
vs de um processo iterativo. Uma proposta o uso de equaes de estimao

generalizadas (Liang e Zeger, 1986) as quais sero discutidas no Captulo 5.
G e ,
saem do sistema de equaes
As novas estimativas, denotadas por
g
X
i=1
1 xi (yi ni
{1 + (ni 1)}
i ) = 0.
temos o seguinte processo

Dada uma estimativa inicial para , que pode ser ,
G:
iterativo para obter
(m+1)
(m)
g
g
X
X
(m)
(m)
(m)
(m)
(m)
T 1
{i xi (yi ni i )/ni i (1 i )},
i xi xi }
+{
i=1
i=1
(3.19)
O processo iterativo
m = 0, 1, 2 . . ., em que i = ni i (1 i )/{1 + (ni 1)}.
(3.19) alternado com (3.18) at chegarmos convergncia. Podemos mos G consistente e assintoticamente normal. A varincia
trar que o estimador
G dada por
assinttica de
g
X
i xi xTi }1 .
Var( G ) = {
i=1
H tambm uma proposta de varincia assinttica robusta no caso da estrutura de correlao ter sido definida incorretamente, que dada por
g
g
g
X
X
X
T
T 1
i xi xTi }1 ,
i xi xi }{
i xi xi } {
Var( G ) = {
i=1
i=1
i=1
P
em que i = {1 + (ni 1)}2 , (yi i )(yi i ). Um desvio corrigido
P
2 , em que d2
para esse modelo fica dado por D(y;
G ) = gi=1 {1 + (ni 1)}d
i
i
G.
o i-simo componente do desvio de um modelo binomial, avaliado em
251

Apresentamos a seguir os procedimentos para resolvermos (3.19) no R.
Inicialmente iremos propor uma funo corpearson para obtermos (3.18).
Denotaremos os vetores (y1 /n1 , . . . , yg /ng )T , (y1 , . . . , yg )T e (n1 , . . . , ng )T por
fr, yt e nt, respectivamente, e o nmero de parmetros por npar. A funo
definida por
corpearson = function(fr, yt, nt, npar) {
nt1 = 0.5*sum(nt*(nt-1))
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum1 = sum(sum1)
rho = sum1/(nt1-npar)
rho }.
Vamos supor que temos duas variveis explicativas representadas por x1 e
x2 sem intercepto e que os resultados do ajuste do modelo supondo independncia sejam colocados em fit.model. Em fit.gee so armazenados os
resultados do processo iterativo dado em (3.19) e vamos supor 10 iteraes.
Seguem os comandos
fit.model = glm(resp x1 + x2 - 1, family=binomial)
eta = predict(fit.model)
fr = fitted(fit.model)
rr = corpearson(fr, yt, nt, npar)
i = 1
while(i <= 10) {
fit.gee = glm(resp x1 + x2 -1, family=binomial, start=
mu = exp(eta)/(1 + exp(eta)),
maxiter = 1,
weights = 1/(1 + (nt - 1)*rr))
252

eta = predict(fit.gee)
fr = fitted(fit.gee)
rr = corpearson(fr, yt, nt, npar)
i = i + 1 }.
A estimativa final da correlao est armazenada em rr. Para rodarmos os
programas descritos acima no R colocamos inicialmente a funo corpearson
num arquivo externo, por exemplo denominado corr.s, e executamos o
mesmo atravs do comando abaixo
source(corr.s).
Ento a funo corpearson estar instalada. Em seguida devemos fazer
o mesmo para ajustarmos o modelo colocando os demais comandos num
arquivo externo, por exemplo denominado super.s, fazendo o seguinte:
source(super.s).
Teste de ausncia de sobredisperso

Podemos ter interesse particular em testar a hiptese de ausncia de sobredisperso H0 : = 0 contra H1 : > 0. Como o conhecimento da distribuio
de Yij bastante complexo sob a hiptese alternativa, o que inviabilizaria a
aplicao de testes tradicionais tais como razo de verossimilhanas, Wald
e escore, propomos a aplicao de um teste tipo escore que requer apenas o
conhecimento dos dois primeiros momentos de Yij e a estatstica do teste
avaliada sob a hiptese nula (modelo binomial de respostas independentes).
A estatstica do teste (ver Paula e Artes, 2000) assume a forma
Pg
Mi
S = qPi=1
,
g
2
M
i=1
i = P rP rP de modo que H0 seja rejeitada quando S >

em que M
i
<
i
z(1) . Podemos mostrar que essa estatstica corresponde forma padroni253

Para calcularmos S propomos a funo abaixo em que
zada (sob H0 ) de .
fr denota os valores ajustados sob a hiptese nula.
escore = function(fr,yt,nt) {
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum2 = sum(sum1*sum1)
sum1 = sum(sum1)
escore = sum1/sqrt(sum2)
escore }.
Quase-Verossimilhana
Uma outra possibilidade de estudarmos o fenmeno de sobredisperso atravs do uso do modelo beta-binomial em que Yi | B(ni , ) enquanto
segue uma distribuio beta. Podemos mostrar que a varincia de Yi dada

por
Var(Yi ) = ni i (1 i ){1 + (ni 1)},
em que i e dependem dos parmetros da distribuio beta. A estimao

de bastante complexa nesse caso requerendo o uso de mtodos iterativos
e de integrao numrica (ver, por exemplo, Collett, 1991, Cap. 6).
Podemos ainda supor i2 = 1 , estimarmos consistentemente dos

dados ou do modelo ajustado e substituirmos a estimativa obtida nas quantidades que envolvem . Quando ni grande, i, podemos estimar diretamente do desvio
D(y; )
1 =
.
gp
254
1
0
-1
-3
-2
-2
-1
Percentil da N(0,1)
Figura 3.11: Grfico normal de probabilidades para o resduo corrigido para

o modelo logstico de retas paralelas ajustado aos dados sobre trs tipos de
inseticida.
No caso de ni pequeno, para algum i, recomendamos a estimativa abaixo
g
1 =
1 X (yi ni
i )2
,
g p i=1 ni
i (1
i )
em que p denota o nmero de parmetros da parte sistemtica do modelo

e
1 , . . . ,
g so as probabilidades ajustadas nos g grupos. Sob a hiptese
de que o modelo verdadeiro, essa estimativa tambm consistente para .
Essa opo um caso particular de modelos de quase-verossimilhana que
sero discutidos no Captulo 5.
No exemplo da seo anterior, envolvendo a comparao de trs inseticidas, temos um total de 18 grupos com probabilidades ajustadas
i (xj ),
i = 1, 2, 3 e j = 1, . . . , 6. Como ni = 50 para a maioria dos grupos e prximo
a esse valor para os demais grupos, podemos estimar consistentemente
255

atravs de
D(y; )
21, 282
1 =
=
= 1, 52.
gp
14
Algumas quantidades que envolvem devero ser corrigidas,

= 1 (XT VX)1 ,
Var()
= D(y;
e
D (y; )
)
tDi
q
D . O novo grfico normal de probabilidades, agora com t ,
= t
i
Di
apresentado na Figura 3.11 e no apresenta indcios de afastamentos srios

das suposies feitas para o modelo. importante observarmos que o novo
resduo tDi no corresponde ao componente do desvio de nenhum modelo
particular. Nos modelos de quase-verossimilhana a distribuio da resposta
em geral desconhecida e o uso de D (y; ) deve ser encarado de forma

descritiva.
Aplicao
Collett (1991, Seo 6.9) descreve um experimento com duas espcies de
rotifers, um tipo microscpico de invertebrado aqutico. O objetivo do experimento determinar a densidade relativa para cada uma das espcies.
Foi utilizado um mtodo indireto que consiste em centrifugar os animais em
recipientes com densidades relativas de uma determinada substncia e ento
utilizar uma regresso logstica para ajustar a proporo de rotifers que permanece suspensa segundo a densidade relativa. A densidade relativa de cada
espcie pode ser estimada pela DL50 , que nesse caso representa a densidade
relativa da substncia que deixa suspenso 50% de rotifers.
Seja Yij o nmero de animais da i-sima espcie que permanecem suspensos num recipiente com densidade relativa dj da soluo, onde foram
256

colocados nij rotifers. Assumimos inicialmente que Yij B(nij , ij ), i = 1, 2
e j = 1, . . . , 20, em que
log
ij
1 ij
= i + i dj .
Tabela 3.21
Distribuio de rotifers das duas espcies.
Polyarthra major
Keratella cochlearis
Densidade Suspensos Expostos Suspensos Expostos
1,019
11
58
13
161
1,020
7
86
14
248
1,021
10
76
30
234
1,030
19
83
10
283
1,030
9
56
14
129
1,030
21
73
35
161
1,031
13
29
26
167
1,040
34
44
32
286
1,040
10
31
22
117
1,041
36
56
23
162
1,048
20
27
7
42
1,049
54
59
22
48
1,050
20
22
9
49
1,050
9
14
34
160
1,060
14
17
71
74
1,061
10
22
25
45
1,063
64
66
94
101
1,070
68
86
63
68
1,070
488
492
178
190
1,070
88
89
154
154
Na Tabela 3.21 e no arquivo rotifers.dat so apresentados para cada

espcie a densidade relativa da substncia, o nmero de rotifers expostos
257
2
0
-2
-6
-4
-2
-1
Percentil da N(0,1)
Figura 3.12: Grfico normal de probabilidades do modelo logstico ajustado

aos dados sobre rotifers.
e o nmero de rotifers em suspenso. Para a espcie Polyathra as estimativas de mxima verossimilhana so dadas por
1 = 109, 72(5, 22) e
1 = 105, 67(5, 02), enquanto que para a espcie Keratella obtemos
2 =
114, 35(4, 03) e 2 = 108, 75(3, 86). Embora essas estimativas sejam alta-
= 434, 02 (36 graus de libermente significativas, o desvio do modelo D(y; )

dade) indica para um ajuste inadequado. O grfico normal de probabilidades
descrito na Figura 3.12 confirma a sobredisperso. Segundo Collett (1991,
Cap. 6) a sobredisperso nos dados pode ter sido causada por uma poss-
vel m distribuio dos animais nos recipientes, uma vez que rotifers mais
jovens so menos densos do que os mais maduros. Collett (1991) prope
um modelo logstico com efeito aleatrio para ajustar a proporo de animais em suspenso e consegue uma reduo substancial no valor do desvio.
258

Vamos assumir, alternativamente, o modelo proposto na Seo 3.6.14, que
com uma adaptao de notao corresponde a assumirmos E(Yij ) = nij ij
e Var(Yij ) = nij ij (1 ij ){1 + (nij 1)}, em que denota a correlao
0
-1
-2
Residuo de Pearson
intraunidade experimental.
-3
16
0.0
0.2
0.4
0.6
0.8
Valor Ajustado
Figura 3.13: Grfico de resduos de Pearson contra os valores ajustados para

o modelo logstico de sobredisperso ajustado aos dados sobre rotifers.
Usando o processo iterativo dado na seo anterior obtemos as novas
estimativas
1 = 90, 64(13, 18), 1 = 87, 22(12, 66),
2 = 117, 25(14, 91),
2 = 111, 45(14, 21) e = 0, 0815. Pela Figura 3.13 notamos que exceto a
observao #16, que corresponde a uma unidade experimental com baixa

proporo de rotifers, 10/22, para uma densidade alta, os demais resduos
permanecem no intervalo [-2,2] e no apresentam nenhuma tendncia siste259

mtica contra os valores ajustados. A aplicao da estatstica S para testar
H0 : = 0 contra H1 : > 0 forneceu o valor S = 3, 126, com nvel descritivo
P= 0, 0009, indicando fortemente pela rejeio da hiptese nula. Portanto,
h indcios de sobredisperso nos dados.
2
1
0.0
0.4
28
0.2
Distancia de Cook
0.6
18
10
15
20
25
30
Indice
10
15
20
25
30
Indice
Figura 3.14: Grficos de diagnstico para o modelo logstico condicional

aplicado aos dados sobre diabetes.
3.6.15 Modelo logstico condicional

Em alguns estudos de caso e controle ou de seguimento o nmero de estratos
formados pode ser relativamente grande. Isso ocorre em particular nos estudos emparelhados de caso e controle, em que a influncia de fatores suspeitos
de confundimento controlada atravs de emparelhamentos de casos com
controles, segundo alguns nveis desses fatores. Para cada emparelhamento
260

temos um estrato. Assim, se adotado um modelo logstico linear, alm
dos parmetros correspondentes aos efeitos includos no modelo, temos um
parmetro (intercepto) para cada estrato. Nos casos de estratos com poucas
observaes, o nmero de parmetros pode ser da mesma ordem do nmero
total de observaes, o que em geral leva a estimativas viesadas (ver Cox e
Hinkley, 1974, p. 292).
Como ilustrao, vamos supor um estudo de caso e controle com k
emparelhamentos do tipo 1:1 (1 caso por 1 controle) segundo os nveis de um
fator binrio de exposio representado pela varivel X (X = 1 presena da
exposio, X = 0 ausncia da exposio). Denotamos por Yi (x) o resultado
da resposta para o indivduo do i-simo estrato com X = x (Yi (x) = 1 caso,
Yi (x) = 0 controle). Vamos supor que Yi (x) Be{i (x)}, em que

i (x)
= i + x.
log
1 i (x)
A razo de chances de ser caso entre o indivduo exposto e o indivduo no
exposto no i-simo estrato fica dada por
=
i (1)/{1 i (1)}
= exp()
i (0)/{1 i (0)}
sendo, portanto, constante ao longo dos estratos.

Para eliminarmos os parmetros i s podemos trabalhar com a distribuio condicional de Yi (1) dado Yi (1) + Yi (0) = m. Essa distribuio foi
discutida na Seo 3.2.3. A funo de probabilidades pode ser expressa na
forma
f (a|m; ) =
1
a
ma
1 ,
Pv
1
t
t=u t mt
1
a
em que a = 0, 1 e m = 0, 1, 2. fcil mostrar que f (a|0; ) = f (a|2; ) = 1,

havendo portanto informao a respeito de somente nos estratos em que
261

Yi (1) + Yi (0) = 1. A funo de probabilidades nesse caso definida para
a = 0 e a = 1, sendo as probabilidades dadas por
f (0|1; ) = 1/(1 + )
e
f (1|1; ) = /(1 + ).
Se definirmos para o i-simo estrato duas novas variveis binrias X1i e X2i
representando, respectivamente, o nvel de exposio do caso e do controle,
poderemos expressar as probabilidades condicinais na forma
f (a|1, ) =
exp(x1i x2i )
,
1 + exp(x1i x2i )
em que a = 0, 1. Assim, para k estratos, a funo de verossimilhana conjunta

condicional, que depende apenas de e ser denotada por (), assume a
forma
() =
ki=1

exp{(xi1 xi2 )}
.
1 + exp{(xi1 xi2 )}
Temos que a expresso acima coincide com a funo de verossimilhana de

uma regresso logstica com k sucessos em k ensaios, com uma nica covarivel com valores observados zi = xi1 xi2 , i = 1, . . . , k, e passando pela
origem.
Generalizando para p covariveis e supondo ainda emparelhamentos

1:1, teremos o modelo
log
i (x)
1 i (x)
= i + xT ,
em que x = (x1 , . . . , xp )T , = (1 , . . . , p )T e i (x) = P r{Yi = 1|x}, i =

1, . . . , k. Se observamos no i-simo estrato os valores xi1 = (xi11 , . . . , xi1p )T
para o caso e os valores xi2 = (xi21 , . . . , xi2p )T para o controle, a funo de
262

verossimilhana conjunta condicional assume a forma geral (ver, po exemplo,
Breslow e Day, 1980, p. 205; Hosmer e Lemeshow, 1989, Cap. 7)

exp{(xi1 xi2 )T }
k
() = i=1
.
1 + exp{(xi1 xi2 )T }
Logo, a estimao de pode ser feita atravs do ajuste de uma regresso
logstica com k sucessos em k ensaios, com valores observados das covariveis dados por zij = xi1j xi2j , i = 1, . . . , k e j = 1, . . . , p e passando pela
origem. Devemos observar que embora algumas quantidades da regresso

logstica condicional para estudos emparelhados do tipo 1:1 coincidam com
as quantidades de uma regresso logstica no condicional passando pela origem, tais como estimativas dos parmetros e erros padro assintticos, as
distribuies dos modelos so diferentes. No primeiro caso temos o produto
de hipergeomtricas independentes enquanto que no segundo caso temos o
produto de binomiais independentes. Isso pode refletir na obteno de alguns
resultados, como por exemplo, gerao de envelope para o resduo componente do desvio que usa a distribuio da resposta no processo de gerao
dos dados.
Tcnicas de diagnstico
Moolgavkar, Lustbader e Venzon (1985) e Pregibon (1984) tm mostrado
que a maioria das tcnicas usuais de diagnstico do modelo logstico no
condicional podem ser estendidas para o modelo logstico condicional. Como
a varivel resposta no modelo logstico condicional sempre assume o valor 1,
o resduo componente do desvio sempre positivo, sendo dado por
2|log
i |
,
t Di = p
ii
1h
263

em que
i =
exp(zTi )
1 + exp(zT )
ii =
1 zi .
h
i (1
i )zTi (ZT VZ)

Os grficos de tDi e h
i podem revelar emparelhamentos discrepantes com algum tipo de influncia nos resultados do
modelo.
De forma similar, a distncia de Cook no caso emparelhado fica dada
por
LDi =
em que
ii
h
r2 ,
ii )2 Pi
(1 h
1
i
rPi = p
i (1
i )
o resduo de Pearson. Temos que rP1 assume sempre valores no negativos.
O grfico de LDi contra os valores ajustados
i pode revelar aqueles emparelhamentos com maior influncia nas estimativas dos parmetros. A gerao
de envelope, contudo, somente pode ser feita atravs do modelo logstico
condicional.
Para ilustrarmos o ajuste no R, vamos supor um estudo com k = 20
emparelhamentos do tipo 1:1 e que foram observados os valores de duas
covariveis V 1 e V 2. Os valores observados dos casos sero armazenados nos
objetos v11 e v12 e os valores observados dos controles nos objetos v21 e
v22. O ajuste segue os seguintes passos:
resp < rep(1, times=20)
z1 < v11 - v21
z2 < v12 - v22
fit.cond < glm(resp z1+z2 - 1, family=binomial).
Podemos analisar fit.cond em geral da mesma forma que analisamos a

sada de um modelo logstico linear. Por exemplo, as estimativas e os erros
264

padro, como foi mostrado acima, coincidem com as estimativas e os erros
padro obtidos pelo modelo logstico condicional.
Aplicao
Como aplicao, discutimos a seguir um estudo cujo objetivo foi avaliar o
efeito da obesidade, do histrico familiar e de atividades fsicas no desenvolvimento de diabetes no dependente de insulina. 30 indivduos no diabticos
foram emparelhados com 30 indivduos diabticos no dependentes de insulina pela idade e pelo sexo. A obesidade foi medida atravs do ndice de
massa coporal (IMC), que definida como sendo o peso (em kg) dividido
pela altura (em metros quadrados). O histrico familiar com diabetes (HF)
e as atividades fsicas (ATF) foram tratadas como sendo variveis binrias
(HF=1 presena, HF=0 ausncia; ATF=1 presena, ATF=0 ausncia). Os
dados so descritos em Lee (1991, p. 312) e reproduzidos na Tabela 3.22 e
esto tambm no arquivo diabetes.dat. Denotaremos por xi11 , xi12 e xi13 ,
respectivamente, o valor da massa corporal (IMC), histrico familiar (HF) e
atividades fsicas (ATF) para o i-simo indivduo diabtico e por xi21 , xi22
e xi23 os valores dessas variveis para o i-simo indivduo no diabtico. A
funo de verossimilhana do modelo logstico condicional ser dada por

exp(zi1 1 + zi2 2 + zi3 3 )
30
,
() = i=1
1 + exp(zi1 1 + zi2 2 + zi3 3 )
em que zi1 = xi11 xi21 , zi2 = xi12 xi22 e zi3 = xi13 xi23 .
As estimativas de mxima verossimilhana (erro padro aproximado)

so dadas por 1 = 0, 090(0, 065), 2 = 0, 968(0, 588) e 3 = 0, 563(0, 541),
cujos nveis descritivos so, respectivamente, dados por 0, 166, 0, 099 e 0, 298,
indicando indcios de efeito significativo apenas para o histrico familiar.

Na Figura 3.14 so apresentados alguns grficos de diagnstico em que
podemos notar a influncia das observaes #18 e #28 como possivelmente
265
Tabela 3.22
Emparelhamento de 30 diabticos no
dependentes de insulina (casos) e 30
no diabticos (controles).
Casos
Controles
Par IMC HF ATF
IMC HF ATF
1
22,1
1
1
26,7
0
1
2
31,3
0
0
24,4
0
1
3
33,8
1
0
29,4
0
0
4
33,7
1
1
26,0
0
0
5
23,1
1
1
24,2
1
0
6
26,8
1
0
29,7
0
0
7
32,3
1
0
30,2
0
1
8
31,4
1
0
23,4
0
1
9
37,6
1
0
42,4
0
0
10 32,4
1
0
25,8
0
0
11 29,1
0
1
39,8
0
1
12 28,6
0
1
31,6
0
0
13 35,9
0
0
21,8
1
1
14 30,4
0
0
24,2
0
1
15 39,8
0
0
27,8
1
1
16 43,3
1
0
37,5
1
1
17 32,5
0
0
27,9
1
1
18 28,7
0
1
25,3
1
0
19 30,3
0
0
31,3
0
1
20 32,5
1
0
34,5
1
1
21 32,5
1
0
25,4
0
1
22 21,6
1
1
27,0
1
1
23 24,4
0
1
31,1
0
0
24 46,7
1
0
27,3
0
1
25 28,6
1
1
24,0
0
0
26 29,7
0
0
33,5
0
0
27 29,6
0
1
20,7
0
0
28 22,8
0
0
29,2
1
1
29 34,8
1
0
30,0
0
1
30 37,3
1
0
26,5
0
0
266

influentes nas estimativas dos parmetros. A eliminao do emparelhamento
#18 no muda os resultados inferenciais embora aumente a significncia do
histrico familiar. J a eliminao do emparelhamento #28 muda os resultados inferenciais uma vez que o ndice de massa corporal passa a ser
significante ao nvel de 10%. Nesse emparelhamento o controle tem histrico
familiar e atividade fsica enquanto o caso no apresenta as duas caractersticas. Alm disso, o caso tem um ndice de massa corporal menor do que o
controle.
Emparelhamento 1:M
Para emparelhamentos do tipo 1:M (M 2) e k estratos a funo de verossi-
milhana (ver, por exemplo, Breslow e Day, 1980; Cordeiro e Paula, 1989b)
para = (1 , . . . , p )T fica dada por
() =
ki=1 {exp(xTi0 )/
M
X
exp(xTi )},
(3.20)
=0
cujo logaritmo assume a forma

L() = log() =
k
X
[xTi0
i=1
M
X
log{
exp(xTi )}],
(3.21)
=0
em que xi0 = (xi01 , . . . , xi0p )T denota os valores observados para o caso e

xi = (xi1 , . . . , xip )T denota os valores observados para o -simo controle.
A funo de verossimilhana (3.21) coincide com a funo de verossimilhana do modelo de regresso de Cox (Cox, 1972; Cox e Oakes, 1974)
quando no h ocorrncia de empates. Isso permite que os modelos logsticos
condicionais para emparelhamentos 1:M (M 2) sejam ajustados atravs de
programas desenvolvidos para o modelo de Cox.
267
3.7 Exerccios
3.7 Exerccios
1. Os dados abaixo so de um estudo de seguimento cujo objetivo foi
avaliar a associao de duas tcnicas cirrgicas, A e B, e a ocorrncia
de problemas graves ps-operatrios segundo duas faixas de idade.
Faixa I
Problema A B
Sim
6
7
No
14 23
Faixa II
A B
7
4
9 12
Obtenha um intervalo assinttico de confiana de 95% para a razo

de chances em cada estrato. Teste a hiptese de homogeneidade das
razes de chances. Comente.
2. A tabela abaixo resume um estudo de caso e controle em que foram
considerados como casos 200 homens adultos diagnosticados com cncer
de esfago num hospital de uma determinada comunidade. Os controles
foram uma amostra de 775 homens adultos escolhidos aleatoriamente da
lista de eleitores da comunidade. Esses dois grupos foram classificados
segundo os nveis alto (mais de 80g/dia) e baixo (at 80g/dia) do fator
Exposio ao Alcool.
Alto
Caso
96
Controle 109
Total
205
Baixo
104
666
770
Total
200
775
975
Verifique, atravs de um teste apropriado, se h associao entre o fator

de exposio e a doena. Encontre um intervalo de confiana assinttico
para a razo de chances. Indique as suposies utilizadas e interprete
os resultados.
268
3.7 Exerccios
3. (Day e Byar, 1979). Suponha Yij B(nij , ij ) mutuamente independentes, i, j = 1, 2 com as probabilidades ij sendo definidas por

i1
i2
log
= i e log
= i + .
1 i1
1 i2
Interprete 1 , 2 e . Mostre que o teste de escore para testar H0 :

= 0 contra H1 : 6= 0, coincide com o teste de Mantel-Hanszel
2
(XM
H ) para testar H0 : = 1 contra H1 : 6= 1, em que =
i2 (1 i1 )/i1 (1 i2 ), i = 1, 2.
ind
4. Supor um modelo binomial quadrtico de dose-resposta, em que Yi
B(ni , i ), com g(i ) = + xi + x2i , i = 1, . . . , k. Como fica expressa

c 100p ? E a varincia assinttica de DL
c 100p ?
a estimativa DL
5. Suponha o modelo logstico com ligao de Aranda-Ordaz. Desenvolva

um processo iterativo para estimar ( T , )T e escreva um programa
em R. Aplique esse processo iterativo para ajustar os dados do exemplo
sobre a exposio de besouros descrito na Seo 3.6.11. Assuma =
1 + 2 x. significativamente diferente de um? Com fica o resduo
componente do desvio? E o desvio? Houve melhora na qualidade do
ajuste? Tente gerar envelope.
ind
6. Supor um modelo binomial quadrtico de dose-resposta, em que Yi
B(ni , i ), com g(i ) = i = + xi + x2i , i = 1, . . . , k. Assumir que

2 /x2 < 0, x. Qual a soluo para /x = 0? Denotando essa
soluo por x0 , interprete e encontre uma estimativa intervalar para x0 .

7. (Paula, Sevanes e Ogando, 1988). Os conjuntos de dados apresentados
nos arquivos dose1.dat, dose2.dat e dose3.dat so provenientes de
um experimento de dose-resposta conduzido para avaliar a influncia
dos extratos vegetais aquoso frio de folhas", aquoso frio de frutos"e
269
3.7 Exerccios
de um extrato qumico, respectivamente, na morte de um determinado
tipo de caramujo. Para cada conjunto, ajuste um modelo logstico linear simples e um modelo complementar log-log linear simples. Para
o melhor ajuste (use envelopes como critrio), encontre um intervalo
assinttico de 95% para a dose letal DL50 , construa as bandas de confiana e verifique se h indcios de sobredisperso aplicando um teste
apropriado.
8. (Collett, 1991, p.127). Os dados abaixo so provenientes de um experimento desenvolvido para avaliar a germinao de um determinado tipo
de semente segundo trs condies experimentais: nvel da temperatura
(21o C, 42o C e 62o C); nvel da umidade (baixo, mdio e alto) e temperatura da germinao (11o C e 21o C). A tabela abaixo apresenta o
nmero de sementes que germinaram aps cinco dias para cada 100 sementes submetidas a cada condio experimental. Assuma um modelo
logstico para explicar o nmero de sementes que germinaram. Aplique
o mtodo AIC para selecionar um modelo considerando interaes de
1a ordem. Interprete os resultados. Faa uma anlise de resduos com
o modelo selecionado. Esses dados esto descritos no arquivo sementes.dat.
Temperatura da Nvel da
Germinao
Umidade
o
11 C
baixo
11o C
mdio
11o C
alto
21o C
baixo
21o C
mdio
o
21 C
alto
Nvel
21o C
98
94
92
94
94
91
da Temperatura
42o C 62o C
96
62
79
3
41
1
93
65
71
2
30
1
9. Mostre que a varincia assinttica do estimador de mxima verossimi270
3.7 Exerccios
lhana no condicional da razo de chances numa tabela 2 2 dada
por

1
1
=
VarA ()
.
+
n1 1 (1 1 ) n2 2 (1 2 )
Lembre que: sob condies gerais de regularidade, os estimadores de
2
mxima verossimilhana so assintoticamente normais e no viesados

com varincia assinttica igual inversa da matriz de informao de
Fisher.
10. Sejam Y1 e Y2 variveis aleatrias independentes tais que Y1 B(n1 , 1 )
e Y2 B(n2 , 2 ). Seja RR = 1 /2 o risco relativo. (i) Expresse a
funo de probabilidades conjunta de Y1 e Y2 em funo de (RR, 2 ),

c e
(ii) encontre as estimativas de mxima verossimilhana RR
2 , (iii)
como fica a matriz de informao de Fisher para (RR, 2 )? e a varincia

c (iv) Desenvolva o teste da Wald para testar H0 :
assinttica de RR?
RR = 1 contra H1 : RR 6= 1. Qual a distribuio nula assinttica do

teste?
11. A tabela abaixo descreve o resultado de um experimento em que vrios

pacientes foram submetidos a um de quatro nveis de exposio de um
tratamento particular e foi observado, aps 12 meses, se o paciente foi
curado ou no curado.
Resultado
Curado
No-Curado
Nvel de
E1 E2
20 16
80 84
Exposio
E3 E4
12
5
48 20
Seja Yi o nmero de pacientes curados dentre os ni submetidos ao nvel

de exposio Ei. Suponha que Yi B(ni , i ), i = 1, . . . , 4. Tome o nvel
E1 como nvel de referncia e teste a hiptese de homogeneidade das

271
3.7 Exerccios
razes de chances contra a alternativa de razes de chances diferentes.
Sugesto: use a estaststica XA2 .
12. Sejam Y1 , . . . , Yn variveis aleatrias mutuamente independentes tais
que Yi B(m, i ), em que log{i /(1 i )} = . (i) Encontre a es-
timativa de mxima verossimilhana de . (ii) Calcule Var(

). (iii)
Como fica o teste da razo de verossimilhanas para testar H0 : = 0

versus H1 : 6= 0? Qual a distribuio nula assinttica da estatstica
do teste?
13. Considere o modelo logstico de dose-resposta em que Yi B(m, i ),

i = 1, . . . , k, com parte sistemtica dada por

i
log
= + xi ,
1 i
Expresse o logaritmo da funo de verossimilhana em funo da dose

letal = DL50 e de . Encontre a funo escore U = L(, )/.
Considere agora as hipteses H0 : = a contra H1 : 6= a. Como fica
o teste de escore para testar H0 contra H1 ? Qual a distribuio nula
assinttica da estatstica do teste? Sugesto: para facilitar a notao

expresse a varincia assinttica de em funo das quantidades v00 =
e v01 = Cov(
Var(
), v11 = Var()
, ).
14. (Lawless, 1982, p.389; Efron, 1988). Vamos considerar agora uma aplicao de regresso logstica em anlise de sobrevivncia. Seja i (t) a
probabilidade de um equipamento do tipo i falhar no intervalo It =
(t 1, t] dado que o mesmo no falhou at o tempo t 1. Seja Yit o
nmero de falhas no intervalo It e seja nit o nmero de equipamentos
que no falharam at o tempo t 1 no i-simo grupo. Assumiremos
que Yit B(nit , i (t)) e que as falhas so independentes. Ajustar um

272
3.7 Exerccios
modelo logstico do tipo

i (t)
log
= i + i t + i t2
1 i (t)
(3.22)
ao seguinte conjunto de dados:
Tempo
1
2
3
4
5
Tipo A
n1t y1t
42 4
38 3
35 3
31 5
26 6
Tipo B
n2t y2t
50 6
44 11
32 10
22 8
12 6
Tipo C
n3t y3t
48 11
37 10
27 12
15 8
6
4
Apresente o grfico com as curvas ajustadas e os valores observados.

Tente selecionar um submodelo apropriado. Verifique a adequao do
modelo adotado atravs do grfico normal de probabilidades com envelope utilizando o resduo tDi . Interprete os resultados. Os dados esto
descritos no arquivo equipamentos.dat.
15. (Hosmer e Lemeshow, 1989, Cap.7). No arquivo matched.dat esto os
dados de um estudo de caso-controle com emparelhamentos do tipo 1:1,
em que os casos foram mulheres com diagnstico confirmado de tumor
benigno na mama e os controles de mulheres sadias diagnosticadas no
mesmo hospital e perodo dos casos. A varivel de emparelhamento foi
a idade da paciente na poca da entrevista AGMT. Escolha trs variveis
do arquivo mencionado e verifique atravs de uma regresso logstica
condicional a associao entre as variveis escolhidas e o diagnstico
da doena (sim=1, no=0) representado pela varivel FNDX. Interprete
as estimativas dos parmetros do modelo ajustado. Faa uma anlise
de diagnstico e gere envelope. Obsevao: caso voc escolha alguma
273
3.7 Exerccios
varivel com observaes perdidas, exclua das anlises as pacientes correspondentes.
16. (Morgan, 1992, p.90). A tabela abaixo descreve os resultados de um
experimento em que a toxicidade de trs concentraes (R-rotenine,
D-deguelin e M-mistura, essa ltima como uma mistura das duas primeiras) investigada. As concentraes foram testadas em insetos e
observado para cada dose o nmero de insetos mortos. Os dados esto
descritos no arquivo morgan.dat.
Concentrao
R
R
R
R
R
Dose Expostos
0,41
50
0,58
48
0,71
46
0,89
49
1,01
50
Mortos
6
16
24
42
44
D
D
D
D
D
D
0,71
1,00
1,31
1,48
1,61
1,70
49
48
48
49
50
48
16
18
34
47
47
48
M
M
M
M
M
M
0,40
0,71
1,00
1,18
1,31
1,40
47
46
46
48
46
50
7
22
27
38
43
48
Suponha inicialmente o modelo log{i (x)/(1 i (x))} = i + i x, i =
1, 2, 3, em que i (x) a proporo esperada de insetos mortos sob a
concentrao i e dose x. Faa uma anlise de diagnstico e verifique

274
3.7 Exerccios
se h indcios de sobredisperso aplicando um teste apropriado. Teste
a hiptese de paralelismo com todos os pontos e sem as observaes
discrepantes. Comente.
17. Vamos considerar agora uma aplicao de regresso logstica em transportes. Seja i (t) a probabilidade de um caminho do tipo i ser desativado durante o ano t dado que o mesmo no foi desativado durante
o ano t 1. Assuma que durante o ano t foram desativados yit cami-
nhes dentre os nit existentes no comeo do ano, i = 1, 2 e t = 1, . . . , k.

Suponha que Yit B(nit , i (t)) e que so mutuamente independentes.
Considere o modelo

2 (t)
1 (t)
= t e log
= t + .
log
1 1 (t)
1 2 (t)
O que significa testar H0 : = 0? Qual a matriz X do modelo? Como

Mostre que a estatstica de escore para testar H0 : = 0
fica Var()?
contra H1 : 6= 0 pode ser expressa na forma
SR =

k
X
yt n2t
y2t
nt
t=1
)2
k
X
yt n1t n2t (nt yt )
t=1
n3t
em que nt = n1t + n2t e yt = y1t + y2t . Qual a distribuio nula

assinttica de SR ?
18. Sejam Y1 , . . . , Yk variveis aleatrias independentes tais que a funo
de probabilidades de Yi seja dada por

1
f (yi ; i ) =
1
iyi
yi 1yi
P 1 1 1 t ,
t=0 t 1t i
em que yi = 0, 1. Supor a parte sistemtica logi = . (i) Encontre a

estimativa de mxima verossimilhana de ; (ii) encontre a informao
275
3.7 Exerccios
de Fisher para ; (iii) como fica o teste de escore para testar H0 : = 0
contra H1 : 6= 0? Qual a distribuio
q nula assinttica do teste? (iv)
Expresse o resduo ri = (yi

i )/ Var(Y
i ) em funo de yi e ; (v)
Como voc faria para gerar valores de Yi da distribuio dada acima?
19. (Agresti, 1990, p.253). Considere a tabela abaixo em que um grupo

de gestantes fumantes foi classificado segundo os fatores: idade (< 30
ou 30 ou +), nmero de cigarros consumidos por dia (< 5 ou 5 ou +),
tempo de gestao ( 260 dias ou > 260 dias) e a situao da criana
(sobreviveu ou no sobreviveu).
Idade
< 30
No. de cigarros
<5
5+
30+
<5
5+
Durao da Sobrevivncia
Gestao
No
Sim
260
50
315
> 260
24
4012
260
9
40
> 260
6
459
260
41
147
> 260
14
1594
260
4
11
> 260
1
124
Ajustar um modelo logstico linear em que a resposta a sobrevivncia

da criana (sim=1, no=0). Considere at interaes de 1a ordem.
Verifique a adequao do modelo e interprete os resultados atravs de
estimativas intervalares para as razes de chances. Esss dados esto
descritos no arquivo gestantes.dat.
20. (Everitt, 1994). Os dados do arquivo leuce.dat referem-se a um estudo com 51 pacientes adultos, previamente diagnosticados com um
tipo agudo de leucemia, que receberam um tipo de tratamento e foi
verificado aps um certo perodo a eficincia ou no do tratamento.
276
3.7 Exerccios
Algumas variveis explicativas pr-tratamento foram tambm observadas. As variveis em estudo so as seguintes: (i) idade do paciente na
poca do diagnstico (em anos), (ii) mancha diferencial da doena (em
%), (iii) infiltrao na medula (em %), (iv) clulas com leucemia na
medula (em %), (v) malignidade da doena (103 ), (vi) temperatura
mxima antes do tratamento (10o F ), (vii) tratamento (1: satisfatrio, 0: no satisfatrio), (viii) tempo de sobrevivncia aps o diagnstico (em meses) e (ix) situao (1: sobrevivente, 0: no sobrevivente).
Considere um modelo logstico linear para explicar a probabilidade de
eficincia do tratamento dadas as seis variveis explicativas. Selecionar as variveis explicativas bem como as interaes de primeira ordem
atravs do mtodo stepwise. Usar PE = PS = 0, 20. Fazer uma anlise
de diagnstico com o modelo selecionado e interpretar algumas razes
de chances. Calcular a estatstica de Hosmer-Lemeshow para avaliar a
qualidade do ajuste do modelo selecionado.
21. (McCullagh e Nelder, 1989, pgs. 128-135). No arquivo grahani.dat
esto os dados referentes distribuio de duas espcies de lagarto
(grahani e opalinus) segundo quatro fatores: (i) perodo do dia (manh,
meio-dia, tarde), (ii) comprimento da madeira (curta, comprida), (iii)
largura da madeira (estreita, larga) e (iv) local de ocupao (claro,
escuro). Suponha que o nmero de lagartos encontrados da espcie
grahani tenha distribuio binomial.
(i) Proponha um modelo logstico (sem interao) para explicar a proporo de lagartos da espcie grahani. Ajuste o modelo e verifique
atravs do teste da razo de verossimilhanas quais efeitos so significativos ao nvel de 10%.
(ii) Verifique separadamente se cada interao de primeira ordem pode
277
3.7 Exerccios
ser includa no modelo ao nvel de 5%. Construa o ANODEV.
(iii) Interprete os resultados tentando falar de uma forma no tcnica
sobre as preferncias dos dois tipos de lagarto.
22. (Agresti, 1990, pgs. 122-123). Cinquenta e quatro indivduos considerados idosos so submetidos a um exame psiquitrico para avaliar a
ocorrncia ou no de sintoma de caduquice. Acredita-se que o escore
obtido num exame psicolgico feito previamente esteja associado com
a ocorrncia ou no do sintoma. Os dados so apresentados abaixo
(score: escala no exame psicolgico e resp: ocorrncia (resp=1) ou
no ocorrncia (resp=0) do sintoma). Esses dados esto descritos no
arquivo caduquice.dat.
Score
9
13
6
8
10
4
14
8
11
7
9
Resp Score
1
7
1
5
1
14
1
13
1
16
1
10
1
12
1
11
1
14
1
15
1
18
Resp Score
1
7
1
16
1
9
0
9
0
11
0
13
0
15
0
13
0
10
0
11
0
6
Resp Score
0
17
0
14
0
19
0
9
0
11
0
14
0
10
0
16
0
10
0
16
0
14
Resp
0
0
0
0
0
0
0
0
0
0
0
Score Resp
13
0
13
0
9
0
15
0
10
0
11
0
12
0
4
0
14
0
20
0
Ajustar um modelo logstico para explicar a probabilidade de ocorrncia

do sintoma em funo do escore. Interpretar os resultados. Calcule a
estatstica de Hosmer-Lemeshow. Faa uma anlise de diagnstico com
o modelo ajustado.
278
3.7 Exerccios
23. (Neter et el., 1996, pgs. 582-584). Em um estudo para investigar a
incidncia de dengue numa determinada cidade da costa mexicana, um
total de 196 indivduos, escolhidos aleatoriamente em dois setores da
cidade, respondeu s seguintes perguntas: (i) idade, idade do entrevistado (em anos), (ii) nivel, nvel scio-econmico (nivel=1, nvel
alto; nivel=2, nvel mdio; nivel=3, nvel baixo) e (iii) setor, setor
da cidade onde mora o entrevistado (setor=1, setor 1; setor=2, setor
2) e (iv) caso, se o entrevistado contraiu (caso=1) ou no (caso=0) a
doena recentemente. Um dos objetivos do estudo tentar prever ou
explicar a probabilidade de um indivduo contrair a doena dadas as
variveis explicativas idade, nivel e setor. Os dados esto descritos
no arquivo dengue.dat. Tente selecionar um modelo atravs da aplicao do mtodo AIC considerendo interaes de 1a ordem. Faa uma
interpretao do modelo selecionado (atravs de razes de chances) e
faa uma anlise de diagnstico do mesmo. Verifique a qualidade do
ajuste atravs da estatstica de Hosmer-Lemeshow.
24. (McCullagh e Nelder, 1989, p.144). No arquivo olhos.dat so apresentados dados referentes a 78 famlias com pelo menos seis filhos cada
uma. Na primeira coluna tem-se a classificao dos olhos dos pais segundo a cor (1: ambos claros, 2: ambos castanhos, 3: ambos escuros, 4:
claro e castanho, 5: claro e escuro e 6: castanho e escuro), na segunda
coluna a classificao dos olhos dos avs segundo a cor (1: todos claros,
2: todos castanhos, 3: todos escuros, 4: trs claros e um castanho, 5:
trs claros e um escuro, 6: um claro e trs castanhos, 7: um escuro
e trs castanhos, 8: um claro e trs escuros, 9: um castanho e trs
escuros, 10: dois claros e dois castanhos, 11: dois claros e dois escuros,
12: dois castanhos e dois escuros, 13: dois claros, um castanho e um
279
3.7 Exerccios
escuro, 14: um claro, dois castanhos e um escuro e 15: um claro, um
castanho e dois escuros), na terceira coluna tem-se o nmero de filhos
na famlia e na ltima coluna o nmero de filhos com olhos claros. Seja
Yi o nmero de filhos com olhos claros pertencentes i-sima famlia.
Assuma inicialmente que Yi B(ni , i ), i = 1, . . . , 78. Resolver os tens
abaixo.
(i) Ajustar inicialmente um modelo logstico linear apenas com o fator

cor dos olhos dos pais. Construir grficos de resduos. Identificar os pontos aberrantes. Quais as mudanas nos resultados com a
eliminao desses pontos. H indcios de sobredisperso? Ajustar
um modelo de quase-verossimilhana com e sem os pontos aberrantes. Comente.
(ii) Incluir agora o fator cor dos olhos dos avs. Refazer todos os
passos acima. Comente os resultados.
25. No arquivo pulso.dat so descritas as variveis pulsao em repouso
(1: normal, 2: alta), hbito de fumar (1: sim, 2: no) e peso (em kg) de
92 adultos do sexo masculino. Ajuste um modelo logstico linear para
explicar a probabilidade de pulsao alta dadas as demais variveis.
Faa uma anlise de diagnstico. Apresente as curvas ajustadas para
cada grupo de hbito de fumar com as respectivas bandas de confiana
de 95%.
280
Captulo
Modelos para Dados de Contagem
4.1 Introduo
Neste captulo apresentamos alguns mtodos para a anlise de dados de contagem. Inicialmente so apresentados os principais mtodos tradicionais e
em seguida discutimos a modelagem atravs de regresso. Duas situaes
de interesse so consideradas. Na primeira delas, muito comum em estudos
de seguimento, as unidades amostrais so classificadas segundo os nveis de
categorias, tais como sexo, faixa etria, tipo de tratamento etc, e so acompanhadas por um perodo fixo pr-estabelecido ou at a ocorrncia de um
determinado evento. Temos, portanto, um tempo particular de observao
para cada unidade amostral, o qual dever ser incorporado nas anlises. Na
segunda situao, o interesse estudarmos o nmero de ocorrncias de um
evento particular segundo os nveis de categorias, de modo que seja possvel construirmos uma tabela tpica de contingncia. Aqui, a suposio de
distribuio de Poisson para o nmero de ocorrncias do evento em cada
281
4.1 Introduo
configurao de nveis das categorias leva a resultados equivalentes suposio de distribuio multinomial para as caselas da tabela de contingncia
formada. Assim, muitas tabelas de contingncia que seriam originalmente
analisadas atravs de um modelo log-linear multinomial podem ser analisadas, alternativamente, por um modelo log-linear de Poisson. A vantagem
disso o fato do modelo log-linear de Poisson ser ajustado mais facilmente
do que o modelo log-linear multinomial, alm da possibilidade de todos os
procedimentos desenvolvidos para os MLGs serem diretamente estendidos
para o modelo log-linear de Poisson. No discutimos, contudo, aspectos particulares na anlise de tabelas de contingncia, tais como testes ou modelos
multinomiais mais especficos.
Discutimos tambm neste captulo o fenmeno de sobredisperso que
pode ocorrer com dados de contagem quando a varincia da varivel resposta
maior do que a mdia. Nesses casos, a suposio de distribuio de Poisson
para a resposta inadequada sendo necessrio o uso de modelos alternativos. O modelo de quase-verossimilhana com parmetro de disperso leva
s mesmas estimativas do modelo de Poisson, porm corrige a variabilidade
das estimativas. Daremos, contudo, ateno especial aos modelos com resposta binomial negativa, os quais permitem uma anlise mais completa dos
dados do que os modelos de quase-verossimilhana. Finalmente, abordamos
de forma sucinta os modelos de Poisson e binomial negativo com excesso de
zeros.
4.1.1 Mtodos clssicos: uma nica tabela 2 2

Considere inicialmente a tabela abaixo resultante de um estudo de seguimento (em que indivduos expostos e no expostos so acompanhados ao
longo do tempo por um perodo fixo ou at a ocorrncia de um evento).
282
4.1 Introduo
Casos
Pessoas-Tempo
E
y1
t1
E
y2
t2
Vamos assumir que Y1 e Y2 seguem, respectivamente, distribuio de Poisson

com parmetros 1 e 2 , em que 1 a taxa mdia de casos (por unidade
de tempo) no grupo exposto e 2 a taxa mdia de casos no grupo no
exposto. O parmetro de interesse nesse tipo de estudo a razo entre as
taxas, denotada por =
1
.
2
O objetivo principal fazermos inferncias a
respeito de .
A funo de probabilidades conjunta de (Y1 , Y2 ) fica ento dada por
e1 t1 (1 t1 )y1 e2 t2 (2 t2 )y2
f (y; ) =
y1 !
y2 !
= exp{2 t1 2 t2 + y1 log + (y1 + y2 )log2
+ y1 logt1 + y2 logt2 logy1 ! logy2 !},
em que y = (y1 , y2 )T e = (1 , 2 )T . Portanto, pelo teorema da fatorizao
temos que as estatsticas (Y1 , Y1 + Y2 ) so suficientes minimais para (, 2 ).
Logo, condicionando em Y1 +Y2 = m, obtemos uma distribuio que depende
apenas de , isto
f (a|m; ) = P r{Y1 = a | Y1 + Y2 = m}

m a
=
(1 )(ma) ,
a
em que = t1 /{t2 + t1 } = /{t2 /t1 + }, sendo a probabilidade de um
caso ter sido exposto. Equivalentemente, temos que
=
t2
.
(1 )t1
Aqui o interesse testarmos H0 : = 1 contra H1 : 6= 1, que equivalente

a testarmos H0 : = 0 contra H1 : 6= 0 , em que 0 = t1 /(t1 + t2 ).
283
4.1 Introduo
O nvel descritivo exato para testarmos a hiptese H0 contra H1 dado
por P = 2min{PI , PS }, em que
PI =
a
X
m
x=0
0x (1 0 )(mx)
m
X
m x
PS =
0 (1 0 )(mx) .
x
x=a
Podemos usar o resultado abaixo (ver, por exemplo, Leemis e Trivedi, 1996)
para expressarmos a distribuio condicional de Y1 dado Y1 + Y2 = m em
funo de uma distribuio Fu,v , ou seja uma distribuio F com u e v graus
de liberdade. Supondo Y B(n, p), temos que
P r(Y y) = P r{F2y,2(ny+1) < (n y + 1)p/y(1 p)},
(4.1)
com 0 < p < 1. Da temos, sob H0 : = 0 , que

PI
m
X
m x
0 (1 0 )(mx)
= 1
x
x=a+1

(m a 1 + 1)0
= 1 P r Fu,v <
(a + 1)(1 0 )
= 1 P r {Fu,v < bt1 /(a + 1)t2 } ,
com b = ma, u = 2(a+1) e v = 2b. Similarmente, obtemos sob H0 : = 0 ,

que
PS = P r{Fu,v < (b + 1)t1 /at2 },
com u = 2a e v = 2(b + 1). De (4.1) temos que que os limites exatos de
confiana para p, para um coeficiente de confiana (1 ), so tais que
X
=
P r(Y = t; pI ) = P r(Y y; pI )
2
ty
284
4.1 Introduo
e
X
=
P r(Y = t; pS ) = 1 P r(Y y + 1; pS ).
2
ty
Logo, usando (4.1) obtemos
pI =
1+
ny+1
yF2y,2(ny+1) (/2)
e
pS =
1
ny
(y+1)F2(y+1),2(ny) (1/2)
1+
em que Fu,v (/2) denota o percentil /2 de uma distribuio F com u e v

graus de liberdade. Portanto, temos para , fazendo y = a e m = a + b, o
limite inferior exato de confiana
I =
1
1+
b+1
aFu,v (/2)
= aFu,v (/2)/{b + 1 + aFu,v (/2)},

em que u = 2a e v = 2(b + 1). De forma anloga obtemos o limite superior
exato
S =
1
1+
b
aFu,v (1/2)
= aFu,v (1 /2)/{b + aFu,v (1 /2)},

em que u = 2(a + 1) e v = 2b. A estimativa de mxima verossimilhana
para considerando a distribuio no condicional (produto de Poissons
independentes) fica dada por
= ,
2
1 = y1 /t1 e
2 = y2 /t2 . Portanto, obtemos = y1 t2 /y2 t1 . Se,
em que
por outro lado, utilizamos a distribuio condicional, B(m, ), temos que a
285
4.1 Introduo
estimativa de mxima verossimilhana de fica dada por
=
t2
,
(1
)t1
em que
= y1 /m e (1
) = y2 /m. Logo, fica expresso de forma anloga
ao caso no condicional. A explicao desse fato, que no ocorre nos estudos de caso e controle com respostas binomiais, que a estatstica Y1 + Y2 ,
alm de ser suficiente para 2 , tambm ancilar para , isto , no contm
qualquer informao acerca de . No caso do produto de duas binomiais
independentes, Y1 + Y2 suficiente para 2 , no entanto, no ancilar para .
Uma consequncia desse fato que a estimativa de mxima verossimilhana
condicional no coincide com a estimativa no condicional.
Aplicao
Vamos considerar, como aplicao, os dados apresentados em Boice e Monson
(1977) referentes a um estudo de seguimento com dois grupos de mulheres
com tuberculose, um grupo exposto a radiao e o outro grupo no exposto,
sendo observado ao longo do tempo o desenvolvimento ou no de cncer de
mama. Os resultados desse estudo so resumidos na Tabela 4.1.
Tabela 4.1
Casos de cncer de mama em mulheres
com tuberculose.
Radiao
Exposto No Exposto
Casos
41
15
Pessoas-anos
28010
19017
Temos, portanto, que a = 41, b = 15, t1 = 28010 e t2 = 19017. Os nveis
descritivos correspondentes ao teste exato para testar H0 : = 1 contra
286
4.1 Introduo
H1 : 6= 1 ficam dados por
PI = 1 P r{F84,30 < 0, 526} = 0, 988
e
PS = P r{F82,32 < 0, 575} = 0, 024,
e obtemos o nvel descritivo P= 0, 048 que indica, para um nvel de significncia de 5%, pela rejeio de H0 . Isso quer dizer que h indcios de que
mulheres com tuberculose e expostas a radiao tm uma chance maior de
desenvolvimento de cncer de mama do que mulheres no expostas com a
mesma doena. Uma estimativa pontual de mxima verossimilhana para
0,73219017
fica dada por = 0,26828010
= 1, 85 e um intervalo exato de confiana de
95% para tem os limites
I = 41 F82,32 (0, 025)/{16 + 41 F82,32 (0, 025)}

= 0, 597 e
S = 41 F84,30 (0, 975)/{15 + 41 F84,30 (0, 975)}

= 0, 838.
Desses limites obtemos os limites exatos de confiana para
I t2
0, 597 19017
=
(1
I )t1
(1 0, 597) 28010
= 1, 007 e
0, 838 19017
S t2
=
=
(1
S )t1
(1 0, 838) 28010
= 3, 512.
I =
Temos que o intervalo [1, 007; 3, 512] no cobre o valor = 1, como era
esperado.
287
4.1 Introduo
4.1.2 Estratificao: k tabelas 2 2

Se o dados so estratificados segundo um fator com k nveis, cada tabela
resultante pode ser expressa na forma abaixo.
Casos
Pessoas-Tempo
E
y1i
t1i
E
y2i
t2i
Temos aqui as suposies Y1i P(1i t1i ) e Y2i P(2i t2i ), i = 1, . . . , k.
Consequentemente, a distribuio condicional de Y1i dado Y1i + Y2i = mi

uma B(mi , i ), em que i = i /{t2i /t1i + i }, ou equivalentemente
i =
i t2i
.
(1 i )t1i
Se temos interesse em testar a homogeneidade das razes de taxas H0 : 1 =

. . . = k contra a alternativa de pelo menos duas diferentes, a estimativa
sob H0 , sai do sistema de equaes
comum ,
k
X
y1i =
i=1
k
X
i=1
mi /{ + t2i /t1i },
que tem no mximo uma raiz positiva. Alternativamente, de forma anloga

aos estudos de caso e controle, podemos construir uma verso da estimativa
de Mantel-Haenszel dada por
Pk
y1i t2i /ti

,
M H = Pi=1
k
y
t
/t
2i
1i
i
i=1
em que ti = t1i + t2i . Segundo Breslow e Day (1987), M H consistente e

assintoticamente normal com varincia assinttica estimada por
M H Pk t1i t2i mi /t2
i
i=1
A (M H ) = n
Var
o2 .
P
k
t1i t2i mi
i=1 ti (t1i +M H t2i )
288
4.1 Introduo
A estatstica sugerida para testar H0 definida por

k
X
(y1i y1i )2 (y2i y2i )2
2
X =
,
+
y1i
y2i
i=1
em que y1i = mi
i , y2i = mi (1
i ) e
i =
M H
t2i /t1i + M H
A distribuio nula assinttica de X 2 uma qui-quadrado com k 1 graus de

liberdade. Quando a hiptese de homogeneidade das razes de chances no
rejeitada, podemos testar a hiptese de associao entre o fator e a doena
levando em conta o efeito de estrato. Isso equivale a testarmos H0 : = 1
contra H1 : 6= 1. O teste qui-quadrado apropriado dado por
P
P
{ ki=1 y2i ki=1 E(Y2i |mi , = 1)}2
2
X =
Pk
i=1 Var(Y2i |mi , = 1)
P
Pk
{ i=1 y2i ki=1 mi t1i /(t1i + t2i )}2
=
.
Pk
2
m
t
t
/(t
+
t
)
i
1i
2i
1i
2i
i=1
A distribuio nula assinttica de X 2 , quando
em que n = n1 + + nk , uma 21 .
ni
n
(4.2)
ai > 0 fazendo n ,
Temos que a varincia assinttica de log(M H ) estimada por

A {log(M H )} = 2 Var
A (M H ).
Var
MH
Assim, um intervalo assinttico de confiana com coeficiente (1 ) para

log fica dado por log(M H ) z(1/2) 1 {VarA (M H )}1/2 o que implica
MH
nos limites de confiana superior e inferior dados abaixo

q
1
A (M H )} e
I = M H exp{z(1/2) M H Var
q
1
A (M H )}.
S = M H exp{z(1/2) M H Var
Esse intervalo deve ser construdo quando a aplicao da estatstica (4.2)

levar rejeio da hiptese H0 : = 1.
289
4.2 Modelos de Poisson

4.2.1 Propriedades da Poisson
Vamos supor que Y P() cuja funo de probabilidades dada por
P r(Y = y) =
e y
, y = 0, 1, 2, . . . .
y!
Podemos mostrar (ver, por exemplo, McCullagh e Nelder, 1989, p. 195) que
quando
(Y )/ d N(0, 1).
Em outras palavras, para grande temos que Y segue aproximadamente
uma distribuio normal de mdia e desvio padro . Se queremos,

no entanto, aplicar um modelo normal linear para explicar , teremos o
incoveniente do desvio padro depender da mdia, o que inviabiliza o uso
de um modelo normal linear homocedstico. Uma maneira de contornarmos
esse problema atravs da aplicao de uma transformao na resposta Y de
modo a alcanarmos a normalidade e a constncia de varincia, mesmo que
aproximadamente. Nesse sentido, temos que se Y Poisson, segue quando
o seguinte resultado:
{ Y E( Y )} d N(0, 1/4).
Portanto, quando grande, a varivel aleatria 2{ Y E( Y )} segue
aproximadamente uma distribuio N(0, 1). Assim, se temos uma amostra
aleatria Y1 , . . . , Yn tal que Yi P(i ) e queremos explicar i atravs de
variveis explicativas, podemos propor para i grande, i, o modelo normal

linear abaixo
p
Yi = xTi + i ,
em que i N(0, 2 ), i = 1, . . . , n. Isso foi feito na Seo 1.12.3 no exemplo
sobre sobrevivncia de bactrias.
290
4.2.2 Modelos log-lineares: k tabelas 2 2

Como foi visto no Captulo 1, os modelos log-lineares so recomendados para
a anlise de dados de contagem, mesmo quando o tempo de observao no
o mesmo para cada unidade amostral. Em particular, se temos um conjunto
de k tabelas 2 2, uma modelagem possvel para a taxa mdia por unidade
de tempo em cada casela supormos que Y1i P(1i t1i ) e Y1i P(1i t1i ),
i = 1, . . . , k, mutuamente independentes e com a seguinte parte sistemtica:

log11 = ,
log21 = + ,
log1i = + i e
log2i = + + i + i ,
para i = 2, . . . , k. Portanto, temos a reparametrizao (11 , 21 , . . . , 1k , 2k )

(, , 2 , 2 , . . . , k , k ). A razo de taxas na i-sima tabela fica definida
por i = 2i /1i = exp( +i ), com 1 = 0. Assim, testarmos H0 : 1 = =
k o mesmo que testarmos na nova parametrizao H0 : 2 = = k = 0,
o que significa no haver interao entre as tabelas. Devemos lembrar que i
o efeito da i-sima tabela com relao primeira tabela. Logo, testarmos

H0 : 2 = = k , dado que i = 0, significa testarmos a ausncia de efeito
de estrato.
Aqui tij denota o total de unidades de tempo na casela (i, j), i = 1, 2

e j = 1, . . . , k. Assim, temos que logij = logtij + logij , em que logtij
desempenha o papel de um offset. Pela propriedade de que os totais marginais Y1i + Y2i so estatsticas suficientes para os parmetros 21 , . . . , 2k
e ancilares para 1 , . . . , k , devemos esperar que as estimativas de mxima
verossimilhana no condicionais i = exp( + i ), i = 1, . . . , k, coincidam
com as estimativas condicionais.
291

Uma maneira de verificarmos se razovel a suposio de distribuio
de Poisson nas unidades de tempo tratarmos logTij como sendo uma varivel
explicativa, isto , ajustarmos o modelo com parte sistemtica dada por
logij = logtij + logij . Assim, ao testarmos H0 : = 1 contra H1 : 6= 1,
a no rejeio de H0 indica que a suposio de distribuio de Poisson nas
unidades de tempo no inadequada. Como veremos a seguir isso significa

que os tempos tm distribuio exponencial.
Relao com a exponencial

O logaritmo da funo de verossimilhana do modelo de Poisson para a anlise de k tabelas 2 2 dado por
L()
2 X
k
X
i=1 j=1
(yij logij ij tij ),
(4.3)
em que = (11 , 21 , . . . , k1 , k2 )T . Temos, portanto, para cada casela (i, j)

um estudo de seguimento em que as unidades amostrais foram observadas um
total de tij unidades de tempo. Sem perda de generalidade, vamos supor que
tij = N e que nesse subestrato foram acompanhadas I unidades amostrais
cujos tempos de observao foram, respectivamente, N1 , N2 , . . . , NI . Faremos
u = 1 se o evento sob estudo ocorrer para a -sima unidade amostral antes
de um tempo pr-fixado T . Quando o evento no ocorrer para a -sima
unidade amostral durante o perodo de estudo (u = 0) dizemos que h
censura, sendo aqui o tempo de observao dado por N = T . Vamos supor
ainda que a taxa de ocorrncia do evento, que definida por
P r{o evento ocorrer em (t, t + t)}
,
t0
t
= lim
dado que o evento no ocorreu at o tempo t, permanece constante durante

o perodo de observao. Finalmente, assumimos que as ocorrncias so
292

independentes entre as unidades amostrais. Sob essas condies, mostramos
que a distribuio conjunta das variveis (N , u ), = 1, . . . , I, um produto
de I exponenciais independentes de parmetro . Se o evento ocorrer antes
do tempo T para a -sima unidade amostral (N < T, u = 1) a mesma
contribui com o fator eN na funo de verossimilhana. Caso contrrio
(N = T, u = 0), o fator dado por eT . O logaritmo da funo de
verossimilhana conjunta fica ento dado por
L() =
I
X
=1
(u log N )
= log
I
X
=1
I
X
N .
(4.4)
=1
Se considerarmos que para a casela (i, j) o evento ocorreu yij vezes, as unidades amostrais foram observadas um total de tij unidades de tempo e a taxa
de ocorrncia do evento ij , ento (4.4) fica reexpressa na forma
L(ij ) = yij logij ij tij ,
que coincide com o termo geral da expresso (4.3). Portanto, a suposio
de modelo de regresso log-linear de Poisson com offset logtij equivale suposio de tempos exponenciais para as unidades amostrais. No entanto,
importante ressaltarmos que as inferncias exatas para no modelo exponencial so bastante complexas em virtude da ocorrncia de censura (ver
discusso, por exemplo, em Breslow e Day, 1987, p. 132). J os resultados
assintticos so equivalentes queles obtidos para o modelo de Poisson.
Aplicao
A Tabela 4.2 resume os resultados de um estudo de seguimento em que doutores Britnicos foram acompanhados durante a dcada de 50 e observado,
293

em particular, a ocorrncia de mortes por cncer de pulmo segundo o consumo mdio dirio de cigarros e a faixa etria. Esses dados esto disponveis
no arquivo breslow.dat. Denotamos por Yij o nmero de mortes para o
i-simo nvel de consumo e j-sima faixa etria, i, j = 1, . . . , 4. Vamos supor
que Yij P(ij tij ), em que ij a taxa mdia de mortes por unidade de
tempo para o consumo i e faixa etria j. O modelo saturado nesse caso

dado por
logij = + i + j + ij ,
em que 1 = 0, i o efeito da i-sima classe de consumo de cigarros com
relao classe de no fumantes, i = 2, 3, 4, 1 = 0, j o efeito da jsima faixa etria com relao faixa etria de 40 49 anos e ij denota
a interao entre faixa etria e consumo de cigarros, em que i1 = 1j = 0,
para i, j = 1, . . . , 4.
Tabela 4.2
Nmero de casos de morte por cncer de pulmo e pessoas-anos
de observao em doutores Britnicos segundo a faixa etria
e o consumo mdio dirio de cigarros.
Consumo mdio dirio
Faixa Etria
de cigarros
40-49
50-59 60-69 70-80
0
mortes
0
3
0
3
p-anos
33679 21131,5 10599 4495,5
1-9
mortes
p-anos
0
6002,5
10-30
mortes
p-anos
7
34414,5
+ 30
mortes
p-anos
3
5881
294
1
3
3
4396 2813,5 1664,5
29
25429
41
45
13271 4765,5
16
36
6493,5 3466,5
11
769

O teste de ausncia de interao, H0 : ij = 0, ij, contra a alternativa
de pelo menos um parmetro diferente de zero forneceu RV = 11, 91 (9

graus de liberdade) que equivale a um nvel descritivo P= 0, 218. Adotamos,
portanto, um modelo sem interao.
Tabela 4.3
Estimativas dos parmetros do modelo log-linear
de Poisson para explicar a taxa mdia de morte
de doutores Britnicos com cncer de pulmo.
Efeito
Constante
-11,424
-22,44
C(1-9)
2
1,409
2,53
C(10-20)
3
2,866
6,86
C(+30)
4
3,758
8,80
F(50-59)
2
1,769
5,10
F(60-69)
3
2,897
8,62
F(70-80)
4
3,791
11,12
As estimativas so apresentadas na Tabela 4.3. Notamos claramente
que as estimativas so significativamente diferentes de zero e que h fortes indcios de um aumento (exponencial) da taxa mdia de mortes com o aumento
da faixa etria e/ou com o aumento do consumo mdio dirio de cigarros. O
ajuste do modelo com logTij como varivel explicativa forneceu a estimativa
de mxima verossimilhana = 1, 839(0, 610). O teste de Wald para testarmos H0 : = 1 contra H1 : 6= 1 forneceu o valor RV = 1, 89, cujo nvel
descritivo dado por P= 0, 17, indicando que o modelo pode ser ajustado
com logtij como sendo offset.
4.2.3 Modelos gerais de Poisson

Vamos supor agora que Yi so variveis aleatrias independentes distribudas
tais que Yi P(i ), i = 1, . . . , n, com parte sistemtica dada por g(i ) = i ,
295

em que i = xTi , xi = (xi1 , . . . , xip )T contm valores de variveis explicativas
e = (1 , . . . , p )T um vetor de parmetros desconhecidos. As ligaes
mais utilizados so logartmica (g(i ) = logi ), raiz quadrada (g(i ) = i )

e identidade (g(i ) = i ). O processo iterativo para estimao de , como
foi visto na Seo 1.6.1, dado por
(m+1) = (XT W(m) X)1 XT W(m) z(m) ,
m = 0, 1, . . ., varivel dependente modificada z = + W1/2 V1/2 (y ),
= (1 , . . . , n )T , y = (y1 , . . . , yn )T , = (1 , . . . , n )T , V = diag{1 , . . . , n }
e W = diag{1 , . . . , n } com i = (di /di )2 /i . Em particular temos

i = i para ligao logartmica, i = 4 para ligao raiz quadrada e i = 1
i
para ligao identidade.

No caso das unidades experimentais serem observadas em tempos distintos ti s e for assumido que Yi P(i ti ), i = 1, . . . , n, a parte sistemtica
do modelo para ligao logartmica fica dada por
logi = logti + xTi ,
em que logti desempenha papel de offset e isso deve ser informado ao sistema.
Outra possibilidade incluirmos os tempos ti s como valores da varivel explicativa logTi . Nesse caso, a parte sistemtica assume a forma
logi = logti + xTi .
O teste de H0 : = 1 contra H1 : 6= 1 verifica se logti deve ser includo no
modelo como offset. A no rejeio da hiptese nula significa a suposio de
tempos exponenciais nas unidades experimentais.

consistente, eficiente e
O estimador de mxima verossimilhana
tem distribuio assinttica dada por
Np (0, (XT WX)1 ),
296

= (XT WX)1 .
portanto, assintoticamente, Var()

A funo desvio de um modelo de Poisson supondo yi > 0, i, definida por
n
X
=2
D(y; )
{yi log(yi /
i ) (yi
i )}.
i=1
0
-1
-3
-2
fica dado por 2

Porm, se yi = 0, o i-simo termo de D(y; )
i .
-2
-1
Percentil da N(0,1)
Figura 4.1: Grfico normal de probabilidades referente ao modelo log-linear

de Poisson ajustado aos dados sobre morte por cncer de pulmo de doutores
Britnicos.
Em particular, para ligao logartmica e se o modelo inclui uma consPn
tante na parte sistemtica, mostramos que
i ) = 0, ficando a
i=1 (yi
Pn
=
funo desvio reexpressa na forma D(y; )
i ). Logo, se
i=1 yi log(yi /
297

particionamos o vetor de parmetros tal que = ( T1 , T2 )T , em que 1 e
2 so subvetores de dimenso p q e q, respectivamente, a estatstica da
razo de verossimilhanas para testarmos H0 : 2 = 0 contra H1 : 2 6= 0 em
modelos log-lineares fica dada por

RV
0 ) D(y; )
= D(y;
n
X
= 2
yi log(
0i /
i ).
i=1
Sob H0 e para grandes amostras RV 2q . Os resultados assintticos para
os modelos de Poisson valem tanto para p fixo e n como para n fixo e

i , i.

Um dos resduos mais recomendados para modelos com resposta de Poisson
o componente do desvio padronizado, que para yi > 0, fica dado por
2
t Di = p
{yi log(yi /
i ) (yi
i )}1/2 ,
ii
1h
em que hii o i-simo elemento da diagonal principal da matriz de projeo

H = W1/2 X(XT WX)1 XT W1/2 . Quando yi = 0 o resduo componente do
p
ii .
desvio padronizado assume a forma tDi = 2
i / 1 h
Estudos de simulao (ver Williams, 1984) mostram que em geral a dis-
tribuio de tDi no se afasta muito da distribuio normal padro, podendo

ser usadas nas anlises de diagnstico as mesmas interpretaes da regresso normal linear. Em particular, a construo de envelopes fortemente
recomendada para tDi .
A Figura 4.1 apresenta o grfico normal de probabilidades para o resduo tDi correspondente ao modelo ajustado aos dados da Tabela 4.2. Como
podemos notar, todos os resduos cairam dentro do envelope gerado sem
298

apresentarem nenhuma tendncia sistemtica, indicando que a suposio de
distribuio de Poisson parece ser bastante razovel. O programa utilizado
para gerarmos o grfico de envelopes apresentado no Apndice B. Os resultados do modelo ajustado devem ser colocados no arquivo fit.model.
4.2.6 Aplicao
Como ilustrao vamos considerar os dados apresentados em Neter et al.
(1996, p. 613) sobre o perfil dos clientes de uma determinada loja oriundos
de 110 reas de uma cidade. O objetivo do estudo relacionar o nmero
esperado de clientes em cada rea com as seguintes variveis explicativas em
cada rea: nmero de domiclios (em mil), renda mdia anual (em mil USD),
idade mdia dos domiclios (em anos), distncia ao concorrente mais prximo
(em milhas) e distncia loja (em milhas). Portanto, a rea a unidade
experimental. Esses dados esto tambm descritos no arquivo store.dat.
Tabela 4.4
de Poisson ajustado aos dados sobre perfil
de clientes.
Efeito
Constante
2,942
14,21
Domiclio
1
0,606
4,27
Renda
2
-0,012
-5,54
Idade
3
-0,004
-2,09
Dist1
4
0,168
6,54
Dist2
5
-0,129
-7,95
Na Figura 4.2 so apresentados os diagramas de disperso entre o
nmero de clientes (varivel resposta) e as variveis explicativas renda e
idade mdia, distncia ao concorrente mais prximo (dist1) e distncia
loja (dist2). Indcios mais evidentes de relao linear podem ser observados
299

entre a resposta e as distncias dist1 e dist2. Ou seja, h indcios de que o
nmero de clientes aumenta medida que a distncia ao concorrente mais
30
20
Clientes
10
20
10
0
Clientes
30
prximo aumenta e a distncia loja diminui.
20000
60000
100000
10
20
50
60
30
20
Clientes
10
20
10
0
Clientes
40
Idade
(b)
30
Renda
(a)
30
Dist1
(c)
10
Dist2
(d)
Figura 4.2: Diagramas de disperso entre o nmero de clientes que visitaram

a loja e algumas variveis explicativas.
Denotamos por Yi o nmero de clientes da i-sima rea que foram loja
no perodo determinado. Vamos supor que Yi P(i ) com parte sistemtica
dada por
logi = + 1 domici + 2 rendai + 3 idadei + 4 dist1i + 5 dist2i .

Temos que a varivel nmero de domiclios (domic) deve ser includa no
modelo uma vez que as reas no tm o mesmo nmero de domiclios. As
300

estimativas dos parmetros so apresentadas na Tabela 4.4 e como podemos
notar todas as estimativas so altamente significativas. O desvio do modelo
= 114, 98 (104 graus de liberdade) que equivale a um nvel
foi de D(y; )
descritivo P= 0, 35 indicando um ajuste adequado. Notamos pela tabela que
o nmero esperado de clientes na loja cresce com o aumento do nmero de
domiclios na rea e da distncia ao concorrente mais prximo, porm diminui
com o aumento da renda mdia e da idade mdia dos domiclios bem como da
distncia da rea loja. Isso sugere que deve ser uma loja de convenincia.
0.2
20
0.0
0.4
0.0
Medida h
0.8
Distancia de Cook
0.4
43
10
15
20
25
30
35
20
40
100
3.5
Variavel z
0.5
1.5
2.5
2
1
0
-1
-3
80
Indice
(b)
Valor Ajustado
(a)
60
10
15
20
25
30
35
Valor Ajustado
(c)
1.5
2.0
2.5
3.0
3.5
Preditor Linear
(d)
Figura 4.3: Grficos de diagnstico referentes ao modelo log-linear de Poisson

ajustado aos dados sobre perfil de clientes.
301
0
-2
-2
-1
Percentil da N(0,1)

de Poisson ajustado aos dados sobre perfil de clientes.
Podemos fazer algumas interpretaes. Por exemplo, se aumentarmos
em 1 mil USD a renda mdia dos domiclios de uma determinada rea esperamos aumento relativo no nmero de clientes que iro loja de exp(0, 012) =
0, 988. Ou seja, decrescimento de 1,2%. Por outro lado, se a distncia ao
concorrente mais prximo aumentar em uma milha esperamos aumento relativo no nmero de clientes de exp(0, 168) = 1, 183. Ou seja, aumento de
18,3%.
Dentre as observaes destacadas pelos grficos de diagnstico (ver
Figura 4.3), apenas as reas #20 e #43 apresentam algumas variaes desproporcionais nas estimativas dos parmetros, porm no houve mudana
inferencial. Pela Figura 4.3d no h indcios de que a ligao utilizada seja
inapropriada e o grfico de envelope (Figura 4.4) no apresenta indicaes de
afastamentos srios da suposio de distribuio de Poisson para o nmero
de clientes.
302
4.3 Modelos com resposta binomial negativa

4.3.1 Distribuio binomial negativa
O fenmeno de sobredisperso, similarmente ao caso de dados com resposta
binria discutido na Seo 3.6.14, ocorre quando esperada uma distribuio
de Poisson para a resposta, porm a varincia maior do que a resposta
mdia. Uma causa provvel desse fenmeno a heterogeneidade das unidades
amostrais que pode ser devido variabilidades interunidades experimentais.
Isso pode ser visto, por exemplo, supondo que para um conjunto fixo x =
(x1 , . . . , xp )T de valores de variveis explicativas, Y |z tem mdia z e varincia
z, no entanto Z, que no observvel, varia nas unidades amostrais com x

fixo, de modo que E(Z) = . Ento,
E(Y ) = E[E(Y |Z)] = E[Z] = e
Var(Y ) = E[Var(Y |Z)] + Var[E(Y |Z)]
= + Var(Z).
Podemos, adicionalmente, supor que Y |z tem distribuio de Poisson com
mdia z e funo de probabilidades denotada por f (y|z) e que Z segue uma
distribuio gama de mdia e parmetro de disperso k = cuja funo

de densidade ser denotada por g(z; , k).
Temos E(Z) = e Var(Z) = 2 /k de modo que E(Y ) = e Var(Y ) =
+ 2 /k = (1 + )/. Assim, as funes densidades f (y|z) e g(z; , k)
assumem as seguintes formas:
1
ez z y
e g(z; , k) =
f (y|z) =
y!
(k)
303
zk
k
kz 1
e .
z

Logo, Y tem funo de probabilidades dada por
Z
f (y|z)g(z; , k)dz
P r{Y = y} =
0
k Z
1
k
=
ez(1+k/) z k+y1 dz.
y!(k)
0
Fazendo a transformao de varivel t = z(1 + k ) temos que
dz
dt
= (1 + k )1 .
Ento,
P r{Y = y} =
=
=
=
k
(k+y) Z
k
k
1
1+
et tk+y1 dt
y!(k)
0
(y + k)k
(y + 1)(k)(1 + )y+k

k
y
1
(y + k)
(y + 1)(k) 1 +
1+
(y + k)
(1 )k y , y = 0, 1, 2, . . . ,
(y + 1)(k)
em que = 1/(1 + ). Portanto, Y tem distribuio binomial negativa de

mdia e parmetro de disperso k.
Podemos, similarmente, supor que Y |z P(z) e que Z G(, ), em
que no depende de . Nesse caso E(Z) = e Var(Z) = 2 / de onde

segue que E(Y ) = e Var(Y ) = + 2 /. Temos ento que
ez z y
1
f (y|z) =
e g(z; , ) =
y!
()
z 1
e .
z
A funo de probabilidades de Y fica dada por

Z
P r{Y = y} =
f (y|z)g(z; , )dz
0
Z
1
ez(1+/) z +y1 dz.
=
y!
0
304

Fazendo a transformao de varivel t = z(1 + ) temos que
dz
dt
= (1 + )1 .
Da segue que
P r{Y = y} =
=
=
=

(+y) Z
1+
et t+y1 dt
y!()
0
y
( + y)
()(y + 1)( + )+y

y

( + y)
(y + 1)() +
+
( + y)
(1 ) y , y = 0, 1, 2, . . . ,
(y + 1)()
com = /( + ). Portanto, neste caso Y tambm segue distribuio

binomial negativa de mdia e parmetro de disperso . Denotamos Y
BN(, ). Podemos mostrar (ver, por exemplo, Jrgensen,1996, p. 96) que
1
(Y ) d N(0, /(1 )2 ), quando .
Podemos obter tambm aproximaes da binomial negativa para a Poisson

e gama.
4.3.2 Modelos de regresso com resposta binomial negativa

Vamos supor ento que Y1 , . . . , Yn so variveis aleatrias independentes tais
que Yi BN(i , ). A funo de probabilidades de Yi fica dada por
( + yi )
f (yi ; i , ) =
(yi + 1)()
i
i +
yi
i +
, yi = 0, 1, 2, . . . .
Temos que E(Yi ) = i e Var(Yi ) = i + 2i /. Similarmente aos MLGs

assumimos parte sistemtica dada por g(i ) = i = xTi , em que xi =
(xi1 , . . . , xip )T contm valores de variveis explicativas, = (1 , . . . , p )T
um vetor de parmetros desconhecidos e g() a funo de ligao. Como
305

nos modelos de Poisson as ligaes mais utilizados so logartmica (g(i ) =
logi ), raiz quadrada (g(i ) = i ) e identidade (g(i ) = i ).

Definindo = ( T , )T o logaritmo da funo de verossimilhana fica
dado por
L() =
n
X
log
i=1
( + yi )
(yi + 1)()
+ log + yi logi ( + yi )log(i + ) ,
em que i = g 1 (xTi ). A fim de obtermos a funo escore para calculamos

inicialmente as derivadas
L()/j

n
X
( + yi ) di i
yi di i
=
i di j
( + i ) di j
i=1

n
X
yi di
( + yi ) di
=
xij
xij
d
(
+
)
d
i
i
i
i
i=1

n
X
(di /di )
(yi i )xij
=
i ( + i )
i=1
=
n
X
i=1
i fi1 (yi i )xij ,
em que i = (di /di )2 /(2i 1 +i ) e fi = di /di . Logo, podemos espressar

a funo escore na forma matricial
U () = XT WF1 (y ),
(4.5)
em que X a matriz modelo com linhas xTi , i = 1, . . . , n, W = diag{1 , . . . , n },
F = diag{f1 , . . . , fn }, y = (y1 , . . . , yn )T e = (1 , . . . , n )T . De forma simi-
lar a funo escore para fica dada por

U () =
n
X
i=1
[( + yi ) () (yi + )/( + i ) + log{/( + i )}+ 1], (4.6)
em que () a funo digama.

306

Para obtermos a matriz de informao de Fisher calculamos as derivadas
2
L()/j
2

n
X
( + yi )
yi
di
=
xij xi
( + i )2 2i
di
i=1

n
X
( + yi ) d2 i
yi
xij xi ,
+
i ( + i ) di2
i=1
cujos valores esperados ficam dados por

2
E{ L()/j } =
=
n
X
(di /di )2
i=1
n
X
( + i )
xij xi
i xij xi .
i=1
Logo, podemos expressar a informao de Fisher para em forma matricial

2 L()
= XT WX.
K () = E
T
Lawless(1987) mostra que a informao de Fisher para pode ser expressa
na forma
n
X
X
K () =
{ ( + j)2 P r(Yi j) 1 i /(i + )},
i=1
j=0
e que e so parmetros ortogonais. Assim , a matriz de informao de

Fisher para assume a forma bloco diagonal

K 0
.
K =
0 K
As estimativas de mxima verossimilhaa para e podem ser obtidas
atravs de um algoritmo de mnimos quadrados reponderados, aplicando o
mtodo escore de Fisher, a partir de (4.5) e do mtodo de Newton-Raphson
para obter desenvolvido a partir de (4.6), os quais so descritos abaixo
(m+1) = (XT W(m) X)1 XT W(m) y(m)
307

e
(m)
(m)
},
(m+1) = (m) {U /L
para m = 0, 1, 2, . . ., em que
y = X + F1 (y )
uma varivel dependente modificada e
=
L
n
X
i=1
{ ( + yi ) + (yi 2i )/( + i )2 } + n1 {1 ()}.
Tabela 4.5
Quantidades i e fi para algumas ligaes.
Ligao
i
fi
1
logi = i i /(i + 1)
i
i = i
(2i 1 + i )1
1
1
i = i 4/(i + 1)
2 i
Os dois procedimentos so aplicados simultaneamente at a convergn T , )
T
cia. Podemos encontrar as estimativas de mxima verossimilhana (
pela aplicao do comando library(MASS) do R. Como ilustrao, vamos supor um modelo log-linear com resposta binomial negativa resp e covariveis
cov1 e cov2. Devemos acionar os seguintes comandos no R:
library(MASS)
fit.bn = glm.nb( resp cov1 + cov2).
No objeto fit.bn estaro os resultados do ajuste. Outras ligaes,
alm da ligao logartmica, podem ser usadas com a distribuio binomial

negativa. Por exemplo, para o ajuste de um modelo com resposta binomial
negativa e ligao identidade se resp considerada resposta e cov1 e cov2
so consideradas variveis explicativas, devemos fazer o seguinte:
library(MASS)
308

fit.bn = glm.nb( resp cov1 + cov2, link=identity).
A Tabela 4.5 apresenta as expresses para i e fi para algumas ligaes
usuais em modelos com resposta binomial negativa.

Usando os mesmos argumentos da Seo 1.6 temos que para n grande
segue distribuio aproximadamente normal p-variada de mdia e ma
Np (, K1 ).
triz de varincia-covarincia K1 , ou seja , para n grande
Similarmente para n grande
N(, K1
).
e so assintotiAlm disso,
camente independentes.

A funo desvio assumindo fixo fica dada por

n
X
yi (
i + )
i +
=2
D (y; )
+ yi log
,
log
y
+
(y
+
)
i
i
i
i=1
em que
i = g 1 (xTi ). Quando yi = 0 o i-simo componente da funo
fica dado por
desvio D (y; )
d2 (yi ,
i ) = 2{logf (0; yi , ) logf (0;
i , )}
= 2log{/(yi + )} 2log{/(
i + )}
= 2log{(i + )/(
yi + )}
= 2log{(
i + )/}.
Portanto, os componentes do desvio no caso binomial negativo assumem as
seguintes formas:
h
o
n
oi
n
2 log (i +) + yi log yi (i +)
se yi > 0;
i (yi +)
o
n (yi +)
d2 (yi ;
i ) =
2log (i +)
se yi = 0.
segue para
Sob a hiptese de que o modelo adotado est correto D (y; )
grande e i grande, i, uma distribuio qui-quadrado com (n p) graus de
liberdade.
309

Vamos supor agora a partio = ( T1 , T2 )T em que 1 um vetor
q-dimensional enquanto 2 tem dimenso p q e que fixo ou conhecido.
O teste da razo de verossimilhanas para testarmos H0 : 1 = 0 contra
H1 : 1 6= 0 reduz, neste caso, diferena entre dois desvios

0 ) D (y; ),
RV = D (y;
0 e
so, respectivamente, as estimativas de sob H0 e H1 . Para
em que
desconhecido o teste da razo de verossimilhanas fica expresso na seguinte
forma:
RV
n
X
+ log{
+
= 2
[log{( + yi )(0 )/(0 + yi )()}
/(
i )}
i=1
0
log{0 /(0 +
0i )} + yi log{
i (0 +
0i )/
0i ( +
i )}],
em que 0 e so as estimativas de mxima verossimilhana de sob H0 e

H1 , respectivamente. Para n grande e sob H0 temos que RV 2q .

Fazendo uma analogia com os MLGs a matriz de projeo H assume aqui a
seguinte forma:
H = W1/2 X(XT WX)1 XT W1/2 .
O i-simo elemento da diagonal principal de H fica dado por
hii =
(di /di )2 T T
x (X WX)1 xi .
(i 1 + i ) i
Em particular, para os modelos log-lineares hii fica dado por

hii =
i
xTi (XT WX)1 xi ,
( + i )
ii dever depender de
ii
em que i = i /( + i ). Como h
i , grficos de h
ii
contra os valores ajustados so mais informativos do que os grficos de h
contra a ordem das observaes.
310

Estudos de Monte Carlo desenvolvidos por Svetliza (2002) (ver tambm
Svetliza e Paula, 2003) indicam boa concordncia entre o resduo componente
do desvio
d (yi ;
i )
t Di = p
ii
1h
com a distribuio normal padro, em que
h
n
o
n
oi1/2
2 log i + + y log yi (i +)
se yi > 0;
i
i (yi +)
h
n yi + oi
d (yi ;
i ) =
2 log (i +)
se yi = 0.
Para extrairmos a quantidade di (yi ;

i ) do objeto fit.bn devemos fa-
zer o seguinte:
d = resid(fit.bn, type= deviance").
Uma verso da distncia de Cook aproximada dada por
LDi =
em que rPi = (yi i )/
ii
h
rP2 i ,
2
(1 hii )
Var(Yi ) e Var(Yi ) = i + 2i /. A quantidade rPi
obtida no R atravs do comando

rp = resid(fit.bn, type=pearson").
O grfico de LDi contra as observaes ou valores ajustados pode re e .
Svetliza (2002) desenvolveu as
velar pontos influentes nas estimativas
e .
expresses matriciais para a obteno de max para

Similarmente aos modelos lineares generalizados, pelo critrio de Akaike devemos encontrar um submodelo para o qual a quantidade abaixo seja minimizada
+ 2p.
AIC = D (y; )
311

Devemos acionar no R os seguintes comandos:
library(MASS)
stepAIC(fit.model).
Aqui fit.model denota o objeto com o modelo binomial negativo ajustado.
4.3.6 Aplicaes
Estudantes australianos
Venables e Ripley(1999, Caps. 6 e 7) apresentam os resultados de um estudo
sociolgico desenvolvido na Austrlia com 146 estudantes de 8a srie e ensino
mdio com o objetivo de comparar a ausncia na escola segundo os seguintes
fatores: ano que o estudante est cursando (1: 8a srie, 2: 1o ano do ensino
mdio, 3: 2o ano do ensino mdio, 4: 3o ano do ensino mdio), etnia (0: aborgine, 1: no aborgine), desempenho escolar (0: insuficiente, 1: suficiente)
e sexo (0: masculino, 1: feminino). Para obtermos esses dados no R devemos
acionar o comando library(MASS) e em seguida quine. Uma cpia desses
dados est disponvel no arquivo quine.dat. Denotamos por Yijkm o nmero
de faltas num determinado perodo referentes ao m-simo aluno, cursando o
i-simo ano, de etnia j, com desempenho escolar k e pertencente ao -simo
sexo, em que i = 1, 2, 3, 4, j, k, = 1, 2 e m = 1, . . . , 144. Vamos supor que
Yijkm BN(ijk , ), em que
logijk = + i + j + k + ,
com 1 = 0, 1 = 0, 1 = 0 e 1 = 0. Assim, temos um modelo casela de
referncia em que 2 , 3 e 4 denotam os incrementos do primeiro, segundo
e terceiro ano do ensino mdio, respectivamente, em relao 8a srie, 2
a diferena entre os efeitos do grupo no aborgine com relao ao grupo
312

aborgine, 2 denota a diferena entre os efeitos dos grupos com desempenho
suficiente e insuficiente e a diferena entre os efeitos do sexo feminino e
masculino.
Tabela 4.6
Estimativas de mxima verossimilhana referentes ao modelo
log-linear binomial negativo ajustado aos dados sobre ausncia
escolar de estudantes australianos.
Efeito
Modelo 1 E/E.Padro Modelo 2 E/E.Padro
Intercepto
2,895
12,70
2,628
10,55
Etnia
-0,569
-3,72
0,131
0,38
Sexo
0,082
0,51
Ano2
-0,448
-1,87
0,178
0,56
Ano3
0,088
0,37
0,827
2,61
Ano4
0,357
1,44
0,371
1,11
Desemp
0,292
1,57
Etn*Ano2
-0,991
-2,26
Etn*Ano3
-1,239
-2,78
Etn*Ano4
-0,176
-0,38
1,275
7,92
1,357
7,80
Na Tabela 4.6 temos as estimativas de mxima verossimilhana com os
respectivos erros padro aproximados. O desvio do modelo ajustado (modelo
= 167, 95 (139 graus de liberdade). Notamos que os fatores
1) foi de D (y; )
sexo e desempenho escolar no so significativos a 10%, sendo portanto retirados do modelo. Contudo, notamos a necessidade de incluso da interao
ano*etnia no novo modelo. O valor da estatstica da razo de verossimilhanas nesse caso de RV = 11, 16 (P= 0, 0109). As novas estimativas so
tambm apresentadas na Tabela 4.6. O desvio do novo modelo (modelo 2)
= 167, 84 (138 graus de liberdade). A Figura 4.5 apresenta
foi de D (y; )
as mdias ajustadas do modelo final. Podemos notar que o grupo no aborgine tem em geral um no mdio menor de dias ausentes. A maior mdia
observada para estudantes do grupo aborgine cursando o 2o do ensino mdio
313

e o menor valor mdio observado para estudantes do grupo no aborgine
30
cursando o 1o do ensino mdio.
20
10
15
Valore Ajustado
25
Abor
Nabo
8a.Serie
Ano1
Ano2
Ano3
Ano
Figura 4.5: Valores mdios estimados pelo modelo log-linear binomial negativo ajustado aos dados sobre ausncia escolar de estudantes australianos.
Verificamos tambm, neste estudo, como fica o ajuste atravs de um
modelo log-linear de Poisson. Temos nas Figura 4.6a e 4.6b os grficos normais de probabilidades para os dois ajustes e notamos uma clara superioridade do modelo log-linear com resposta binomial negativa. O modelo
log-linear de Poisson apresenta fortes indcios de sobredisperso com os resduos cruzando o envelope gerado. Isso justificado pelo valor do desvio
314
1
0
-1
-2
5
0
-3
-5
10
= 1597, 11 (138 graus de liberdade).

D (y; )
-2
-1
-2
Percentil da N(0,1)
(a)
-1
Percentil da N(0,1)
(b)
Figura 4.6: Grficos normais de probabilidades referentes ao modelo loglinear de Poisson (a) e ao modelo log-linear binomial negativo (b) ajustados
aos dados sobre ausncia escolar de estudantes australianos.
Nas Figuras 4.7a a 4.7d so apresentados alguns grficos de diagnstico.
ii nenhum dos 8 grupos
Na Figura 4.7a em que so apresentados os valores de h
formados so destacados como alavanca. J pela Figura 4.7b notamos pelo
so os alunos
menos trs pontos com mais destaque como influentes em ,
#72, #104 e #36. Os trs alunos tm vrios dias ausentes, respectivamente,
67, 69 e 45. O aluno #72 no aborgine e estava cursando a 8a srie. O aluno
#104 tambm no aborgine, porm estava cursando o 3o ano, enquanto
o aluno #36 aborgine e estava tambm cursando a 8a srie. Pela Figura
4.7c notamos dois pontos com mais destaque como aberrantes, #98 e #61.
Esses alunos no tiveram faltas, estavam cursando o 3o ano, um aborgine
(#61) e o outro (#98) no aborgine. Em geral os pontos aberrantes desse
exemplo referem-se a alunos sem nenhuma falta. A retirada desses pontos
315

no altera os resultados inferenciais. Finalmente, a Figura 4.7d indica que a
escolha da ligao logartmica no parece ser inadequada.
0.8
104
0.4
36
0.0
0.4
0.0
Medida h
0.8
Distancia de Cook
72
10
15
20
25
30
20
40
60
140
98
4
1
61
3
2
-2
Variavel z
Indice
(b)
-4
Valor Ajustado
(a)
80 100
20
40
60
80 100
140
2.0
Indice
(c)
2.5
3.0
3.5
Preditor Linear
(d)
Figura 4.7: Grficos de diagnstico referentes ao modelo binomial negativo

ajustado aos dados sobre ausncia escolar de estudantes australianos.
Demanda de TV a cabo
Na Tabela 4.7 apresentado um conjunto de dados sobre a demanda de TVs
a cabo em 40 reas metropolitanas dos EUA (Ramanathan, 1993). Esses
dados esto tambm disponveis no arquivo tvcabo.dat. Foram observadas,
para cada rea, o nmero de assinantes (em milhares) de TV a cabo (nass),
316
Demanda de TV
Nass Domic
105
350
90 255,631
14
31
11,7 34,840
46 153,434
11,217 26,621
12
18
6,428
9,324
20,1
32
8,5
28
1,6
8
1,1
5
4,355 15,204
78,910 97,889
19,6
93
1
3
1,65
2,6
13,4 18,284
18,708
55
1,352
1,7
170
270
15,388 46,540
6,555 20,417
40
120
19,9
46,39
2,45
14,5
3,762
9,5
24,882
81,98
21,187
39,7
3,487
4,113
3
8
42,1 99,750
20,350 33,379
23,15
35,5
9,866 34,775
42,608 64,840
10,371 30,556
5,164
16,5
31,150 70,515
18,350 42,040
a cabo
Perc
30,000
35,207
45,161
33,582
29,980
42,136
66,667
68,940
62,813
30,357
20,000
22,000
28,644
80,612
21,075
33,333
63,462
73,288
34,015
79,529
62,963
33,064
32,106
33,333
42,897
16,897
39,600
30,351
53,368
84,780
37,500
42,206
60,966
65,211
28,371
65,713
33,941
31,297
44,175
43,649
Tabela 4.7
em 40 reas metropolitanas dos EUA.
Percap Taxa Custo Ncabo Ntv
9839 14,95
10
16
13
10606
15
7,5
15
11
10455
15
7
11
9
8958
10
7
22
10
11741
25
10
20
12
9378
15
7,66
18
8
10433
15
7,5
12
8
10167
15
7
17
7
9218
10
5,6
10
8
10519
15
6,5
6
6
10025 17,5
7,5
8
6
9714
15
8,95
9
9
9294
10
7
7
7
9784 24,95
9,49
12
7
8173
20
7,5
9
7
8967 9,95
10
13
6
10133
25
7,55
6
5
9361 15,5
6,3
11
5
9085
15
7
16
6
10067
20
5,6
6
6
8908
15
8,75
15
5
9632
15
8,73
9
6
8995 5,95
5,95
10
6
7787
25
6,5
10
5
8890
15
7,5
9
7
8041 9,95
6,25
6
4
8605
20
6,5
6
5
8639
18
7,5
8
4
8781
20
6
9
4
8551
10
6,85
11
4
9306
10
7,95
9
6
8346 9,95
5,73
8
5
8803
15
7,5
8
4
8942 17,5
6,5
8
5
8591
15
8,25
11
4
9163
10
6
11
6
7683
20
7,5
8
6
317
7924 14,95
6,95
8
5
8454 9,95
7
10
4
8429
20
7
6
4

o nmero de domiclios (em milhares) na rea (domic), a porcentagem de
domiclios com TV a cabo (perc), a renda per capita (em USD) por domiclio
com TV a cabo (percap), a taxa de instalao de TV a cabo (taxa) em USD, o
custo mdio mensal de manuteno de TV a cabo (custo) em USD, o nmero
de canais a cabo disponveis na rea (ncabo) e o nmero de canais no pagos
2
0
-4
-2
6
4
2
0
-2
-4
com sinal de boa qualidade disponveis na rea (ntv).
-2
-1
-2
-1
Percentil da N(0,1)
(b)
Percentil da N(0,1)
(a)
Figura 4.8: Grficos normais de probabilidades referentes aos modelos loglinear de Poisson(a) e log-linear binomial negativo (b) ajustados aos dados
sobre demanda de TV a cabo.
Como so dados de contagem podemos pensar inicialmente num modelo de Poisson em que nassi denota o nmero de assinantes na i-sima regio
tal que nassi P(i ), em que
logi = + 1 domici + 2 percapi + 3 taxai + 4 custoi + 5 ncaboi + 6 ntvi
=
para i = 1, . . . , 40. No entanto, o ajuste do modelo forneceu desvio D(y; )
225 para 33 graus de liberdade indicando fortes indcios de sobredisperso,
318

que confirmado pelo grfico normal de probabilidades da Figura 4.8a. Tentamos ento um modelo binomial negativo em que nassi BN(i , ). O gr-
=
fico normal de probabilidades (Figura 4.8b) bem como o desvio D (y; )
42, 35 fornecem indcios de ajuste adequado. No entanto, pela Figura 4.9,
notamos uma rea altamente influente (observao #14) e outra rea com
moderada influncia (observao #1). A rea #14 apresenta custos altos de
3
2
Distancia de Cook
0.8
0.6
0.4
0.0
0.2
Medida h
14
1.0
instalao e manuteno de TV a cabo, porm um alto ndice de assinantes.
50
100
150
200
250
10
20
30
40
3
1
Variavel z
Indice
(b)
Valor Ajustado
(a)
10
20
30
40
Indice
(c)
Preditor Linear
(d)
Figura 4.9: Grficos de diagnstico referentes ao modelo log-linear binomial

negativo ajustado aos dados sobre demanda de TV a cabo.
319

A rea #1 tem um baixo ndice de assinantes com grande oferta de canais
a cabo e canais no pagos de boa qualidade. As estimativas dos coeficientes
com todos os pontos e eliminando as observaes mais discrepantes (1 e 14)
so apresentadas na Tabela 4.8. Como podemos observar h indcios de
que quatro coeficientes (percap, taxa, ncabo e ntv) so marginalmente no
significativos a 10%. Aplicamos ento o teste da razo de verossilhanas
para testarmos H0 : 2 = 3 = 5 = 6 = 0 contra pelo menos um parmetro
diferente de zero que forneceu o valor RV = 2, 50 para 4 graus de liberdade
(P=0,64), indicando pela no rejeio da hiptese nula. Isso significa que
as duas observaes discrepantes so responsveis pela significncia de trs
desses coeficientes que aparecem significativos marginalmente com todos os
pontos, bem como pelo aumento da sobredisperso uma vez que a estimativa
de cresce com a eliminao das duas reas.
Tabela 4.8
Estimativas de mxima verossimilhana referentes do modelo log-linear
binomial negativo ajustado aos dados sobre demanda de TV a cabo.
Efeito
Todos pontos E/E.Padro Sem 1 e 14
E/E.Padro
Intercepto
2,437
1,99
3,608
3,34
Domic
0,013
8,24
0,014
9,69
Percap
6 105
0,42 2 106
-0,01
Taxa
0,041
1,84
0,010
0,50
Custo
-0,207
1,95
-0,266
-2,69
Ncabo
0,067
2,01
0,050
1,63
Ntv
-0,135
1,84
-0,071
-1,02
3,311
3,49
5,060
2,89
Portanto, um modelo mais recomendado envolveria apenas as variveis
explicativas domic e custo, ou seja, com parte sitemtica dada por logi = +
= 41, 05
1 domici + 4 custoi . O desvio desse modelo fica dado por D (y; )
para 35 graus de liberdade (P= 0, 22), indicando um ajuste adequado. As
novas estimativas sem as reas #1 e # 14 (erro padro aproximado) ficam
320

dadas por
= 3, 620(0, 637), 1 = 0, 015(0, 001), 4 = 0, 242(0, 091) e
= 4, 54(1, 51).
Portanto, pela estimativa de 4 , se o custo mensal de manuteno
aumentar de USD 1 esperamos uma reduo aproximada de 22% no nmero
de assinantes com TV a cabo na rea.
4.3.7 Sobredisperso e quase-verossimilhana

De uma forma geral o fenmeno de sobredisperso sugere que a varincia de
Y seja dada por Var(Y ) = 2 , em que 2 > 1. Uma maneira mais simples
de resolvermos o problema ajustarmos um modelo log-linear de Poisson aos
dados e estimarmos 2 separadamente (mtodo de quase-verossimilhana),
por exemplo, usando a estimativa proposta por Wedderburn (1974), dada
por
2
n
X
(yi
i )2
i=1
/(n p),
(4.7)
Algumas quantidades, tais como a matriz de varinciaem que

i = exp(xTi ).
o desvio, resduos etc, devero ser corrigidos de
covarincia assinttica de ,
maneira similar ao caso tratado na Seo 3.6.14. Finalmente, podemos pensar na aplicao de modelos mais gerais de quase-verossimilhana que sero
discutidos no Captulo 5.
Aplicao
Como ilustrao, vamos considerar os dados descritos na Tabela 4.9 (McCullagh e Nelder, 1989, Seo 6.3.2) e tambm no arquivo navios.dat em
que avarias causadas por ondas em navios de carga so classificadas segundo
o tipo do navio (A-E), ano da fabricao (1:1960-64, 2:1965-69, 3:1970-74 e
4:1975-79) e perodo de operao (1:1960-74 e 2:1975-79).
321
Tabela 4.9
Distribuio de avarias em navios de
carga segundo o tipo do navio, ano de
fabricao perodo de operao
e total de meses em operao.
Tipo Ano Perodo Meses Avarias
A
1
1
127
0
A
1
2
63
0
A
2
1
1095
3
A
2
2
1095
4
A
3
1
1512
6
A
3
2
3353
18
A
4
2
2244
11
B
1
1
44882
39
B
1
2
17176
29
B
2
1
28609
58
B
2
2
20370
53
B
3
1
7064
12
B
3
2
13099
44
B
4
2
7117
18
C
1
1
1179
1
C
1
2
552
1
C
2
1
781
0
C
2
2
676
1
C
3
1
783
6
C
3
2
1948
2
C
4
2
274
1
D
1
1
251
0
D
1
2
105
0
D
2
1
288
0
D
2
2
192
0
D
3
1
349
2
D
3
2
1208
11
D
4
2
2051
4
E
1
1
45
0
E
2
1
789
7
E
2
2
437
7
E
3
1
1157
5
E
3
2322
2161
12
E
4
2
542
1
2
1
0
-1
-3
-2
2
1
0
-1
-2
-3
-2
-1
-2
Percentil da N(0,1)
(a)
-1
Percentil da N(0,1)
(b)
Figura 4.10: Grficos normais de probabilidades referentes ao modelo loglinear de Poisson (a) e log-linear de quase-verossimilhana (b) ajustados aos
dados sobre avarias em navios de carga.
Foi tambm considerado o tempo em que cada navio ficou em operao
(em meses). Inicialmente, sugerimos um modelo log-linear de Poisson com
offset dado por log(meses) e efeitos principais. Assim, denotamos por Yijk
o nmero de avarias observadas para o navio do tipo i, construdo no ano j
que operou no perodo k e vamos supor que Yijk P(ijk tijk ), em que tijk
o total de meses de operao e ijk o nmero mdio esperado de avarias por

unidade de tempo. A parte sistemtica do modelo dada por
logijk = + 1(i) + 2(j) + 3(k) ,
com as restries 1(1) = 2(1) = 3(1) = 0, para i = 1, . . . , 5; j = 1, . . . , 4 e

k = 1, 2, com 1 , 2 e 3 denotando, respectivamente, o efeito de tipo, de ano
=
de construo e perodo de operao. O desvio do modelo foi de D(y; )
38, 69 (25 graus de liberdade) que corresponde a um nvel descritivo P=
0, 040, indicando que o ajuste no est satisfatrio.
323

Pelo grfico normal de probabilidades, descrito na Figura 4.10a, notamos a maioria dos resduos prximos dos limites superior e inferior do
envelope gerado, sugerindo sobredisperso que nesse caso deve ser devido ao
fato de um mesmo navio ter sido observado mais de uma vez. Usando (4.7)
obtemos
2 = 1, 69, e corrigindo o componente do desvio padronizado de
modo que
tDi
q
ii ,
= di /
1h
obtemos um novo grfico normal de probabilidades descrito na Figura 4.10b,

em que os resduos esto melhor distribudos dentro do envelope gerado.
Tabela 4.10
log-linear de quase-verossimilhana ajustado
aos dados sobre avarias em navios de carga.
Efeito
Estimativa
E/E.Padro
Constante
-6,406
-22,69
Tipo
A
0,000
B
-0,543
-2,36
C
-0,687
-1,61
D
-0,076
0,20
E
0,326
1,06
Ano
60-64
0,000
65-69
0,697
3,59
70-74
0,818
3,71
75-79
0,453
1,50
Perodo
60-74
0,000
75-79
0,384
2,50
= D(y; )/
2 = 38,69/1,69 =
O novo desvio fica dado por D (y; )
22,89 (25 graus de liberdade), indicando um ajuste adequado. Devemos
324
4.4 Relao entre a multinomial e a Poisson

devem ser olhaobservar que tanto o resduo tDi como o desvio D (y; )
dos de maneira meramente descritiva uma vez que em modelos de quaseverossimilhana a distribuio da resposta em geral desconhecida. As estimativas de mxima verossimilhana e os valores padronizados pelos respectivos erros padro aproximados, j multiplicados pelo fator
, so apresentadas
na Tabela 4.10. Williams (1987) mostra que o problema de sobredisperso
neste exemplo causado particularmente por duas observaes discrepantes
e sugere a incluso da interao tipo*ano com pelo menos uma dessas observaes excludas. Pela Tabela 4.10 notamos que os navios de tipos B e C so
aqueles com uma incidncia menor de avarias por unidade de tempo. Por
outro lado, os navios fabricados de 65 a 74 como tambm aqueles que operaram de 75 a 79 apresentam uma inicidncia maior de avarias por unidade
de tempo do que os demais.

Vamos supor agora que todas as unidades amostrais so acompanhadas durante o mesmo perodo e que so classificadas segundo s nveis de exposio
e r grupos, conforme descrito abaixo.
Grupo
G1
G2
E1
y11
y21
Gr
yr1
Exposio
E2 E3
y12 y13
y22 y23
yr2 yr3
Es
y1s
y2s
yrs
Supondo que Yij P(ij ), i = 1, . . . , r e j = 1, . . . , s, temos que

P r{Y = a|
Yij = n} =
i,j
325
n!
a
i,j ijij ,
i,j aij !

em que ij = ij /++ , ++ =
i,j
ij , Y = (Y11 , . . . , Yrs )T e a = (a11 , . . . , ars )T .
Vamos considerar o modelo log-linear de Poisson com parte sistemtica dada

por logij = +1(i) +2(j) +12(ij) , com as restries 1(1) = 2(1) = 12(1j) =
12(i1) = 0 para i = 1, . . . , r e j = 1, . . . , s. Temos que
r X
s
X
= ++ =
exp{ + 1(i) + 2(j) + 12(ij) }
i=1 j=1
r X
s
X
= e
i=1 j=1
exp{1(i) + 2(j) + 12(ij) },
e podemos definir as probabilidades

exp{ + 2(j) + 12(ij) }
Ps 1(i)
,
j=1 exp{1(i) + 2(j) + 12(ij) }
i=1
ij = Pr
em que o total do denominador invariante com a parametrizao utilizada

no modelo. Temos que as probabilidades ij s no dependem do parmetro .
Como veremos a seguir, a estimativa de mxima verossimilhana do vetor
correspondente ao modelo multinomial coincide com a estimativa de mxima
verossimilhana para = ( T1 , T2 , T12 )T referente ao modelo log-linear de
Poisson. Se, por exemplo, ajustarmos um modelo multinomial do tipo loglinear aos dados tal que
logij = + 1(i) + 2(j) + 12(ij) ,
teremos, devido imposio
i,j
ij = 1, que exp( ) = 1/
P P
i
exp{1(i) +
2(j) + 12(ij) }, ou seja, = log( ). O que muda a estimativa do in-
tercepto, embora na prtica sempre seja possvel obtermos atravs de
e vice-versa. Para mostrarmos a equivalncia das estimativas partiremos da

relao abaixo
P r{Y = a|n} =
P r{Y = a; Y++ = n}
,
P r{Y++ = n}
326

em que Y++ =
i,j
Yij . Denotando Ly|n () = logP r{Y = a|n}, Ly (, ) =
logP r{Y = a; Y++ = n} e Ly++ ( ) = logP r{Y++ = n} temos que

(4.8)
Ly (, ) = Ly++ ( ) + Ly|n (),

em que
Ly++ ( ) = + y++ log log(y++ !)
e
Ly|n () = logn! +
X
i,j
aij logij
logaij !.
i,j
Portanto, maximizarmos Ly (, ) com relao a equivalente a maximizarmos Ly|n () com relao a . Isso quer dizer que as estimativas de mxima
verossimilhana para o vetor so as mesmas sob o modelo log-linear multinomial com probabilidades 11 , . . . , rs e sob o modelo log-linear de Poisson
de mdias 11 , . . . , rs . As matrizes de segundas derivadas com relao a ,
para os dois modelos, so tais que
2 Ly|n ()
2 Ly (, )
=
.
T
T
Devido linearidade em (4.8) segue que a matriz de informao observada
para (, T )T bloco-diagonal com elementos dados por 2 Ly (, )/ 2
e 2 Ly (, )/ T , respectivamente. Segue, portanto, que a matriz de
informao de Fisher ser tambm bloco-diagonal com os valores esperados

das quantidades acima,
K =
o
n 2
y (,)
Ey L
2
0
o .
n 2
Ly (,)
Ey
T
fica ento dada por

A varincia assinttica de
= [Ey { 2 Ly (, )/ T }]1 .
Vary ()
327

Palmgren (1981) mostra que K coincide com a matriz de informao observada sob a restrio = n.
Esses resultados podem ser generalizados para quaisquer dimenses
de tabelas bem como sob a presena de variveis explicativas contnuas. A
fica no modelo multinomial dada por
varincia assinttica de

2
1
Ly|n ()
Vary|n () = Ey|n
,
T
coincidindo com a varincia assinttica do modelo no condicional sob a
restrio = n. Contudo, do ponto de vista prtico, as varincias assintticas
devem coincidir uma vez que a estimativa de mxima verossimilhana
de
de dada por = n.
4.4.1 Modelos log-lineares hierrquicos

Um modelo log-linear dito hierrquico se dado que uma interao est no
modelo, todas as interaes de ordem menor como tambm os efeitos principais correspondentes devero estar tambm no modelo. A utilizao de tais
modelos tem a vantagem de permitir uma interpretao das interaes nulas
como probabilidades condicionais. Em muitos casos podemos expressar as
estimativas dos valores mdios em forma fechada, evitando assim a utilizao
de processos iterativos.
Como ilustrao, vamos supor o modelo log-linear apresentado na seo
anterior. Podemos mostrar que a hiptese H0 : 12(ij) = 0, ij, equivalente
hiptese de independncia na tabela, isto H0 : ij = i+ +j , ij. Dado

que no h interao, testarmos a ausncia de efeito de exposio, isto
testarmos H0 : 1(i) = 0, i = 1, . . . , r, equivalente a testarmos H0 : 1+ =

= r+ = 1/r. Finalmente, dado que no h interao, testarmos a
ausncia de efeito de grupo, isto testarmos H0 : 2(j) = 0, j = 1, . . . , s,
equivalente a testarmos H0 : +1 = = +s = 1/s.

328

Vamos supor agora um modelo log-linear de Poisson com trs fatores
de r, s e t nveis, respectivamente. Podemos representar a parte sistemtica
do modelo saturado da seguinte forma:
logijk = + 1(i) + 2(j) + 3(k) + 12(ij) + 13(ik) + 23(jk) + 123(ijk) , (4.9)
com as restries 1(1) = 2(1) = 3(1) = 0, 12(1j) = 12(i1) = 0, 13(1k) =
13(i1) = 0, 23(1k) = 23(j1) = 0, 123(1jk) = 123(i1k) = 123(ij1) = 0, para
i = 1, . . . , r; j = 1, . . . , s e k = 1, . . . , t. Temos vrias classes de modelos
hierrquicos que correspondem a situaes de interesse na tabela de contingncia formada. Uma primeira classe corresponde hiptese de ausncia
de interao de segunda ordem, representada por H0 : 123(ijk) = 0, ijk,
sendo equivalente hiptese de associao entre dois fatores quaisquer ser

constante nos nveis do terceiro. Isso quer dizer, em outras palavras, que
a razo de produtos cruzados ijk i j k /ij k i jk , representando a associao
entre os nveis (i, j) e (i , j ) dos dois primeiros fatores, constante nos nveis
do terceiro fator. Se omitimos no modelo (4.9) a interao de segunda ordem
mais uma interao de primeira ordem, dizemos que os dois fatores omitidos
correspondentes interao de primeira ordem so independentes do terceiro
fator. Por exemplo, se omitimos 123(ijk) e 23(jk) , ijk, ficando com a parte
sistemtica
logijk = + 1(i) + 2(j) + 3(k) + 12(ij) + 13(ik) ,

dizemos que os fatores 2 e 3 so independentes nos nveis do primeiro fator,
ou equivalentemente, que
ijk = ij+ i+k /i++ , ijk.
Se agora omitimos alm de 123(ijk) e 23(jk) tambm 13(ik) , ijk, ficando a
parte sistemtica
logijk = + 1(i) + 2(j) + 3(k) + 12(ij) ,

329

dizemos que o terceiro fator independente dos dois primeiros, ou equivalentemente, que
ijk = ij+ ++k , ijk.
O modelo apenas com os efeitos principais cuja parte sistemtica dada por
logijk = + 1(i) + 2(j) + 3(k) ,
equivale hiptese de independncia entre os trs fatores, isto , que
ijk = i++ +j+ ++k , ijk.
A Tabela 4.11 resume as trs situaes de independncia para o modelo (4.9).
Tabela 4.11
Algumas interaes em modelos log-lineares de Poisson.
Forma para ijk
Interao
Interpretao
i++ +j+ ++k
nenhuma
fatores mutuamente
independentes
ij+ ++k
12(ij)
fatores 1 e 2 independentes
do fator 3
ij+ i+k /i++
12(ij) + 13(ik) fatores 2 e 3 independentes
nos nveis do fator 1
Em muitos desses casos possvel expressarmos as estimativas das probabilidades ijk s em forma fechada. Uma anlise mais completa de modelos
hierrquicos pode ser encontrada, por exemplo, em Cordeiro e Paula (1989b,
Cap. 3) e Agresti (1990, Cap. 5).
4.4.2 Aplicaes
Associao entre renda e satisfao no emprego
A Tabela 4.12 apresenta o resultado de uma pesquisa com 901 indivduos
(Agresti, 1990, pgs. 20-21) classificados segundo a renda anual e o grau de
330

satisfao no emprego. Denotamos por Yij o nmero de indivduos pertencentes classe de renda i com grau de satisfao j. Esses dados esto disponveis
no arquivo emprego.dat.
1
0
-1
-3
-2
Tabela 4.12
Classificao de indivduos segundo a renda
e o grau de satisfao no emprego.
Grau de Satisfao
Renda (US$) Alto Bom Mdio Baixo
<6000
20
24
80
82
6000-15000
22
38
104
125
15000-25000
13
28
81
113
>25000
7
18
54
92
-2
-1
Percentil da N(0,1)

de Poisson ajustado aos dados sobre renda e satisfao no emprego.
331
Tabela 4.13
de Poisson ajustado ao dados sobre renda e
satisfao no emprego.
Efeito
Constante
2,651
18,80
Renda 2
1(2)
0,338
3,71
Renda 3
1(3)
0,132
1,389
Renda 4
1(4)
-0,186
-1,81
Grau 2
2(2)
0,555
3,49
Grau 3
2(3)
1,638
11,87
Grau 4
2(4)
1,894
13,93
Vamos supor que Yij P(ij ) com parte sistemtica inicialmente dada
por (modelo saturado)
logij = + 1(i) + 2(j) + 12(ij) ,

em que ij denota o nmero esperado de indivduos pertencentes classe
de renda i com grau de satisfao j, 1(i) denota o efeito renda, 2(j) denota o efeito satisfao e 12(ij) denota a interao. Temos as restries
1(1) = 2(1) = 0. O teste da razo de verossimilhanas para testarmos
H0 : 12(ij) = 0, ij (ausncia de interao) fornece o valor RV = 12, 04 com
nvel descritivo P= 0, 21, indicando pela ausncia de interao ou indepen-
dncia entre os dois fatores. Se denotarmos por ij a proporo de indivduos

na classe de renda i e grau de satisfao j, no rejeitarmos H0 equivalente
a escrevermos ij = i+ +j , ij, em que i+ denota a proporo de indiv-
duos na classe de renda i e +j denota a proporo de indivduos com grau

de satisfao j. Ou seja, temos independncia entre renda e satisfao no
emprego. Isso significa que a distribuio do grau de satisfao no emprego
mesma em todos as faixas de renda. A Tabela 4.13 apresenta as estimativas
dos parmetros do modelo com efeitos principais.
332

Os fatores renda e grau de satisfao so altamente significativos. Notamos pelas estimativas dos parmetros que h uma proporo maior de
indivduos na classe de renda 2 (6000-15000) e uma proporo menor na
classe de renda 4 (>25000). Por outro lado, notamos que a proporo de
indivduos cresce com o aumento do grau de satisfao. O desvio do mo = 12, 04 (9 graus de liberdade) com nvel descritivo de
delo foi de D(y; )
P= 0, 21, indicando um ajuste adequado. Pelo grfico normal de probabilidades com o resduo tDi (Figura 4.11) no h indcios fortes de que o modelo
adotado seja incorreto, embora o fato dos resduos negativos estarem abaixo
da reta mediana e os resduos positivos ligeiramente acima seja uma indcio
2
1
0
-1
-3
-2
1
0
-1
-2
-3
de sobredisperso nos dados.
-2
-1
-2
Percentil da N(0,1)
(a)
-1
Percentil da N(0,1)
(b)
Figura 4.12: Grficos normais de probabilidades referentes ao modelo loglinear de Poisson (a) e log-linear de quase-verossimilhana (b) ajustados aos
dados sobre doena das coronrias.
333
Doena das coronrias

Tabela 4.14
Distribuio de 1330 pacientes segundo
ocorrncia de doena das coronrias,
nvel de colesterol e presso arterial.
Doena das Nvel de
Presso arterial
coronrias colesterol
1
2 3 4
1
2
3 3 4
Sim
2
3
2 1 3
3
8 11 6 6
4
7 12 11 11
No
1
2
3
4
117 121 47 22
85 98 43 20
119 209 68 43
67 99 46 33
Vamos considerar agora os dados da Tabela 4.14 (Everitt, 1977) referente classificao de 1330 pacientes segundo trs fatores: doena das
coronrias (sim ou no), nvel de colesterol (1: menor do que 200 mg/100 cc,
2: 200-219, 3: 220-259 e 4: 260 ou +) e presso arterial (1: menor do que
127 mm Hg, 2: 127-146, 3: 147-166 e 4: 167 ou +). Os dados esto tambm
descritos no arquivo heart.dat. Denotamos por Yijk o nmero de pacientes
nos nveis (i, j, k) dos trs fatores: doena das coronrias, nvel de colesterol
e presso arterial, respectivamente. Vamos supor que Yijk P(ijk ) com
parte sistemtica inicialmente dada por (modelo saturado)
logijk = + 1(i) + 2(j) + 3(k) + 12(ij) + 13(ik) + 23(jk) + 123(ijk) ,

em que ijk denota o nmero esperado de indivduos pertencentes aos nveis
(i, j, k), respectivamente, 1(i) denota o efeito doena das coronrias, 2(j) denota o efeito nvel de colesterol, 3(k) denota o efeito presso arterial e 12(ij) ,
334

13(ik) , 23(jk) e 123(ijk) so as interaes de 1a e 2a ordens, respectivamente,
com as restries dadas na Seo 4.4.1.
Tabela 4.15
Resumo do ANODEV referente ao modelo
log-linear de Poisson ajustado aos
dados sobre doena das coronrias.
(D:doena, C:colesterol e P:presso)
Efeito
Desvio g.l. Diferena g.l.
D+C+P
78,96 24
+ D.C
48,51 21
30,45
3
+ D.P
24,40 18
24,10
3
+ C.P
4,77
9
19,63
9
Pela Tabela 4.15 notamos que, segundo o princpio hierrquico, apenas
a interao de segunda ordem pode ser eliminada. A incluso dos efeitos
principais altamente significativa. Dado que os efeitos principais esto
no modelo, a incluso da interao doena*colesterol (12(ij) ) leva a RV =
30, 45 (3 graus de liberdade) com P= 0, 00. Dado que essa interao est no
modelo, a incluso da interao doena*presso (13(ik) ) fornece RV = 24, 10
(3 graus de liberdade) com P= 0, 00. Finalmente, dadas as duas interaes
de primeira ordem, a incluso da interao remanescente, colesterol*presso,
leva a RV = 19, 62 (9 graus de liberdade) com P= 0, 02. O desvio do
= 4, 77 (9 graus
modelo (4.9) sem a interao de segunda ordem de D(y; )
de liberdade) para um nvel descritivo de P= 0, 853, indicando um ajuste
adequado.
A ausncia de interao de segunda ordem neste exemplo significa que
as razes de chances (entre os nveis de colesterol ou entre os nveis de presso
arterial) so as mesmas nos grupos de doentes e no doentes. Contudo,
o grfico normal de probabilidades descrito na Figura 4.12a indica que os
resduos negativos esto acima da mdia esperada, ocorrendo o contrrio
335
4.5 Modelos com excesso de zeros

com os resduos positivos, embora todos sejam em geral pequenos. Isso
um indcio modesto de subdisperso, fenmeno que tambm pode ocorrer
em modelos de Poisson.
Um modelo de quase-verossimilhana similar ao que foi usado no exemplo da Seo 4.2.6 leva estimativa
2 = 0, 53. Na Figura 4.12b temos o
grfico normal de probabilidades com o resduo componente do desvio corrigido pela estimativa de disperso. Notamos que os resduos esto melhor
distribudos dentro do envelope gerado. A concluso deste exemplo que h
associao entre os fatores dois a dois e que essa associao constante nos
nveis do terceiro fator.

4.5.1 Modelos truncados em zero
Os modelos truncados em zero so tambm conhecidos como modelos de
Hurdle (ver, por exemplo, Mullaby, 1986). Para formaliz-los vamos supor
que Y uma varivel aleatria com funo de probabilidades dada por
(
se
y = 0,
P {Y = y} =
fZ (y)
y = 1, 2, . . . ,
(1 ) {1fZ (0)} se
em que 0 < < 1 e fZ (y) denota a funo de probabilidades de uma varivel
aleatria Z, por exemplo, Poisson ou binomial negativa. Portanto, desde que
P
y=1 fZ (y) = 1 fZ (0), segue que
P {Y 1} = (1 )
X
y=1
fZ (y)/{1 fZ (0)}
= (1 ){1 fZ (0)}/{1 fZ (0)}

= 1 .
336

Logo,
y=0
P {Y = y} = + (1 ) = 1. Um exemplo poderia ser Y
denotando o nmero de dias de atraso no pagamento de uma conta. H

certamente um excesso de zeros (clientes que pagam em dia) e provavelmente
os fatores que explicam podem ser diferentes dos fatores que explicam a
mdia de Z.
Os dois primeiros momentos de Y ficam dados por
E(Y ) =
X
y=1
y(1 )
fZ (y)
{1 fZ (0)}
(1 ) X
yfZ (y)
=
{1 fZ (0)} y=1
=
e
2
E(Y ) =
E(Z)(1 )
{1 fZ (0)}
X
y=1
y 2 (1 )
fZ (y)
{1 fZ (0)}
(1 ) X 2
=
y fZ (y)
{1 fZ (0)} y=1
=
Da segue que
E(Z 2 )(1 )
.
{1 fZ (0)}

(1 )
E2 (Z)(1 )
2
Var(Y ) =
E(Z )
.
{1 fZ (0)}
{1 fZ (0)}
Iremos denotar Y HU{, fZ (y)}. Por exemplo, podemos assumir
que Y HU{, P()} (modelo de Poisson truncado em zero) ou que Y
HU{, BN(, )} (modelo binomial negativo truncado em zero). Logo, se
Z P() ento fZ (y) = e y /y! e em particular fZ (0) = e . Para
Z BN(, ) temos que
( + y)
fZ (y) =
(y + 1)()
337
y

em particular fZ (0) = /( + ) .
4.5.2 Modelos de regresso truncados em zero

Vamos supor agora que Y1 , . . . , Yn so variveis aleatrias independentes tais
que Yi HU{i , fZi (yi )}. Ento,
(
i
se
P {Yi = yi } =
fZi (yi )
(1 i ) {1fZ (0)} se
i
yi = 0,
yi = 1, 2, . . . ,
para i = 1, . . . , n. O logaritmo da funo de verossimilhana fica dado por

P
LHU = ni=1 logfYi (yi ), em que logfYi (0) = logi e logfYi (yi ) = log(1 i ) +
logfZi (yi ) log{1 fZi (0)} para yi = 1, 2, . . . .
Por exemplo, se assumimos que Yi HU{, P(i )} em que i = exi

T
e i = E(Yi ), ento segue que
E(Zi )(1 )
{1 fZ (0)}
i (1 )
=
{1 ei }
T
exi (1 )
.
=
[1 exp{exp(xTi )}]
i =
Portanto,
logi = xTi + log(1 ) log[1 exp{exp(xTi )}].
4.5.3 Modelos inflacionados de zeros

Os modelos inflacionados de zeros (ver, por exemplo, Lambert, 1992) so caracterizados pela ocorrncia de zeros em duas situaes: (i) zeros que ocorrem segundo uma distribuio de contagem ou (ii) zeros estruturais. Por
exemplo, podemos estar interessados em estudar o nmero de dias que uma
338

famlia consome um determinado produto. Aquelas famlias que no consomem o produto sero tratadas como zeros estruturais e as demais famlias
tm uma probabilidade de no consumir o produto associada a alguma distribuio de contagem Z. Nesse caso, a varivel aleatria Y , nmero de dias
que uma famlia consome o produto, tem funo de probabilidades expressa
na seguinte forma:
P {Y = y} =
+ (1 )fZ (0) se
(1 )fZ (y)
se
y = 0,
y = 1, 2, . . . ,
em que 0 < < 1 e fZ (y) denota a funo de probabilidades de uma varivel aleatria Z, por exemplo, Poisson ou binomial negativa. Desde que
P
P
y=1 fZ (y) = 1 fZ (0) obtemos
y=0 P {Y = y} = + (1 )fZ (0)} + (1
){1 fZ (0)} = + (1 ) = 1.
Os dois primeiros momentos de Y ficam dados por

E(Y ) =
X
y=1
y(1 )fZ (y)
= (1 )
yfZ (y)
y=1
= (1 )E(Z)
e
2
E(Y ) =
X
y=1
y 2 (1 )fZ (y)
= (1 )
y 2 fZ (y)
y=1
= (1 )E(Z 2 ).
339

Assim,
Var(Y ) = E(Y 2 ) E2 (Y )
= (1 )E(Z 2 ) (1 )2 E2 (Z)
= (1 ){E(Z 2 ) (1 )E2 (Z)}.
Iremos denotar Y IZ{, fZ (y)}. Por exemplo, Y IZ{, P()} ou
Y IZ{, BN(, )}.
4.5.4 Modelos de regresso inflacionados de zeros

Vamos supor agora que Y1 , . . . , Yn so variveis aleatrias independentes tais
que Yi IZ{i , fZi (yi )}. Ento,

i + (1 i )fZ (0) se
P {Yi = yi } =
(1 i )fZ (yi )
se
yi = 0,
yi = 1, 2, . . . ,
para i = 1, . . . , n. O logaritmo da funo de verossimilhana fica dado

Pn
por LIZ =
i=1 logfYi (yi ), em que logfYi (0) = log{i + (1 i )fZi (0)} e
logfYi (yi ) = log(1 i ) + logfZi (yi ) para yi = 1, 2, . . ..
Por exemplo, podemos supor que Zi P(i ) com i = exi e log{i /(1
T
i )} = uTi . Dessa forma segue que i = E(Yi ) fica expresso como

i = (1 i )E(Zi )
= (1 i )i
(
)
uT
i
e
T
=
1
e xi
T
u
1+e i
T
e xi
.
=
T
{1 + eui }
Isto ,
logi = xTi log{1 + eui }.
T
340
4.6 Exerccios
O ajuste de modelos truncados em zero (modelos de Hurdle) ou de
modelos inflacionados de zeros no R pode ser realizado atravs da library
pscl (Jackman, 2008) acionada atravs do comando
require(pscl).
Os ajustes de modelos de Hurdle usam o comando hurdle() enquanto
os ajustes de modelos inflacionados de zeros usam o comando zeroinfl().
4.6 Exerccios
1. Seja Y uma varivel aleatria com distribuio binomial negativa, isto
, Y o nmero de ensaios at a ocorrncia do r-simo sucesso, em que
a probabilidade de sucesso em cada ensaio. Mostre que a funo de
probabilidades de Y pode ser expressa na forma exponencial. Calcule
e V (). Use a forma abaixo para a funo de probabilidades de Y

y1 r
(1 )(yr) ,
f (y; , r) =
r1
em que y = r, r+1, . . .. Obtenha a funo desvio supondo uma amostra

de n variveis aleatrias independentes de probabilidades de sucesso i .
2. Seja Y varivel aleatria com distribuio binomial negativa biparamtrica de mdia e parmetro de disperso , cuja funo de probabilidades dada por
( + y)
f (y; , ) =
(y + 1)()
y
em que > 0, > 0 e y = 0, 1, 2, . . . . Mostre que para conhecido

a distribuio de Y pertence famlia exponencial de distribuies.
Encontrar a funo de varincia. Obtenha a funo desvio supondo
uma amostra de n variveis aleatrias independentes de mdias i e
parmetro de disperso .
341
4.6 Exerccios
3. Sejam Y1 e Y2 variveis aleatrias independentes tais que Yi P(i ),
i = 1, 2. Considere a razo de taxas = 1 /2 . Encontre a varincia
VarA ().
assinttica de ,
4. (Breslow e Day, 1987). A tabela abaixo apresenta o nmero de mortes

por cncer respiratrio e o nmero de pessoas-anos de observao entre
trabalhadores de indstrias siderrgicas do estado de Montana (EUA)
segundo o nvel de exposio ao arsnico.
Casos
Pessoas-Anos
Nvel de Exposio
Alto
Baixo
68
47
9018
13783
Sejam Y1 e Y2 o nmero de casos observados para o nvel alto e baixo de

arsnico, respectivamente. Suponha que Yi P(i ti ), em que ti denota
o nmero de pessoas-anos, i = 1, 2. Considere a razo de taxas =

1 /2 . Encontre e um intervalo de confiana exato de 95% para .
Com base neste intervalo qual sua concluso sobre a hiptese H0 : =
1? Informaes teis: F136,96 (0, 025) = 0, 694 e F138,94 (0, 975) = 1, 461.
5. (Neter et al., 1996, p. 623). No arquivo geriatra.dat esto descritos
os dados de um estudo prospectivo com 100 indivduos de pelo menos
65 anos de idade em boas condies fsicas. O objetivo do estudo
tentar relacionar o nmero mdio de quedas num perodo de seis
meses com algumas variveis explicativas. Os dados esto descritos na
seguinte ordem: quedas (nmero de quedas no perodo), interveno
(=0 educao somente, =1 educao e exerccios fsicos), sexo (=0
feminino, =1 masculino), balano (escore) e fora (escore). Para as
variveis balano e fora quanto maior o valor maior o balano e
342
4.6 Exerccios
a fora do indivduo, respectivamente. Tente selecionar um modelo
apropriado apenas com os efeitos principais. Interprete os resultados e
faa uma anlise de diagnstico.
6. (Breslow e Day, 1987, pgs. 140-142). Os dados do arquivo canc1.dat
so provenientes de um estudo de seguimento para estudar a associao
entre a taxa anual de cncer nasal em trabalhadores de uma refinaria de
nquel no Pas de Gales e algumas variveis explicativas: idade no primeiro emprego (4 nveis), ano do primeiro emprego (4 nveis) e tempo
decorrido desde o primeiro emprego (5 nveis). So tambm apresentados o nmero de casos de cncer nasal e o total de pessoas-anos para
cada combinao desses trs fatores. Proponha um modelo log-linear
com resposta de Poisson sendo o nmero de casos de cncer nasal com
offset dado por log(pessoas-anos). Considere inicialmente apenas os
efeitos principais dos trs fatores: idade no primeiro emprego, ano do
primeiro emprego e tempo decorrido desde o primeiro emprego. Verifique se possvel incluir alguma interao de primeira ordem. Faa
uma anlise de diagnstico com o modelo final e interprete os resultados, por exemplo, fazendo uma comparao das taxas estimadas de
cncer nasal entre os nveis de um mesmo fator.
7. (Hinde, 1982). No arquivo rolos.dat so apresentados os dados referentes produo de peas de tecido numa determinada fbrica. Na
primeira coluna tem-se o comprimento da pea (em metros) e na segunda coluna o nmero de falhas. Faa inicialmente um grfico do
nmero de falhas contra o comprimento da pea. Ajuste um modelo
log-linear de Poisson apropriado. Faa uma anlise de resduos e verifique se h indcios de sobredisperso. Em caso afirmativo ajuste um
modelo de quase-verossimilhana e um modelo log-linear com distribui343
4.6 Exerccios
o binomial negativa. Interprete os resultados pelas razes de mdias
(x + 1)/(x), em que x denota o comprimento da pea.
8. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi P(i )
P
P
e parte sistemtica dada por i = pj=1 xij j tal que ni=1 xij xi = 0,
para j 6= . Ou seja, as colunas da matriz modelo X so ortogonais.

Encontre a ligao que faz com que Corr(j , ) = 0, para j 6= .
Comente sobre as vantagens desse resultado.
9. Considere um experimento em que duas mquinas, M1 e M2, so observadas durante o mesmo perodo sendo computados para cada uma
o nmero de peas defeituosas produzidas, conforme descrito pelo esquema abaixo.
P. Defeituosas
M1 M2
y1
y2
Suponha que Y1 P(1 ) e Y2 P(2 ) e considere o modelo log-linear
log1 = e log2 = + . Obtenha a varincia assinttica de ,

expressando-a em funo de e . Proponha agora um moVary (),
delo binomial condicional, dado Y1 + Y2 = m. Expresse a probabilidade
de sucesso em funo de . Interprete e encontre a varincia as Vary|m ().
Mostre que as duas varincias assintticas
sinttica de ,
estimadas coincidem e so dadas por
2
= (1 + e ) ,
)
Var(
me
em que o estimador de mxima verossimilhana de . Comente.

10. Supor Y1 , . . . , Yn variveis aleatrias independents tais que Yi P(i )
e seja i = + (xi x), em que x a mdia amostral de x1 , . . . , xn .

344
4.6 Exerccios
(i) Obtenha a matriz modelo X. (ii) Calcule as varincias assintticas
(iii) Mostre tambm que Cov(
= 0 e comente.
Var(
) e Var().
, )
(iv) Como fica o teste de escore para testar H0 : = 0 contra H1 : 6=
0? Qual a distribuio nula assinttica da estatstica do teste?
11. Sejam Yij variveis aleatrias mutuamente independentes tais que Yij
BN(i , ) para i = 1, 2 e j = 1, . . . , m com parte sistemtica dada por
1 = e 2 = +. (i) Como fica a matriz modelo X? (ii) Calcule

e (iii) mostre que a estatstica de escore para testar H0 : = 0
Var()
contra H1 : 6= 0 pode ser expressa na forma
SR =
m
0 (
y2 y1 )2
,
2
y (
y + 0 )
em que y = (
y1 + y2 )/2 e 0 denota a estimativa de sob H0 .
12. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi BN(i , )
P
com parte sistemtica dada por logi = + (xi x) em que x = nxi .

(iii) Como fica
(i) Como fica a matriz modelo X? (ii) Obtenha Var().
o teste de escore para testar H0 : = 0 contra H1 : 6= 0? Qual a

distribuio nula assinttica da estatstica do teste?
13. Sejam Y1 , . . . , Yn variveis i.i.d. tais que Yi BN(, ), i = 1, . . . , n.
Como fica o teste da razo de verossimilhanas para testar H0 : = 1
contra H1 : 6= 1? Qual a distribuio nula assinttica da estatstica

do teste? Como fica a estimativa de sob as duas hipteses?
14. Na tabela abaixo uma amostra de 174 alunos de Estatstica Bsica no

IME-USP foi classificada segundo o curso e o desempenho na disciplina.
345
4.6 Exerccios
Curso
Pedagogia
Geografia
Fsica
Resultado da Avaliao
Aprovado Reprovado Reavaliao
32
16
3
32
18
10
35
14
14
Ajustar um modelo log-linear de Poisson para explicar ij , a proporo

de alunos do curso i com resultado j, em que i, j = 1, 2, 3. Interprete
os resultados e faa uma anlise de diagnstico.
15. (Hand et al., 1994). No arquivo recrutas.dat so descritos os resultados de um estudo desenvolvido em 1990 com recrutas americanos
referente a associao entre o nmero de infees de ouvido e alguns
fatores. Os dados so apresentados na seguinte ordem: hbito de nadar
(ocasional ou frequente), local onde costuma nadar (piscina ou praia),
faixa etria (15-19, 20-25 ou 25-29), sexo (masculino ou feminino) e
nmero de infeces de ouvido diagnosticadas pelo prprio recruta. Verifique qual dos modelos, log-linear de Poisson, quase-verossimilhana
ou log-linear binomial negativo, se ajusta melhor aos dados. Utilize
mtodos de diagnstico como critrio.
16. Supor, por um lado, o modelo log-linear de Poisson em que Yi P(i ),
i = 1, 2, 3, em que log1 = , log2 = + 2 e log3 = + 3 . Fazendo
= 1 +2 +3 expresse o logaritmo da funo de verossimilhana desse

modelo em funo de (, 2 , 3 ). Mostre que a matriz de informao
de Fisher bloco diagonal K = diag{K , K }, em que = (2 , 3 )T .
Por outro lado, sabe-se que a distribuio condicional Y = a|Y1 + Y2 +
Y3 = n, em que Y = (Y1 , Y2 , Y3 )T e a = (a1 , a2 , a3 )T , multinomial

M (a1 , a2 , a3 ; 1 , 2 , 3 ). Supor o modelo log-linear log1 = , log2 =
+ 2 e log3 = + 3 , em que = log(1 + e2 + e3 ) devido
346
4.6 Exerccios
restrio 1 + 2 + 3 = 1. Encontre a matriz de informao de
Fisher K para = (2 , 3 )T no modelo multinomial. Mostre que
as estimativas de mxima verossimilhana para coincidem nos dois
modelos log-lineares. Mostre tambm que K = K quando = n,
comente.
17. (Bishop, Fienberg e Holland, 1975, p. 143). A tabela abaixo apresenta o resultado de uma pesquisa em que 1008 pessoas receberam
duas marcas de detergente, X e M, e posteriormente responderam s
seguintes perguntas: maciez da gua (leve, mdia ou forte); uso anterior do detergente M (sim ou no); temperatura da gua (alta ou
baixa); preferncia (marca X ou marca M). Esses dados esto descritos
no arquivo detergente.dat.
Maciez
Temperatura Uso de M Preferncia Leve Mdia Forte
Alta
Sim
X
19
23
24
M
29
47
43
No
X
29
33
42
M
27
23
30
Baixa
Sim
X
57
47
37
M
49
55
52
No
X
63
66
68
M
53
50
42
Ajustar um modelo log-linear de Poisson para explicar ijk , a proporo de indivduos que responderam, respectivamente, nvel de temperatura (i=1 alta, i=2 baixa), uso prvio de M (j=1 sim, j=2 no),
preferncia (k=1 X, k=2 M) e nvel de maciez ( = 1 leve, = 2
mdio, = 3 forte). Selecionar atravs do mtodo AIC os efeitos principais significativos. Depois incluir apenas as interaes significativas
347
4.6 Exerccios
de primeira ordem. Interpretar os resultados e fazer uma anlise de
diagnstico.
18. Supor que Yij P(ij ), para i = 1, . . . , r e j = 1, . . . , c, com parte
sistemtica dada por
logij = + i + j ,
em que 1 = 1 = 0. Supor ainda que os i s referem-se aos efeitos
do fator A e os j s aos efeitos do fator B. Defina um modelo multinomial equivalente e mostre que a representao acima corresponde
independncia (no sentido probabilstico) entre os fatores A e B.
19. Seja o modelo trinomial em que 0 = P r(Y = 0), 1 = P r(Y = 1) e
2 = P r(Y = 2) com a restrio 0 + 1 + 2 = 1. Suponha que Y = 0
se (Z0 = 1, Z1 = 0, Z2 = 0), Y = 1 se (Z0 = 0, Z1 = 1, Z2 = 0) e Y = 2
se (Z0 = 0, Z1 = 0, Z2 = 1). Note que Z0 + Z1 + Z2 = 1. Portanto, a
funo de probabilidades de (Z0 , Z1 , Z2 ) fica dada por
g(z0 , z1 , z2 ; 0 , 1 , 2 ) = 0z0 1z1 2z2 .
Logo, para uma amostra aleatria de tamanho n a funo de probabilidades de Y = (Y1 , . . . , Yn )T pode ser expressa na forma
z0i z1i z2i
1i 2i .
g(y; 0 , 1 , 2 ) = ni=1 0i
usual considerar a parte sistemtica

2i
1i
T
= 1i = xi 1 e log
= 2i = xTi 2
log
0i
0i
sendo que xi = (xi1 , . . . , xip )T , 1 = (11 , . . . , 1p )T e 2 = (21 , . . . , 2p )T .
Responda aos itens abaixo:
348
4.6 Exerccios
(a) Verifique que 0i = {1 + e1i + e2i }1 , 1i = e1i /{1 + e1i + e2i }
e 2i = e2i /{1 + e1i + e2i }.
(b) Encontre as funes escore U1 e U2 de 1 e 2 , respectivamente.

(c) Encontre a matriz de informao de Fisher para = ( T1 , T2 )T .
(d) Desenvolva um processo iterativo para obter a estimativa de mxima verossimilhana de . Deixe o processo iterativo em forma
matricial. Como inici-lo?
(e) Como fica o desvio do modelo? E o resduo componente do desvio?
20. (Lang et al., 1994). No arquivo nitrofen.dat esto descritos os dados
de um experimento com uma amostra de 50 C.dubia (pequeno animal
invertebrado aqutico de gua doce), que foram submetidos a dosagens
diferentes do herbicida Nitrofen: 0, 80, 160, 235 e 310 mg/. Para
cada nvel de Nitrofen 10 animais ficaram expostos e foi observado o
total de ovos eclodidos aps 3 ninhadas. Faa inicialmente uma anlise
descritiva dos dados, por exemplo um diagrama de disperso entre o
nmero de ovos eclodidos (tovos) contra o nvel de exposio do herbicida (dose). Compare os ajustes de alguns modelos com resposta de
Poisson para explicar o total de ovos eclodidos dado o nvel de exposio. Escolha o melhor ajuste atravs de mtodos de diagnstico. Para o
modelo selecionado faa uma interpretao dos coeficientes estimados.
349
Captulo
Modelos de Quase-Verossimilhana
5.1 Introduo
Wedderburn (1974) props uma funo biparamtrica, denominada funo de
quase-verossimilhana, que engloba algumas funes de verossimilhana da
famlia exponencial. Todavia, na maioria das situaes no possvel atravs
da funo de quase-verossimilhana recuperar a verdadeira distribuio da
varivel resposta. Se Y a varivel aleatria de interesse o logaritmo da
funo de quase-verossimilhnaa definido por
Z
1
yt
Q(; y) = 2
dt,
y V (t)
em que V (t) uma funo positiva e conhecida, < y, < e 2 > 0

um parmetro de disperso. Como temos acima uma integral definida, segue
que
yt
Q(; y)
=
|
2 V (t) y
y
=
.
2 V ()
350
5.1 Introduo
Aplicando as condies abaixo de regularidade
n
o
Q(;Y )
(i) E
=0 e
(ii) E
n
Q(;Y )
o2
= E
2 Q(;Y )
2
mostra-se facilmente que E(Y ) = e Var(Y ) = 2 V (). Ou seja, a

mdia da varivel resposta e a varincia de Y proporcional a V (), como
nos MLGs, embora nem sempre V () seja uma funo de varincia. Uma
terceira propriedade mostrada por Wedderburn (1974) a seguinte:
o
n 2
o
n 2
L(;Y )
)
E
.
(iii) E Q(;Y
2
2
Essa relao mostra que a informao a respeito de quando se conhece
apenas a relao entre a varincia e a mdia menor do que a informao a

respeito de quando se conhece a distribuio da resposta (informao de
Fisher). Assim, a quantidade E{ 2 (Q L)/2 } pode ser interpretada como
o ganho quando acrescenta-se ao conhecimento da relao mdia-varincia

tambm o conhecimento da distribuio da resposta.
Dependendo das especificaes de 2 e V () poderemos recuperar a

distribuio de Y . Abaixo so apresentados alguns exemplos.
Exemplos
Normal
Vamos supor V () = 1 e < , y < . Logo, o logaritmo da funo de
quase-verossimilhana fica dado por

Z
(y t)2
1
yt
dt
=
|y = 2 {(y )2 /2},
Q(; y) =
2
2
que proporcional ao logaritmo da funo de verossimilhana de uma N (, 2 )

para 2 conhecido.
351
5.1 Introduo
Poisson
Vamos supor V () = e y 0, > 0. Logo, obtemos
Z
yt
Q(; y) =
dt
2t
y
1
(ylogt t)|y
=
2
1
=
{ylog ylogy + y}.
2
Se assumirmos 2 = 1 e y > 0 temos que Q(; y) proporcional ao logaritmo
da funo de verossimilhana de uma P().
Para y = 0 obtemos
Q(; y) =
t
dt = 2 |0 = 2 ,
2
t
que coincide quando 2 = 1 com logP (Y = 0), em que Y P().

Binomial
Supor a funo V () = (1 ), 0 y 1 e 0 < < 1. O logaritmo da
funo de quase-verossimilhana fica nesse caso dado por
Z
yt
dt
t)
y
Z
Z
y
1
1
1
=
dt 2
dt
2
y t(1 t)
y (1 t)

1
t
y
|y + 2 log(1 t)|y
log
=
2
1t
y
1
=
[log{(1 ) log{y/(1 y)}] + 2 {log(1 ) log(1 y)},
2
Q(; y) =
2 t(1
para 0 < y, < 1.
352
5.1 Introduo
Para y = 0 temos que
Z
t
dt
t)
0
Z
1
t
= 2
dt
0 t(1 t)
1
log(1 t)|0
=
2
1
=
log(1 ),
2
Q(; y) =
2 t(1
que para 2 = 1 coincide com logP (Y = 0), em que Y B().

Quando y = 1 segue que
(1 t)
dt
t)
1
Z
1
1
=
2
1 t
1
logt|1
=
2
1
=
log,
2
Q(; y) =
2 t(1
que para 2 = 1 coincide com logP (Y = 1), em que Y B().

Gama
Supor a funo V () = 2 e y, > 0. O logaritmo da funo de quaseverossimilhana fica nesse caso dado por
Z
yt
dt
Q(; y) =
2 t2
y
1
=
(y/t logt)|y
2
1
{y/ log + 1 + logy}.
=
2
Fazendo 2 = 1 temos que Q(y; ) proporcional ao logaritmo da funo de
verossimilhana de uma G(, 1).
353
5.2 Respostas independentes

Funo V () = 2 (1 )2
Suponha 0 < < 1 e 0 y 1. Nesse caso o logaritmo da funo de
quase-verossimilhana fica dada por

Z
1
yt
Q(; y) =
dt
2
2
y t (1 t)2
1
[(2y 1)log{/(1 )} y/ (1 y)/(1 )].
2
A funo Q(; y) obtida acima no corresponde a nenhuma funo com ve-
rossimilhana conhecida. Portanto, apenas para algumas funes de quaseverossimilhana tem-se uma funo de verossimilhana correspondente.

Vamos supor que Y1 , . . . , Yn so variveis aleatrias independentes com logaritmo da funo de quase-verossimilhana Q(i ; yi ), i = 1, . . . , n. O logaritmo
da funo de quase-verossimilhana correspondente distribuio conjunta
fica dado por
Q(; y) =
n
X
Q(i ; yi ).
(5.1)
i=1
Vamos supor ainda que
g(i ) = i = xTi ,
(5.2)
em que xi = (xi1 , . . . , xip )T contm valores de variveis explicativas, =

(1 , . . . , p )T e g() uma funo de ligao. Note que os MLGs so um caso
particular de (5.1)-(5.2).
5.2.1 Estimao
Denotando Q() = Q((); y), podemos mostrar que a funo quase-escore
para fica expressa na forma
Q()
1
U =
= 2 DT V1 (y ),
354

em que D = / = W1/2 V1/2 X, = (1 , . . . , n )T , y = (y1 , . . . , yn )T ,
V = diag{V1 , . . . , Vn }, W = diag{1 , . . . , n } com i = (d/d)2i /Vi e X
uma matriz n p de linhas xTi , i = 1, . . . , n. A matriz de quase-informao
para fica dada por
K = E
2 Q()
T
1 T 1
D V D.
2
A estimativa de quase-verossimilhana para sai da soluo da equao

U = 0 que pode ser resolvida pelo mtodo escore de Fisher resultando no
seguinte processo iterativo:
(m+1) = (m) + {D(m)T V(m) D(m) }1 D(m)T V(m) {y (m) },
(5.3)
m = 0, 1, 2, . . . . Note que o processo iterativo (5.3) no depende de 2 , no

entanto, precisa ser iniciado numa quantidade (0) . Mostra-se, sob certas
condies de regularidade (vide, por exemplo, McCullagh e Nelder, 1989, p.
consistente e assintoticamente normal com matriz de varincia333), que
= 2 (DT V1 D)1 . O parmetro de disperso
covarincia dada por Var()
2 deve ser estimado separadamente.
5.2.2 Estimador de momentos

Podemos verificar facilmente que
(
Var
e da segue
Var
(Yi i )
p
V (i )
(Yi i )
p
V (i )
= 1,
= 2,
e, portanto, um estimador de momentos para 2 fica dado por

n
X (yi
i )2
1
.
=
(n p) i=1 V (
i )
2
355
5.2.3 Funo quase-desvio

possvel definir uma funo tipo desvio para os modelos de quase-verossimilhana
y), respectivamente, as
de forma similar aos MLGs. Sejam Q(y; y) e Q(;
funes de quase-verossimilhana do modelo saturado e do modelo sob investigao. A funo quase-desvio no escalonada definida por
= 2 2 {Q(y; y) Q(;
y)}
D(y; )
n
X
y) = 2 2
Q(
i ; yi )
= 2 2 Q(;
= 2
n Z
X
i=1
i=1
yi
yi t
dt,
V (t)
que no depende de 2 . natural que se compare a funo quase-desvio

= 2 D(y; )
com os percentis da distribuio 2(np) ,
escalonada D (y; )
Apreembora no seja em geral conhecida a distribuio nula de 2 D(y; ).
sentamos abaixo a funo quase-desvio no escalonada para alguns casos
particulares supondo uma nica observao.
V ()
Componente de D(y; )
2{ylog ylogy + y}, y, > 0

(1 ) 2[ylog{/(1 )} + log(1 ) logy], 0 < y, < 1
2
2{1 y/ log + logy}, y, > 0
5.2.4 Teste de hipteses

Seja o vetor paramtrico particionado tal que = ( T1 , T2 )T , 1 e 2
so subvetores de dimenso q e p q, respectivamente. Suponha que temos
interesse em testar H0 : 1 = 0 contra H1 : 1 6= 0. McCullagh (1983)
mostra que tambm no caso de quase-verossimilhana a diferena entre duas

funes quase-desvio funciona como um teste da razo de verossimilhanas.
356

0 ) a funo quase-desvio sob H0 e por
Ou seja, se denotarmos por D(y;
a funo quase-desvio sob H1 , para n grande e sob H0 , temos que
D(y; )

1
0
D(y;
D(y;
)
2q ,
2
para 2 fixo que pode ser estimado consistemente, como ocorre com os MLGs.
Testes tipo Wald e tipo escore so tambm possveis de serem desenvolvidos.
Usando resultados do Captulo 1 podemos mostrar que
1 ) = {DT V1/2 M2 V1/2 D1 }1 ,
Var(
1
em que M2 = I H2 , H2 = V1/2 D2 (DT2 VD2 )1 DT2 V1/2 , D1 = W1/2 V1/2 X1
e D2 = W1/2 V1/2 X2 . Assim, um teste tipo Wald fica dado por

T
Var
1 )
1,
W =
(
1
1 ) denota que a varincia est sendo avaliada em .
J o teste

em que Var(
quase-escore para testar H0 : 1 = 0 contra H1 : 1 6= 0 fica dado por
0
)T Var
1 )U (
),
0 (
SR = U1 (
1
em que
Q()
1
1 T 1
=
D V (y ),
2 1
U1 =
0 = (0T ,
0T )T e
0 sendo
com todas as quantidades sendo avaliadas em
2
2
a estimativa de 2 sob H0 . Sob H0 e sob condies usuais de regularidade
temos que, para n , W , SR 2q .
357
5.2.5 Resduos
O no conhecimento da verdadeira funo de verossimilhana de dificulta
o desenvolvimento de alguns mtodos de diagnstico. Tanto o estudo de
resduos como de medidas de influncia dependem em geral do conhecimento
de L(). O que tem sido proposto em modelos de quase-verossimilhana
no sentido de avaliar a qualidade do ajuste so grficos de resduos. Uma
sugesto (vide McCullagh e Nelder, 1989, Cap. 9) o grfico do resduo de
Pearson
yi
i
rPi = p
V (
i )
contra alguma funo dos valores ajustados, como por exemplo contra g(
i ),
em que g() a funo de ligao. Espera-se uma distribuio aleatria dos
resduos em torno do eixo zero. Tendncias diferentes, como por exemplo
aumento da variabilidade, podem indicar que a funo V (i ) no adequada.
Um outro resduo que pode tambm ser utilizado, embora de forma descritiva,
dado por
d( yi ;
i )
,
t Di = p
ii
1h
em que d(yi ;
i ) a raiz quadrada com sinal de yi
i do i-simo compo-
enquanto hii o i-simo elemento da diagonal

nente do quase-desvio D(y; ),
principal da matriz H = V1/2 D(DT V1 D)1 DT V1/2 .
5.2.6 Influncia
Uma verso da distncia de Cook para os modelos de quase-verossimilhana
fica dada por
LDi =
ii
h
rP2 i ,
2
(1 hii )
ii denota o i-simo elemento da diagonal

em que rPi o resduo de Pearson e h
Grficos de LDi contra a ordem das observaes ou
principal da matriz H.
358

contra os valores ajustados podem revelar pontos possivelmente influentes
nos parmetros do preditor linear.
5.2.7 Seleo de Modelos

Uma extenso natural do mtodo de Akaike para os modelos de quaseverossimilhana (ver, por exemplo, Pan, 2001) considerar
+ 2p,
AIC = 2Q()
a funo de quase-verossimilhana avalianda em .
em que Q()
5.2.8 Aplicaes
Mosca do chifre
No arquivo mosca.dat apresentado parte dos dados de um experimento
desenvolvido para estudar a distribuio do nmero de caros em placas de
esterco de gado bovino no estado de S. Paulo (Paula e Tavares, 1992). Essas
placas so depsitos de ovos da mosca do chifre (Haematobia irritans), uma
das pragas mais importantes da pecuria brasileira. Os caros so inimigos
naturais da mosca do chifre uma vez que se alimentam de ovos e larvas dessas
moscas. No arquivo mosca.dat tem-se a distribuio do nmero de caros
de quatro espcies segundo algumas variveis de interesse: (i) N, nmero de
partes da posio da placa onde foram coletados os caros, (ii) Posio, posio na placa onde foram coletados os caros (1: lateral, 0: central), (iii)
Regio, regio onde a placa foi coletada (1: So Roque, 2: Pindamonhangaba, 3: Nova Odessa e 4: Ribeiro Preto) e (iv) Temp, temperatura no local
da coleta (em o C).
359
Tabela 5.1
Estimativas dos parmetros do modelo de quase-verossimilhana
com funo V () = 2 ajustado aos dados
sobre a mosca do chifre.
Com todos os pontos
Sem pontos aberrantes
Efeito
Estimativa E/E.Padro Estimativa E/E.Padro
Constante
-0,828
-0,74
-2,575
-2,13
Posio
-0,288
-0,64
0.380
0,78
Pinda
-0,424
-0,66
-0,910
-1,31
N. Odessa
-1,224
-1,71
-1,836
-2,36
R. Preto
-2,052
-2,98
-2,589
-3,46
Temp.
0,029
0,67
0,087
1,84
2
5,129
5,913
Pensou-se inicialmente, como trata-se de dados de contagem, num modelo log-linear de Poisson para explicar o nmero mdio de caros segundo
as variveis explicativas. Denotando por Yijk o nmero de caros coletados na i-sima posio da k-sima placa e j-sima regio, vamos supor que
Yijk P(ijk ), ijk = Nijk ijk , i = 1, 2 e j = 1, . . . , 6, com Nijk denotando
o nmero de partes na i-sima posio da k-sima placa coletada na j-sima

regio. A parte sistemtica do modelo fica dada por
logijk = logNijk + logijk ,
(5.4)
logijk = + i + j + Tempjk ,
(5.5)
em que
logNijk desempenha papel de offset, i denota o efeito da posio, j o efeito

da regio e Tempjk a temperatura na j-sima regio no momento da coleta
da k-sima placa. Temos as restries 1 = 1 = 0. O desvio do modelo
= 318, 69 (96 graus de liberdade)
ajustado para a espcie 6 foi de D(y; )
indicando fortes indcios de sobredisperso. Propomos ento um modelo
de quase-verossimilhana com funo dada por V (ijk ) = ijk . Esse modelo
360
3
2
1
-1
Residuo de Pearson
parece tambm inadequado pelo grfico de resduos de Pearson rPijk = (yijk

p
ijk )/

ijk contra log
ijk (Figura 5.1).
-2
-1
Log Valor Ajustado
Figura 5.1: Grfico do resduo de Pearson contra log

para o modelo ajustado
com funo V () = aos dados sobre a mosca do chifre.
Nota-se um aumento da variabilidade com o aumento do logaritmo das
mdias ajustadas, indcio de que a variabilidade no foi totalmente controlada. Para ajustar o modelo no R, vamos supor que as variveis Posio,
Regio e Temp sejam colocadas em posicao, regiao e temp, respectivamente,
e que logN denota o logaritmo do nmero de partes da placa. O nmero de
caros ser denotado por acaros. A sequncia de comandos dada abaixo
regiao = factor(regiao)
fit1.mosca = glm(acaros posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu")).
361
84
28
2
1
0
Residuo de Pearson
61
-2
-1
Log Valores Ajustado
Figura 5.2: Grfico do resduo de Pearson contra log

para o modelo ajustado
com funo V () = 2 aos dados sobre a mosca do chifre.
Se colocarmos em phi a estimativa do parmetro de disperso, o resduo de
Pearson padronizado ser obtido pelo comando
phi = summary(fit1.mosca)$dispersion
rp = resid(fit.mosca, type = "pearson")/sqrt(phi).
No objeto fit.mosca esto os principais resultados do ajuste. Propomos
agora, a fim de controlar a variabilidade, um modelo de quase-verossimilhana
com funo quadrtica V (ijk ) = 2ijk e parte sistemtica dada por (5.4)(5.5). O grfico do resduo de Pearson contra o logaritmo das mdias ajustadas (Figura 5.2) parece bastante razovel, embora apaream 9 placas com
valores para rPijk acima de 2. Na Tabela 5.1 apresentamos as estimativas dos
parmetros com todas as placas e tambm eliminando as placas com resduos
mais aberrantes, #28, #61 e #84.
Os comandos no R para ajustar os dois modelos so dados abaixo
362

offset(logN), family=quasi(link=log, variance= "mu 2"), maxit=50)
offset(logN), family=quasi(link=log, variance= "mu 2 "), subset
= -c(28,61,84), maxit=50).
Nota-se pelas estimativas dos dois modelos ajustados que Nova Odessa
e Ribeiro Preto apresentam um nmero mdio de caros bem menor do
que as outras duas regies. No h indcios de efeito de posio, porm a
eliminao das trs placas com valores mais aberrantes faz com que o efeito de
temperatura fique mais acentuado, havendo indcios de que o nmero mdio
de caros cresce com o aumento da temperatura.
As placas #28, #61 e #84 tm em comum o fato de apresentarem
um nmero mdio de caros (por parte de placa) pelo menos duas vezes
acima da mdia em temperaturas relativamente baixas. Essas placas foram
coletadas nas regies de Pindamonhangaba, Nova Odessa e Ribeiro Preto,
respectivamente. Assim, esperado que a eliminao dessas placas reduza
o valor das estimativas dos efeitos dessas regies como tambm aumente a
estimativa do coeficiente da temperatura. A fim de que as 9 placas com
resduos mais aberrantes possam ser melhor ajustadas pode-se tentar outras
formas para a funo V (), como por exemplo V () = 2 (1+)2 (vide Paula
e Tavares, 1992).
Demanda de TV a cabo
Vamos reanalisar nesta seo o exemplo sobre demanda de TV a cabo discutido no Captulo 4 sob um enfoque de modelo log-linear com resposta binomial negativa. Proporemos aqui um modelo um pouco diferente. Ao invs de
ser ajustado o nmero mdio esperado de assinantes de TV a cabo ser ajustada a proporo esperada de assinantes de TV a cabo em cada rea. A proporo observada dada por Razao = Nass/Domic. Como 0 Razao 1,
363

propomos o seguinte modelo de quase-verossimilhana:
E(Razaoi ) = i e
Var(Razaoi ) = 2 i (1 i ),
em que i denota a proporo esperada de assinantes na i-sima rea, i =
1, . . . , 40. A parte sistemtica do modelo ser dada por

i
log
= + 1 Percapi + 2 Taxai + 3 Custoi + 4 Ncaboi + 5 Ntvi .
1 i
Na Figura 5.3 apresentado o grfico da distncia de Cook contra
das observaes com destaque para as reas #5 e #14. A observao #5
corresponde a uma rea de renda alta porm com uma proporo pequena
de assinantes de TV a cabo, talvez devido aos altos custos de instalao e
manuteno. J a rea #14 tem uma proporo alta de assinantes de TV a
cabo embora as taxas tambm sejam altas. Tambm na Figura 5.3 temos o
p
i (1
i ) contra o logito dos vagrfico do resduo rPi = (Razaoi
i )/

lores ajustados e como pode-se notar h um ligeiro aumento da variabilidade

com o aumento da proporo de reas com o TV a cabo.
Tabela 5.2
Estimativas dos parmetros do modelo de quase-verossimilhana
com funo V () = (1 ) ajustado aos
dados sobre demanda de TV a cabo.
Com todos os pontos
Sem reas 5 e 14
Efeito
Estimativa E/E.Padro Estimativa E/E.Padro
Intercepto
-2,407
-1,72
-2,440
-1,60
4
4
Percap
4 10
2,50
4 10
2,80
Taxa
0,023
0,93
0,016
0,64
Custo
-0,203
-1,79
-0,252
-2,27
Ncabo
0,073
1,94
0,079
2,22
Ntv
-0,216
-2,61
-0,201
-2,61
2
0,114
0,098
364
0.5
14
1
3
0.0
0.1
Resduo de Pearson
0.3
0.2
Distncia de Cook
0.4
10
20
30
40
1.5
ndice
1.0
0.5
0.0
0.5
Preditor Linear
Figura 5.3: Distncia de Cook e grfico do resduo de Pearson contra o logito

de
para o modelo ajustado com funo V () = (1 ) aos dados sobre
demanda de TV a cabo.
A eliminao dessas duas reas, como pode ser observado pela Tabela
5.2, no altera os resultados inferenciais (ao nvel de 5%) com todas as observaes, embora aumente a significncia dos coeficientes. Nota-se que apenas
o coeficiente da varivel Taxa parece no ser significativo marginalmente.
Uma tentativa no sentido de tentar reduzir a variabilidade observada
na Figura 5.3 utilizando uma funo do tipo V () = 2 (1 )2 . Na Figura
5.4 temos o grfico da distncia de Cook e o grfico do resduo de Pearson

contra o logito dos valores ajustados supondo V () = 2 (1 )2 . Nota-se
comportamentos muito similares queles encontrados na Figura 5.3. Assim,

podemos assumir para esse exemplo o ajuste com a funo V () = (1 ).
365

Nota-se, que sob esse ajuste, mais variveis permanecem no modelo do que
sob o ajuste do nmero esperado de domiclios com TV a cabo com resposta
0.5
binomial negativa, como foi visto no Captulo 4.
14
2
1
3
0.0
0.1
Resduo de Pearson
0.3
0.2
Distncia de Cook
0.4
10
20
30
40
1.5
ndice
1.0
0.5
0.0
0.5
Preditor Linear

de
para o modelo ajustado com funo V () = 2 (1 )2 aos dados sobre
demanda de TV a cabo.
Para o ajuste do modelo de quase-verossimilhana com V () = 2 (1
)2 preciso requerer a library gnm e usar a famlia wedderburn conforme os

comandos dados abaixo
require(gnm)
366

ajuste.tvcabo = glm(razao percap + taxa + custo + ncabo +
ntv, family=wedderburn).
Todavia, os resultados com a famlia wedderburn ficaram muito pare-
0.6
0.4
0.0
0.2
Area Afetada
0.8
cidos com aqueles resultados apresentados com a funo V () = (1 ).
10
Variedade
Figura 5.5: Boxplots da proporo da rea afetada segundo a variedade para

os dados sobre manchas na folha da cevada.
Manchas na folha da cevada

Esses dados esto descritos em McCullagh e Nelder (1982, Tabela 9.2)
e no arquivo cevada.dat, em que a incidncia de um tipo de mancha
observada na folha da cevada segundo 10 variedades em 9 locais diferentes.
A amostra consiste de 90 observaes em que a resposta a rea afetada da
folha (em proporo) e os fatores so a variedade e o local.
367
0.6
0.4
0.0
0.2
Area Afetada
0.8
Local
Figura 5.6: Boxplots da proporo da rea afetada segundo o local para os

dados sobre manchas na folha da cevada.
Nas Figuras 5.5 e 5.6 so apresentados os boxplots da rea afetada
(em proporo) segundo a variedade e local, respectivamente. Nota-se no
primeiro grfico um aumento da mediana da proporo da rea afetada e
tambm da disperso com a variedade. Tendncia similar pode ser observada
no segundo grfico. Seja Yij a proporo da rea afetada da folha da cevada
correspondente ao i-simo local e j-sima variedade para i = 1, . . . , 9 e j =
1, . . . , 10. Conforme sugerido por McCullagh e Nelder (1989, Cap. 9) vamos
supor o seguinte modelo de quase-verossimilhana:
E(Yij ) = ij e
Var(Yij ) = 2 V (ij ),
com parte sistemtica dada por

ij
= + i + j ,
log
1 ij
368

em que ij denota a proporo esperada da rea afetada para a j-sima
variedade do i-simo local, 1 = 0 e 1 = 0.
1.5
65
1
0
Resduo de Pearson
1.0
0.0
0.5
Distncia de Cook
38
20
40
60
80
ndice
Preditor Linear

de
para o modelo ajustado com funo V () = (1 ) aos dados sobre
manchas na folha da cevada.
Nas Figuras 5.7 e 5.8 so apresentados grficos de diagnstico para
ajustes do modelo de quase-verossimilhana supondo V (ij ) = ij (1 ij ) e
V (ij ) = ij2 (1 ij )2 , respectivamente. Nota-se ao compararmos os grficos
de resduos que o segundo ajuste mais adequado embora algumas observaes sejam destacadas como possivelmente influentes. As observaes #24,
369
5.3 Classe estendida

#65 e #76 apresentam propores amostrais acima das propores mdias
amostrais das variedades e locais correspondentes, enquanto a observao
#52 tem uma proporo amostral abaixo da proporo mdia do local correspondente. A eliminao dessas observaes no muda a inferncia com
relao s propores mdias dos locais, porm muda a inferncia com relao s menores propores mdias das variedades. Em geral as estimativas
de quase-verossimilhana indicam um aumento da proporo esperada da
rea afetada com o aumento da variedade e do local conforme descrito nos
boxplots apresentados nas Figuras 5.5 e 5.6.

O logaritmo da funo de quase-verosssimilhana Q(; y) assume que a funo V () conhecida, logo a mudana dessa funo significa que um novo
modelo est sendo definido. No sentido de permitir comparaes de diferentes
funes V () para um mesmo modelo como tambm possibilitar a obteno
de uma estimativa para o erro padro assinttico de
2 , Nelder e Pregibon
(1987) propuseram uma (log) quase-verossimilhana estendida, definida por
Q+ (; y) =
em que D(y; ) = 2
Ry
1
1
D(y;
)
log{2 2 V (y)},
2 2
2
{(y t)/V (t)}dt o quase-desvio e =
1
2
o par-
metro de disperso. Similarmente a Q, Q+ no pressupe que a distribuio

completa de Y seja conhecida, mas somente os dois primeiros momentos. A
estimativa de maximizando-se Q+ (y; ), para uma amostra aleatria de
tamanho n, coincide com a estimativa de quase-verossimilhana para , uma
vez que Q+ uma funo linear de Q. A estimativa de maximizando Q+
370
1
0
76
52
Resduo de Pearson
0.6
65
0.0
0.2
0.4
Distncia de Cook
0.8
1.0
24
20
40
60
80
ndice
Preditor Linear

de
para o modelo ajustado com funo V () = 2 (1 )2 aos dados sobre
manchas na folha da cevada.
dada por = D(y; )/n.

Portanto, para os casos especiais em que Q+ corresponde s distribuies normal e normal inversa, corresponde estimativa
de mxima verossimilhana de . Para a distribuio gama, Q+ difere do
logaritmo da funo de verossimilhana por um fator dependendo somente
de . Para as distribuies de Poisson, binomial e binomial negativa, Q+
obtida do logaritmo da funo de verossimilhana correspondente substituindo qualquer fatorial k! pela aproximao de Stirling k!
= (2k)1/2 k k ek .
Discusses mais interessantes e aplicaes da classe estendida so dadas em
Nelder e Pregibon (1987).
371
5.4 Respostas correlacionadas

A fim de estabelecermos a notao a ser utilizada nesta seo, denotaremos
por Yi = (Yi1 , . . . , Yiri )T o vetor resposta multivariado para a i-sima unidade experimental, i = 1, . . . , n, e assumiremos em princpio que apenas
conhecida a distribuio marginal de Yit , dada por
f (y; it , ) = exp[{yit b(it )} + c(y, )],
(5.6)
em que E(Yit ) = it = b (it ), Var(Yit ) = 1 Vit , Vit = dit /dit a funo

de varincia e 1 > 0 o parmetro de disperso, em geral desconhecido.
Podemos definir um modelo linear generalizado para cada instante t acrescentando a (5.6) a parte sistemtica
g(it ) = it ,
(5.7)
em que it = xTit o preditor linear, = (1 , . . . , p )T um vetor de

parmetros desconhecidos a serem estimados, xit = (xit1 , . . . , xitp )T representa os valores de variveis explicativas observadas para a i-sima unidade
experimental no tempo t e g() a funo de ligao.
A funo escore e a matrix de informao para , ignorando-se a estrutura de correlao intraunidade experimental, ficam, respectivamente, dadas
por
U =
n
X
i=1
DTi Vi1 (yi i )
K =
n
X
DTi Vi Di ,
(5.8)
(5.9)
i=1
1/2
1/2
em que Di = Wi Vi Xi , Xi uma matriz ri p de linhas xTit , Wi =
diag{i1 , . . . , iri } a matriz de pesos com it = (dit /dit )2 /Vit , Vi =

diag{Vi1 , . . . , Viri }, yi = (yi1 , . . . , yiri )T e i = (i1 , . . . , iri )T . Quando h
372

ligao cannica a funo escore e a matriz de informao de Fisher ficam
P
P
dadas por U = ni=1 XTi (yi i ) e K = ni=1 XTi Vi Xi , respectiva-
mente. O estimador de , ignorando-se a estrutura de correlao intrauni-
dade experimental, sai da equao U = 0. Esse estimador consistente e

assintoticamente normal. Note que podemos supor que a distribuio marginal de Yit desconhecida assumindo uma funo V (it ) diferente daquela
que caracteriza a distribuio de Yit . Nesse caso, teremos um modelo de
quase-verossimilhana em cada instante t com funo escore e matriz de informao, ignorando-se a estrutura de correlao, dadas por (5.8) e (5.9),
respectivamente.
Um tpico de pesquisa importante, que tem interessado a vrios pesquisadores, o desenvolvimento de metodologias para a estimao dos parmetros de interesse quando os dados so correlacionados e a distribuio
marginal no normal, como o caso introduzido nesta seo. Uma maneira
de resolver o problema ignorar a estrutura de correlao, como vimos acima,
produzindo estimadores consistentes e assintoticamente normais, porm muitas vezes com perda de eficincia. Uma outra maneira, que descreveremos
a seguir, introduzindo alguma estrutura de correlao na funo escore,
produzindo um novo sistema de equaes para estimar . A fim de facilitarmos o entendimento dessa metodologia, vamos supor inicialmente que os
dados so no correlacionados e que a matriz de correlao correspondente
ao i-simo grupo denotada por Ri . Logo, teremos Ri = Iri . A matriz de
varincia-covarincia para Yi , por definio, dada por
1/2
1/2
Var(Yi ) = 1 Vi Ri Vi ,
(5.10)
que no caso de dados no correlacionados fica simplesmente dada por 1 Vi .

A ideia introduzirmos em (5.10) uma matriz de correlao no diagonal,
por exemplo dada por Ri (), com reflexos na funo escore que passaria a
373

depender tambm de Ri (). O incoveniente dessa proposta o fato da correlao, que restrita ao intervalo [1, 1], depender de , o que aumentaria
a complexidade do processo de estimao. A soluo encontrada para contornar esse problema foi dada por Liang e Zeger (1986) que propuseram uma
matriz de correlao dada por Ri (), em que = (1 , . . . , q )T um vetor de
parmetros de perturbao que no dependem de . Ou seja, os parmetros
da matriz de correlao no dependem dos parmetros de posio.
Para entender melhor essa proposta definimos
1/2
1/2
i = 1 Vi Ri ()Vi ,
em que i a matriz de varincia-covarincia de Yi se a verdadeira correlao
entre os elementos de Yi for dada por Ri (). Note que Ri () uma matriz
ri ri que depende de um nmero finito de parmetros = (1 , . . . , q )T ,
sendo denominada matriz trabalho. Para estimarmos devemos resolver o
seguinte sistema de equaes:

) = 0,
S (
G
(5.11)
denominado equaes de estimao generalizadas (EEGs), em que

S () =
n
X
i=1
DTi 1
i (yi i ).
Note que (5.11) reduz-se a U = 0 quando Ri () = Iri , isto , quando ignorada a estrutura de correlao intraunidade experimental. Na verdade S ()
depende tambm de e = (1 , . . . , q )T que so estimados separadamente
de .
374
5.4.1 Estimao
O processo iterativo para a estimao de , que uma modificao do mtodo
escore de Fisher, dado por
(m+1)
G
(m)
G
n
X
(m)T (m) (m) 1
+{
Di }
Di i
i=1
n
X
(m)T
Di
(m)
i=1
(m)
(5.12)
{yi i }],
so dadas inicialmente e modificadas

m = 0, 1, 2 . . . . As estimativas e
separadamente a cada passo do processo iterativo.
e so estimadores consistentes de e , respectivaSupondo que
mente, temos que
G ) d Np (0, ),
n(
em que
= lim [n(
n
n
X
i=1
n
X
1
DTi 1
i Di ) {
i=1
1
DTi 1
i Var(Yi )i Di }(
n
X
1
DTi 1
i Di ) ].
i=1
Se a matriz de correlao Ri () definida corretamente, ento um estimador

G ) dado por H1 (
G ), em que
consistente para Var(
1
)=
H1 (
G
n
X
T
1 D
i ),
(D
i
i
i=1
G e

G ). Entretanto, se a
i sendo avaliado em
i avaliado em (,
,
com D
G ) pode ser inconsismatriz trabalho Ri () definida incorretamente H1 (
1
G ), sugerido por Liang and Zeger

tente. Um estimador robusto para Var(
(1986), dado por
G )H2 (
G )H1 (
G ),
G = H1 (
V
1
1
G ) = Pn {D
T
1 (yi
1 D
i }. O estimador
i )(yi
i )T
em que H2 (
i
i
i
i=1
G consistente mesmo se a matriz trabalho for definida incorretamente.
V
375
5.4.2 Estruturas de correlao

No estruturada
Quando a matriz de correlao Ri no estruturada teremos ri (ri 1)/2
parmetros para serem estimados. Denotando Ri = {Rijj }, o (j, j )-simo
elemento de Ri poder ser estimado por
n
X
(yij
) (yij
)
jj = 1
q ij
q ij .
R
n i=1
Vij
Vij
Simtrica ou permutvel
Neste caso assumimos Ri = Ri (), em que o (j, j )-simo elemento de Ri
fica dado por Rijj = 1, para j = j , e Rijj = , para j 6= j . Um estimador
consistente para fica dado por

ri
ri
n
X
X
(yij
) (yij
1
)
1X
q ij
q ij .
=
n i=1 ri (ri 1) j=1 j =1,j 6=j
Vij
Vij
Autoregressiva AR(1)
Aqui tambm assumimos Ri = Ri (), em que o (j, j )-simo elemento de
Ri fica dado por Rijj = 1, para j = j , e Rijj = |jj | , para j 6= j . Um
estimador consistente para fica dado por

n
r 1
i
X
i(j+1) )
1X
1
(yij
) (yi(j+1)
q ij
q
=
.
n i=1 (ri 1) j=1
Vi(j+1)
Vij
Parmetro de disperso
O parmetro de disperso 1 pode ser estimado consistentemente por
ri
n X
X
(yij
ij )2
1
1
,
=
(N p) i=1 j=1
Vij
376

em que N =
Pn
i=1 ri .
Assim, o processo iterativo (5.12) deve alternar com
as estimativas para e at a convergncia.

Testes de hipteses para ou para subconjuntos de podem ser
desenvolvidos atravs de estatsticas tipo Wald com a matriz de varincia G.
covarincia estimada V
5.4.3 Mtodos de diagnstico

Tcnicas de diagnstico para EEGs podem ser encontradas, por exemplo,
em Hardin e Hilbe (2003) e Venezuela et al. (2007) e mais recentemente
em Venezuela et al. (2011). Os procedimentos apresentados a seguir foram
extrados de Venezuela et al. (2007).
Resduos
Aplicando para as EEGs um procedimento similar quele apresentado na
Seo 1.10.2 chega-se ao seguinte resduo de Pearson:
rPij
iW
1/2 (V
i )1 (yi
i)
eTij A
i
q
=
,
ijj
1h
1/2
para i = 1, . . . , n e j = 1, . . . , ri , em que Ai
1/2
1/2
= Wi R1
i Wi
uma
matriz de dimenso ri ri , eTij um vetor de dimenso 1 ri de zeros com

1 na j-sima posio e hijj o j-simo elemento da diagonal principal da
matriz
1/2
1/2
Hi = Ai Xi (XT AX)1 XTi Ai ,

em que X = (XT1 , . . . , XTn )T tem dimenso N p e A = diag{A1 , . . . , An }
P
tem dimenso N N com N = ni=1 ri .
377
Alavanca
Duas medidas de alavanca so usualmente aplicadas em EEGs. Medida de
ijj e
alavanca referente ao j-simo indivduo do i-simo grupo, dada por h
medida de alavanca referente ao i-simo grupo, definida por
ri
X
hi = 1
hijj .
ri j=1
ijj e h
i ou contra os valores ajustados so recomenGrficos de ndices para h
dados.
Influncia
Uma verso aproximada da distncia de Cook para avaliar o impacto da
G dada por
eliminar individual das observaes na estimativa
LDij =
ijj
h
rP2 ij .
(1 hijj )
Grficos de ndices para LDij so recomendados.

Uma proposta de critrio para seleo de modelos em EEGs (ver, por exemplo, Hardin e Hilbe, 2003) dado por
G ) + 2tr(V
GH
1I ),
QIC = 2Q(
G a estimativa de quase-verossimilhana para uma matriz espeem que
cfica de correlao Ri () e H1I a matriz H1 avaliada sob a estrutura de
independncia. Esse critrio pode ser aplicado para selecionar submodelos
encaixados ou para selecionar a matriz de correlao para um modelo especfico.
378
5.5 Exemplos
5.5 Exemplos
5.5.1 Ataques epilpticos
No arquivo ataques.dat (Diggle, Liang e Zeger, 1994, Seo 8.4) so resumidos os resultados de um ensaio clnico com 59 indivduos epilpticos os quais
foram aleatorizados de modo que cada um recebesse uma droga antiepilptica
denominada progabide ou placebo. Os dados de cada indivduo consistiram
de um nmero inicial de ataques epilpticos num perodo de oito semanas
antes do tratamento, seguido do nmero de ataques em cada perodo de duas
semanas, num total de quatro perodos, aps o tratamento. O interesse da
pesquisa saber se a droga reduz a taxa de ataques epilpticos.
Para ajustar esses modelos no R usaremos a library gee, que deve ser
acionada atravs do comando
require(gee).
Os ajustes podem ser feitos de forma muito similar aos MLGs desde que os
dados estejam descritos de forma apropriada. Existem outras formas de gerar
dados longitudinais atravs de outras subrotinas que facilitam, por exemplo,
a elaborao de grficos de perfis. Nesses casos, ser necessrio informarmos
nos comandos de ajuste como as unidades experimentais esto dispostas e o
tipo de correlao intraunidade experimental a ser assumida.
No caso dos ataques epilpticos uma possvel distribuio marginal
para os dados a distribuio de Poisson, uma vez que tem-se dados de
contagem. Contudo, observando-se a tabela abaixo, onde esto descritos os
valores amostrais para a razo varincia/mdia para os 10 grupos experimentais, nota-se um forte indcio de sobredisperso sugerindo que o parmetro
de disperso no deve ser fixado como sendo igual a um.
379
100
5.5 Exemplos
60
0
20
40
Ataques
80
placebo
progabide
10
12
14
16
Tempo
Figura 5.9: Grfico de perfis com o nmero de ataques por perodo de 2

semanas.
Placebo
Progradibe
Antes Per1 Per2 Per3 Per4

22,13 10,98 8,04 24,50 7,24
24,76 38,77 16,70 23,75 18,79
Para compararmos o nmero de ataques epilpticos nos 10 perodos

experimentais, devemos padronizar os valores referentes ao perodo anterior
ao tratamento em que os pacientes foram observados por 8 semanas. Assim,
ser possvel uma comparao com os demais perodos de 2 semanas. Na
Figura 5.9 temos o grfico de perfis com os dois tratamentos. Nota-se que pelo
menos um paciente (#49), que foi tratado com a droga progabide, apresenta
um nmero alto de ataques antes e depois do tratamento.
Vamos supor ento que Yijk representa o nmero de ataques epilpticos ocorridos com o k-simo indivduo do i-simo grupo no j-simo perodo.
380
5.5 Exemplos
Assumimos que Yijk P(ij tj ), tj denota o nmero de semanas do j-simo
perodo, i = 1, 2; j = 0, 1, 2, 3, 4 e k = 1, . . . , rij , em que r1j = 28 (grupo

placebo), r2j = 31 (grupo tratado), t0 = 8 e t1 = t2 = t3 = t4 = 2. Assumimos tambm uma estrutura de correlao permutvel para cada indivduo,
isto , Corr(Yijk , Yijk ) = , para k 6= k e (i, j) fixos. A parte sistemtica do
modelo ser dada por
log10 = ,
log1j = + ,
log20 = + e
log2j = + + + ,
para j = 1, 2, 3, 4, em que denota o nvel base, o efeito de tratamento,

o efeito de grupo e a interao entre tratamento e grupo. Note que, antes
do tratamento, o logaritmo da razo entre as taxas dos dois grupos dado
por
log{20 /10 } = + = .
(5.13)
Aps o tratamento, o logaritmo da razo entre as taxas fica dado por

log{2j /1j } = + + + = + .
(5.14)
Portanto, se o tratamento no eficaz espera-se que o logaritmo da razo no

mude aps o tratamento. Logo, avaliar a eficincia do tratamento equivale a
testar H0 : = 0 contra H1 : 6= 0.
381
20
5.5 Exemplos
(49,1)
(18,1)
(29,1)
(38,1)
(25,4)
10
(5,1)
Resduo de Pearson Padronizado
15
(15,1)
10
20
30
40
50
60
Unidade Experimental
Figura 5.10: Grfico do resduo de Pearson referente ao modelo de Poisson

com estrutura de correlao permutvel ajustado aos dados sobre ataques
epilpticos.
Tabela 5.3
Estimativas dos parmetros do modelo log-linear de Poisson
aplicado aos dados sobre ataques epilpticos.
Com todos os pacientes
Sem o paciente #49
Parmetro Estimativa z-robusto Estimativa z-robusto
1,347
8,564
1,347
8,564
0,112
0,965
0,112
0,965
0,027
0,124
-0,107
-0,551
-0,105
-0,491
-0,302
-1,768
0,771
0,593
1
19,68
10,53
Se denotarmos por ij = E(Yijk ), a parte sistemtica do modelo em
382
10
5
5
Resduo de Pearson Padronizado
15
20
5.5 Exemplos
Percentil da N(0,1)
Figura 5.11: Grfico normal de probabilidades referente ao modelo de Poisson

com estrutura de correlao permutvel ajustado aos dados sobre ataques
epilpticos.
funo das mdias fica dada por
logij = logtj + logij ,
em que logtj desempenha o papel de offset. Para ajustarmos esse modelo no
R deve-se seguir a sequncia abaixo de comandos
fit1.ataques = gee(ataques grupo + periodo + grupo*perido
+ offset(log(semanas)), id=paciente, family=poisson,
corstr="exchangeable"),
em que grupo representa o grupo (=0 placebo, =1 progabide), periodo representa o perodo (=0 antes, =1 depois), semanas o nmero de semanas,
paciente o nmero do paciente (so 59 pacientes) e corstr o tipo de corre383
5.5 Exemplos
lao a ser assumida.
As estimativas dos parmetros (erro padro aproximado) so apresentadas na Tabela 5.3. No h portanto nenhum indcio de efeito de tratamento.
Para a anlise de resduos vamos considerar o resduo de Pearson rPij definido na Seo 5.4.3. A gerao de envelopes para esse resduo um pouco
mais complexa do que no caso usual de respostas independentes, uma vez
que requer o conhecimento da distribuio conjunta das respostas de cada
indivduo. No entanto, mesmo quando essa distribuio no totalmente
desconhecida possvel, em alguns casos, gerar a distribuio emprica dos
dados (vide, por exemplo, Venezuela et al., 2007).
Nota-se pela Tabela 5.3 que a estimativa do parmetro de disperso
1 muito diferente da suposio de = 1 para modelos com resposta
de Poisson, sugerindo indcios fortes de sobredisperso. Assim, para uma
anlise de resduos mais
q apropriada deve-se considerar o resduo de Pearson
rP cujo grfico descrito na Figura 5.10. Nota-se 7
padronizado rP ij =
ij
resduos com valores superiores a 10,0, todos referentes a medidas de diferen-
tes pacientes. O grfico normal de probabilidades para o resduo de Pearson

padronizado rP ij (Figura 5.11) mostra alguns afastamentos da suposio de
modelo marginal de Poisson, provavelmente devido sobredisperso que no
foi totalmente controlada. Finalmente, na Figura 5.12, temos a distncia de
Cook aproximada em que trs medidas se destacam. Nota-se novamente uma
medida referente ao paciente (#49) cujo perfil destoa na Figura 5.9. Vamos
fazer um estudo das estimativas no considerando esse paciente no ajuste.
Os comandos em R so dados abaixo.
fit2.ataques = gee(ataques grupo + periodo + grupo*perido
+ offset(log(semanas)), id=paciente, subset=-c(241, 242, 243, 244,
245), family=poisson, corstr="exchangeable").
384
5.5 Exemplos
As novas estimativas (vide Tabela 5.3) indicam evidncia de que o tratamento
com a droga progabide reduz o nmero mdio de ataques epilpticos, ou seja,
h mudana inferencial em relao ao modelo com todos os pontos.
(18,1)
(49,1)
4
0
Distncia de Cook
(15,1)
10
20
30
40
50
60
Figura 5.12: Distncia de Cook referente ao modelo de Poisson com estrutura

de correlao permutvel ajustado aos dados sobre ataques epilpticos.
5.5.2 Condio Respiratria

Vamos considerar agora um exemplo discutido em Myers, Montgomery e
Vining (2002, Seo 6.5) que envolve a comparao de dois tratamentos aplicados em pacientes com problemas respiratrios. Um total de 56 pacientes
foi considerado no estudo sendo que 27 receberam o tratamento com uma
droga ativa enquanto que os 29 pacientes restantes receberam placebo. Cada
385
5.5 Exemplos
paciente foi observado em quatro ocasies em que mediu-se a condio respiratria (boa ou ruim). Foram tambm observados o sexo e a idade (em
anos) de cada paciente alm da pr-existncia de um nvel base (sim ou no).
Apenas como ilustrao descrevemos abaixo a incidncia do problema respiratrio em cada ocasio segundo os dois tratamentos.
Visita 1 Visita 2 Visita 3 Visita 4
Tratamento
22/27
13/27
5/27
1/27
Placebo
20/29
18/29
21/29
15/29
Nota-se pela tabela acima que na primeira visita h uma incidncia alta para
ambos os tratamentos de pacientes em condio respiratria ruim, contudo
a partir da segunda visita nota-se uma queda acentuada para os pacientes
tratados com a droga ativa e pouca variao para os pacientes tratados com
placebo. Portanto, h fortes indcios de que a droga reduz a chance de
condio respiratria ruim. Os dados completos desse experimento esto
descritos no arquivo respiratorio.dat.
Vamos denotar por Yij a condio (=1 ruim, =0 boa) do i-simo paciente na j-sima ocasio, i = 1, . . . , 56 e j = 1, 2, 3, 4. Como trata-se de
resposta binria ser assumido marginalmente que Yij Be(ij ) com parte
sistemtica dada por

ij
log
+ 1 Idadei + 2 Trati + 3 Sexoi + 4 Basei ,
1 ij
em que Idadei denota a idade (em anos), Trati (=0 droga ativa, =1 placebo), Sexoi (=0 feminino, =1 masculino) e Basei (=0 ausncia do nvel
base, =1 presena do nvel base) do i-simo paciente. Seguindo a sugesto
de Myers, Montgomery e Vining (2002, Seo 6.5) ser assumida uma estrutura de correlao AR(1) para as respostas de cada paciente, ou seja, que
386
5.5 Exemplos
Corr(Yij , Yij ) = 1 para j = j e Corr(Yij , Yij ) = |jj | para j 6= j . Para
ajustar esse modelo no R deve-se usar os comandos
fit1.respir = gee(condicao idade + trat + sexo + base,

id=paciente, family=binomial, corstr="AR-M", M=1).
As estimativas dos parmetros dos modelos com estrutura AR(1) e
independente so apresentadas na Tabela 5.4. Nota-se que as estimativas
no diferem muito e os resultados inferencias so os mesmos. Isso pode
ser explicado pela baixa correlao entre as respostas do mesmo indivduo,
0
1
3
Resduo de Pearson
= 0, 275.
(18,4)
10
(28,4)
20
30
40
50
Figura 5.13: Grfico do resduo de Pearson referente ao modelo binomial com

estrutura de correlao AR(1) ajustado aos dados sobre condio respiratria.
387
2
6
Resduo de Pearson
5.5 Exemplos
Percentil da N(0,1)
Figura 5.14: Grfico normal de probabilidades referente ao modelo binomial

com estrutura de correlao AR(1) ajustado aos dados sobre condio respiratria.
Tabela 5.4
Estimativas dos parmetros do modelo logstico aplicado
aos dados sobre condio respiratria.
Correlao AR(1)
Independncia
Parmetro Estimativa z-robusto Estimativa z-robusto
-0,377
-0,386
-0,404
-0,474
1
0,043
3,380
0,048
3,443
2
1,001
3,066
1,070
3,425
3
-2,003
-2,988
-2,178
-3,162
4
0,492
0,586
0,498
0,977
0,275
0,00
388
0.5
5.5 Exemplos
(18,4)
0.2
0.3
(53,4)
0.0
0.1
Distncia de Cook
0.4
(28,4)
10
20
30
40
50
Figura 5.15: Distncia de Cook referente ao modelo binomial com estrutura

de correlao AR(1) ajustado aos dados sobre condio respiratria.
Pelas estimativas da Tabela 5.4 pode-se concluir que o resultado da
condio respiratria independe do nvel base, no entanto depende da idade,
do tratamento e do sexo. Por exemplo, h um aumento na chance de condio
respiratria ruim com o aumento da idade, conforme esperado. A razo de
chances entre sexo feminino e masculino estimada por = e2,003 = 7, 41,
ou seja, as mulheres tm aproximadamente 7,41 vezes a chance dos homens
terem o problema. Pacientes que foram tratados com placebo tm =
e1,001 = 2, 72 vezes a chance dos pacientes que foram tratados com a droga de
terem condio respiratria ruim. Em todos os clculos acima supe-se que
as demais variveis esto fixadas. Na Figura 5.13 apresentado o grfico do
resduo de Pearson contra a ordem das observaes e como podemos observar,
com exceo de 2 resduos referentes a medidas dos pacientes #18 e #28,
389
5.5 Exemplos
todos os demais caem no intervalo [-2,2], indicando um bom ajuste do modelo
com estrutura de correlao AR(1). O grfico normal de probabilidades com
o resduo de Pearson (Figura 5.14) no indica afastamentos da suposio de
distribuio marginal Bernoulli com estrutura de correlao AR(1). J o
grfico da distncia de Cook descrito na Figura 5.15 destaca trs medidas de
pacientes diferentes sendo duas dessas medidas destacadas tambm no grfico
com o resduo de Pearson. Contudo, o ajuste sem considerarmos esses trs
pacientes no causa mudanas inferenciais.
5.5.3 Placas dentrias

Hadgu e Koch(1999) discutem os resultados de um ensaio clnico com 109
adultos voluntrios com pr-existncia de placa dentria. Nesse estudo os
indivduos foram distribudos de forma aleatria para receberem um lquido
tipo A (34 indivduos), um lquido tipo B (36 indivduos) e um lquido controle (39 indivduos). As placas dentrias de cada indivduo foram avaliadas
e classificadas segundo um escore no incio do tratamento, aps 3 meses e
aps 6 meses. Os dados encontram-se no arquivo rinse.dat.
Tabela 5.5
Medidas resumo para os escores das placas
dentrias segundo os tratamentos e
perodos de escovao.
Incio 3 Meses
6 Meses
2,562
1,786
1,738
Controle
(0,343) (0,700)
(0,595)
n=39
n=39
n=36
2,568
1,315
1,259
Lquido A (0,354) (0,715)
(0,744)
n=34
n=34
n=34
2,479
1,255
1,032
Lquido B (0,296) (0,550)
(0,451)
n=36
n=36
n=36
390
5.5 Exemplos
Placebo
3.5
3.0
2.5
2.0
1.5
1.0
0.5
A
3.5
3.0
Escore
2.5
2.0
1.5
1.0
0.5
B
3.5
3.0
2.5
2.0
1.5
1.0
0.5
Incio
3 Meses
6 Meses
Perodo
Figura 5.16: Grfico de perfis para o escore dos voluntrios que receberam
placebo, lquido tipo A e lquido tipo B referente aos dados sobre placas
dentrias.
O objetivo do estudo verificar se pelo menos um dos novos lquidos
reduz o nmero mdio de placas dentrias. Seja Yijk o escore do k-simo
indivduo do i-simo grupo (=1 controle, =2 lquido A, =3 lquido B) e jsimo perodo (=1 incio do tratamento, =2 aps 3 meses, =3 aps 6 meses),
k = 1, . . . , nij com n1j = 39, n2j = 34 e n3j = 36. Foram omitidas das nossas
anlises quatro observaes para as quais no foi possvel obter o valor do
escore. Na Tabela 5.5 descrevemos os valores mdios com os respectivos
erros padro para os grupos formados. Nota-se um decrscimo no valor
mdio aps 3 meses de escovao para os trs tratamentos, sendo a reduo
mais acentuada para os lquidos A e B. Nota-se tambm um aumento da
variabilidade. De 3 meses para 6 meses de escovao o decrscimo continua
para o escore mdio dos grupos que receberam os lquidos A e B, havendo
391
5.5 Exemplos
uma reduo mais evidente para o grupo tratado com o lquido B. Esse
grupo tambm apresenta as menores variabilidades. Essas tendncias podem
ser observadas quando so considerados os perfis individuais dos voluntrios
para os trs tipos de lquido ao longo do tempo conforme descrito na Figura
5.16.
Tabela 5.6
Estimativas dos parmetros do modelo log-linear gama aplicado aos
dados sobre placas dentrias.
Parmetro Estimativa z-robusto Parmetro Estimativa z-robusto
0,941
44,407
()22
-0,308
-3,124
2
0,002
0,080
()32
-0,319
-3,835
3
-0,033
-1,138
()23
-0,333
-3,266
2
-0,278
-7,335
()33
-0,492
-5,792
3
-0,004
-8,321
0,38
1
5,68
Os pesquisadores verificaram aps uma anlise descritiva dos dados
que a distribuio gama mais apropriada para descrever a resposta do que
a distribuio normal. Assim, vamos assumir que Yijk G(ij , ). Seguindo
ainda os pesquisadores vamos supor um modelo log-linear com interao entre

tratamento e perodo, porm com uma parametrizao um pouco diferente,
logij = + i + j + ()ij ,
em que ()ij representa a interao entre tratamento e perodo, sendo i
e j os efeitos principais. Teremos as restries 1 = 0, 1 = 0 e ()1j =
()i1 = 0, para i = 1, 2, 3 e j = 1, 2, 3. As estimativas dos parmetros so
descritas na Tabela 5.6 supondo correlao simtrica entre as medidas de um
mesmo indivduo. Nota-se que a estimativa da correlao no muito alta.
Claramente confirma-se a existncia de interao entre perodo e tratamento.
Os lquidos A e B reduzem em mdia a quantidade de placas dentrias,
392
5.5 Exemplos
havendo indcios de uma reduo mais acentuada com o lquido B de 3 meses
0
2
Resduo de Pearson
para 6 meses de escovao.
20
40
60
80
100
Figura 5.17: Grfico do resduo de Pearson referente ao modelo binomial com

estrutura de correlao simtrica ajustado aos dados sobre placas dentrias.
Para ajustar esse modelo no R deve-se usar os comandos
tratm = factor(tratm)
mes = factor(mes)
fit1.placas = gee(score + tratm + mes + tratm*mes,
id=voluntar, family=Gamma(link=log), corstr="exchangeable").
393
2
2
Residuo de Pearson
5.5 Exemplos
Percentil da N(0,1)
Figura 5.18: Grfico normal de probabilidades referente ao modelo gama com

estrutura de correlao simtrica ajustado aos dados sobre placas dentrias.
A Figura 5.17 descreve o grfico de ndices do resduo de Pearson.
Nota-se uma distriuio simtrica dos resduos que ficam concentrados no
intervalo [-3,3]. Pelo grfico normal de probabilidades com o resduo de
Pearson (Figura 5.18) nota-se alguns afastamentos, em particular para os
resduos com valores negativos mais extremos, indicando uma falta de ajuste
nesses casos. Finalmente, tem-se na Figura 5.19 o grficos de ndices da
distncia de Cook. Destaque para a 3a medida dos voluntrios #22 (lquido
B) e #70 (lquido B). Espera-se para ambos os voluntrios um decrscimo no
escore ao longo do tempo. Todavia, para o voluntrio #22 tem-se a sequncia
2,56; 2,04 e 0,29, ou seja, uma queda muito acentuada da 2a medida para a
3a medida. J para o voluntrio #70 tem-se a sequncia 2,38; 0,33 e 1,75,
ou seja, um decrscimo muito acentuado da 1a para a 2a medida, porm
394
5.6 Exerccios
(22,3)
0.015
0.010
0.000
0.005
Distncia de Cook
0.020
0.025
(70,3)
20
40
60
80
100
Figura 5.19: Distncia de Cook referente ao modelo gama com estrutura de

correlao simtrica ajustado aos dados sobre placas dentrias.
um aumento aps a 2a medida. Essas tendncias que destoam do esperado
para o lquido tipo B podem ter elevado o valor da distncia de Cook para a
3a medida desses voluntrios. A retirada desses dois vonluntrios, contudo,
altera muito pouco as estimativas e no altera os resultados inferenciais.
Cardoso-Neto e Paula (2001) analisaram este exemplo supondo restries em
alguns dos parmetros e encontraram evidncias mais fortes com relao aos
resultados obtidos por Hadgu e Koch(1999).
5.6 Exerccios
1. Supor as funes de varincia V (t) = t3 e V (t) = t + t2 /k para t >
0, k > 0. Encontre para cada caso a funo Q(; y) e verifique sob
395
5.6 Exerccios
quais restries as funes encontradas so proporcionais a funes de
verossimilhana da famlia exponencial.
2. Considere a seguinte funo de quase-verossimilhana:
Z
1
yt
Q(; y) = 2
dt,
y V (t)
em que V (t) = t(1 + t) para t > 0. (i) Desenvolva essa funo de quaseverossimilhana. (ii) Verifique se possvel recuperar alguma distribuio da famlia exponencial. Em caso afirmativo qual a distribuio?
(iii) Supor agora uma amostra aleatria de n variveis aleatrias independentes com funo de quase-verossimilhana Q(i ; yi ) dada acima.
Como fica a funo quase-desvio? (iv) Como estimar 2 ?
3. Considere novamente o arquivo claims.dat descrito no Captulo 2
(exerccio #20), em que 9 variveis so observadas para uma amostra aleatria de 996 aplices de seguros de veculos extrada do livro de
de Jong e Heller (2008). A varivel expos (exposio do veculo), que
varia no intervalo (0,1), ser considerada agora como varivel resposta.
Inicialmente, faa uma anlise descritiva dos dados e procure agrupar
as variveis categricas em um nmero menor de categorias. Aplique modelos de quase-verossimilhana com funes V () = (1 ) e
V () = 2 (1 )2 , em que denota o valor esperado para a exposio
do veculo, para explicar a varivel resposta dadas as demais variveis

explicativas. Para o modelo selecionado faa uma anlise de diagnstico e procure interpretar os coeficientes estimados atravs de razes de
chances.
4. Supor Y1 , . . . , Yn variveis aleatrias independentes com logaritmo da
funo de quase-verossimilhana Q(i ; yi ), i = 1, . . . , n. Mostre que as
396
5.6 Exerccios
funes escore e de informao para ficam, respectivamente, dadas
por:
U =
e
K = E
1 T 1
D V (y )
2
U()
1 T 1
D V D.
2
5. Sejam Yij variveis aleatrias tais que Yij FE(i , ), i = 1, 2 e j =
1, . . . , m. A estatstica de Wald para testar H0 : 1 2 = 0 contra

H1 : 1 2 6= 0 dada por W = (Y1 Y2 )2 /Var(Y1 Y2 ). Sob H0
e para m segue que W 21 . Calcular Var(Y1 Y2 ) para as
seguintes situaes:
(a) supondo que Corr(Yij , Yij ) = para (j 6= j ; i fixo) e =0 em caso

contrrio;
(b) supondo que Corr(Yij , Yi j ) = para (i 6= i ; j fixo) e =0 em caso

contrrio;
Para 1 2 e fixos e 0 discutir o comportamento do poder de

W conforme cresce para as situaes (a) e (b). So esperados esses
comportamentos? Comente.
6. Supor o modelo de quase-verossimilhana em que Y1 , . . . , Yn so variveis aleatrias independentes tais que E(Yi ) = i e Var(Yi ) = 2 2i com
parte sistemtica dada por logi = 0 + 1 (xi x). Responda aos itens
abaixo:
(a) como ficam as varincias assintticas de 0 e de 1 ?

(b) Como fica o teste de Wald para testar H0 : 0 = 0 contra H1 :
0 6= 0?
397
5.6 Exerccios
(c) Proponha um teste tipo escore para testar H0 : 1 = 0 contra
H1 : 1 6= 0.
7. Como fica a diferena entre desvios para testar H0 : 1 = 0 contra H1 :
1 6= 0 num modelo de quase-verossimilhana com V (i ) = 2i (1 i )2 ,
g(i ) = i = xTi e = ( T1 , T2 )T ?
8. (Park, Shin e Park, 1998). Vamos supor que o vetor de respostas seja
agora dado por Yij = (Yij1 , . . . , YijT )T , em que Yijt denota a resposta
para o j-simo elemento do i-simo grupo no instante t, i = 1, . . . , g e
j = 1, . . . , ri . Supor ainda que E(Yijt ) = i , Var(Yijt ) = Vi 1 e que
a equao de
Yijt pertence famlia exponencial. Mostre que dado
estimao generalizada para i pode ser expressa na forma S(
i ) = 0,
em que
S(i ) =
ri
X
j=1
1TT Rij ()(yij i 1T ),
Rij a matriz trabalho para o j-simo indivduo do i-simo grupo e

1T um vetor T 1 de uns. Expresse a estimativa de i em forma
fechada.
9. Supor que Yi = (Yi1 , . . . , Yiri )T , i = 1, . . . , n, so vetores aleatrios

independentes tais que Yij Be(i ). Assumir ainda que a matriz
trabalho para Yi permutvel e que

i
= xTi .
log
1 i
Mostre que, dado , as EEGs para ficam dadas por

G) =
S (
n
X
{1 + (ri 1)
}1 xi (yi ni
i ) = 0,
i=1
398
5.6 Exerccios
em que yi = yi1 + + yiri . Sugesto: use a relao abaixo
1
1
R1
i () = (1 ) [Iri {1 + (ri 1)} J],
em que J uma matriz ri ri de uns. Como fica o processo iterativo

para estimar ?
10. Supor que Yij Be() para i = 1, . . . , n e j = 1, . . . , ri , em que

Corr(Yij , Yij ) = (fixado) para j 6= j com parte sistemtica dada
n
o
por log 1
= . Responda s seguintes questes: (i) como fica a
equao de estimao generalizada para estimar ? (ii) expresse em

forma fechada a estimativa G (obtenha inicialmente
G ) e (iii) como
fica a varincia assinttica (no robusta) de G ?
11. Supor que Yij QV(, 2 ) para i = 1, . . . , n e j = 1, 2, em que
Var(Yij ) = 2 2 , Corr(Yij , Yij ) = para j 6= j com parte sistemtica dada por log = . Responda s seguintes questes: (i) como fica
a equao de estimao generalizada para estimar ? (ii) expresse em

forma fechada a estimativa G (obtenha inicialmente
G ) e (iii) como
fica a varincia assinttica (no robusta) de G ? Supor que e 2 so
estimados consistentemente.
12. Considere uma amostra aleatria de n indivduos que so observados
em 2 ocasies cada um, sendo Yij a resposta do i-simo indivduo na
ind
j-sima ocasio para i = 1, . . . , n e j = 1, 2, com a suposio Yi1

ind
FE(1 , ) e Yi2 FE(2 , ) e = Corr(Yi1 , Yi2 ) ou seja Cov(Yi1 , Yi2 ) =

p
p
Var(Yi1 ) Var(Yi1 ). A diferena entre as mdias amostrais nas duas
P
ocasies Y2 Y1 , em que Yj = n1 n Yij para j = 1, 2, utilizada
i=1
para detectar eventuais diferenas entre as mdias 2 e 1 . Responda
s seguintes questes:
399
5.6 Exerccios
(i) calcule Var(Y2 Y1 ),
(ii) chame = 2 1 e calcule P( < Y2 Y1 < + ) = 1 ,
0 < < 1 e > 0, em que 1 = P(z < Z < z), Z N(0, 1),
(iii) expresse n em funo das quantidades z, , e e

(iv) discuta o comportamento de n em funo de mantendo-se as
demais quantidades fixas.
Supor para n grande Y2 Y1 N(, Var(Y1 Y2 )).
13. (Myers, Montgomery e Vining, 2002, p. 231). Um experimento conduzido para avaliar a disperso de um pigmento particular numa pintura. Quatro diferentes misturas do pigmento so estudadas. O procedimento consiste em preparar cada mistura e aplic-la num painel
usando trs mtodos diferentes: pincel, rolo e spray. O experimento
repetido trs dias diferentes e a resposta a porcentagem de reflectncia do pigmento. Os dados so descritos na tabela abaixo e no arquivo
mistura.dat.
Dia
1
Mistura
Mtodo
1
2
3
4
1
64,5 66,3 74,1 66,5
2
68,3 69,5 73,8 70,0
3
70,3 73,1 78,0 72,3
1
2
3
65,2 65,0
69,2 70,3
71,2 72,8
73,8 64,8
74,5 68,3
79,1 71,5
1
2
3
66,2 66,5
69,0 69,0
70,8 74,2
72,3 67,7
75,4 68,6
80,1 72,4
400
5.6 Exerccios
Analise os dados atravs de equaes de estimao generalizadas com
estrutura de correlao simtrica. Faa anlise de diagnstico.
14. (Myers, Montgomery e Vining, 2002, Seo 6.5). No arquivo ratosgee.dat esto os dados de um experimento em que 30 ratos tiveram
uma condio de leucemia induzida. Trs drogas quimio-terpicas foram utilizadas no tratamento dos animais. Foram coletadas de cada
animal a quantidade de clulas brancas (WBC), a quantidade de clulas
vermelhas (RBV) e o nmero de colnias de clulas cancerosas (RESP)
em quatro perodos diferentes. Assuma distribuio de Poisson para
RESP em cada perodo e verifique atravs de um modelo log-linear se
existe diferenas significativas entre os trs tratamentos considerando
WBC e RBC como variveis explicativas. Compare os resultados supondo estruturas de correlao independente e AR(1). Faa uma anlise de diagnstico.
15. (Myers, Montgomery e Vining, 2002, Seo 6.5). No arquivo artrite.dat
esto os dados de um ensaio clnico em que 20 pacientes com artrite foram aleatorizados de modo que 10 receberam o medicamento
auronofin e os outros 10 receberam placebo. Foram observadas as
variveis explicativas gnero (1: masculino, 0: feminino) e a idade
do paciente em anos alm do tratamento (0: placebo, 1: auronofin).
Os pacientes foram consultados em 4 ocasies (1: incio, 2: 1 ms, 3:
2 meses e 4: 3 meses) a respeito do seu estado avaliado pelo prprio
paciente (1: ruim, 2: regular, 3: bom). Faa inicialmente uma anlise
descritiva com os dados.
Seja Yij o estado do i-simo paciente na j-sima ocasio (=1 bom,
=0 regular ou ruim) para i = 1, . . . , 20 e j = 1, 2, 3, 4. Assuma que
401
5.6 Exerccios
Yij Be(ij ), em que ij a probabilidade do estado ser considerado bom pelo i-simo paciente na j-sima ocasio. Proponha uma
EEG para explicar ij atravs de uma regresso logstica e considerando as estruturas de correlao simtrica e AR(1) entre as ocasies
de um mesmo paciente. Considere no modelo apenas os efeitos principais tratamento, idade, gnero e ocasio. Compare os modelos
atravs de mtodos de diagnstico e para o modelo escolhido faa uma
interpretao atravs de razes de chances.
402
Apndice A
Neste apndice descrevemos os conjuntos de dados usados nos exemplos e nos

exerccios propostos. As variveis so descritas na ordem em que aparecem
em cada arquivo.
Captulo 1
canc3.dat: tipo de tumor (0:benigno, 1:maligno), idade (em anos), sexo
(1:masculino, 2:feminino), HL e FF (1:ausente, 2:discreta, 3:moderada,
4:intensa).
canc4.dat: grupo de passagem (0 a 28), presena de massa tumoral (1:sim,
0:no), caquexia (1:sim, 0:no) e tempo de sobrevivncia (em dias).
capm.dat: taxa de retorno Tbill, retorno Microsoft, retorno SP500, retorno
GE e retorno Ford.
censo.dat: unidade da federao, escolaridade mdia (anos de estudo) e
renda mdia (em reais).
imoveis.dat: imposto do domiclio (em 100 USD), rea do terreno (em 1000
ps quadrados), rea construda (em 1000 ps quadrados), idade da
residncia (em anos) e preo de venda do imvel (em 1000 USD).
403
Apndice A
reg1.dat: rea (em mil ps quadrados) e preo (em mil USD).
reg2.dat: sigla do estado, taxa do combustvel (em USD), porcentagem de
motoristas licenciados, renda per capita (em USD), ajuda federal s
estradas do estado (em mil USD) e consumo per capita de combustvel
(em gales por ano).
reg3.dat: nome do estado, populao estimada em julho de 75, renda per
capita em 74 (em USD), proporo de analfabetos em 70, expectativa
de vida 69-70, taxa de criminalidade em 76 (por 100000 habitantes),
proporo de estudantes que concluram o segundo grau em 70, nmero
de dias do ano com temperatura abaixo de zero graus Celsus e rea do
estado (em milhas quadradas).
reg4.dat: x1, x2, x3, x4, e octanas. A resposta o nmero de octanas.
salary.dat: salrio anual (em mil USD), sexo, posio na empresa (escore
de 1 a 9) e experincia (em anos).
trees.dat: dimetro (em polegadas), altura (em ps) e volume da rvore
(em ps cbicos).
vendas.dat: total de telhados vendidos (em mil metros quadrados), gastos
pela loja com publicidade (em mil USD), nmero de clientes cadastrados na loja (em milhares), nmero de marcas concorrentes do produto
e potencial da loja.
Captulo 2
claims.dat: valor do veculo (em 10000 dolares australianos), exposio do
veculo, nmero de sinistros no perodo, custo total dos sinistros (em
404
Apndice A
dolares australianos), tipo do veculo (em 11 categorias), idade do veculo (em 4 categorias), sexo do condutor principal, rea de residncia
do condutor principal (em 6 categorias) e idade do condutor principal
(em 6 categorias).
dfilme.dat: tempo de durao do filme (em horas) e densidade mxima do
filme.
energy.dat: total de energia consumida num ms (em kilowatts-hora) e demanda de energia na hora de pico.
insurance.dat: valor pago do seguro (dolares australianos), representao
legal (0:no, 1:sim), ms em que ocorreu o acidente e tempo operacional.
milho.dat: quantidade de nitrognio, quantidade de fosfato e produtividade
de milho (libras/acre).
pesca.dat: frota (Santos e Ubatuba), ano (95 a 99), trimestre (1 a 4), latitude (de 23,25 a 28,25 ), longitude (de 41,25 a 50,75 ), dias de pesca,
captura (quantidade em kg de peixes capturados) e cpue (captura por
unidade de esforo).
restaurante.dat: faturamento anual (em mil USD) e gastos com publicidade (em mil USD).
snack.dat: fora necessria para o cisalhamento, tipo de snack (1:A, 2:B,
3:C, 4:D, 5:E), nmero de semanas.
sobrev.dat: nmero de clulas brancas, tempo de sobrevivncia (em semanas) e caracterstica morfolgica (AG=1 positivo, AG=0 negativo).
turbina.dat: tipo de turbina (1 a 5) e tempo de durao do motor (em
milhes de ciclos).
405
Apndice A
vidros.dat: tempo de resistncia (em horas), voltagem (1:200, 2:250, 3:300,
4:350) e temperatura (1:170 graus Celsus, 2:180 graus Celsus).
Captulo 3
besouros.dat: besouros mortos, besouros expostos e dose.
caduquice.dat: escore no exame psicolgico, ocorrncia de caduquice (1:sim,
0:no).
camundongos: sexo (1:macho, 0:fmea), tratamento (1:sim, 0:controle), casos e expostos.
dengue.dat: idade (em anos) do entrevistado, nvel scio-econmico (1:alto,
2:mdio, 3:baixo), setor da cidade onde mora o entrevistado (1:setor 1,
2:setor 2) e diagnstico da doena (1:sim, 0:no).
diabetes.dat: massa corporal, histrico familiar (1:presena, 0:ausncia) e
atividades fsicas (1:presena, 0:ausncia) para os casos e para os controles, respectivamente.
dose1.dat: dose, caramujos expostos e caramujos mortos.
equipamentos.dat: tempo, nmero de equipamentos expostos, nmero de
equipamentos que falaharam.
gestantes.dat: idade (0:< 30, 1:30 ou +), nmero de cigarros consumidos
por dia (0:< 5, 1:5 ou +), tempo de gestao (0:<=260 dias, 1:> 260
dias), crianas no sobreviventes e crianas sobreviventes.
406
Apndice A
grahani.dat: nmero de lagartos da espcie grahani, total de lagartos, perodo do dia (1:manh, 2:meio-dia, 3:tarde), comprimento da madeira
(1:curta, 2:cumprida), largura da madeira (1:estreita, 2:larga) e local
de ocupao (1:claro, 2:escuro).
insetic.dat: nmero de insetos mortos, nmero de insetos expostos, dose
do inseticida, inseticida DDT, inseticida -DDT e inseticida DDT +
-DDT (1:presena, 0:ausncia).
leuce.dat: idade do paciente (em anos), mancha diferencial da doena, infiltrao na medula, clulas com leucemia, malignidade da doena, temperatura mxima antes do tratamento, tratamento (1:satisfatrio, 0:no),
tempo de sobrevivncia (em meses) e situao (1:sobrevivente, 0:no
sobrevivente).
matched.dat: estrato, observao (1:caso, 2:controle), idade da paciente
no momento da entrevista (em anos), diagnstico (1:caso, 0:controle),
tempo de escolaridade (em anos), grau de escolaridade (0:nenhum, 1:segundo grau, 2:tcnico, 3:universitrio, 4:mestrado, 5:doutorado), checkup regular (1:sim, 2:no), idade da primeira gravidez, idade do incio
da menstruao, nmero de abortos, nmero de filhos, peso (em libras), idade do ltimo perodo menstrual e estado civil (1:casada, 2:
divorciada, 3:separada, 4:viva, 5:solteira). Observaes perdidas so
denotadas por NA.
meninas.dat: garotas menstruando, garotas entrevistadas e idade mdia.
morgan.dat: concentrao (R, D, M), dose, insetos expostos, insetos mortos.
407
Apndice A
olhos.dat: cor dos olhos dos pais, cor dos olhos dos avs, nmero total de
filhos e nmero de filhos com olhos claros.
prefauto.dat: preferncia comprador tipo de automvel (1:americano, 0:japons), idade do comprador (em anos), sexo do comprador (0:masculino, 1:feminino) e estado civil do comprador (0:casado, 1:solteiro).
pregibon.dat: resposta (1:ocorrncia, 0:ausncia), volume e razo.
pulso.dat: pulsao em repouso (1:normal, 0:alta), hbito de fumar (1:sim,
2:no) e peso (em kg).
rotifers.dat: densidade, rotifers suspensos, rotifers expostos e espcie (1:
Polyarthra, 0:Keratella).
sementes.dat: temperatura da germinao, nvel da umidade, nvel da temperatura, nmero de sementes que germinaram.
Captulo 4
breslow.dat: nmero de casos de cncer, total de pessoas-anos, nmero de
cigarros por dia (1:no fumante, 2:1-9 cigarros, 3:10-30 cigarros, 4:+
30 cigarros) e faixa-etria (1:40-49 anos, 2:50-59 anos, 3:60-69 anos,
4:70-80 anos).
canc1.dat: idade no primeiro emprego com 4 nveis (1:<20, 2:20-27, 3:27.534.9, 4:35+ anos), ano do primeiro emprego com 4 nveis (1:<1910,
2:1910-1914, 3:1915-1919, 4:1920-1924), tempo decorrido desde o primeiro emprego com 5 nveis (1:0-19, 2:20-29, 3:30-39, 4:40-49, 5:50+
anos), nmero de casos de cncer e o total de pessoas-anos de observao.
408
Apndice A
detergente.dat: temperatura da gua, uso de M, preferncia (X,M), maciez
da gua, nmero de pessoas.
emprego.dat: nvel de renda (1: < USD 6000, 2: USD 6000-15000, 3: USD
15000-25000, 4: > USD 25000), grau de satisfao (1:alto, 2: bom, 3:
mdio, 4: baixo) e nmero de indivduos.
geriatra.dat: nmero de quedas no perodo, interveno (0:educao somente, 1:educao e exerccios fsicos), sexo (0:feminino, 1:masculino),
balano e fora.
heart.dat: doena das coronrias (1:sim, 2:no), nvel de colesterol (1:menor do que 200 mg/100 cc, 2:200-219, 3:220-259, 4:260 ou +),presso
arterial (1:menor do que 127 mm Hg, 2:127-146, 3:147-166, 4:167 ou +)
e nmero de indivduos.
navios.dat: tipo do navio (1:A, 2:B, 3:C, 4:D, 5:E), ano da fabricao (1:6064, 2:65-69, 3:70-74, 4:75-79), perodo de operao (1:60-74, 2:75-79),
tempo de operao (em meses) e nmero de avarias.
nitrofen: dosagem de nitrofen, total de ovos eclodidos.
quine.dat: etnia (A:aborgine, N:no aborgine), sexo (M:masculino, F: feminino), ano (F0:8a srie, F1:1o ano ensino mdio, F2:2o ano ensino
mdio, F3:3o ano ensino mdio), desempenho (SL:baixo, AL:normal) e
dias ausentes no ano letivo.
recrutas.dat: hbito de nadar (ocasional, frequente), local onde costuma
nadar (piscina, praia), faixa-etria (15-19, 20-25, 25-29), sexo (masculino, feminino) e nmero de infeces de ouvido.
rolos.dat: comprimento do tecido (em metros) e nmero de falhas.
409
Apndice A
store.dat: nmero de clientes, nmero de domiclios, renda mdia anual (em
USD), idade mdia dos domiclios (em anos), distncia entre a rea e o
competidor mais prximo (em milhas) e distncia entre a rea e a loja
(em milhas).
tvcabo.dat: nmero de domiclios na rea (em milhares), porcentagem de
domiclios com TV a cabo, renda per capita (em USD) por domiclio
com TV a cabo, taxa de instalao de TV a cabo (em USD), custo
mdio mensal de manuteno de TV a cabo (em USD), nmero de
canais a cabo disponveis na rea e nmero de canais no pagos com
sinal de boa qualidade disponveis na rea.
Captulo 5
artrite.dat: paciente, ocasio (1:incio, 2:1 ms, 3:2 meses, 4:3 meses), gnero (1:masculino, 0:feminino), idade (em anos), tratamento (0:placebo, 1:auronofin), resultado (1:ruim, 2:regular, 3:bom).
ataques.dat: indivduo, perodo (1:antes do tratamento, 2:1o perodo aps
o tratamento, 3:2o perodo aps o tratamento, 4:3o perodo aps o
tratamento), nmero de semanas em cada perodo, nmero de ataques
em cada perodo e tratamento (0:placebo, 1:progabide).
cevada.dat: incidncia da mancha (proporo), local (1 a 9) e variedade (1
a 10).
mosca.dat: nmero de caros coletados espcie2, espcie3, espcie6, espcie14, nmero de partes da placa, posio (1:lateral, 0:central), regio
(1:So Roque, 2:Pindamonhangaba, 3:Nova Odessa, 4:Ribeiro Preto)
e temperatura (em graus Celsus).
410
Apndice A
mistura.dat: painel, dia, mtodo, mistura, porcentagem de reflectncia do
pigmento.
ratosgee.dat: animal, perodo, quantidade de clulas brancas, quantidade
de clulas vermelhas e nmero de colnias de clulas cancerosas.
respiratorio.dat: paciente, tratamento (0:droga ativa, 1:placebo), sexo (0:feminino, 1:masculino), idade (em anos), nvel base (0:ausncia, 1:presena) e condio do paciente nas visitas (0:boa, 1:ruim).
rinse.dat: voluntrio, perodo (1:incio, 2:aps 3 meses, 3:aps 6 meses),
tratamento (1:placebo, 2:rinse A, 3:rinse B) e escore.
411
Bibliografia
Agresti A. (1990). Categorical Data Analysis. John Wiley, New York.

Aitkin, M.; Anderson, D. A.; Francis, B e Hinde, J. P. (1989). Statistical
Modelling in Glim. Clarendom Press, Oxford.
Akaike, H. (1974). A new look at statistical model identification. IEEE
Transactions on Automatic Control AU-19 716-722.
Aranda-Ordaz, F. J. (1981). On two families of transformations to additivity for binary response data. Biometrika 68, 357-364.
Armitage, P. (1955). Test for linear trend in proportions and frequencies.
Biometrics 11, 375-386.
Armitage, P. (1971). Statistical Methods in Medical Research. Blackwell
Scientific Publications, Oxford.
Atkinson, A. C. (1981). Two graphical display for outlying and influential
observations in regression. Biometrika 68, 13-20.
Atkinson, A. C. (1985). Plots, Transformations and Regressions. Oxford
Statistical Science Series, Oxford.
412
Bibliografia
Beckman R. J.; Nachtsheim, C. J. e Cook, R. D. (1987). Diagnostics for
mixed-model analysis of variance. Technometrics 29, 413-426.
Belsley, D. A.; Kuh, E. e Welsch, R. E. (1980). Regression Diagnostics.
John Wiley, New York.
Bliss, C. I. (1935). The calculation of the dosage-mortality curve. Annals
of Applied Biology 22, 134-167.
Bishop, Y. M. M.; Fienberg, S. E. e Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press, Cambridge.
Boice, J. D. e Monson, R. R. (1977). Breast cancer in women after repeated
fluoroscopic examinations of the chest. Journal of the National Cancer
Institute 59, 823-832.
Box, G. E. P. e Cox, D. R. (1964). An analysis of transformations (with
discussion). Journal of the Royal Statistical Society B 26, 211-252.
Breslow, N. E. e Clayton, D. G. (1993). Approximate inference in generalized linear mixed models. Journal of the American Statistical Association 88, 9-25.
Breslow N. E. e Day, N. E. (1980). Statistical Methods in Cancer Research, Vol. I, The Analysis of Case-Control Studies. IARC Scientific
Publications, International Agency for Research on Cancer, Lyon.
Breslow, N. E. e Day, N. E. (1987). Statistical Methods in Cancer Research,
Vol. II, The Design and Analysis of Cohort Studies. IARC Scientific
Publications, International Agency for Research on Cancer, Lyon.
Buse, A. (1982). The likelihood ratio, Wald and Lagrange multiplier tests:
an expository note. The American Statistician 36, 153-157.
413
Bibliografia
Cardoso-Neto, J. e Paula, G. A. (2001). Wald one-sided test using generalized estimating equations approach. Computational Statistics and Data
Analysis 36, 475-495.
Casella, G. e Straederman, W. E. (1980). Confidence bands for linear regression with restricted preditor variables. Journal of the American
Statistical Association 75, 862-868.
Chatterjee, S. e Hadi, A. S. (1988). Sensitivity Analysis in Linear Regression. New York: Wiley.
Collett, D. (1991). Modelling Binary Data. Chapman and Hall, London.
Cook, R. D. (1977). Detection of influential observations in linear regressions. Technometrics 19, 15-18.
Cook, R. D. (1987). Influence assessment. Journal of Applied Statistics 14,
117-131.
Cook, R. D. (1986). Assessment of local influence (with discussion). Journal
of the Royal Statistical Society B 48, 133-169.
Cook, R. D.; Pea, D. e Weisberg, S. (1988). The likelihood displacement:
A unifying principle for influence measures. Communications in Statistics, Theory and Methods 17, 623-640
Cook, R. D. e Weisberg, S. (1982). Residuals and Influence in Regression.
Chapman and Hall, London.
Cordeiro, G. M. (1986). Modelos Lineares Generalizados. Livro texto de
minicurso, VII Simpsio Nacional de Probabilidade e Estatstica, UNICAMP, Campinas, SP.
414
Bibliografia
Cordeiro, G. M. e McCullagh, P. (1991). Bias correction in generalized
linear models. Journal of the Royal Statistical Society B 53, 629-643.
Cordeiro, G. M.; de P. Ferrari, S. L. e Paula, G. A. (1993). Improved score
tests for generalized linear models. Journal of the Royal Statistical
Society B 55, 661-674.
Cordeiro, G. M.; Paula, G. A. e Botter, D. A. (1994). Improved likelihood
ratio tests for dispersion models. International Statistical Review 62,
257-274.
Cordeiro, G. M. e Paula, G. A. (1989a). Improved likelihood ratio statistics
for exponential family nonlinear models. Biometrika 76, 93-100.
Cordeiro, G. M. e Paula, G. A. (1989b). Modelos de Regresso para a
Anlise de Dados Univariados. Livro texto de minicurso, 17o Colquio
Brasileiro de Matemtica, IMPA, Rio de Janeiro.
Cordeiro, G. M. e Paula, G. A. (1992). Estimation, large-sample parametric tests and diagnostics for non-exponential family nonlinear models. Communications in Statististics - Simulation and Computation
21, 149-172.
Cornfield, J. (1951). A method of estimating comparative rates from clinical
data. Applications to cancer of the lung, breast and crevix. Journal of
the National Cancer Institute 11, 1269-1275.
Cornfield, J. (1956). A statistical problem arising from retrospective studies.
In: Proceedings of the Third Berkeley Symposium, Berkeley, University
of California Press, pgs. 133-148.
Cox, D. R. (1970). The Analysis of Binary Data. Methuen, London.
415
Bibliografia
Cox, D. R. (1972). Regression models and life tables (with discussion).
Journal of the Royal Statistical Society B 74, 187-220.
Cox, D. R. e Hinkley, D. V. (1974). Theorical Statistics. Chapman and
Hall, London.
Cox, D. R. e Oakes, D. (1984). Analysis of Survival Data. Chapman and
Hall, London.
Cox, D. R. e Snell, E. J. (1968). A general definition of residuals (with
discussion). Journal of the Royal Statistical Society B 30, 248-275.
Cox, D. R. e Snell, E. J. (1989). The Analysis of Binary Data, 2nd Edition.
Davison, A. C. e Gigli, A. (1989). Deviance residuals and normal scores
plots. Biometrika 76, 211-221.
Davison, A.C. e Tsai, C-L. (1992). Regression model diagnostics. International Statistical Review 60, 337-353.
Day, N. E. e Byar, D. P. (1979). Testing hypothesis in case-control studiesequivalence of Mantel-Haenszel statistics and logit score tests. Biometrics 35, 623-630.
de Souza, F. A. M. e Paula, G. A. (2002). Deviance residuals for an angular
response. Australian and New Zealand Journal of Statistics 44, 345356.
Diggle, P. J.; Liang, K. Y. e Zeger, S. L. (1994). Analysis of Longitudinal
Data. Oxford University Press.
416
Bibliografia
Dixon, W. J. (1987). BMDP Statistical Software. University of California
Press, Berkeley.
Efron, B. (1988). Logistic regression, survival analysis and the KaplanMeier curve. Journal of the American Statistical Association 83, 414425..
Emerson, J. D.; Hoaglin, D. C. and Kempthorne, P. J. (1984). Leverage in
least squares additive-plus-multiplicative fits for two-way tables. Journal of the American Statistical Association 79, 329-335.
Escobar, L. A. e Meeker, W. Q. (1992). Assessing influence in regression
analysis with censored data. Biometrics 48, 507-528.
Everitt, B. S. (1977). The Analysis of Contingency Tables. Chapman and
Hall, London.
Everitt, B. S. (1994). A Handbook of Statistical Analysis using S-Plus.
Fahrmeir, L. e Kaufmann, H. (1985). Consistency and asymptotic normality of the maximum likelihood estimator in generalized linear models.
Annals of Statistics 13, 342-368.
Fahrmeir, L. e Klinger, J. (1994). Estimating and testing generalized linear
models under inequality constraints. Statistical Papers 35, 211-229.
Farhrmeir, L. e Tutz, G. (1994). Multivariate Statistical Modelling based on
Generalized Linear Models. Springer, New York.
Feigl, P. e Zelen, M. (1965). Estimation of exponential survival probabilities
with concomitant information. Biometrics 21, 826-838.
417
Bibliografia
Finney, D. J. (1971). Probit Analysis, 3rd. Edition. Cambridge University
Press, Cambridge.
Finney, D. J. (1978). Statistical Methods in Biological Assay, 3rd. Edition.
Cambridge University Press, Cambridge.
Fieller, E. C. (1954). Some problems in interval estimation. Journal of the
Royal Statistical Society B 16, 175-185.
Fung, W. K. (1993). Unmasking outliers and leverage points: A Confirmation. Journal of the American Statistical Association 88, 515-519.
Fung, W. K. e Kwan, C. W. (1997). A note on local influence based on
normal curvature.Journal of the Royal Statistical Society B 59, 839843.
Galea, M.; Paula, G. A. e Bolfarine, H. (1997). Local influence in elliptical
linear regression models. The Statistician 46, 71-79.
Galea, M.; Paula, G. A. e Uribe-Opazo, M. (2003). On influence diagnostic
in univariate elliptical linear regression models. Statistical Papers 44,
23-45.
Galea, M.; Riquelme, M. e Paula, G. A. (2000). Diagnostic methods in
elliptical linear regression models. Brazilian Journal of Probability and
Statistics 14, 167-184.
Galves, J. A.; Paula, G. A. e Goebbels, M. (1998). Relatrio de Anlise Estatstica sobre o Projeto: Evoluo Temporal da Variao Prclise/nclise no Portugus Clssico. RAECEA-9810, IME-USP.
Gray, J. B. (1989). On the use of regression diagnostics. The Statistician
38, 97-105.
418
Bibliografia
Gu, H. e Fung, W. K. (1998). Assessing local influence in canonical correlation analysis. Annals of the Institute of Statistical Mathematics 50,
755-772.
Hadgu, A. e Koch, G. (1999). Application of generalized estimating equations to a dental randomized clinical trial. Journal of Biopharmaceutical
Statistics 9, 161-178.
Hand, D. J.; Daly, F.; Lunn, A. D.; McConway, K. J. e Ostrowski, E. (1994).
A Handbook of Small Data Sets. Chapman and Hall, London.
Hannan, J. e Harkness, W. (1963). Normal approximation to the distribution of two independent binomials, conditional to the sum. Annals of
Mathematical Statistics 34, 1593-1595.
Hastie, T. e Tibshirani, R. (1990). Generalized Additive Models. Chapman
and Hall, London.
Hinde, J. (1982). Compoud poisson regression models. In R. Gilchrist Ed.,
GLIM82, pgs. 109-121. Springer, New York.
Hinde, J. e Demtrio, C. G. B (1998). Overdispersion: model and estimation. Computational Statistics and Data Analysis 27, 151-170.
Hoaglin, D. C. e Welsch, R. E. (1978). The hat matrix in regression and
ANOVA. The American Statistician 32, 17-22.
Hosmer, D. W. e Lemeshow, S. (1989). Applied Logistic Regression. John
Wiley, New York.
Innes, J. R. M.; Ulland, B. M.; Valerio, M. G.; Petrucelli, L.; Fishbein, L.;
Hart, E. R.; Pallota, A. J.; Bates, R. R.; Falk, H. L.; Gart, J. J.; Klein,
419
Bibliografia
M.; Mitchell, I. e Peters, J. (1969). Biossay of pesticides and industrial
chemicals for tumorigenicity in mice: A preliminary note. Journal of
the National Cancer Institute 42, 1101-1114.
Jrgensen, B. (1983). Maximum likelihood estimation and large-sample inference for generalized linear and nonlinear regression models.Biometrika
70, 19-28.
Jrgensen, B. (1987). Exponential dispersion models (with discussion).
Journal of the Royal Statistical Society B 49, 127-162.
Jrgensen, B. (1996). The Theory of Dispersion Models. Chapman and
Hall, London.
Kim, M. G. (1995). Local influence in multivariate regression. Communications in Statistics, Theory Methods 20, 1271-1278.
Kwan, C. W. e Fung, W. K. (1998). Assessing local influence for specific
restricted likelihood: Applications to factor analysis. Psychometrika
63, 35-46.
Lawless, J. F. (1982). Statistical Models and Methods for Lifetime Data.
John Wiley, New York.
Lawless, J. F. (1987). Negative binomial and mixed Poisson regression. The
Canadian Journal of Statistics 15, 209-225.
Lawrence, A. J. (1988). Regression transformation diagnostics using local
influence. Journal of the American Statistical Association 84, 125-141.
Lee, E. T. (1991). Statistical Methods for Survival Data Analysis, Second
Edition. John Wiley, New York.
420
Bibliografia
Lee, Y. e Nelder, J. A. (1996). Hierarchical generalized linear models. Journal of the Royal Statistical Society B 58, 619-678.
Lee, Y. e Nelder, J. A. (2001). Hierarchical generalised linear models: a
synthesis of generalised linear models, random-effect models and structured dispersions. Biomerika 88, 987-1006.
Leemis, L. M. e Trivedi, K. S. (1996). A comparison of aproximate interval
estimators for the Bernoulli parameter. The American Statistician 50,
63-68.
Liang, K. Y. e Zeger, S. L. (1986). Longitudinal data analysis using generalized linear models. Biometrika 73, 13-22.
Liu, S. Z. (2000). On local influence for elliptical linear models. Statistical
Papers 41, 211-224.
Mantel, N. (1963). Chi-square tests with one degree of freedom: extensions
of the Mantel-Haenszel procedure. Journal of the American Statistical
Association 58, 690-700.
Mantel, N. e Haenszel, B. F. (1959). Statistical aspects of the analysis of
the data from retrospective studies of disease. Journal of the National
Cancer Institute 22, 719-748.
McCullagh, P. (1983). Quasi-likelihood functions. Annals of Statistics 11,
59-67.
McCullagh, P. (1987). Tensor Methods in Statistics. Chapman and Hall,
London.
McCullagh, P. e Nelder, J. A. (1989). Generalized Linear Models, 2nd.
Edition. Chapman and Hall, London.
421
Bibliografia
McCulloch, C. E. e Searle, S. R. (2001). Linear and Generalized Linear
Mixed Models. Wiley, New York.
Milicer, H. e Szczotka, F. (1966). Age at menarche in Warsaw girls in 1965.
Human Biology 38, 199-203.
Montgomery, D. C.; Peck, E. A. e Vining, G. G. (2001). Introduction to
Linear Regression Analysis, Third Edition. John Wiley, New York.
Myers, R.H.; Montgomery, D. C. e Vining, G. G. (2002). Generalized Linear Models: With Applications in Engineering and the Sciences. John
Wiley, New York.
Moolgavkar, S. H.; Lustbader, E. D. e Venzon, D. J. (1984). A geometric approach to non-linear regression diagnostics with application to
matched case-control studies. Annals of Statistics 12, 816-826.
Morgan, B. J. T. (1992). Analysis of Quantal Response Data. Chapman
and Hall, London.
Narula, S. C. e Stangenhaus, G. (1988). Anlise de Regresso L1 . Notas de
minicurso do VIII Simpsio Nacional de Probabilidade e Estatstica,
IMPA, Rio de Janeiro, RJ.
Nelder, J. A. e Pregibon, D. (1987). An extended quasi-likelihood function.
Biometrika 74, 221-232.
Nelder, J. A. e Wedderburn, R. W. M. (1972). Generalized linear models.
Journal of the Royal Statistical Society A 135, 370-384.
Neter, J.; Kutner, M. H.; Nachtsheim, C. J. e Wasserman, W.(1996). Applied Linear Regression Models, 3rd Edition. Irwin, Illinois,
422
Bibliografia
Nyquist, H. (1991). Restricted estimation of restricted generalized linear
models. Applied Statistics 40, 133-141.
OHara Hines, R. J.; Lawless, J. F. e Carter, E. M. (1992). Diagnostics
for a cumulative multinomial generalized linear model with application to grouped toxicological mortality data. Journal of the American
Ortega, E. M. M.; Bolfarine, H. e Paula, G. A. (2003). Influence diagnostic
in generalized log-gamma regression models. Computational Statistics
and Data Analysis 42, 165-186.
Palmgren, J. (1981). The Fisher information matrix for log linear models
against conditionally on observed explanatory variables. Biometrika
68, 563-566.
Pan, J. X.; Fang, K. T. e von Rosen (1997). Local influence assessment
in the growth curve model with unstructured covariance. Journal of
Statistical Planning and Inference 62, 263-278.
Park, T. P.; Shin, D. W. e Park, C. G. (1998). A generalized estimating
equations approach for testing ordered group effects with repeated measurements. Biometrics 54, 1645-1653.
Paula, G. A. (1993). Assessing local influence in restricted regression moldels. Computational Statistics and Data Analysis 16, 63-79.
Paula, G. A. (1995). Influence and residuals in restricted generalized linear
models. Journal of Statistical Computation and Simulation 51, 315352.
423
Bibliografia
Paula, G. A. (1996). Influence diagnostic in proper dispersion models. Australian Journal of Statistics 38, 307-316.
Paula, G. A. (1997). Estimao e Testes em Modelos de Regresso com Parametros Restritos. Livro texto de minicurso da 5a Escola de Modelos
de Regresso, realizada de 26 a 28-02-97 em Campos do Jordo, SP.
Paula, G. A. (1999). Leverage in inequality constrained regression models.
The Statistician 48, 529-538.
Paula, G. A. e Artes, R. (2000). One-sided test to assess correlation in
logistic linear models using estimating equations. Biometrical Journal
42, 701-714.
Paula, G. A.; Barbosa, L. S. e Ferreira, R. F. G. (1989). Relatrio de Anlise
Estatstica sobre o Projeto: Comportamento Biolgico Evolutivo do
Tumor KB no Decorrer de suas Passagens Seriadas em Ratos Nude
Adultos. RAE-CEA8904, IME-USP.
Paula, G. A. e Cordeiro, G. M. (1986). Alguns modelos no-lineares via o
Glim. Atas do VII Simpsio Nacional de Probabilidade e Estatstica,
UNICAMP, So Paulo, pp. 204-217.
Paula, G. A.; Denaro-Machado, L.; Ogata, T. T.; Machado, J. C.; Matta,
M. S. e Petrella, S. M. C. N. (1992). Caquexia cancerosa em modelo
experimento rato nude atmico/tumor humano KB. Revista Laes Haes
76, 28-30.
Paula, G. A. e Oshiro, C. H. (2001). Relatrio de Anlise Estatstica sobre
o Projeto: Anlise de Captura por Unidade de Esforo do Peixe-Batata
na Frota Paulista. RAE-CEA0102, IME-USP.
424
Bibliografia
Paula, G. A. e Peres, C. A. (1988). Diagnostics for GLMs with linear inequality parameter constraints. Communications in Statistics, Theory
and Methods 17, 4205-4219.
Paula, G. A. e Tuder, R. M. (1986). Utilizao da regresso logstica para
aperfeioar o diagnstico de processo infeccioso pulmonar. Revista Cincia e Cultura 40, 1046-1050.
Paula, G. A.; Sevanes, M. e Ogando, M. A. (1988). Relatrio de Anlise
Estatstica sobre o Projeto: Estudo de Plantas Brasileiras com Efeito
Moluscicida em Biomphalaria Glabrata. RAE-CEA8824, IME-USP.
Paula, G. A. e Sen, P. K. (1995). One-sided tests in generalized linear
models with parallel regression lines. Biometrics 51, 1494-1501.
Paula, G. A. e Tavares, H. R. (1992). Relatrio de Anlise Estatstica
sobre o Projeto: caros Associados ao Esterco Bovino. Subsdios para
Controle Biolgico da Mosca do Chifre. RAECEA 9206, IME-USP
Peduzzi, P. N.; Hardy, R. J. e Holford, T. T. (1980). A stepwise variable
selection procedure for nonlinear regression models. Biometrics 36,
511-516.
Pea, D. e Yohai, V. (1999). A fast procedure for outlier diagnostics in large
regression problems. Journal of the American Statistical Association
94, 434-445.
Pettitt, A. N. e Bin Daud, I. (1989). Case-weight measures of influence for
proportional hazards regression. Applied Statistics 38, 51-67.
Piegorsch, W. W. e Casella, G. (1988). Confidence bands for logistic regression with restricted predictor variables. Biometrics 44, 739-750.
425
Bibliografia
Pregibon, D. (1981). Logistic regression diagnostics. Annals of Statistics 9,
705-724.
Pregibon, D. (1982). Score tests in GLIM with applications. Lecture Notes
in Statistics 14, 87-97. Springer-Verlag, New York.
Pregibon, D. (1984). Data analytic methods for matched case-control studies. Biometrics 40, 639-651.
Ramanathan, R. (1993). Statistical Methods in Econometrics. Wiley, New
York.
Rao, C. R. (1973). Linear Statistical Inference and Its Applications, Second
Edition. Wiley, New York.
Ratkowsky, D. A. (1983). Nonlinear Regression Modelling. Marcel Dekker,
New York.
Ross, W. H.(1987). The geometry of case deletion and the assessment of
influence in nonlinear regression. Canadian Journal of Statistics 15,
91-103.
Ryan, B. F. e Joiner, B. L. (1994). Minitab Handbook, Third Edition. Duxbury Press, Belmont.
Seber, G. A. F. e Wild, C. J. (1989). Nonlinear Regression. John Wiley,
New York.
Sen, P. K. e Singer, J. M. (1993). Large Sample Methods in Statistics: An
Introduciton with Applications. Chapman and Hall, London.
Silva, G. L. (1992). Modelos Logsticos para Dados Binrios. Dissertao
de Mestrado, IME-USP.
426
Bibliografia
Spector, P. (1994). An Introduction to S and S-Plus. Duxbury Press, Belmont.
St. Laurent, R. T. e Cook, R. D. (1992). Leverage and superleverage in
nonlinear regression. Journal of the American Statistical Association,
87, 985-990.
Stukel, T. A. (1988). Generalized logistic models. Journal of the American
Svetliza, C. F. (2002). Modelos No-Lineares com Resposta Binomial Negativa. Tese de Doutorado, IME-USP.
Svetliza, C. F. e Paula, G. A. (2001). On diagnostics in log-linear negative
binomial models. Journal of Statistical Computation and Simulation
71, 231-244.
Svetliza, C. F. e Paula, G. A. (2003). Diagnostics in nonlinear negative
binomial models. Communications in Statistics, Theory Methods 32,
1227-1250.
Thomas, W. e Cook, R. D. (1990). Assessing influence on predictions from
generalized linear models. Technometrics 32, 59-65.
Tsai,C. H. e Wu, X. (1992). Assessing local influence in linear regression models with first-order autoregressive or heteroscedastic error structure.
Statistics and Probability Letters 14, 247-252.
Venables, W. N. e Ripley, B. D. (1999). Modern Applied Statistics with
S-Plus, Third Edition. Springer, New York.
Wang, P. C. (1985). Adding a variable in generalized linear models. Technometrics 27, 273-276.
427
Bibliografia
Wedderburn, R. W. M. (1974). Quasi-likelihood functions, generalized linear models and the Gauss-Newton method. Biometrika 61, 439-447.
Wedderburn, R. W. M. (1976). On the existence and uniqueness of the
maximum likelihood estimates for certain generalized linear models.
Biometrika 68, 27-32.
Wei, B. C. (1998). Exponential Family Nonlinear Models. Lecture Notes in
Statistics Vol. 130. Springer, New York.
Wei, B.C.; Hu, Y.Q. e Fung, W.K. (1998). Generalized leverage and its
applications. Scandinavian Journal of Statistics 25, 25-37.
Williams, D. A. (1984). Residuals in generalized linear models. In: Proceedings of the 12th. International Biometrics Conference, Tokyo, pp.
59-68.
Williams, D. A. (1987). Generalized linear model diagnostic using the deviance and single case deletion. Applied Statistics 36, 181-191.
Wolf, (1955). On estimating the relationship between blood group and
disease. Annals of Human Genetic 19, 251-253.
Wood, F. S. (1973). The use of individual effects and residuals in fitting
equations to data. Technometrics 15, 677-687.
428

Regressão em Modelo Computacional

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressão em Modelo Computacional

Enviado por

Direitos autorais:

Formatos disponíveis

MODELOS DE REGRESSO

com apoio computacional

A rea de modelagem estatstica de regresso recebeu um grande impulso

Em seguida abordamos o modelo logstico linear. Alguns procedimentos so

1 Modelos Lineares Generalizados

Funo escore e informao de Fisher . . . . . . . . . . . . . . 20

Escore e Fisher para . . . . . . . . . . . . . . . . . . 20

Escore e Fisher para . . . . . . . . . . . . . . . . . . 22

Estimao dos parmetros

Modelo de anlise de varincia . . . . . . . . . . . . . . 37

Regresso linear simples . . . . . . . . . . . . . . . . . 38

Modelo normal linear . . . . . . . . . . . . . . . . . . . 40

Extenso para os MLGs . . . . . . . . . . . . . . . . . 41

Tcnicas de diagnstico: Modelo normal linear . . . . . . . . . 41

Outra interpretao para ti . . . . . . . . . . . . . . . 51

Grfico da varivel adicionada . . . . . . . . . . . . . . 63

1.10 Tcnicas de diagnstico: Extenso para os MLGs . . . . . . . 66

Distribuio gama . . . . . . . . . . . . . . . . . . . . . . . . . 115

Modelos com resposta gama . . . . . . . . . . . . . . . . . . . 118

Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 119

Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 120

Comparao de cinco tipos de turbina de avio . . . . 121

Espinhel de fundo . . . . . . . . . . . . . . . . . . . . . 127

Aplicao em seguros . . . . . . . . . . . . . . . . . . . 136

Modelo de Cobb-Douglas . . . . . . . . . . . . . . . . . 143

Distribuio normal inversa . . . . . . . . . . . . . . . . . . . 146

Modelos com resposta normal inversa . . . . . . . . . . . . . . 149

Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 149

Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 149

Comparao de cinco tipos de snack

Projeo de vendas . . . . . . . . . . . . . . . . . . . . 158

Modelagem simultnea da mdia e da disperso . . . . . . . . 160

Mtodos de diagnstico . . . . . . . . . . . . . . . . . . 165

2.10 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

Mtodos clssicos: uma nica tabela 2 2 . . . . . . . . . . . 184

Risco relativo . . . . . . . . . . . . . . . . . . . . . . . 185

Modelo probabilstico no condicional . . . . . . . . . . 187

Modelo probabilstico condicional . . . . . . . . . . . . 188

Teste de hipteses . . . . . . . . . . . . . . . . . . . . . 192

Mtodos clssicos: k tabelas 2 2 . . . . . . . . . . . . . . . . 195

Estimao da razo de chances comum . . . . . . . . . 196

Testes de homogeneidade . . . . . . . . . . . . . . . . . 197

Mtodos clssicos: tabelas 2 k . . . . . . . . . . . . . . . . . 199

Associao entre fungicida e desenvolvimento de tumor 201

Efeito de extrato vegetal . . . . . . . . . . . . . . . . . 203

Regresso logstica linear . . . . . . . . . . . . . . . . . . . . . 204

Regresso logstica simples . . . . . . . . . . . . . . . . 205

Regresso logstica mltipla . . . . . . . . . . . . . . . 209

Bandas de confiana . . . . . . . . . . . . . . . . . . . 210

Seleo de modelos . . . . . . . . . . . . . . . . . . . . 211

Amostragem retrospectiva . . . . . . . . . . . . . . . . 215

Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 217

Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 218

3.6.13 Modelos de retas paralelas . . . . . . . . . . . . . . . . 245

4 Modelos para Dados de Contagem

Mtodos clssicos: uma nica tabela 2 2 . . . . . . . 282

Estratificao: k tabelas 2 2 . . . . . . . . . . . . . . 288

Modelos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 290

Propriedades da Poisson . . . . . . . . . . . . . . . . . 290

Modelos log-lineares: k tabelas 2 2 . . . . . . . . . . 291

Modelos gerais de Poisson . . . . . . . . . . . . . . . . 295

Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 297

Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 298