Você está na página 1de 121

Modelos Lineares Generalizados em

Experimentao Agronmica





Clarice Garcia Borges Demtrio











ESALQ/USP Piracicaba, SP
Maio/2002
PREFCIO

Estas notas so baseadas em vrios livros textos citados, duas verses anteriores e tm
como objetivo apresentar noes introdutrias de Modelos Lineares Generalizados e algumas
aplicaes na rea de Estatstica Aplicada Experimentao Agronmica.
Enumerar as pessoas a quem devemos agradecimentos uma tarefa difcil, pois so
muitos aqueles que contriburam de forma direta ou indireta para a elaborao deste material.
Agradecemos a todos e, em especial aos professores: Silvano Cesar da Costa (UEL) e Suely Ruiz
Giolo (UFPr) que foram incansveis e amigos, ajudando-nos atravs de leitura cuidadosa,
sugestes, correo e formatao do texto, elaborao dos programas em SAS e discusses muito
proveitosas. Sem o auxlio deles no teramos terminado de escrever estas notas em tempo hbil.
Finalmente, assumimos total responsabilidade pelas imperfeies e solicitamos aos
leitores que nos apresentem crticas e sugestes para uma futura edio revisada.


Clarice Garcia Borges Demtrio
Piracicaba, 1
o
de julho de 2001

SUMRIO



1 Famlia Exponencial com um parmetro
1.1 Introduo ......................................................................................................
1.2 Definio ......................................................................................................
1.3 Funes geradoras de momentos e de cumulantes ...........................................
1.4 Estatstica Suficiente ..........................................................................................
1.5 Exerccios ......................................................................................................

2 Modelo Linear Generalizado
2.1 Introduo ......................................................................................................
2.2 Exemplos de motivao ...............................................................................
2.3 Definio ......................................................................................................
2.4 Estimao do vetor de parmetros ...................................................................
2.5 Um exemplo do algoritmo de estimao .......................................................
2.6 Propriedades e distribuio amostral de .......................................................

2.7 Funo deviance e estatstica de Pearson X


2
generalizada ...............................
2.8 Estimao do parmetro ...............................................................................
2.9 Anlise de deviance e seleo de modelos .......................................................
2.10 Testes de hipteses ..........................................................................................
2.10.1 Teste da razo de verossimilhanas .......................................................
2.10.2 Teste de Wald ..........................................................................................
2.10.3 Teste Escore ..........................................................................................
2.11 Intervalos de Confiana ..............................................................................
2.12 Exerccios ......................................................................................................

3 Tcnicas para Verificao de Ajuste do Modelo
3.1 Introduo ......................................................................................................
3.2 Tcnicas para a verificao do ajuste de um modelo a um conjunto de dados ...
3.3 Anlise de resduos e diagnsticos para modelos lineares clssicos ...................
3.3.1 Introduo ..........................................................................................
3.3.2 Tipos de resduos ..............................................................................
3.3.3 Estatsticas para diagnsticos .......................................................
3.3.4 Tipos de grficos ..............................................................................
3.4 Anlise de resduos e diagnsticos para modelos lineares generalizados .......
3.4.1 Introduo ..........................................................................................
3.4.2 Tipos de resduos ..............................................................................
3.4.3 Tipos de grficos ..............................................................................
3.5 Verificao da funo de ligao ..................................................................
3.5.1 Justificativa para o uso de ..................................................................
2

3.6 Verificao da adequao da funo de varincia ...........................................
3.7 Verificao da adequao das escalas das covariveis ...............................
3.8 Exerccios ......................................................................................................
1
1
1
4
8
9

14
14
16
25
28
33
39
42
48
50
53
54
54
54
57
57

61
61
62
62
62
63
65
66
70
70
71
72
73
74
75
75
79
4 Aplicaes

4.1 Estimao da dose efetiva ..............................................................................
4.2 Paralelismo entre retas no modelo logstico linear ..........................................
4.3 Outras aplicaes .........................................................................................
Apndice A Programas em GLIM para os exemplos do Captulo 4 ..................
Apndice B - Programas em SAS para alguns exemplos do Captulo 4 ..................
Referncias Bibliogrficas .........................................................................................
Lista Adicional de GLM ..............................................................................................

82
82
83
93
100
105
109
114








Captulo 1

Famlia Exponencial com um Parmetro


1.1 Introduo

Muitas das distribuies conhecidas podem ser reunidas na chamada famlia
exponencial univariada. Assim, por exemplo, pertencem a essa famlia as distribuies
normal, binomial, binomial negativa, gama, Poisson e normal inversa. Essa classe de famlias
de distribuies foi proposta independentemente por Koopman, Pitman e Darmois atravs do
estudo de propriedades de suficincia estatstica. Posteriormente, muitos outros aspectos dessa
famlia foram descobertos e tornaram-se importantes na teoria moderna de Estatstica. O
conceito de famlia exponencial foi introduzido na Estatstica por Fisher (Jrgensen &
Labouriau, 1992).

1.2 Definio

Seja X uma varivel aleatria (v.a.) cuja f.d.p. (funo de probabilidade se X discreta
ou funo densidade de probabilidade se X contnua) depende de um nico parmetro .
Seja a famlia de f.d.p.'s. Diz-se que ela a famlia
exponencial de distribuies com parmetro se
} ), ; ( { = x f

, (1.1) ) ( ) ( ) ( = ) ; (
) ( ) (
x I e t x h x f
A
s x q


sendo h(.), t(.), q(.) e s(.) funes conhecidas e o indicador do conjunto A que no pode
depender de . Outra forma com que se apresenta essa famlia
(.)
A
I

)] ( n + ) ( n + ) ( ) ( exp[ = ) ; ( x h t s x q x f l l

e, tomando-se , tem-se: ( ) ( ) ( ) ( ) x h x g t d n e n l l = =

. (1.2) ) ( )] ( + ) ( + ) ( ) ( exp[ = ) ; ( x I x g d s x q x f
A


2 Clarice G. B. Demtrio
Alm disso, transformaes do tipo 1-1 de variveis ou de parmetros no afetam a
forma geral de (1.2), isto , se a distribuio pertence, ou no, famlia exponencial (Cox &
Hinkley, 1986, pg. 27). Ento, desde que q(.) e s(.) sejam funes monotnicas, pode-se
fazer

Y X q
a
s = ) ( e
) (
= ) (

,

sendo , conhecido e fixo. Tem-se, ento, 0 >

)
`

) ; ( + )] ( + [
) (
1
exp = ) ; (
1 1

y g d y
a
y f

em que e so funes conhecidas. (.)
1
d (.)
1
g

Na notao de McCullagh & Nelder (1989), fica

) ( ) ; ( + )] ( [
) (
1
exp = ) , ; ( y I y c b y
a
y f
A
)
`

(1.3)

para e funes conhecidas e , suposto conhecido. (.) b (.) c 0 >
Se for desconhecido pode pertencer, ou no, famlia exponencial com
dois parmetros (ver exerccio 1.5.4 e McCullagh & Nelder, 1989, pg. 28).
) , ; ( y f
Fazendo-se ainda
) a(
1
= '

tem-se a notao usada por Cordeiro (1986), isto ,



, (1.4) { ) ( )] ' ; ( + ) ( - [ ' exp = ) ' , ; (
1
y I y c b y y f
A
}

sendo conhecida. (.)
1
c
Tem-se, nestes dois ltimos casos, a famlia exponencial na forma cannica com
parmetro cannico ou natural . Se h outros parmetros alm de , eles so olhados como
parmetros de perturbao (nuisance parameters). A Tabela 2 mostra os identificadores na
famlia exponencial para as distribuies normal, binomial, Poisson, binomial negativa, gama
e normal inversa.

Exemplo 1: Seja Y uma varivel aleatria com distribuio normal de mdia desconhecida
e varincia conhecida , isto , com f.d.p.,

0
2
>


(

,
2
) (
exp
2
1
= ) , ; (
2
2
2
2
y
y f .

Desenvolvendo-se essa funo de forma a poder ser comparada com a expresso da
famlia exponencial dada por McCullagh & Nelder (1989), tem-se

Modelos Lineares Generalizados na Experimentao Agronmica 3
( )
(

2
2
2
2
2 n
2
1
-
2
) - (
- exp = ) , ; (

l
y
y f

( )
)
`

2
2 2
2
2 n
2
1
-
2
- 2 + - 1
exp =

l
y y


( )
)
`

2
2
2
2
2
2
- 2 n
2
1
-
2
-
1
exp =

y
y l

que comparada com (1.3) leva a

=
2
) ( = a
2 2
= ) (
2 2

= b
(

) n(2 +
2
1
- = ) ; (
2
2
2

l
y
y c

o que mostra que a distribuio com desconhecido e , conhecido,
pertence famlia exponencial na forma cannica.
) , (
2
N 0
2
>


Exemplo 2: Seja Y uma v.a. com distribuio binomial com f.d.p. dada por:

. } ..., 1, {0, [0,1], ), ( ) - (1 = ) ; (
) - (
m A y I
y
m
y f
A
y m y
=
|
|
.
|

\
|

Tem-se, ento,
) ( ) - (1 n ) ( + n + n exp = ) ; ( y I m-y y
y
m
y f
A
)
`

|
|
.
|

\
|
l l l

) ( n + ) - n(1
- 1
n exp = y I
y
m
m

y
A
)
`

|
|
.
|

\
|
+
|
.
|

\
|
l l l ,

obtendo-se

1 ) ( = a

e
e

n
+ 1 - 1
= =
|
.
|

\
|
l

) + n(1 = ) - n(1 - = ) b(

e m m l l c
|
|
.
|

\
|
y
m
y n = ) ; ( l

e portanto, a distribuio binomial pertence famlia exponencial na forma (1.3).

4 Clarice G. B. Demtrio
1.3 Funes Geradoras de Momentos e de Cumulantes

A funo geradora de momentos (f.g.m.) para a famlia exponencial com um
parmetro, usando-se a notao de McCullagh & Nelder (1989), dada por:


)
`

+ = )} ( ] ) ( [ {
) (
1
exp ] E[ = ) , ; ( M

b t a b
a
e t
tY
Y
. (1.5)

Prova: A prova ser feita apenas para o caso de v.a. contnuas. Lembrando-se que:

A
dy y f 1 = ) (

ento,

1 = ) ; ( + )] ( - [
) (
1
exp dy y c b y
a
A

)
`



ou ainda,

1 = ) c(y; + y
) a(
1
exp
) a(
) b(
exp
1
A
dy
(

|
|
.
|

\
|

,

obtendo-se


|
|
.
|

\
|
(

) a(
) b(
exp = ) c(y; + y
) a(
1
exp
A

dy . (1.6)

Logo,

=
A
ty tY
dy y f e e ) ( ] E[ = ) , (t; M
Y

) ; ( + )] ( - ) + ) ( [(
) (
1
exp

)
`

=
A
dy y c b y t a
a

dy y c y t a
a
a
b
A
)
`

)
`


) ; ( + ] + ) ( [
) (
1
exp
) (
) (
exp
1
=

e usando-se (1.6) tem-se:

)
`

)
`


) (
] + ) ( [
exp
) (
) (
exp
1
= ) , ; ( M
a
t a b
a
b
t
Y


ou ainda,
Modelos Lineares Generalizados na Experimentao Agronmica 5

)
`

)] ( - ) + ) ( ( [
) (
1
exp = ) , ; ( M b t a b
a
t
Y
.

A funo geradora de cumulantes (f.g.c.) correspondente

{ ) ( - ] + ) ( [
) (
1
= ) , ; M( n = ) , ; (

b t a b
a
t t l }. (1.7)

Derivando-se (1.7), sucessivamente, em relao a t, tem-se

] + ) ( [ = ) ( ] + ) ( [
) (
1
= ) , ; ( t a b a t a b
a
t



)
)
)
)
( ] + ) ( [ = ) , ; ( a t a b t

| |
2
) ( ] + ) ( [ = ) , ; ( a t a b t
...
| |
1
) ( ) (
) ( ] + ) ( [ = ) , ; (
r-
r r
a t a b t

e para t = 0, obtm-se os cumulantes

( =
1
b

( ) ( =
2
b a
...
. ( )] ( [ =
) ( 1

r r-
r
b a

Verifica-se, portanto, que existe uma relao de recorrncia entre os cumulantes da
famlia exponencial. Isto fundamental na obteno de propriedades assintticas dos Modelos
Lineares Generalizados.
Os momentos da famlia exponencial podem ser facilmente obtidos a partir dos
cumulantes (Kendall & Stuart, 1969, vol. 1, cap. 3, pg. 70-71).

i) Relao entre cumulantes e momentos em relao origem


, ) ( 6 ) ( 12 + ) ( 3 4 =
) 2( + 3
) ( =
=
4
1
2
1 2
2
2 1 3 4 4
3
1 1 2 3 3
2
1 2 2
1 1




+
=

=

sendo . ) E(Y =
r
r


6 Clarice G. B. Demtrio
ii) Relao entre cumulantes e momentos em relao mdia


, ) ( 3
2
2 4 4
3 3
2
2 2



=
=
= =

sendo ( ) | | { }
r
Y Y E - E
r
= .

Portanto, a mdia e a varincia de uma v.a. Y cuja distribuio pertence famlia
exponencial, na forma cannica usada por McCullagh & Nelder (1989), so dadas por


IMPORTANTE! (1.8)
) ( ) ( = ) Var( =
) ( = ) E(
2


b a Y
b Y

=


em que a , em geral, pode ser escrita na forma a , sendo chamado parmetro
de disperso e w, peso a priori. Alm disso, b

uma funo de e
representada por V . Logo, a varincia de Y pode ser escrita como
) ( w / ) ( =
d d / = ) (
) (

) ( ) ( = ) ( ) ( = ) Var( V a b a Y .

Escrevendo-se como o logaritmo da funo de
verossimilhana considerado como uma funo de e de , dado y, a mdia e a varincia da
v.a. Y podem tambm ser obtidas facilmente a partir das relaes conhecidas (Dobson,1990,
Apndice 1)
) , ; ( n = ) ; , ( y f y
Y
l l

0 = E = ) E(
(

d
d
U
l

e
(


2
2
2
E = ) E(- = ) E( = ) Var(
d
d
U U U
l
,

sendo U chamada funo escore.
Portanto, a partir de

| | ) ; ( ) (
) (
1

y c b y
a
+ = l

tem-se

)] ( - [
) (
1
=

b y
a d
d
U =
l

e
Modelos Lineares Generalizados na Experimentao Agronmica 7
) (
) (
1 -
=
2
2

b
a d
d
U =
l
.

Logo,

) ( = ) E( 0 = )] ( - ) [E(
) (
1
= ) E(

b Y b Y
a
U
e
). ( ) ( = ) Var(
) Var(
)] ( [
1
) E( = ) Var(
) (
) (
1
= ) -E( = ) Var(
2
2

b a Y
Y
a
U U
b
a
U U

=



Exemplo 3: Considere o Exemplo 1, e obtenha , M(t), E(Y), Var(Y) e V . Tem-se
que:
) (t
Y
) (
2 / = ) ( e = , = ) (
2 2
b a .

Logo, usando-se (1.5), (1.7) e (1.8), tem-se

,
2
+ = ) 2 (
2
1
=
) + 2 (
2
1
=
2 2
) + (

1
= ) (
2 2
2 2
2 2 2 2 4
2
2 2 2
2
t
t t t
t t
t
t

+
+
(



,
2
+ exp = ) M(
2 2
|
|
.
|

\
| t
t t



= = ) ( = ) E( b Y e

) (constante 1 = ) ( = ) ( ) ( = ) Var(
2
V b a Y .


Exemplo 4: Considere o Exemplo 2, e obtenha , M(t), E(Y), Var(Y) e V . Tem-se
que:
) (t
Y
) (

1 ) ( = a ,

+e
e

1 - 1
n = =
|
.
|

\
|
l e . ) + n(1 = ) - n(1 - = ) (

e m m b l l

Logo, usando-se (1.5), (1.7) e (1.8), tem-se:

8 Clarice G. B. Demtrio
( ) | |
( ) | | , + - 1 n + - 1 n
+ 1
+ 1
n
) + n(1 - ) + n(1 ) ( + = ) (
m
m
t
m
t

t+
t+
e e
e
e
e e m b t b t



l l l
l l
= =
|
|
.
|

\
|
=
=


| |
m
t t
e e t

+ = 1 = ) M(
) (
,

m
e
e
m b Y

=
+
=
1
= ) ( = ) E( ,

( ) ( )
) - (
1
) 1 (
1 1
1
= ) ( ) ( = ) Var(
2 2
= =
+
= m
m
m
e
e
m
+e
e e - )e +e (
m b a Y



e
). (
1
) 1 ( ) ( = = m
m
m V

1.4 Estatstica Suficiente

Seja uma amostra aleatria (a.a.) de uma distribuio que pertence
famlia exponencial. A f.d.p. conjunta de Y dada por:
n
Y Y Y ..., , ,
2 1
n
Y Y ..., , ,
2 1

| |
| | { }
. ) ( exp ) (
) (
1
exp
) ; ( exp ) (
) (
1
exp
) ; ( ) ( -
) (
1
exp ) , ; ( ) , ; y (
n
1 = i 1
1
1 1
Y
)
`


)
`

)
`

=
)
`

= =


; y c nb y
a
y c b y
a
y c b y
a
y f f
i
n
i=
i
n
i=
i i
n
i=
i i
n
i=
i


Pelo teorema da fatorao de Neyman-Fisher (Silvey, 1975, pg. 27) tem-se que
uma estatstica suficiente para

, pois

=
n
1 i
=
i
Y T

) , ... , , ( ) , ( = ) , ; y (
2 1 Y n
y y y h t g f ,

sendo que depende de e dos y's apenas atravs de t e independe de
.
) , ( t g ) , ... , , (
2 1 n
y y y h

Isto mostra, que sob amostragem aleatria, se uma densidade pertence famlia
exponencial com um parmetro, ento, existe uma estatstica suficiente. Na realidade, usando-
se o Teorema de Lehmann-Scheff (Mendehall et al., 1981, pg. 350) mostra-se que
uma estatstica suficiente minimal.

=
n
1 i
=
i
Y T

Modelos Lineares Generalizados na Experimentao Agronmica 9
Tabela 1: Funes Geradoras de Momentos para Algumas Distribuies
Distribuio Funes Geradoras de Momentos
Normal: N(,
2
)
M
Y
(t; , ) =
)
`


+
2
exp
2 2
t
t
Poisson: P()
M
Y
(t; , ) = { } ) 1 ( exp
t
e
Binomial: B(m,) M
Y
(t; , ) = ( )
m
t
e + 1
Bin. Negativa: BinNeg(, k) M
Y
(t; , ) =
k
t
e
k

+ ) 1 ( 1 ,
k
t
+
<

n l
Gama: G(, ) M
Y
(t; , ) =

|
.
|

\
|

t
1 ,

t <
Normal Inversa: IG(,
2
)
M
Y
(t; , ) =

(
(

|
|
.
|

\
|

2
1
2
2 2
2
1 1 1
exp t

,
2 2
2
1

<




1.5 Exerccios

1.5.1 Verifique se as distribuies que se seguem pertencem famlia exponencial na forma
cannica dada em (1.3). Obtenha , M(t), E(Y), Var(Y) e V . ) (t
Y
) (

a) Poisson: Y ) ( P ~
...}. 2, 1, {0, A 0; ), ( = ) ; ( = > y I
y!
e
y f
A
- y


b) Binomial Negativa (k fixo): Y , k > 0, conhecido ) , ( BinNeg ~ k

...}. 1, {0, A ); (
) ( ! ) (
) (
= ) , ; ( =
+
+
+
y I
k
k
y k
y k
k y f
A
y k
k y



c) Gama: Y , conhecido 0 ), , ( G ~ >

. A 0; > ), ( exp
) (
= ) , ; (
1 +
=
|
|
.
|

\
|

|
|
.
|

\
|

y I
y
y y f
A


10 Clarice G. B. Demtrio
d) Normal Inversa (ou Inversa Gaussiana): Y , conhecido 0 ), , ( IG ~
2 2
>

. 0 , A ); ( I
2
) - (
exp
2
1
= ) , ; (
A
2 2
2
2 1
3 2
2
> =
)
`

|
|
.
|

\
|
+

y
y
y
y
y f


1.5.2 Seja X uma v.a. com distribuio , isto , com f.d.p. ) ( G

( )
( )
( )
( ) 0 > , ;
0,
1
x I

e x
x f
x


= .

Dado que , mostre que usando-se a transformao = ) ( E X

X
= Y , obtm-se a f.d.p. usada
no item (c) do Exerccio 1.5.1.


1.5.3 Seja Y uma v.a. com distribuio de Poisson truncada com parmetro , isto , com
f.d.p. dada por:

{ }
0 > ), (
1) - ( !
=
) e - (1 !

= ) ; (
2, 1,
-
y -

y I
e y y
e
y f
y
K
.

Pede-se:

a) mostre que essa distribuio um membro da famlia exponencial na forma cannica;

b) mostre que
1 1
= = ) E( b.1)
- e
e
-e

-
= ;

) - + (1 =
1
1
1
= ) Var( b.2)
e -
e
-
e -

Y
-
-
- (

;

c) mostre que a f.g.m. de Y dada por

1
1 } exp{
= ) ( M
- e
- e
t

t
Y
.

1.5.4 De acordo com Smyth (1989), uma distribuio pertence famlia exponencial se sua
f.d.p. puder ser colocada na forma

| |
)
`

) ; ( + ) ( - exp = ) , ; (

y c b y
w
y f , (1.9)

Modelos Lineares Generalizados na Experimentao Agronmica 11
sendo e funes conhecidas, e , constante, chamado parmetro de disperso,
conhecido e w, um peso a priori. Se a constante desconhecida, ento, a expresso (1.9)
define uma famlia exponencial com dois parmetros apenas se
) . ( b ) . ( c 0 >

) ( +
2
1
- ) ( - = ) , ( y t
w
- s y g
w
y c
|
|
.
|

\
|



para , e conhecidas e nesse caso deve ser a inversa de , tal que
. Mostre que isso ocorre para as distribuies normal, normal inversa e gama.
) . ( g
) ( ' g
) . ( s ) . ( t ) . ( ' g ) . ( ' b
=


1.5.5 Seja Y e , isto , ) , ( B ~ | P m in P ) , ( B ~ eta P
) - (
) - (1 = ) | (
y m y
p p
y
m
p y f
|
|
.
|

\
|
e
) , (
) 1 (
= ) (
1 1 -
B
p p
p f


I
(0,1)
(p),

sendo
) (
) ( ) (
= ) , (



+

B . Pede-se:

a) mostre que, incondicionalmente, Y tem distribuio beta-binomial com f.d.p. dada por:

) , (
) , (
= ) (


B
y m y B
y
m
y f
+ +
|
|
.
|

\
|
;
b) mostre que

m m Y =
+
= ) E( e , sendo )] 1 ( 1 )[ 1 ( ) Var( + = m m Y
1
1
+ +
=

;
c) mostre que a distribuio beta-binomial no pertence famlia exponencial cannica.


1.5.6 Seja Y , isto , P(z) ~ | z Z =
) ( ,
!
) | (
} , 2 , 1 , 0 {
y I
y
e z
z Z y Y P
z y
L

= = =
Ento, se:

a) , isto , com f.d.p. dada por ) , ( ~ k G Z
)
`


|
.
|

\
|

k
z
z
(
k
= ) , k ; z ( f
-
exp
)
1
I
(0, )
(z),

mostre que, incondicionalmente, Y tem distribuio binomial negativa, que pertence famlia
exponencial, com

= =
k
Y) E( e
k
Y
2
) Var(

+ = ;

b) , isto , com f.d.p. dada por ) , ( ~ r G Z

z r-
r
e z
r
r z f

1
) (
= ) , ; ( I
(0,)
(z)
12 Clarice G. B. Demtrio
mostre que, incondicionalmente, Y tem distribuio binomial negativa, que no pertence
famlia exponencial, com

= =
r
Y) E( e

= + = ) Var(Y , sendo

1
1+ = .


1.5.7 Uma forma geral para representar a f.d.p. da distribuio binomial negativa, segundo
Saha & Dong (1997) dada por:

( ) ... , 2 , 1 , 0 1 1
!
) Pr(
1
1
= +
|
|
.
|

\
|
+
|
|
.
|

\
|

|
|
.
|

\
|
+
= =

y
y
y
y Y
c
c
y
c
c
c

(1.10)
Pede-se:

a) mostre que e . Obtenha e Var , para os casos
mais comuns da distribuio binomial negativa, isto , para c e ;
= ) ( E Y
c
Y

+ =
2
) ( Var ) ( E Y
=
) (Y
1 = c 0

b) mostre que (1.10) pertence famlia exponencial apenas para . 0 = c


1.5.8 Uma distribuio para explicar o excesso de zeros em dados de contagem a
distribuio de Poisson inflacionada de zeros, com f.d.p. dada por:

=
= +
= =
. , 2 , 1 ! / } exp{ ) 1 (
0 } exp{ ) 1 (
) Pr(
K y y
y
y Y
y




Mostre que e = = ) 1 ( ) ( E Y
2
1
) ( Var

|
.
|

\
|

+ = Y .


1.5.9 Uma distribuio alternativa para explicar o excesso de zeros em dados de contagem a
distribuio binomial negativa inflacionada de zeros, com f.d.p. dada por:

=
|
|
.
|

\
|
+ +
|
|
.
|

\
|

|
|
.
|

\
|
+

= + +
= =

L , 3 , 2 , 1 1 ) 1 (
!
) 1 (
0 ) 1 )( 1 (
) Pr(
1
1
1
1
1
y
y
y
y
y Y
y
c
c
c
c
c
c
c



Mostre que e ) 1 ( ) ( E = Y ( )
c
Y + + = 1 ) 1 ( ) var( .

Modelos Lineares Generalizados na Experimentao Agronmica 13
Tabela 2: Identificadores da Famlia Exponencial para Algumas Distribuies
Distribuio a() b() c(y;) () V()
Normal
N(,
2
)

2

2
2

) 2 ( n
2
1
2
2
2
l
y

1
Poisson
P()
1 n l
e

! n y l
e


Binomial
B(m,)
1 |
.
|

\
|

1
n l ) (1 n

e m + l
|
|
.
|

\
|
y
m
n l
m

+ e
e
1
) (
1
m
m

Bin. Negativa
BinNeg(, k)
1
|
|
.
|

\
|
+

k
n l ) 1 ( n

e k l
(

+
! ) (
) (
n
y k
y k
l

e
e
k
1
|
.
|

\
|
+1
k


Gama
G(, )

-1

1
) ( n l ) ( n n ) ( n l l l y y

1

2
Normal Inversa
IG(,
2
)

2

2
2
1

2
1
) 2 (
(

+
y
y
2
3 2
1
) 2 ( n
2
1

l
2
1
) 2 (


3






Captulo 2

Modelo Linear Generalizado

2.1 Introduo

A seleo de modelos uma parte importante de toda pesquisa, envolve a procura de
um modelo o mais simples possvel, razovel, que descreva bem os dados observados. Na
maior parte das situaes pode-se pensar na varivel resposta consistindo de duas partes
distintas:

1
a
) um componente sistemtico, que estabelecido durante o planejamento (fundamental
para a obteno de concluses confiveis) do experimento, resultando em modelos de
regresso (linear simples, mltipla, no linear etc), de anlise de varincia (delineamentos
inteiramente casualizados, blocos casualizados, quadrados latinos com estrutura de
tratamentos fatorial, parcelas subdivididas etc) e de anlise de covarincia;

2
a
) um componente aleatrio, que estabelecido assim que so definidas as medidas a
serem feitas, que podem ser contnuas ou discretas, exigindo o ajuste de distribuies
diferentes. Um mesmo experimento pode envolver medidas de diferentes tipos, como por
exemplo, dados de altura, nmero de leses e proporo de plantas doentes.

No modelo linear clssico tem-se,

Y + = ,

sendo, o vetor, de dimenses nx1, da varivel resposta, Y
X Y = = ) ( E , o componente sistemtico,
X a matriz, de dimenses nxp, do modelo,
T
p
) , , (
1
K = o vetor dos parmetros,
T
n
) , , (
1
K = , o componente aleatrio com , i = 1, ..., n. ) , 0 ( ~
2
N
i

Em muitos casos, porm, essa estrutura aditiva entre o componente sistemtico e o
componente aleatrio no satisfeita. Alm disso, no h razo para se restringir estrutura
simples dada por para o componente sistemtico e nem para se restringir X Y = = ) ( E
Modelos Lineares Generalizados na Experimentao Agronmica 15
distribuio normal para o componente aleatrio e suposio de homogeneidade de
varincias.
Nelder & Wedderburn (1972) propuseram uma teoria unificadora da modelagem
estatstica a que deram o nome de modelos lineares generalizados (MLG), como uma
extenso dos modelos lineares clssicos. Na realidade, eles mostraram que uma srie de
tcnicas comumente estudadas separadamente podem ser reunidas sob o nome de Modelos
Lineares Generalizados.
Os desenvolvimentos que levaram a esta viso geral da modelagem estatstica,
remontam a mais de um sculo. Um breve histrico (McCullagh & Nelder, 1989; Lindsey,
1997) pode ser traado:

- regresso linear mltipla, envolvendo distribuio normal (Legendre, Gauss, incio do
sculo XIX);
- anlise de varincia para experimentos planejados, envolvendo distribuio normal
(Fisher, 1920 a 1935);
- funo de verossimilhana, um procedimento geral para inferncia a respeito de qualquer
modelo estatstico (Fisher, 1922);
- modelo complemento log-log para ensaios de diluio, envolvendo distribuio binomial
(Fisher, 1922);
- famlia exponencial, uma classe de distribuies com propriedades timas (estatsticas
suficientes) para a estimao dos parmetros (Fisher, 1934);
- modelo probit para propores, envolvendo distribuio binomial (Bliss, 1935);
- modelo logstico para propores, envolvendo distribuio binomial (Berkson, 1944;
Dyke & Patterson, 1952);
- modelo logstico para anlise de itens, envolvendo distribuio Bernoulli (Rasch, 1960);
- modelos log-lineares para contagens, envolvendo distribuio Poisson e multinomial
(Birch, 1963);
- modelos de regresso para dados de sobrevivncia, envolvendo distribuio exponencial
(Feigl & Zelen, 1965; Zippin & Armitage, 1966; Gasser, 1967);
- polinmios inversos para ensaios de adubao, envolvendo distribuio gama (Nelder,
1966).

Nelder & Wedderburn (1972) mostraram, ento, que a maioria dos problemas
estatsticos, que surgem nas reas de agricultura, demografia, ecologia, economia, geografia,
geologia, histria, medicina, cincia poltica, psicologia, sociologia, zootecnia etc, podem ser
formulados, de uma maneira unificada, como modelos de regresso. Esses modelos envolvem
uma varivel resposta univariada, variveis explicativas e uma amostra aleatria de n
observaes, sendo que:

i) a varivel resposta, componente aleatrio do modelo, tem uma distribuio
pertencente famlia exponencial na forma cannica (distribuies normal, gama e
normal inversa para dados contnuos; binomial para propores; Poisson e binomial
negativa para contagens);
ii) as variveis explicativas, entram na forma de um modelo linear (componente
sistemtico);
iii) a ligao entre os componentes aleatrio e sistemtico feita atravs de uma funo
(por exemplo, logartmica para os modelos log-lineares).

16 Clarice G.B. Demtrio
Outras referncias para o estudo de Modelos Lineares Generalizados e extenses so:
Cordeiro (1986); Aitkin et al. (1989); Dobson (1990); Collett (1991); Firth (1991); Francis et
al. (1993); Fahrmeir & Tutz (1994); Paula (2000) e McCulloch (2000).

2.2 Exemplos de Motivao

A seguir sero apresentados alguns modelos que apareceram na literatura
independentemente e que conforme ser visto podem ser agrupados de acordo com algumas
propriedades comuns, o que permite um mtodo comum para a estimao dos parmetros.

a) Ensaios do tipo dose-resposta

Ensaios do tipo dose-resposta, so aqueles em que uma determinada droga
administrada em k diferentes doses, d , a, respectivamente,
indivduos, obtendo-se como resposta, aps um perodo especificado, indivduos
que mudam de estado (ocorrncia de um sucesso, por exemplo, morte). Suponha que cada
indivduo responde, ou no, droga, tal que a resposta quantal (tudo ou nada, isto , 1 ou 0).
Por exemplo, quando um inseticida aplicado a um determinado nmero de insetos, eles
respondem (morrem), ou no (sobrevivem), dose aplicada. Quando uma droga benfica
administrada a um grupo de pacientes, eles podem melhorar (sucesso), ou no (falha). Dados
resultantes desse tipo de ensaio podem ser considerados como provenientes de uma
distribuio binomial com probabilidade , que a probabilidade de ocorrncia (sucesso) do
evento sob estudo, ou seja, Y .
k
d d ..., , ,
2 1
i
)
i
k
m m m ..., , ,
2 1
k
y y y ,..., ,
2 1
, ( ~
i i
m Bin
Os objetivos desse tipo de experimento so, em geral, modelar a probabilidade de
sucesso como funo de variveis explanatrias e, ento, determinar doses efetivas (DL
i

p
,
doses que causam mudana de estado em p% dos indivduos, por exemplo, DL
50
, DL
90
),
comparar potncia de diferentes produtos etc.

Exemplo 5: Os dados da Tabela 3 referem-se a um ensaio de toxicidade de rotenone, no
delineamento completamente casualizado, em que doses (d
i
) do inseticida foram aplicadas a
m
i
insetos (Macrosiphoniella sanborni, pulgo do crisntemo, Martin, 1942) e aps um
determinado tempo foram observados os nmeros (y
i
) de insetos mortos.

Tabela 3: Nmero de insetos mortos (y
i
) de (m
i
) insetos
que receberam a dose d
i
de rotenone

Dose (d
i
) m
i

y
i
p
i
10,2 50 44 0,88
7,7 49 42 0,86
5,1 46 24 0,52
3,8 48 16 0,33
2,6 50 6 0,12
0,0 49 0 0,00

O interesse do pesquisador estava na determinao das doses letais que matam 50%
(DL
50
) e 90% (DL
90
) dos insetos, para recomendao de aplicao do inseticida no campo.
Modelos Lineares Generalizados na Experimentao Agronmica 17
Pode-se ver que o grfico das propores ( ) de insetos mortos versus as doses (d
i i i
m y p / =
i
)
tem um aspecto sigmoidal (Figura 1) o que orienta a escolha do modelo para .
i

Figura 1: Grfico das propores (p
i
) versus
as doses (d
i
), referentes Tabela 3.

So dois componentes, portanto, a serem considerados nos ensaios de dose-resposta.
Um a intensidade do estmulo que pode ser a dose de uma droga (inseticida, fungicida,
herbicida, medicamento etc) e o outro que o indivduo (um inseto, um esporo, uma planta,
um paciente etc). O estmulo aplicado a uma intensidade especificada em unidades de
concentrao, peso etc e como resultado uma resposta do indivduo obtida. Quando a
resposta binria (0 ou 1), sua ocorrncia, ou no, depender da intensidade do estmulo
aplicado. Para todo indivduo haver um certo nvel de intensidade abaixo do qual a resposta
no ocorre e acima do qual ela ocorre; na terminologia farmacolgica e toxicolgica este
valor chamado tolerncia (Ashton, 1972). Essa tolerncia varia de um indivduo para outro
da populao e ento, h uma distribuio de tolerncias a qual pode-se associar uma varivel
aleatria U com f.d.p. representada por curvas, simtricas ou assimtricas, dos tipos
apresentadas na Figura 2.


Figura 2: Distribuies de tolerncias.
18 Clarice G.B. Demtrio
Se a dose d
i
dada para a populao toda e f(u) a funo de densidade para a
distribuio de tolerncias, todo indivduo cuja tolerncia menor do que d
i
responder
droga, e a probabilidade de que um indivduo escolhido ao acaso responda dose dada por

. (2.1) | | ( )

=
i
d
i i
du u f d F d U
-
i
) ( = = P

A probabilidade de ocorrer uma resposta (sucesso) tipicamente nula para valores
pequenos de d, unitria para valores grandes de d (pois, ento, um sucesso certo) e uma
funo estritamente crescente de d. Uma tal curva tem as propriedades matemticas de uma
funo de distribuio contnua acumulada e tem as formas sigmoidais tpicas (simtrica ou
assimtrica) como mostradas na Figura 3.

0,0
0,2
0,4
0,6
0,8
1,0
0 2 4 6 8 10
Doses
F
(
d
)
12

0,0
0,2
0,4
0,6
0,8
1,0
0 2 4 6 8 10
Doses
F
(
d
)
12

Figura 3: Curvas sigmides tpicas relacionando e dose.
i

Observe-se que se assume que nenhum indivduo responder se a dose muito
pequena e que todos os indivduos respondero se a dose grande. Estas suposies nem
sempre so razoveis. Pode haver indivduos que respondero naturalmente sem a droga
(morte natural) e outros que so imunes droga, o que pode causar um excesso de zeros e
uma variabilidade maior do que a esperada (superdisperso).
O problema, ento, est em se encontrar um curva sigmide que se ajuste bem aos
dados e a partir dela obter DL
50
e DL
90
. O que ocorre, porm, que so modelos no-
lineares nos parmetros e ento, a idia se fazer uma transformao tal que essa curva
sigmide se transforme em uma reta e assim, procedimentos comuns de regresso possam ser
usados para se estimarem os parmetros. So apresentadas, a seguir, as curvas sigmides mais
comuns e suas respectivas transformaes lineares.

i) Modelo probit (Probability unit)

Nesse caso assume-se que U tem distribuio normal de mdia e varincia , isto
,

2
( )
, 0 e ,
2
-
- exp
2
1
= ) , ; (
2
2
2
2
2
>
(


u
u f
U


Modelos Lineares Generalizados na Experimentao Agronmica 19
e, portanto,

( )
i i
i
i i
d Z d

- U
d U
2 1
P
1
P P = ) P( + = |
.
|

\
|
+ = |
.
|

\
|
=

para

- =
1
e

1
2
= . Portanto, como , tem-se que: N(0,1) ~ Z

( )
i i
d
2 1
+ = ,

em que () representa a funo de distribuio normal padro, uma funo no-linear em
um conjunto linear de parmetros. linearizada por:

( ) ( )
i i
d
2 1
-1
i
= probit + = .

ii) Modelo logstico (Logistic unit)

Nesse caso, assume-se que U tem distribuio logstica com parmetros e , que
similar distribuio normal na forma, com caudas um pouco mais longas e tem f.d.p. dada
por:
( ) , 0 , ,
exp 1
exp
1
, ;
2
>
(

|
.
|

\
|
+
|
.
|

\
|
=


u
u
u f
U


com mdia e varincia = ) ( E U
3
) ( Var
2 2
2

= = U (Mood et al., 1974). Fazendo-se,

- =
1
e

1
2
= , tem-se:
( )
( )
2
2
2 1
2 1
2 1
+ 1

;
u
u
U
e
e
u f


+
+
= .
Logo,
( ) ( )
i
d
i
d
i i i
e +
e
d F d U P
2 1
2 1
1
+
+
= = =

uma funo no-linear em um conjunto linear de parmetros e linearizada por:

( )
i
d

2 1
i
i
i
- 1
n logit + =
|
|
.
|

\
|
= l .

iii) Modelo complemento log-log

Nesse caso, assume-se que U tem distribuio Gumbel de valor extremo com
parmetros e , que uma distribuio assimtrica ao contrrio das duas anteriores que
so simtricas, e tem f.d.p. dada por:


20 Clarice G.B. Demtrio
( ) , 0 , , exp exp exp
1
, ; >
)
`

|
.
|

\
|

|
.
|

\
|

=
u u
u f
U


com mdia E e varincia + = ) (U
6
) ( Var
2 2
2

= = U , sendo (Mood et
al., 1974). Fazendo-se,
577216 , 0

- =
1
e

1
2
= , tem-se:

( ) ( )
u
U
u u f
2 1
e exp , ;
2 1 2 2 1


+
+ = .
Logo,

( ) ( ) ( | |
i i i i
d d F d U P
2 1
+ exp - exp - 1 = = = )

uma funo no-linear em um conjunto linear de parmetros e linearizada por:

( ) | |
i 2 1 i
d - 1 n n + = l l .

V-se, ento, que esses trs exemplos tm em comum

i) a distribuio dos Y (Binomial) um membro da famlia exponencial, com
;
i
i i i i
m Y = = ) E(

ii) as variveis explanatrias entram na forma de uma soma linear de seus efeitos, ou
seja,

x
T
j
j
ij i
x
i
2
1 =
= =

sendo, , e o preditor linear. ( )
T
i i
d 1 = x (
T
2 1
= )
i

iii) a mdia funcionalmente ligada ao preditor linear, isto ,
i


) (
i
i
i
i
g
m
g

=
|
|
.
|

\
|
=
que nos casos vistos foram:

modelo probit: ; ( ) ( )
i i

-1
i
= g =

modelo logstico: ( )
|
|
.
|

\
|


i
i
i
1
n = g =
i
l ;

modelo complemento log-log: . ( ) ( ) | |
i i
- 1 n - n = g = l l
i

Modelos Lineares Generalizados na Experimentao Agronmica 21
Portanto, tem-se que esses modelos so baseados na famlia exponencial com um
parmetro desconhecido, cujas mdias so no-lineares num conjunto de parmetros lineares,
isto ,

modelo probit: ; ( ) ( )
i i i i
d m m
2 1 i
+ = =

modelo logstico:
i
i
i
i
d
d
i

i
e
e
m
e
e
m
2 1
2 1
1 1
i
+
+
+
=
+
= ;

modelo complemento log-log: . )}} exp( exp{ 1 { )}} exp( exp{ 1 {
2 1 i i i i i
d m m + = =

b) Ensaios de diluio

prtica comum, o uso dos ensaios de diluio para se estimar a concentrao de um
organismo (nmero por unidade de volume, de rea, de peso etc) em uma amostra quando
contagem direta no possvel, mas a presena ou ausncia do organismo em sub-amostras
pode ser detectada (Ridout, 1998). No so necessrias, portanto, as contagens dos
organismos e, em geral, registrar a presena, ou ausncia, fica mais econmico. Por exemplo,
pode-se detectar se uma determinada bactria est presente, ou no, em um lquido por um
teste de cor, ou se um fungo est presente, ou no, em uma amostra de solo, plantando-se uma
planta susceptvel nesse solo e verificando se a planta apresenta sintomas da doena. Esse
mtodo est baseado na suposio que o nmero de indivduos presentes segue uma
distribuio de Poisson, o que uma suposio forte e importante verificar se verdadeira.
Por exemplo, a distribuio espacial de um fungo no solo est longe de ser aleatria e pode
ser que o nmero de indivduos em diferentes amostras desse solo no siga a distribuio de
Poisson.
Nos ensaios de diluio, a soluo original diluda progressivamente e na i-sima
diluio so feitas as contagens (Exemplo 6) ou, ento, so testadas m
i
sub-amostras das
quais Y
i
apresentam resultado positivo para a presena do organismo (Exemplo 7). Seja v
i
o
volume da amostra original que est presente em cada uma das sub-amostras na i-sima
diluio. Em geral, mas nem sempre, so usadas diluies iguais, tal que os v
i
's ficam em
progresso geomtrica.

Exemplo 6: A Tabela 4 mostra os dados referentes a contagens de partculas de vrus para 5
diluies diferentes, sendo que foram usadas 4 repeties para as 4 primeiras diluies e 5
repeties para a ltima diluio. O objetivo do experimento era estimar o nmero de
partculas de vrus por unidade de volume.

Tabela 4: Nmeros de partculas de vrus para 5
diluies diferentes.

Diluio Contagens
0,3162 13 14 17 22
0,1778 9 14 6 14
0,1000 4 4 3 5
0,0562 3 2 1 3
0,0316 2 1 3 2 2
Fonte: Ridout (1990)
22 Clarice G.B. Demtrio
Exemplo 7: A Tabela 5 mostra os dados de um ensaio de diluio realizado para determinar o
nmero de esporos de B. mesentericus por g de farinha de batata (Fisher & Yates, 1970). Uma
suspenso lquida foi preparada e sujeita a sucessivas diluies para que resultassem solues
com 4, 2, ..., 1/128g de farinha por 100ml de soluo. Para cada diluio foram tomadas 5
amostras de 1ml e foi contado o nmero de amostras com esporos.

Tabela 5: Nmeros de amostras (Y) que contm esporos em 5 amostras, para diferentes
quantias (g) de farinha de batata em cada diluio.

g/100ml 4 2 1 1/2 1/8 1/16 1/32 1/64 1/128
Y 5 5 5 5 4 3 2 2 0 0

O parmetro de interesse , a concentrao de organismos por unidade de volume
(v
i
) . Se os organismos esto aleatoriamente distribudos, o nmero de organismos em uma
sub-amostra da i-sima diluio segue a distribuio de Poisson com mdia , isto ,
i
v

i i
v = .

Assim, se forem feitas contagens dos indivduos aps a diluio, tem-se que essa
expresso, pode ser linearizada, usando-se a funo logartmica, ou seja,

. (2.2) offset v
i i i
+ = + = =
1
) ( n ) ( n ) ( n l l l

Quando se observa o nmero de amostras em que o indivduo est presente tem-se
, desde que as sub-amostras de cada diluio sejam independentes, sendo que
a probabilidade de que o organismo esteja presente na sub-amostra dada por:
) , ( Bin ~
i i i
m Y
i

} exp{ 1 ) presente organismo um menos pelo (
i i
v P = = .
Logo,
. (2.3) offset v
i i i
+ = + = =
1
) ( n ) ( n )] 1 ( n [ n l l l l

Tem-se, em (2.2) e (2.3), que e entra como
varivel offset, e, portanto, com coeficiente conhecido que no caso . Alm disso, para
(2.2) tem-se uma funo de ligao logartmica para o modelo Poisson enquanto que para
(2.3) tem-se a ligao complemento log-log para o modelo binomial.
) exp( = ) ( n
1 1
= l

) ( n
i
v l
1
2
=
Esse mtodo de diluio em srie grandemente utilizado em muitas reas da
Biologia. Podem ser tratados de forma semelhante os problemas de estimao de:

a) proporo de sementes doentes em um lote de sementes, em que n o tamanho da
amostra de sementes, a probabilidade de uma semente infectada e

) 1 ( n
1 ) 1 ( 1 ) doente semente uma menos pelo (



= = =
l n n
e P ;

b) proporo de um determinado tipo de clula em uma populao em estudos de
imunologia;
Modelos Lineares Generalizados na Experimentao Agronmica 23
c) probabilidade de uma partcula de vrus matar um inseto, nos ensaios de controle
biolgico;
d) taxa mdia de falha de um determinado componente quando os tempos de falha so
distribudos exponencialmente.

Nesse exemplo, v-se, novamente, que:

i) a distribuio dos Y (Poisson ou Binomial) um membro da famlia exponencial,
com ou ;
i
E(
i i
Y = ) E(
i i i i
m Y = = )

ii) as variveis explanatrias entram na forma de uma soma linear de seus efeitos, ou seja,

x
T
j
j
ij i
x
i
2
1 =
= =

sendo, , e o preditor linear; ( )
T
i i
d 1 = x (
T
2 1
= )
i

iii) a mdia funcionalmente ligada ao preditor linear, isto ,
i


) (
i i
g = ou ) (
i
i
i
i
g
m
g

|
|
.
|

\
|
= =

que nos casos vistos foram:

modelo log-linear: ; ( )
i i
n = g = l
i

modelo complemento log-log: . ( ) ( ) | |
i i
- 1 n - n = = l l
i
g

Portanto, tem-se que esses modelos so baseados na famlia exponencial com um
parmetro desconhecido, cujas mdias so no-lineares num conjunto de parmetros lineares,
isto ,

modelo log-linear: ;
offset
e e
i
+
= =
1
i


modelo complemento log-log: , )}} exp( exp{ 1 { )}} exp( exp{ 1 {
1 i
offset m m
i i i
+ = =

sendo e l . 1
2
= offset v
i
= ) ( n

c) Tabelas de contigncia

Dados de contagens so oriundos da simples contagem de eventos (por exemplo,
nmero de brotos por explante), ou ento, da freqncia de ocorrncias em vrias categorias e
que do origem s tabelas de contingncia. Sejam os exemplos:

Exemplo 8: Os dados da Tabela 6 referem-se a coletas de insetos em armadilhas adesivas de
duas cores, em que os indivduos coletados de uma determinada espcie foram sexados, com
o fim de se verificar a influncia da cor da armadilha sobre a atrao de machos e fmeas
dessa espcie.

24 Clarice G.B. Demtrio
Tabela 6: Nmeros de insetos coletados em armadilhas
adesivas e sexados

Armadilha Machos Fmeas Totais
Alaranjada 246 17 263
Amarela 458 32 490
Totais 704 49 753
Fonte: Silveira Neto et al. (1976)

V-se que o nmero de insetos que chegam s armadilhas, seja do sexo feminino ou do
sexo masculino um nmero aleatrio, caracterizando uma observao de uma varivel com
distribuio de Poisson. A hiptese de interesse a hiptese da independncia, isto , o sexo
do inseto no afeta a escolha pela cor da armadilha.

Exemplo 9: Os dados da Tabela 7 referem-se a um ensaio de controle de brocas do fruto do
tomateiro atravs de 4 tratamentos.

Tabela 7: Nmeros de frutos de tomateiro sadios e com broca

Frutos
Inseticidas
Sadios Com broca
Totais
Diazinon 1690 115 1805
Phosdrin 1578 73 1651
Sevin 2061 53 2114
Testemunha 1691 224 1915
Totais 7020 465 7485
Fonte: Silveira Neto et al. (1976)

Tem-se aqui, tambm, um caso em que o nmero total de frutos com broca uma
varivel aleatria e, portanto, podendo ser estudada pela distribuio de Poisson. A hiptese a
ser testada a da homogeneidade, isto , a proporo de frutos sadios a mesma para todos os
inseticidas.
A distribuio de Poisson desempenha na anlise de dados categorizados o mesmo
papel que o modelo normal ocupa na anlise de dados contnuos. A diferena fundamental
est em que a estrutura multiplicativa para as mdias do modelo de Poisson mais apropriada
do que a estrutura aditiva do modelo com erro Normal. Ele especialmente til na anlise de
tabelas de contingncia em que as observaes consistem de contagens ou freqncias nas
caselas pelo cruzamento das variveis resposta e explanatrias.
Os valores da varivel dependente podem ser considerados como variveis de Poisson
com mdia , e, portanto,
i

( )
i
= E
i
Y .

Considerando-se uma tabela de contingncia bidimensional e a hiptese de
independncia, se ocorre nos nveis j ( j = 1, ..., J) e k (k = 1, ..., K), respectivamente, dos
dois fatores de classificao, ento,
i
y
Modelos Lineares Generalizados na Experimentao Agronmica 25
'
j
=
k i
m

sendo que e e so as probabilidades marginais de uma observao pertencer
s classes j e k, respectivamente.

n
1 = i
=
i
y m
j
'
k
De forma semelhante pode ser verificado que, em geral, para dados colocados em
tabelas de contingncia, as hipteses mais comuns podem ser expressas como modelos
multiplicativos para as freqncias esperadas das caselas (McCullagh & Nelder, 1989;
Agresti, 1990). Verifica-se, ento, que na anlise de dados categorizados, de uma forma geral,
a mdia obtida como um produto de outras mdias marginais. Isto sugere que uma
transformao logartmica do valor esperado lineariza essa parte do modelo (da vem o nome
de modelo log-linear). Considerando-se o exemplo dado tem-se:
i


( )
k j
'
j i i
+ + = n + n + n n m
k
= = l l l l .

Novamente, tem-se:

i) a distribuio dos Y (Poisson) um membro da famlia exponencial, com E( ;
i i i
Y = )

ii) as variveis explanatrias entram na forma de uma soma linear de seus efeitos, ou seja,

x
T
j
p
j
ij i
x
i
1 =
= = ,

sendo um vetor de variveis dummy, e o
preditor linear;
i
x
T
K K
) ..., , , ..., , , (
1 1
=
i

iii) a mdia funcionalmente ligada ao preditor linear, isto ,
i


) ( n ) (
i i i
g l = = .

Portanto, tem-se que esses modelos so baseados na famlia exponencial com um
parmetro desconhecido, cujas mdias so no-lineares num conjunto de parmetros lineares,
ou seja,

} exp{
i i
= = exp{ . } x
T
i

2.3 Definio

Os modelos lineares generalizados podem ser usados quando se tem uma nica
varivel aleatria Y e associado a ela um conjunto de variveis explicativas .
Para uma amostra de n observaes em que o vetor coluna
de variveis explicativas, o modelo linear generalizado envolve os trs componentes:
p
X X X ..., , ,
2 1
) , (
i i
y x
T
pi i i i
x x x ) ..., , , (
2 1
= x

i) Componente aleatrio: representado por um conjunto de variveis aleatrias
independentes provenientes de uma mesma distribuio que faz parte da famlia
exponencial na forma cannica com mdias , ou seja,
k
Y Y Y ,..., ,
2 1
k
,..., ,
2 1

26 Clarice G.B. Demtrio
( ) n i Y ..., , 2 , 1 , E
i i
= = ,

um parmetro constante de escala, conhecido, e que depende de um nico parmetro
, chamado parmetro cannico ou natural. A f.d.p. de Y dada por
0 >
i

i

( )
( )
( ) | | ( )
)
`

; + -
1
exp , ;
i i i i
i
i i
y c b y
a
y f ,

sendo b(.) e c(.) funes conhecidas. Em geral,
i
i
w
a

= ) ( , sendo pesos a priori. Alm
disso, de (1.8)
i
w
( ) ( )
i i
E b Y
i
= =
e
( ) ( ) ( ) ( ) ( ) ( )
i i i i i i
V a V a b a Y = = =
i
Var

em que
i
i
i
d
d

= V chamada funo de varincia, e como depende unicamente da mdia tem-


se que o parmetro natural pode ser expresso como

( )

=
i i
1
i
= q d V
-
i


para uma funo conhecida de . ( )
i
q
i


ii) Componente sistemtico: as variveis explicativas entram na forma de uma soma
linear de seus efeitos
x
T
j
p
j
ij i
x
i
1 =
= = ou , X =

sendo a matriz do modelo, o vetor de parmetros e
o preditor linear. Se um parmetro tem valor conhecido, o termo
correspondente na estrutura linear chamado offset, como visto nos ensaios de diluio.
T
n
) .., , , (
2 1
x x x X=
T
n
) .., , ,
2 1

T
p
) .., , , (
2 1
=
( =

iii) Funo de ligao: uma funo que liga o componente aleatrio ao componente
sistemtico, ou seja, relaciona a mdia ao preditor linear, isto ,

( )
i i
g = ,

sendo g(.) uma funo montona, derivvel.

Assim, v-se que para a especificao do modelo, os parmetros da famlia
exponencial no so de interesse direto (pois h um para cada observao) mas sim um
conjunto menor de parmetros tais que uma combinao linear dos seja
igual a alguma funo do valor esperado de Y .
i
p
..., , ,
2 1
i
s '
Modelos Lineares Generalizados na Experimentao Agronmica 27
Portanto, uma deciso importante na escolha do modelo linear generalizado a
escolha do trinmio:

i) distribuio da varivel resposta;
ii) matriz do modelo e
iii) funo de ligao.

Se a funo de ligao escolhida de tal forma que , o preditor linear
modela diretamente o parmetro cannico e tal funo de ligao chamada ligao cannica.
Isto resulta, freqentemente, em uma escala adequada para a modelagem com interpretao
prtica para os parmetros de regresso, alm de vantagens tericas em termos da existncia
de um conjunto de estatsticas suficientes para os parmetros e alguma simplificao no
algoritmo de estimao. A estatstica suficiente T , com componentes t
j = 1, 2, ..., p. As funes de ligao cannicas para as distribuies estudadas esto
apresentadas na Tabela 8.
i i
g = ) (
s '
Y X
T
= =
=
n
i
i ij j
Y x
1
,

Tabela 8: Funes de ligao cannicas
Distribuio Ligao cannica
Normal Identidade:
=
Poisson Logartmica: ) n( l =
Binomial Logstica:
|
|
.
|

\
|

= |
.
|

\
|
=
-
n
- 1
n
m

l l
Gama Recproca:

1
=
Normal Inversa Recproca
2
:
2
1

=

Deve ser lembrado, porm, que embora as funes de ligao cannicas levem a
propriedades estatsticas desejveis para o modelo, principalmente no caso de amostras
pequenas, no h nenhuma razo a priori para que os efeitos sistemticos do modelo devam
ser aditivos na escala dada por tais funes (McCullagh & Nelder, 1989).
Para o modelo linear clssico a funo de ligao chamada identidade, pois o
preditor linear igual mdia. Essa funo de ligao adequada no sentido em que ambos,
e , podem assumir valores na linha real.
Entretanto, certas restries surgem quando se trabalha, por exemplo, com a
distribuio de Poisson em que e, portanto, a funo de ligao identidade no deve ser
usada, pois poder assumir valores negativos dependendo dos valores obtidos para .
Alm disso, dados de contagem dispostos em tabelas de contingncia, sob a suposio de
independncia, levam naturalmente a efeitos multiplicativos cuja linearizao pode ser obtida
atravs da ligao logartmica, isto , de onde se tem (conforme visto em
2.2).
0 >

n l =

e =
28 Clarice G.B. Demtrio
Para a distribuio binomial a restrio que 0 e, portanto, uma funo de
ligao deve satisfazer condio de transformar o intervalo (0,1) na linha dos reais. (ver
Exerccio 2.12.4). Nesse caso as funes de ligao mais comumente encontradas, alm da
cannica, so a Probit e a complemento log-log:
1 < <

( )
1 1
|
.
|

\
|
= =

m


e
( ) | |
(

|
.
|

\
|
= =
m

1 n n 1 n n l l l l .

Aranda-Ordaz (1981) props a famlia de funes de ligao dada por


1 ) 1 (
n
(


l

sendo uma constante desconhecida e que tem como casos particulares o modelo logstico
para e o complemento log-log para .

=1 0
Uma famlia importante de funes de ligao, principalmente para dados com mdia
positiva, a famlia potncia (ver Exerccio 2.12.6), especificada por:


=

0 = n
0
1
l

ou ento,



=

0 = n
0
l


sendo uma constante desconhecida.

2.4 Estimao do vetor de parmetros

O ajuste de um modelo linear generalizado determinado pelo vetor de estimativas
dos parmetros. O mtodo usado na estimao dos o mtodo da mxima
verossimilhana.

s '
O logaritmo da funo de verossimilhana para um conjunto de observaes
independentes dado pela soma das contribuies individuais, isto ,
n
y y y ,..., ,
2 1

( ) ( )
( )
( ) | | ( )

= =
)
`

= = =
n
i
i i i i
i
n
i
i i
y c b y
a
y
1 1
;
1
; ; l l l y ,

sendo que , e . ( )
i i
E = Y ( ) x
T
i i i
g = = ( )

=
i i
1
i
= q d V
-
i

Modelos Lineares Generalizados na Experimentao Agronmica 29
Uma propriedade da famlia exponencial de distribuies que seus elementos
satisfazem a condies de regularidade suficientes para assegurar que o mximo global do
logaritmo da funo de verossimilhana l dado unicamente pela soluo do sistema de
equaes
( y ; )
0

= =
d
dl
ou equivalentemente, 0

= =
d
dl
U (Cox & Hinkley, 1986, captulo
9). Tem-se, ento, que a funo escore dada por

( )
=

=
= =
n
i
j
i
n
i
j
i i
j
y
U
1 1
, ;

l l
.
Mas,


( )
( )
( ) ( )
j
1
1 -
1
2 1






, , , , ,



= =

= =

=
p
j
ij i
i i i
i i i i
n i
x
h g
q d V
f K K l
e, pela regra da cadeia, tem-se


( ) | | .
1

) (
1
1
1
ij
i
i
n
i
i
i
i i
i
j
i
i
i
i
i
n
i i
i
j
x
d
d
d
d
b y
a
d
d
d
d
d
d
U
=
=

=
=

l


Mas, como j foi visto em (1.8)

( ) ( )
i
b Y = =
i i
E
e
( ) ( ) ( ) ( ) ( )
i
i
i i
i
i i
V
d
d
V a
d
d
a Y

= =
i i
= Var .
Logo,

( )
( )
( )
= =
=
n
i
i
i i
i j
j
d
d
V
y
a
U
1
ij
i
i
x
1 1


l
. (2.4)

Em geral, as equaes U no so lineares e tm que ser
resolvidas numericamente por processos iterativos do tipo Newton-Raphson. O mtodo
iterativo de Newton-Raphson para a soluo de uma equao baseado na
aproximao de Taylor para a funo nas vizinhanas do ponto , ou seja,
p j
j
..., , 2 , 1 , 0 = =
) (x f
0 ) ( = x f
0
x
30 Clarice G.B. Demtrio
( ) ( ) ( ) ( ) 0
0 0 0
= + = x ' f x x x f x f ,
obtendo-se
( )
( )
0
0
0
' x f
x f
x x =
ou, de uma forma mais geral,
( ) ( )
( )
( )
( )
( )
m
m
m m
x f
x f
x x
'
1
=
+
,

sendo o valor de x no passo (m+1), o valor de x no passo m, a funo
avaliada em e a derivada da funo avaliada em .
( 1 + m
x
) ( ) m
x
( )
) (
m
x f
( ) m
) (x f
( ) m
x
( )
) ( '
m
x f ) (x f x
Considerando-se que se deseja obter a soluo do sistema de equaes 0

= =
d
dl
e
usando-se a verso multivariada do mtodo de Newton-Raphson, tem-se:

( ) ( )
( )
( )
(m
m
o
m m
U I
1 - 1
+ =
+ )
,

sendo
)
e os vetores de parmetros estimados nos passos m e (m+1), o vetor
escore, isto , o vetor de derivadas parciais de 1
(m

( 1 + m ) ( ) m
U
a
ordem de , com elementos ) (x f

j

l
,
avaliado no passo m e a inversa da negativa da matriz de derivadas parciais de 2 ( )
( ) m
o
1 -
I
a

ordem de , com elementos ) x ( f
k j



2
l
, avaliada no passo m.
Quando as derivadas de 2
a
ordem so obtidas facilmente, o mtodo de Newton-
Raphson bastante til. Acontece, porm, que isso nem sempre ocorre e no caso dos modelos
lineares generalizados usa-se o mtodo escore de Fisher que, em geral, mais simples
(coincidindo com o mtodo de Newton-Raphson no caso das funes de ligao cannicas).
Ele envolve a substituio da matriz de derivadas parciais de 2
a
ordem pela matriz de valores
esperados das derivadas parciais, isto , a substituio da matriz de informao observada, ,
pela matriz de informao esperada de Fisher, . Logo,
0
I

(2.5)
( ) ( )
( )
( )
( ) m
m
m m
U
-1 1
+ =
+

sendo que tem elementos dados por
(
(

=
(
(


=
k j k j
jk
E E


l l l

2
, que a matriz de
covarincias dos U . s
'
j

Multiplicando-se ambos os lados de (2.5) por tem-se
) (m


. (2.6)
( ) ( ) (m ) ( 1 ) (
U + =
+ m m m m )

Modelos Lineares Generalizados na Experimentao Agronmica 31
Assim, usando-se (2.4), obtm-se


( )
( ) | |
( )
( ) | |
( ) | |
( ) ( )
( ) | |
( ) ( )

=
=
=
|
|
.
|

\
|


=
|
|
.
|

\
|

=
(

= =
n
i
ik ij
i i
n
i
ik ij
i
i i
i
n
i
ik ij
i
i
i
i
k j jk
x x
d
d
V a
x x
d
d
V
V a
a
x x
d
d
V
Y
a
U U E
1
2
i
i
1
2
i
i
2 2
1
2
2
i
2
i
2

1 1

1

1

1
E
1



e fazendo-se ( )
i
i
w
a

= , com , constante, peso a priori e 0 >
i
w
( )
2
i

|
|
.
|

\
|
=
i i
i
i
d
d
V
w

W , tem-
se:
X W X
T

1

=

com elementos =
=
n
i
ik i ij jk
x W x
1

1

, , a matriz do modelo e .
No caso das funes de ligao cannicas W , pois
X ) ..., , , ( diag
2 1 n
W W W = W
(
i i i
V w = ) ) (
1
i
i
i
i
i
V
d
d


= =
d
d

.
Alm disso, rearranjando-se os termos de U tem-se
j

( )
( )
( ) =

=
= =
n
i
i i i ij ij
n
i
i
i
i
i i i
j
y
d
d
W x x
d
d
V
y w
U
1
i
i
1

1



e, portanto, o vetor escore fica U

( ) y W X
1
U

=
T


com ( ) ( ) ( ) { }
n
n
g g g
d
d
d
d
d
d
=
)
`

= , , , diag , , , diag
2 1
n
2
2
1
1
K L .

Logo, substituindo e em (2.6) tem-se U

( ) ( ) ( ) ( ) ( ) ( )
( )
) (
y W X
1
X W X
1
X W X
1
m m m m m m m


T T 1 + T


ou, ainda,
( ) ( ) ( ) ( ) ( )
( ) | |
) (
y X W X X W X
m m m m m m
+ =
T 1 + T


e fazendo-se , chamada varivel
dependente ajustada, tem-se
( ) ( ) ( )
( )
( ) ( )
( )
) ( ) (
y y X z
m m m m m m m
+ = + =
32 Clarice G.B. Demtrio
(2.7)
( ) ( ) ( )

) ( T 1 + T m m m m
z W X X W X =
ou ainda,

(2.8)
( ) ( )
( )
( )

) ( T
1
T 1 + m m m m
z W X X W X

=

que tem a forma da soluo das equaes normais, para o modelo linear obtida pelo mtodo
dos quadrados mnimos ponderados, exceto que nesse caso a soluo obtida por
processo numrico iterativo. importante observar que a expresso (2.8) independe de .
) 1 (

+
=
m

O mtodo usual para iniciar o processo iterativo especificar uma estimativa inicial
e sucessivamente alter-la at que a convergncia seja obtida e, portanto, .
Note, contudo que cada observao pode ser considerada como uma estimativa do seu valor
mdio, isto , e, portanto,
) 0 (

) 1 (

+
=
m

i i
y =

( ) (
i i i
y g g = = ).

Usando-se como a varivel dependente e , a matriz do modelo, obtm-se o vetor . A
seguir o algoritmo de estimao pode ser resumido nos seguintes passos:
X
) 0 (


1) obter as estimativas

=
=
p
j
m
ij
m
i
x
1
) (
j
) (

e
( )
) ( -1 ) ( m
i
m
i
g = ;

2) obter a varivel dependente ajustada

( ) ( )
) ( ) ( ) ( ) (

m
i
m
i i
m
i
m
i
g y z + =

e os pesos

( ) ( ) | |
2
) ( ) (
) (
m
i
m
i
i m
i
g V
w
W

= ;

3) calcular

( ) ( )
( )
( )

) ( T
1
T 1 + m m m m
z W X X W X

= ,

voltar ao passo (1) com
)
e repetir o processo at convergncia, obtendo-
se .
( ) ( 1 +

m m
=
( 1 +

m
=
)

Dentre os muitos existentes, um critrio para verificar a convergncia poderia ser :

Modelos Lineares Generalizados na Experimentao Agronmica 33


<
|
|
.
|

\
|
=
+
p
j
m
j
m
j
m
j
1
2
) (
) 1 ( ) (
,

tomando-se para um valor suficientemente pequeno. Em geral, esse algoritmo robusto e
converge rapidamente (3 ou 4 iteraes so suficientes).

Observao: Deve-se tomar cuidado se a funo no definida para alguns valores .
Por exemplo, se a funo de ligao for dada por
( ) . g
i
y

( ) n g l = =

e forem observados valores o processo no pode ser iniciado. Um mtodo geral para
contornar esse problema substituir y por tal que seja a mais prxima
possvel de . Para o modelo de Poisson com funo de ligao logartmica usa-se
0 =
i
y
c y + )] ( [ c Y g E +
) ( g
2
1
= c .
Para o modelo logstico usa-se
2
2 1
= c , para
m

= e m, o ndice da distribuio
binomial. De uma forma geral, usando-se a expanso de Taylor at 2
a
ordem para
em relao a tem-se:
) ( c y g +
) ( g

2
) ( "
) ( ) ( ) ( ) ( ) (
2


g
c y g c y g c y g + + + + +

com valor esperado dado por:

2
) ( "
) ( ) ( ) ( ) ( ) ( )] ( [


g
Y Var g c g Y E g c Y g E + + + +

em que se tem:
( )
) (
) (

2
1

g
g
Y Var c


.

2.5 Um exemplo do algoritmo de estimao

Considere os dados do Exemplo 5. A varivel resposta tem distribuio binomial, isto
, Y e como j foi visto, a f.d.p. de Y pode ser escrita como: ) , ( ~
i i i
m Bin
i

} ..., 1, {0, [0,1], ), ( ) - (1 = ) ; (
) - (
i i i A
y m
i
y
i
i
i
i i
m A y I
y
m
y f
i i i
=
|
|
.
|

\
|
.

Logo,

1 = , , , 1 =
i
w 1 ) ( =
i
a

34 Clarice G.B. Demtrio
i i i i i
m b Y = ) ( = ) E( = ,

) - (
1
) 1 ( = ) Var(
i i i
i
i i i i
m
m
m Y =
e
). (
1
) 1 ( ) (
i i i
i
i i i i
m
m
m V = =

Adotando-se a funo de ligao logstica (cannica) e o preditor linear dado por uma
regresso linear simples, isto ,

i
i i
i
i
i
i
d
m m
g
2 1
n + =
|
|
.
|

\
|

=
|
|
.
|

\
|
= l
tem-se
( )
i
i
e
e
m g m
i i i i


+
= =
1
1 -
,

( )
( )
( )
i i i
i
i
i i
2
-


+
=
m
m m
m
m
d
d
i i
i i i
i
i
,

( )
T
n
d
d
d
2 1
2
1
, e
1
1
1
=
(
(
(
(

= X
K K
.

Portanto,
( )
( )
i i i
i
i i i i
m
m
y z

+ =
e
( )
i i i
i
i i
m
m
V W = =
1
.

Ainda,

(

=
(
(
(
(

=
n n
n
i
n
T
d W
W
d W d W
W W
W
W
W
d d d K
K
K
K K K K
K
K
K
K

0 0
0 0
0 0
1

1 1
2 2 1 1
2 1 2
1
2 1
W X


Modelos Lineares Generalizados na Experimentao Agronmica 35
(
(
(



=
= =
= =
n
i
i i
n
i
i i
n
i
i i
n
i
i
T
d W d W
d W W
1
2
1
1 1
WX X , ( )
(
(
(



=
= =
= =

n
i
i
n
i
i i
n
i
i i
n
i
i i
T
W d W
d W d W
1 1
1 1
2
1
det
1
WX X
(
(
(

=
=
=
n
i
i i i
n
i
i i
z d W
z W
1
1
z
,

T
X W

sendo .
2
1 1
2
1
det
(

=
= = =
n
i
i i
n
i
i i
n
i
i
d W d W W

Portanto,

( )
(
(
(



=
(

=
= = = =
= = = =
+
+
+
n
i
m
i
m
i
n
i
i
m
i
n
i
m
i i
m
i
n
i
m
i
n
i
m
i i
m
i
n
i
i
m
i
n
i
m
i
m
i
n
i
i
m
i
m m
m
m
z W d W z d W W
z d W d W z W d W
1
) ( ) (
1
) (
1
) ( ) (
1
) (
1
) ( ) (
1
) (
1
) ( ) (
1
2 ) (
) ( 1
21
1
1 1


det
1

.

A seguir, apresenta-se um programa em linguagem GLIM (Francis et al., 1993) para o
clculo dos passos intermedirios desse algoritmo. Tambm so apresentados os programas
GLIM (default) e SAS para se fazer a regresso logstica.


! Macro para o processo iterativo
!
!
$M Iter!
$Assign par = beta1, beta2 $!
$Ca eta = beta1 + beta2 * d : mu = m * %Exp(eta)/(1 + %Exp(eta)) !
: z = eta + m * (y-mu)/(mu*(m-mu)) : W = mu*(m-mu)/m : pe = mu/m
: Det = %Cu(W) * %Cu(W*(d**2)) -(%Cu(W*d))**2 !
: beta1 = ( %Cu(W*(d**2)) * %Cu(W*z) - %Cu(W*d) * %Cu(W*d*z) )/Det!
: beta2 = ( %Cu(W) * %Cu(W*d*z) - %CU(W*d) * %Cu(W*z) )/Det!
$Assign npar= beta1, beta2 $!
$Pr : ' ITERACAO NUMERO '*i I : $Look eta mu z W $!
$PR : 'beta1(' *i I ') = ' beta1 ' beta2(' *i I ') = ' beta2 $!
$CA %W=%Cu(((par-npar)/par)**2) : I=I+1 : %N=%IF(%LT(%W,0.0001),0,1) $$E!
!
!
$Slen 6 $Data d y m $Read!
10.2 44 50!
7.7 42 49!
5.1 24 46!
3.8 16 48!
2.6 6 50!
0.0 0 49!
$number beta1 beta2 Det I $
!
$Ca y(6)= 0.002 : p= y/m : eta=%log(y/(m-y)) $
!
!
36 Clarice G.B. Demtrio
$Print : '**** RESULTADOS ****' : $Look d m y p eta $!
$Yvar eta $Fit d $Extr %pe $Ca beta1=%pe(1) : beta2=%pe(2) $
!
$PR : ' Estimativas iniciais '
: ' beta1(0) = ' beta1 ' Beta2(0) = ' beta2 $VAR 2 par npar $!
!
$CA %N=1 : I = 1 $While %N Iter $!
$CA eta = beta1 + beta2 * d : mu = m * %Exp(eta)/(1 + %Exp(eta))
: pe = mu/m $!
$Print : '**** RESULTADOS FINAIS ****' : $Look d m y mu p pe $!
!
$Pr: 'USANDO OS RECURSOS DO GLIM' : $!
$Ca y(6)=0 $
$Yvar y $Err B m $!
$Fit d $Display MER $!
$FINISH!



[o] **** RESULTADOS ****
[o]
[o] D M Y P ETA
[o] 1 10.200 50.00 44.000000 0.88000000 1.99243
[o] 2 7.700 49.00 42.000000 0.85714287 1.79176
[o] 3 5.100 46.00 24.000000 0.52173913 0.08701
[o] 4 3.800 48.00 16.000000 0.33333334 -0.69315
[o] 5 2.600 50.00 6.000000 0.12000000 -1.99243
[o] 6 0.000 49.00 0.002000 0.00004082 -10.10639
[o] deviance = 25.834
[o] residual df = 4
[o]
[o]
[o] Estimativas iniciais
[o] beta1(0) = -6.680 Beta2(0) = 1.060
[w] -- change to data values affects model
[o]
[o] ITERACAO NUMERO 1
[o]
[o] ETA MU Z W
[o] 1 4.131 49.20901 -2.5607 0.77848
[o] 2 1.481 39.92041 1.7620 7.39716
[o] 3 -1.275 10.04794 0.5018 7.85314
[o] 4 -2.653 3.15962 1.6976 2.95164
[o] 5 -3.925 0.96846 1.3735 0.94970
[o] 6 -6.680 0.06144 -7.6489 0.06137
[o]
[o] beta1(1) = 1.131 beta2(1) = -0.0150
[o]
[o] ITERACAO NUMERO 2
[o]
[o] ETA MU Z W
[o] 1 0.9776 36.33 1.74971 9.932
[o] 2 1.0152 35.97 1.64579 9.566
[o] 3 1.0543 34.11 -0.09303 8.815
[o] 4 1.0739 35.78 -1.09669 9.111
[o] 5 1.0919 37.44 -2.25019 9.406
[o] 6 1.1310 37.05 -2.96755 9.038
[o]
[o] beta1(2) = -3.065 beta2(2) = 0.5217
Modelos Lineares Generalizados na Experimentao Agronmica 37
[o] ITERACAO NUMERO 3
[o]
[o] ETA MU Z W
[o] 1 2.2565 45.260 1.9627 4.290
[o] 2 0.9522 35.356 1.6271 9.845
[o] 3 -0.4042 18.414 0.1017 11.043
[o] 4 -1.0825 12.146 -0.6577 9.073
[o] 5 -1.7085 7.668 -1.9654 6.492
[o] 6 -3.0649 2.184 -4.1106 2.087
[o]
[o] beta1(3) = -3.158 beta2(3) = 0.5876
[o]
[o] ITERACAO NUMERO 4
[o]
[o] ETA MU Z W
[o] 1 2.8352 47.227 1.60285 2.619
[o] 2 1.3662 39.041 1.73905 7.935
[o] 3 -0.1616 21.146 0.08823 11.425
[o] 4 -0.9254 13.625 -0.68202 9.757
[o] 5 -1.6306 8.188 -1.95007 6.847
[o] 6 -3.1583 1.998 -4.19975 1.916
[o]
[o] beta1(4) = -3.223 beta2(4) = 0.6045
[o]
[o] ITERACAO NUMERO 5
[o]
[o] ETA MU Z W
[o] 1 2.9431 47.497 1.47252 2.378
[o] 2 1.4318 39.552 1.75280 7.627
[o] 3 -0.1400 21.392 0.08784 11.444
[o] 4 -0.9259 13.620 -0.68197 9.755
[o] 5 -1.6514 8.046 -1.95445 6.751
[o] 6 -3.2232 1.877 -4.26191 1.805
[o]
[o] beta1(5) = -3.225 beta2(5) = 0.6051
[o]
[o]
[o] **** RESULTADOS FINAIS ****
[o]
[o] D M Y MU P PE
[o] 1 10.200 50.00 44.000000 47.505 0.88000000 0.95009
[o] 2 7.700 49.00 42.000000 39.567 0.85714287 0.80748
[o] 3 5.100 46.00 24.000000 21.399 0.52173913 0.46519
[o] 4 3.800 48.00 16.000000 13.619 0.33333334 0.28372
[o] 5 2.600 50.00 6.000000 8.041 0.12000000 0.16081
[o] 6 0.000 49.00 0.002000 1.873 0.00004082 0.03822
[o]
[o] USANDO OS RECURSOS DO GLIM
[o]
[o] scaled deviance = 10.258 at cycle 4
[o] residual df = 4
[o]
[o] Current model:
[o]
[o] number of observations in model is 6
[o]
[o] y-variate Y
[o] weight *
[o] offset *
38 Clarice G.B. Demtrio
[o] probability distribution is BINOMIAL
[o] and binomial denominator M
[o] link function is LOGIT
[o] scale parameter is 1.000
[o]
[o] linear model:
[o] terms: 1+D
[o] estimate s.e. parameter
[o] 1 -3.226 0.3699 1
[o] 2 0.6051 0.06781 D
[o] scale parameter 1.000
[o]
[o] unit observed out of fitted residual
[o] 1 44 50 47.505 -2.277
[o] 2 42 49 39.567 0.881
[o] 3 24 46 21.398 0.769
[o] 4 16 48 13.618 0.763
[o] 5 6 50 8.040 -0.785
[o] 6 0 49 1.872 -1.395
[o]
[i] ? $stop



Programa SAS para realizar a regresso logstica:

options nodate nonumber ps=1000;
Data Doses;
Input dose m y;
datalines;
10.2 50 44
7.7 49 42
5.1 46 24
3.8 48 16
2.6 50 6
0.0 49 0
1.0 ;
proc genmod;
model y/m=dose / dist=b ;
output out=saida p=predito;
run;

Data novo;
set saida;
pobs=y/m;
Yest=m*predito;
run;

proc print data=novo;
run;
Modelos Lineares Generalizados na Experimentao Agronmica 39
2.6 Propriedades e distribuio amostral de


No caso particular dos modelos lineares em que as variveis respostas tm distribuio
Normal, as distribuies dos estimadores dos parmetros e das estatsticas usadas para
verificao do ajuste do modelo aos dados podem ser determinadas exatamente. Em geral,
porm, a obteno de distribuies exatas muito complicada e resultados assintticos so
usados. Esses resultados, porm, so dependentes de vrias condies de regularidade e dos
tamanhos amostrais. No caso de observaes independentes provenientes de distribuies
amostrais pertencentes famlia exponencial e, em particular, para os modelos lineares
generalizados essas condies so satisfeitas (Dobson, 1990; Fahrmeir & Kaufman, 1985;
Cox & Hinkley, 1986).
A idia bsica que se um estimador consistente para um parmetro e Var
a varincia desse estimador, ento, para amostras grandes, tem-se:

(

i) assintoticamente imparcial;


ii) a estatstica

(0,1) ~ Z que sendo Z,
)

N
Var
Z
n
n




ou, de forma eqivalente,

2
1
2 2
2
2
~ Z que sendo , Z
)

(
)

=
n
n
Var

Z .

Se um estimador consistente de um vetor de p parmetros, tem-se,
assintoticamente, que



2 1
~ )

( )

(
p
T


V ,

sendo a matriz de varincias e covarincias, no-singular. Se V singular, usa-se uma
inversa generalizada ou ento, uma reparametrizao de forma a se obter uma nova matriz de
varincias e covarincias no-singular.
V
Um estudo das propriedades (existncia, finidade e unicidade) de apresentado por
Cordeiro (1986), s pginas 29 e 30.

De uma forma resumida tm-se, a seguir, algumas propriedades para o estimador :

i) O estimador assintticamente no viesado, isto , para amostras grandes


.

= )

( E
Suponha que o logaritmo da funo de verossimilhana tem um nico mximo em
que est prximo do verdadeiro valor de . A aproximao de Taylor at termos de 1

a
ordem
para o vetor escore em relao a , substituindo-se a matriz de derivadas parciais por
(em que a matriz de informao de Fisher), dada por
)

( U


0 U U = = )

( ) ( )

(

40 Clarice G.B. Demtrio
pois, a soluo do sistema de equaes . Portanto,

0 U = )

(

) (

1
U

=

desde que seja no-singular. Tem-se, ento, que

0 U = = =

)

( )] ( [ )

(
1
E E E

pois, e, portanto, um estimador imparcial para (pelo menos
assintoticamente).
0 U = )] ( [ E


ii) Denotando-se , tem-se que a matriz de varincias e covarincias de ,
para amostras grandes, dada por:
U ) ( U =


1 1 1 1 1
) ( ] )

)(

[( )

(

= = = =
T T
E E Cov UU

pois, e , pois simtrica. ) (
T
E UU =
1 1
) (

=
T 1


iii) Para amostras grandes, tem-se

(2.9)
2
~ )

( )

(
p
T


ou, de forma eqivalente,

(2.10) (
1
p
, N ~


)

que a base para a construo de testes e intervalos de confiana para os modelos lineares
generalizados. Para modelos lineares com variveis respostas com distribuio normal, (2.9) e
(2.10) so exatas.
Para amostras pequenas tendencioso. Alm disso, para n no muito grande a
estrutura de covarincias das estimativas dos parmetros lineares difere de . A matriz
consistentemente estimada por

1
X W X

= ,
sendo a matriz do modelo, W , X } ..., , , diag{
2 1 n
W W W =
( )
2
i
i

|
|
.
|

\
|
=

d
d
V
w
W
i
i
i
1 =

2 1
=
e ,
constante e conhecido. Para as distribuies binomial e de Poisson . Se for constante
para todas as observaes e desconhecido afetar a estrutura assinttica de (com
elementos representados por , ) mas no o valor de . Na prtica se
desconhecido (distribuies normal e normal inversa = e gama ), deve ser
substitudo por alguma estimativa consistente (ver seo 2.8).
0 >
1


jk
v p j ..., , 2 , 1 = k =

Os erros padres dos estimadores so iguais s razes quadradas dos


elementos da diagonal de , isto , . Ento, intervalos de confiana assintticos,
p

,...,

2 1
jj
v = )
1

j
s

(
Modelos Lineares Generalizados na Experimentao Agronmica 41
com um coeficiente de confiana de 95% de probabilidade, para os parmetros podem
ser obtidos por
s
j
'
) ,
2

i
1
)

X

jj
v 96 , 1


j
.

A partir de , pode-se calcular a correlao entre e , ou seja,
1


( )
kk jj
jk
k j
k j
k j jk
v v
v
)

( r a V )

( r a V

v o C
)

( rr o C =


= =

que permite verificar, pelo menos aproximadamente, a interdependncia dos . s '


Exemplo 10: Seja Y uma amostra aleatria de uma distribuio , sendo
que e , conhecida. Considerando como funo de ligao a identidade, isto
, = , tem-se que
n
Y Y ..., , ,
2 1
0
2
>
( N
x
T
i i
=
i i

( ) 1 = =
i
i
i
d
d
g

.

Alm disso, V , e, portanto, W . Logo, tem-se 1 ) ( =
i
1 =
i
w 1 =
i

X X X W X
T T
2
1 1

= =

e a varivel dependente ajustada

( )( )
i i i i i i i i i
y y y g z = + = + = .

Portanto, o algoritmo de estimao (2.7) fica

y X X X
T T
2 2
1

1

=

e, desde que tenha inversa, X X
T

( ) y X X X
T T
1


=

que a soluo usual de mnimos quadrados para Modelos Lineares Clssicos. Tem-se, ento,
que

X X X X Y X X X = = =
T T T T
E E
1 1
) ( ) ( ) ( )

(
e

1
( ] ) ( ) [( ) ( ] )

)(

[( )

(

= = X X X Y X Y X X X
T T T T T
E E Cov

1 1 2
) (

= = X X
T
,

42 Clarice G.B. Demtrio
pois, e
2
] ) ( ) [( I X Y X Y =
T
E X X
T
2
1

= .
Logo,

2
~ )

( )

(
p
T
. (EXATA!)


2.7 Funo Deviance e estatstica de Pearson generalizada
2
X

Segundo McCullagh & Nelder (1989), o ajuste de um modelo a um conjunto de dados
observados y pode ser encarado como uma maneira de se substituir y por um conjunto de
valores estimados para um modelo com um nmero de parmetros relativamente pequeno.
Logicamente os no sero exatamente iguais aos ys, e a questo, ento, que aparece
em quanto eles diferem. Isto porque, uma discrepncia pequena pode ser tolervel enquanto
que uma discrepncia grande, no.

s '
Assim, admitindo-se uma combinao satisfatria da distribuio da varivel resposta
e da funo de ligao, o objetivo determinar quantos termos so necessrios na estrutura
linear para uma descrio razovel dos dados. Um nmero grande de variveis explanatrias
(ou covariveis) pode levar a um modelo que explique bem os dados mas com um aumento de
complexidade na interpretao. Por outro lado, um nmero pequeno de variveis
explanatrias (ou covariveis) pode levar a um modelo de interpretao fcil, porm, que se
ajuste pobremente aos dados. O que se deseja na realidade um modelo intermedirio.
Dadas n observaes, a elas podem ser ajustados modelos contendo at n parmetros.
O modelo mais simples o modelo nulo que tem um nico parmetro, representado por um
valor comum a todos os dados. A matriz do modelo, ento, reduz-se a um vetor coluna,
formado de 1's. Esse modelo atribui toda a variao entre os ys ao componente aleatrio. No
outro extremo, est o modelo saturado ou completo que tem n parmetros, um para cada
observao. Ele atribui toda a variao ao componente sistemtico e, portanto, ajusta-se
perfeitamente, reproduzindo os prprios dados.

Na prtica o modelo nulo simples demais e o modelo saturado no informativo,


pois no resume os dados, mas simplesmente os repete. Existem, contudo, dois outros
modelos limitantes, porm, menos extremos. Certos parmetros tm que estar no modelo
como o caso, por exemplo, de efeitos de blocos, ou ento, totais marginais fixados em
tabelas de contingncia. O modelo contendo apenas esses parmetros chamado modelo
minimal pois o modelo que contm o menor nmero de termos necessrios para o ajuste.
Por outro lado, o modelo que contm o maior nmero de termos que podem ser considerados
chamado de modelo maximal. Os termos desses modelos extremos so, geralmente, obtidos
por interpretaes a priori, da estrutura dos dados.
Assim, por exemplo, considerando-se um experimento em blocos casualizados, com
tratamentos no esquema fatorial com 2 fatores, tm-se os modelos:

nulo: =
i
minimal: +
l
=
i
maximal: + ( )
jk k j i
+ + + =
l
saturado: + , ( ) ( ) ( ) ( )
jk k j jk k j i l l l l
+ + + + + + =

Modelos Lineares Generalizados na Experimentao Agronmica 43
sendo, efeito associado mdia geral;
efeito associado ao bloco ;
l
b ..., , 2 , 1 , = l l
efeito associado ao j-simo nvel do fator A;
j

efeito associado ao k-simo nvel do fator B;


k

efeitos associados s interaes. ( ) ( ) ( ) ( )


jk k j jk l l l
e , ,

O modelo saturado inclui, nesse caso, todas as interaes com blocos que no so de
interesse prtico.
Em geral, trabalha-se com modelos encaixados e o conjunto de matrizes dos modelos
pode, ento, ser formado pela adio sucessiva de termos ao modelo minimal at se chegar ao
modelo maximal. Qualquer modelo com p parmetros linearmente independentes, situado
entre os modelos minimal e maximal, chamado modelo corrente ou modelo sob pesquisa.
O problema determinar a utilidade de um parmetro extra no modelo corrente (sob pesquisa)
ou, ento, verificar a falta de ajuste induzida pela omisso dele. A fim de discriminar entre
modelos, medidas de discrepncia devem ser introduzidas para medir o ajuste de um modelo.
Nelder & Wedderburn (1972) propuseram como medida de discrepncia a deviance
(traduzida como desvio por Cordeiro (1986)), com expresso dada por:

)

( 2
p n p
S l l = ,

sendo e

l os mximos do logaritmo da funo de verossimilhana para os modelos


saturado e corrente (sob pesquisa), respectivamente. V-se que o modelo saturado usado
como base de medida do ajuste de um modelo sob pesquisa (modelo corrente). Do logaritmo
da funo de verossimilhana, assumindo que
n
l

p
( )
i
i
w
a

= , tem-se:

=
+ =
n
i
i i i i i n
y c b y w
1
)} ; ( )]
~
(
~
[ {
1

l
e

=
+ =
n
i
i i i i i p
y c b y w
1
)} ; ( )]

[ {
1

l ,

sendo e = , as estimativas do parmetro cannico sob os modelos
saturado e corrente, respectivamente. Tem-se, ento,
) (
~ ~
i i
y = ) (

i i



p
n
i
i i i i i i p
D b b y w S

1
)}

( )
~
( ]

~
[ { 2
1
1
= + =

=
(2.11)

em que chamada scaled deviance e , deviance . Pode-se, ainda escrever
p
S
p
D

=
=
n
i
i p
d S
1
2
1

,
44 Clarice G.B. Demtrio
sendo que mede a diferena dos logaritmos das funes de verossimilhanas observada e
ajustada, para a observao correspondente e chamado componente da deviance. A soma
deles mede a discrepncia total entre as duas funes de verossimilhanas. portanto, uma
medida da distncia dos valores ajustados em relao aos dados observados ys, ou de
forma equivalente, do modelo corrente em relao ao modelo saturado. Verifica-se que a
deviance eqivale a uma constante menos duas vezes o mximo da funo de verossimilhana
para o modelo corrente, isto ,
2
i
d
s '

p p n p
S l l l

2 constante

2 = = .

Exemplo 11: Seja uma amostra aleatria de uma distribuio ,
sendo que e , conhecida. Considerando como funo de ligao a
identidade, isto , = , tem-se que
n
Y Y Y ..., , ,
2 1
0
2
>
i

) , (
2

i
N
x
T
i i
=
i
2
= ; ; = e 1 =
i
w
i i

2 2
) (
2 2
i i
i
b

= = .
Logo,

| | ( )

= =
+

=
)
`

=
n
i
i i i i i
n
i
i i
i i i p
y y y
y
y y S
1
2 2 2
2
1
2 2
2
2 2
1
2

2
2
1

( )
2
1
2
2
SQRes

=

=
n
i
i i
y

que coincide com a estatstica clssica SQRes com (n-p) graus de liberdade dividida por .
2

Exemplo 12: Sejam variveis aleatrias representando contagens de sucessos em amostras
independentes de tamanhos . Supondo que , ento,
i
Y
i
m ) , ( ~
i i i
m Bin Y

1 = ; ; 1 =
i
w
|
|
.
|

\
|
=
|
|
.
|

\
|
=
i i
i
i
- m

n
- 1
n
i
i
l l
e
|
|
.
|

\
|
= = + =

i
i i
i i i i i
n ) 1 ( n ) e 1 ( n ) ( b
i
m
m
m m m l l l .
Logo,

=
)

|
|
.
|

\
|

|
|
.
|

\
|
+
(

|
|
.
|

\
|

|
|
.
|

\
|

=
n
i
i
i i
i
i
i i
i
i i
i
i i
i
i p
m
m
m
m
y m
m
m

y m
y
y S
1

n n

n n 2 l l l l

ou ainda,

= (
(

|
|
.
|

\
|

+
|
|
.
|

\
|
=
n
i
i i
i i
i i
i
i
i p
m
y m
y m

y
y S
1

n ) (

n 2 l l .

Modelos Lineares Generalizados na Experimentao Agronmica 45
Essa expresso vlida para 0 . Se ou , o i-simo termo de
deve ser substitudo por
i i
m y < < 0
i i
m y = =
i
y
p
S
|
|
.
|

i i
i

\
|
i
m
m n 2 l ou
|
|
.
|

\
|
i
i

i
m n l 2 , respectivamente (Paula, 2000).
Se e a funo de ligao considerada a logstica, a funo deviance apenas
uma funo dos dados e, portanto, no informativa a respeito do ajuste do modelo aos dados
(Exerccio 2.12.12). O mesmo vlido para as funes de ligao probit e complemento log-
log.
1 =
i
m

As funes deviance (scaled) para as distribuies estudadas no captulo 1 esto na
Tabela 9. A deviance para a distribuio normal , simplesmente, a soma de quadrados de
resduos, dividida pela varincia , como visto no Exemplo 11, enquanto que para a
distribuio de Poisson a estatstica G , usada em modelos log-lineares. Para a distribuio
gama, se algum componente igual a zero, segundo Paula (2000), pode-se substituir por
2
2
p
S

=
(

+ + =
n
i i
i
i i p
y
w C S
1

n 2 ) ( 2

l y ,

sendo uma funo arbitrria, porm limitada. Pode ser usada, por exemplo, a expresso ) (y C

=
n
i
i
w
1
+
=
i
i
y
y
C .
1
) (y

Tabela 9: Funes deviance para algumas distribuies
Distribuio Scaled deviance
Normal
( )

=
=
n
i
i i i p
y w S
1
2
2


Binomial

=
(
(

|
|
.
|

\
|

+
|
|
.
|

\
|
=
n
i
i i
i i
i i
i
i
i i p
m
y m
y m

y
y w S
1

n ) (

n 2 l l
Poisson

=
(


|
|
.
|

\
|
=
n
i
i i
i
i
i i p
y

y
y w S
1
) (

n 2 l
Binomial negativa

=
(

|
|
.
|

\
|
+
+
+
|
|
.
|

\
|
=
n
i
i
i
i
i
i
i i p
k
k y
k y

y
y w S
1

n ) (

n 2 l l
Gama

=
(


+
|
|
.
|

\
|
=
n
i
i
i i
i
i
i p

y
w S
1

n 2 l
Normal Inversa
( )

=
n
i
i i
i i
i p
y
y
w S
1
2
2
2

1


A deviance sempre maior do que ou igual a zero, e medida que entram variveis
explanatrias (ou covariveis) no componente sistemtico, decresce at se tornar zero para o
modelo saturado. Quanto melhor for o ajuste do modelo aos dados tanto menor ser o valor de
. Assim, um modelo bem ajustado aos dados com uma verossimilhana grande tem uma
p
S
46 Clarice G.B. Demtrio
deviance pequena. Uma maneira de se conseguir a diminuio da deviance aumentar o
nmero de parmetros, o que, porm, significa um aumento do grau de complexidade na
interpretao do modelo. Na prtica, procuram-se modelos simples com deviance moderada,
situados entre os modelos mais complicados e os que se ajustam mal aos dados.
Para testar a adequao de um modelo linear generalizado, o valor calculado para a
deviance (com (n-p) graus de liberdade, sendo p o posto da matriz do modelo) deve ser
comparado com o percentil de alguma distribuio de probabilidade referncia. Para a
distribuio normal, assumindo-se que o modelo usado verdadeiro e que conhecido,
tem-se que
2
2
2
~
p n
p
p
D
S

=

(exata).

Em alguns casos especiais, com delineamentos experimentais simples, considerando-
se as distribuies exponencial (caso especial da gama) e normal inversa, tambm podem ser
obtidos resultados exatos. No geral, porm, apenas alguns resultados assintticos esto
disponveis e, em alguns casos, a deviance, no tem distribuio , nem mesmo
assintoticamente, e pouco se sabe sobre a adequao de uma aproximao para amostras
pequenas, estudos adicionais sendo necessrios. Nesse caso, tem sido usada a tcnica
bootstrap como uma possvel soluo.
2
p n

Assumindo-se que o modelo usado verdadeiro, para a distribuio binomial, quando


n fixo e (no vale quando m permanece limitado) e para a
distribuio de Poisson, quando , tem-se que (lembre-se que ):
i m
i
, ) 1 (
i i i

i
i
, 1 =

2
~
p n p p
D S

= .

Nos casos em que depende do parmetro (conhecido), Jrgensen (1987) mostra
que
p
S

2
~
p n p
S

, quando , 0

isto , quando a disperso pequena. Para a distribuio gama a aproximao da distribuio
de de uma ser tanto melhor quanto mais prximo de 1 estiver o coeficiente de
variao (Paula, 2000). Em geral, porm, no se conhece e ele precisa ser substitudo por
uma estimativa consistente.
p
S
2
p n

Na prtica, contenta-se em testar um modelo linear generalizado, sem muito rigor,


comparando-se o valor com os percentis da distribuio (McCullagh & Nelder,
1989). Assim, nos casos em que possvel a aproximao de uma , tem-se que se
p
S
2
p n

2
n

p

S
p n p

;
2


pode-se considerar que existem evidncias, a um nvel aproximado de 100 de
probabilidade, que o modelo proposto est bem ajustado aos dados. Ou ainda, lembrando que
%
Modelos Lineares Generalizados na Experimentao Agronmica 47
se , ento, , e, portanto, um valor de prximo de pode ser
uma indicao de que o modelo ajustado aos dados adequado.
2
~
p n
Z

p n Z E = ) (
2
X
p
S ) ( p n
(
i

=
i
O
) , ( ~
i i
m Bin
i
d
i

26 , 10
2
= X
49 , 9
2
01 , 0 ; 4

=
p
S
2
0
H

Outra medida da discrepncia de ajuste de um modelo a um conjunto de dados a
estatstica de Pearson generalizada cuja expresso dada por:

( )
( )

=
n
i i
i i
i
V
y
w X
1
2
2

,

sendo V a funo de varincia estimada sob o modelo que est sendo ajustado aos dados. )
Para respostas com distribuio normal, e SQRes
2
= X

2
2
2
~
p n
X

(exata).

Para dados provenientes das distribuies binomial e de Poisson, em que ,
a estatstica original de Pearson, comumente usada na anlise dos modelos logstico e log-
linear para tabelas multidimensionais e que pode ser escrita na forma
1
2
X

( )

=
n
i i
i i
E
E O
X
1
2
2
,

sendo a freqncia observada e a freqncia esperada.
i
E
Para as distribuies no-normais, tm-se apenas resultados assintticos, isto , a
distribuio pode ser usada, somente, como uma aproximao, que em muitos casos
pode ser pobre. Alm disso, tem como desvantagem o fato de tratar os
simetricamente. Em muitos casos, preferida em relao deviance, por facilidade de
interpretao.
2
p n

2
X s '
i
y


Exemplo 13: Considere os dados do Exemplo 5. A varivel resposta tem distribuio
binomial, isto , Y . Adotando-se a funo de ligao logstica (cannica) e o
preditor linear dado por uma regresso linear simples, isto ,
i

2 1
n
m

i i
i
+ =
|
|
.
|

\
|

= l

tem-se e com 4 graus de liberdade. Da tabela da distribuio
, tem-se e , indicando que existem evidncias, a um nvel de
significncia entre 5% e 1% de probabilidade que o modelo logstico linear ajusta-se
razoavelmente a esse conjunto de dados. Necessita-se, porm, adicionalmente, do teste da
hiptese , de uma anlise de resduos e de diagnsticos.
=
p
D
2
05 , 0 ; 4
=
0 :
2
=
70 , 9
13 = 29 ,

48 Clarice G.B. Demtrio
2.8 Estimao do parmetro

Para as distribuies binomial e Poisson tem-se = 1. Quando desconhecido
(distribuies normal e normal inversa =
2
e gama =
-1
), admite-se que seja o mesmo
para todas as observaes, isto , constante. Necessria se faz sua estimao para a obteno
(conforme visto na seo 2.6) dos erros padres dos , intervalos de confiana e testes de
hipteses para os etc. Os mtodos mais usados para a estimao de so: mtodo da
mxima verossimilhana, mtodo dos momentos e perfil de verossimilhana.
s '

s '
O mtodo da mxima verossimilhana sempre possvel em teoria, mas pode-se
tornar intratvel computacionalmente quando no existe soluo explcita. Se o mesmo
para todas as observaes, a estimativa de mxima verossimilhana de independe de mas
j a matriz de varincias e covarincias dos envolve esse parmetro. Interpretando o
logaritmo da funo de verossimilhana como funo de e de , dado
s '
) ; , y ( l y , a
estimativa de mxima verossimilhana para obtida, fazendo-se

( )
0

,
=

l
.

Para as distribuies normal e normal inversa tem-se

p
D
n
1

= .

Exemplo 14: Seja uma amostra aleatria de uma distribuio . Ento,
o logaritmo da funo de verossimilhana fica
n
Y Y Y ..., , ,
2 1
) , (
2

i
N

( )
) (2 n
2 2
1
1
2

l l
n y
n
i
i i

=

=


cuja derivada em relao a

( )

2 2
1
1
2
2
n y
n
i
i i


=
=
l


e fazendo-se 0 =

l
tem-se
( )
p
n
i
i i
D
n
y
n
1

1
2

=
= = .

Conforme se verifica a estimativa de mxima verossimilhana para , no caso do
modelo normal, exata. No caso da distribuio gama, Cordeiro (1986), usando a expanso
de Taylor para a funo digama ( ), para grande, prope a aproximao
(Exerccio 2.12.15)
) ( / ) ( ) (
'
=

Modelos Lineares Generalizados na Experimentao Agronmica 49
(
(

+ + =
n
D
D
n
p
p
3
2
1 1
2



e para dados com grande disperso ela inconsistente.
Verifica-se que (Paula, 2000):

=
n
i
i
y c Var
1
' ' 1
) , ( )

( .

Alm disso, pode-se mostrar que

( )
0

,
2
=
|
|
.
|

\
|


j
E
l


e, portanto, os parmetros e so ortogonais (Exerccio 2.12.14).
O mtodo dos momentos fornece uma outra estimativa, tambm no consistente, para
. Esse mtodo baseia-se no fato (que nem sempre verdadeiro) de que . Logo,
2
~
p n p
S

( ) ( ) p n D E S E
p p
=

~
1

e, portanto,
p n
D
p

=
~
,

sendo a deviance sob o modelo corrente (sob pesquisa).
p
D
Uma estimativa considerada melhor que essa

m n
D
m

=
~
~
,

sendo a deviance sob o modelo maximal. Espera-se que para um modelo maximal bem
ajustado aos dados tenha um valor mais prximo da esperana da qui-quadrado de
referncia, isto ,
m
D
m
S
( ) ( ) m n D E E
m
=

~
~
1
S
m
. Para o modelo normal
m n
s SQ
m n
D
m

=
Re
~
~


a estimativa usual de e no viesada, mas para os outros modelos isso no acontece, em
geral.
2
Uma outra maneira de se estimar baseada na estatstica de Pearson
generalizada (Jrgensen, 1987) e dada por
2
X
m n
X

=
2
*


que nem sempre imparcial, porm, consistente.
50 Clarice G.B. Demtrio
Barndorff-Nielsen (1988) props o mtodo do perfil de verossimilhana modificado
(modified profile likelihood) para estimar .

2.9 Anlise de deviance e seleo de modelos

A anlise de deviance (ANODEV) uma generalizao da anlise da varincia para os
modelos lineares generalizados, visando obter, a partir de uma seqncia de modelos, cada
um incluindo mais termos do que os anteriores, os efeitos de fatores, covariveis e suas
interaes. Dada uma seqncia de modelos encaixados, utiliza-se a deviance como uma
medida de discrepncia do modelo e forma-se uma tabela de diferena de deviances.
Seja uma seqncia de modelos encaixados de dimenses
respectivas , matrizes dos modelos e deviances
, tendo os modelos a mesma distribuio e a mesma funo de ligao.
Estas desigualdades entre as deviances, em geral, no se verificam para a estatstica de
Pearson generalizada e, por esta razo, a comparao de modelos encaixados feita,
principalmente, via funo deviance. Assim, para o caso de um ensaio inteiramente
casualizado, com r repeties e tratamentos no esquema fatorial, com a nveis para o fator A e
b nveis para o fator B, obtm-se os resultados mostrados na Tabela 10.
r
p p p
M M M ..., , ,
2 1
r
p p p < < < ...
2 1
r
p
D > ...
r
p p p
X X X ..., , ,
2 1
p p
D D > >
2 1
2
X

Tabela 10: Um exemplo de construo de uma tabela de Anlise de Deviance
Modelo G.L. Deviance Dif. de deviances
Dif. de
G.L.
Significado
Nulo rab-1
1
D

1
D a-1 A ignorando B
A a(rb-1)
A
D

B A A
D D
+
b-1 B includo A
A+B a(rb-1)-(b-1)
B A
D
+


B A B A
D D
*

+
(a-1)(b-1) Interao AB
includos A e B
A+B+A.B ab(r-1)
B A
D
*


B A
D
*
Resduo
Saturado 0 0

Dois termos A e B so ortogonais se a reduo que A (ou B) causa na deviance a
mesma, esteja B (ou A) includo, ou no, em . Em geral, para os modelos lineares
generalizados ocorre a no-ortogonalidade dos termos e a interpretao da tabela ANODEV
mais complicada do que a ANOVA usual.
p
D
p
M
Sejam os modelos e ) com p e q parmetros, respectivamente. A
estatstica com graus de liberdade interpretada como uma medida de
variao dos dados, explicada pelos termos que esto em e no esto em , includos
os efeitos dos termos em e ignorando quaisquer efeitos dos termos que no esto em
. Tem-se, assintoticamente, para conhecido, que
p
M
p q
p
M
q
M ( q p <
q p
D D ) (
q
M
p
M
q
M
Modelos Lineares Generalizados na Experimentao Agronmica 51
( )
2
~
1
p q q p q p
D D S S

=

,

que simplesmente o teste da razo de verossimilhanas (ver seo 2.10). Se
desconhecido, deve-se obter uma estimativa consistente, de preferncia baseada no modelo
maximal (com m parmetros), e inferncia pode ser baseada na estatstica F, dada por


m n p q
q p
F
p q D D
F


=
,
~

) /( ) (

.

Para a distribuio normal, tem-se

( ) m n p q F
m n
p q
m
q p


, ~
) /( SQRes
) /( ) SQRes SQRes (
(exata).

Exemplo 15: Considere os dados do Exemplo 5. A varivel resposta tem distribuio
binomial, isto , Y . Adotando-se a funo de ligao logstica (cannica) e o
preditor linear dado por uma regresso linear simples, isto ,
) , ( ~
i i i
m Bin

i 2 1
n d
m

i i
i
i
+ =
|
|
.
|

\
|

= l ,

dois modelos encaixados podem ser propostos para a anlise desses dados, a saber:

a) modelo nulo: = e
1

i
b) modelo de regresso linear: .
i 2 1
d
i
+ =

A Tabela 11 apresenta as deviances e seus respectivos nmeros de graus de liberdade
(g.l.), correspondentes a eles e a Tabela 12, a Anlise de deviance.

Tabela 11: Deviances e X
2
residuais
Modelo g.l. Deviances
2
X
1
=
i
5 163,74 135,70
i 2 1
d
i
+ = 4 10,26 9,70
49 , 9
2
05 , 0 ; 4
= ; 29 , 13
2
01 , 0 ; 4
=

O exame da Tabela 11, confirmando o que j foi visto no Exemplo 13, mostra que
existem evidncias, a um nvel de significncia entre 5% e 1% de probabilidade, que o
modelo logstico linear ajusta-se razoavelmente a esse conjunto de dados, mas rejeita-se o
modelo nulo. Pelo exame da Tabela 12 rejeita-se a hiptese , confirmando a
adequao do modelo logstico linear. Necessita-se, porm, adicionalmente, de uma anlise de
resduos e de diagnsticos.
0 :
2 0
= H

52 Clarice G.B. Demtrio
Tabela 12: Anlise de Deviance

Causa de variao g.l. Deviances Valor p
Regresso linear 1 153,48 < 0,0001
Resduo 4 10,26
Total 5 163,74
84 , 3
2
05 , 0 ; 1
= ; 64 , 6
2
01 , 0 ; 1
=

Tem-se, ainda, que ) ( e . O
nmero esperado de insetos mortos para a dose dado por:
226 , 3

1
=
i

3699 , 0 )

(
1
= s
i
d
6051 0
2
,

= ) 0678 , 0 )

( (
2
= s

) 6051 , 0 226 , 3 exp( 1
) 6051 , 0 226 , 3 exp(

i
i
i i
d
d
m
+ +
+
= .

Na Figura 4 esto representados o modelo ajustado e os valores observados.

Figura 4: Valores observados e modelo ajustado

Um programa simples em linguagem GLIM (Francis et al., 1993) para a obteno
desses resultados dado a seguir.

$Slen 6 $Data d y m $Read!
10.2 44 50!
7.7 42 49!
5.1 24 46!
3.8 16 48!
2.6 6 50!
0.0 0 49!
$Yvar y $Err B m $!
$Fit $Print : 'X2= ' %X2 : $
$Fit + d $Print : 'X2= ' %X2 : $
$Display MER $!
$FINISH!
Modelos Lineares Generalizados na Experimentao Agronmica 53
2.10 Testes de hipteses

Os mtodos de inferncia nos modelos lineares generalizados baseiam-se,
fundamentalmente, na teoria de mxima verossimilhana. De acordo com esta teoria, existem
trs estatsticas para testar hipteses relativas aos parmetros , que so deduzidas de
distribuies assintticas de funes adequadas das estimativas dos . So elas:
s '
' s
i) razo de verossimilhanas;
ii) Wald e
iii) escore,

assintoticamente equivalentes e, sob e para conhecido, convergem para uma varivel
com distribuio , sendo, porm, a razo de verossimilhanas, o critrio que define um teste
uniformemente mais poderoso. Um estudo comparativo dessas estatsticas pode ser
encontrado em Buse (1982) para o caso de hipteses simples. Dentre outras, referncias
importantes so Silvey (1975, pg.108-122), Cordeiro (1986), Dobson (1990), Paula (2000) e
McCulloch (2001).
0
H
p
2
Quando se tem um vetor de parmetros, muitas vezes h interesse no teste de hipteses
de apenas um subconjunto deles. Seja, ento, uma partio do vetor de parmetros dada
por:

T T T
] [
2 1
=

em que , de dimenso q, o vetor de interesse e , de dimenso (p-q), o vetor nuisance.
De forma semelhante tem-se a partio da matriz do modelo , do vetor escore
com U e da matriz de informao
de Fisher para
1
T
X
2

X
T
1
] [
2 1
X X X =
)
T T T
] U U [ ) y ( W U
2 1
1
= =

y ( W =
1
1

(



= =
22 21
12 11
1
WX X
T

,

sendo que .
T
21 12
=
Usando-se resultados conhecidos de lgebra de matrizes, envolvendo partio de
matrizes (Searle, 1982), tem-se, para amostras grandes, a varincia assinttica de :
1


1
1
2 1
2
2 1
1
1
21
1
22 12 11 1
] ) ( [ ) ( )

( Var

= = X W H I W X
T
,

sendo
2 1
2
1
2 2 2
2 1
2
W X ) WX X ( X W H
T T
= .
Sejam as hipteses

0 , 1 1 0
: = H versus ,
0 , 1 1
:
a
H

sendo um valor especificado para . Seja o estimador de mxima
verossimilhana para sem restrio e em que o estimador de
0 , 1

0
T T T
]

[

2 1
=
T T
]

0 , 2

T
[
0 , 1
=
0 , 2

54 Clarice G.B. Demtrio


mxima verossimilhana para sob . A seguir so definidos os trs testes mais usados
para testar a hiptese .
2

(
1
l
; y
0
H
0
H
) y
; (y D
0
H
) l
~

)
0 , 1

(
0 1

T
,

1

H

( =
E
n =
)

(
1

( Var
%

2.10.1 Teste da razo de verossimilhanas

Envolve a comparao dos valores do logaritmo da funo de verossimilhana
maximizada sem restrio ( ) e sob ( ) l ), ou, em termos de
deviance, a comparao de e em que e . Esse teste
, geralmente, preferido no caso de hipteses relativas a vrios coeficientes . Se as
diferenas so grandes, ento, rejeitada. A estatstica para esse teste dada por:
;

,
2

) (
0
H ;

, (
0 , 2 0 , 1
y
) (
0
1
0


= g D )
0

0 0

X =
s '

)] ; ( ) ; ( [
1
)] ;

, ( ;

( [ 2 2
0 0 , 2 0 , 1 2
y y y y D D = =

l l .

Para amostras grandes, rejeita-se , a um nvel de 100 de probabilidade, se .
0
%
2
1 ,


>
q

2.10.2 Teste de Wald

baseado na distribuio normal assinttica de e uma generalizao da estatstica
t de Student (Wald, 1943). ,

geralmente, o mais usado no caso de hipteses relativas a um
nico coeficiente . Tem como vantagem, em relao ao teste da razo de verossimilhanas,
o fato de no haver necessidade de se calcular . J foi visto que, assintoticamente:

0 , 2


( )
1
,


p
N .

Assim, a estatstica para esse teste

)

( )]

ar( V

[
0 , 1 1
-1
1 1
W ,

sendo a avaliada em . Para amostras grandes, rejeita-se , a
um nvel de 100 de probabilidade, se W .
)

ar( V

1
Var
%
T T T
]

[
2 1

2
1 ,


>
q
0
H


2.10.3 Teste escore

Obtido a partir da funo escore, tem sido muito usado na Bioestatstica. A estatstica
de teste nesse caso dada por:
)

( )

( ar V

)
0 1 1 0
U U = ,

sendo a avaliada em . Para amostras grandes, rejeita-se
, a um nvel de 100 de probabilidade, se .
)

( ar V

1 0
)
1
T T T
]

0 , 2 0 , 1 0
=
2
1 ,


>
q
E
0
H

Modelos Lineares Generalizados na Experimentao Agronmica 55
Caso particular: No caso em que h interesse no teste de hiptese do vetor como um todo,
isto , no teste das hipteses

0 0
: = H versus
0
:
a
H

o vetor desaparece e (q passa a ser igual a p), e tm-se as expresses:
2
=
1

i) teste da razo de verossimilhanas: )] ; ( ) ; ( [ 2 n 2
0
y y l l l = =

)] ; ( ) ; ( [
1
0
y y D D

= ;


ii) teste de Wald: W , )

(
0 0
=
T
sendo a matriz de informao de Fisher avaliada em ;


iii) teste escore: , ) ( ) (
0
1
0 0
U U

=
T
E
sendo a matriz de informao de Fisher avaliada em .
0

0

Exemplo 16: Conforme j foi visto, a funo escore em relao a dada por:
j


j
j
U

l
= , j = 1, 2, ..., p,

sendo o logaritmo da funo de verossimilhana e o vetor de
parmetros do componente linear do modelo.
l
T
p
) ..., , , (
2 1
=
Alm disso, e ( ) 0 U = E ( ) ( ) = =
T
E UU U Cov , sendo e a
matriz de informao de Fisher. Ento, pelo Teorema Central do Limite a distribuio
assinttica de U normal p-dimensional, isto , e, portanto, para amostras
grandes a estatstica escore
T
p
U U U ) ..., , , (
2 1
= U
) ( ) U = ( , 0
p
N

U U
1
=
T
E

converge assintoticamente para uma distribuio , desde que seja no-singular e
supondo o modelo com os parmetros especificados, verdadeiro. (Cordeiro, 1986; Dobson,
1990).
2
p


Exemplo 17: Seja uma amostra aleatria de uma distribuio com
desconhecido e conhecido. Visto como modelo linear generalizado tem-se:
n
Y Y Y ..., , ,
2 1
) , (
2
N
2

i) somente um parmetro de interesse, ;
ii) no h variveis explanatrias e,
iii) a funo de ligao a identidade, isto , = .

O logaritmo da funo de verossimilhana

56 Clarice G.B. Demtrio
( ) ( ) ( )
2
n
1 i
2
2
1
2 n
2 2
1
, , ;

= =

=

n
y y y
i n
l K l l ,
a partir da qual se obtm:

( ) ( )


= = = y
n
y
d
d
U
n
=
i
2
1 i
2

1 l
,

( ) ( ) | | 0
2
= =

Y E
n
U E
e
( )
( )
( )
( )
2
2
2
2
2
2
2
2
Var


n
n
n
Y
n
U Var = = = = .

Portanto,
( )
( )
( )
2
1
~
2
2
2
2
2
2
2
1 -


n
Y
n
Y n
U U E
T

=

= = .

Esse resultado pode ser usado para a obteno de intervalos de confiana para .

Exemplo 18: Seja Y . Ento, conforme j foi visto, ( , ~ m Bin )

) - n(1 ) ( + n + n = ) ; ( l l l l m-y y
y
m
y
|
|
.
|

\
|

e, portanto,
( )
( )

= =
1 1
m y y m y
d
d
U
l
.

Mas, m Y E = = ) ( e ) (
1
) 1 ( ) ( = = m
m
m Y Var . Logo,

0 ) ( = U E
e
( )
( )
( )
( )
m
Y Var

U Var

= =
1 1
1
2
2
.

Logo,
( )
( )
( ) ( )
( )
( ) | |
( ) Y Var
Y E Y
m
m Y
m


m Y
U E
T
2 2
2
2
2
1 -
1
1

1
U

= =

que, pelo teorema central do limite, tem distribuio , ou, equivalentemente
2
1

Modelos Lineares Generalizados na Experimentao Agronmica 57
( )
( )
( )
( )
(0,1)
D
N
Y Var
Y E Y
m
Y m



.

Esse resultado pode ser usado para se fazer inferncia a respeito de .


2.11 Intervalos de Confiana

Intervalos de confiana assintticos para podem ser construdos, usando-se qualquer
uma das trs estatsticas de teste. A partir da estatstica de teste da razo de verossimilhanas,
uma regio de confiana para , com um coeficiente de confiana de 100 , inclui
todos os valores de tais que:
1
1
)% 1 (
1


2
1 , 1 , 2 1 2 1
)] ;

, ( ) ;

( [ 2


<
q
y y l l ,

sendo a estimativa de mxima verossimilhana de para cada valor de que testado
ser pertencente, ou no, ao intervalo.
1 , 2

2 1
Usando-se a estatstica de Wald, uma regio de confiana para , com um coeficiente
de confiana de 100 , inclui todos os valores de tais que:
1
)% 1 (
1

2
1 , 1 1
-1
1 1 1
)

( )]

ar( V

[ )


<
q
T
.


2.12 Exerccios


2.12.1 Obter o algoritmo de estimao dado em (2.7) para os para o caso particular das
funes de ligao cannicas para as distribuies estudadas no Captulo 1, calculando ,
e .
s '
W
z


2.12.2 Considere os dados do Exemplo 6 e estime a concentrao de vrus na soluo
original. Use o algoritmo de estimao dado em (2.7) e os recursos do GLIM ou SAS.


2.12.3 Definir o algoritmo de estimao dado em (2.7), calculando , e z para os
modelos com erros Normal, gama, Normal inverso e Poisson com ligao potncia = ,
conhecido. (Cordeiro, 1986).
W



2.12.4 Para dados com distribuio binomial as funes de ligao mais comuns so:
logstica, Probit e complemento log-log. Comparar os valores do preditor linear para essas
funes de ligao no intervalo (0,1).


58 Clarice G.B. Demtrio
2.12.5 Mostre que

n
1
lim
0
l =

.


2.12.6 Considere a famlia de ligaes dada por Aranda-Ordaz (1981)

(


=

1 ) 1 (
n

l , 0 < < 1 e constante desconhecida.

Mostre que o modelo logstico dado para e que para tem-se a funo de
ligao complemento log-log.
1 = 0

2.12.7 Obtenha a expresso da estatstica de Pearson para as distribuies estudadas no
Captulo 1.
2
X


2.12.8 Obtenha a expresso da deviance para as distribuies estudadas no Captulo 1.


2.12.9 Mostre que para os modelos log-lineares com matriz modelo tendo uma coluna de 1's,
a deviance reduz-se a:

=
|
|
.
|

\
|
=
n
i
i
i
i p

y
y S
1

n 2 l (Cordeiro, 1986, pg. 79).



2.12.10 Mostre que para o modelo gama com ligao potncia = ou , neste
ltimo caso a matriz X tendo uma coluna de 1's, a deviance reduz-se a:

n l =

=
|
|
.
|

\
|
=
n
i
i
i
i p
y

S
1

n 2 l (Cordeiro, 1986, pg. 80).



2.12.11 Os ltimos dois exerccios so casos particulares do resultado mais geral

( ) ( )

n
1 i
i
i
y
) ( a
1
2 0 = V
i
1 -
i i


quando o modelo tem ligao = ( 0 ) ou , neste ltimo caso, X com uma
coluna de 1's. Mostre esse resultado (Nelder & Wedderburn, 1972; Cordeiro, 1986, pg. 80).

n l =


2.12.12 Comente o resultado obtido para a funo deviance para dados binrios com ligao
cannica. Use como referncia bibliogrfica Williams (1983).
Modelos Lineares Generalizados na Experimentao Agronmica 59
2.12.13 Mostre que para o modelo gama simples, em que todas as mdias so iguais, a
deviance reduz-se estatstica clssica

|
|
.
|

\
|
=
y
y
n S
~
n 2
1
l ,

sendo y e , respectivamente, as mdias aritmtica e geomtrica dos dados
(Cordeiro, 1986, pg. 80).
y
~
n
y y y ..., , ,
2 1


2.12.14 Mostre que
0
2
=
|
|
.
|

\
|
j
E

l


e que, portanto, os parmetros e so ortogonais.


2.12.15 Mostre que a estimativa de mxima verossimilhana do parmetro de disperso
dada por:

a)
n
D
p
=

(Normal e Normal Inversa)



b)
(
(

+ +
n
D
D
p
p
3
2
1 1
2

=
n 1
(Gama, apenas aproximada).


2.12.16 Considere uma nica resposta Y . Pede-se: ) , ( Bin ~ m

a) obtenha a expresso para a estatstica de Wald ( ) , em que a
estimativa de mxima verossimilhana de e a matriz de informao de Fisher;
(
T
)


b) obtenha a expresso para a estatstica escore U e verifique que igual estatstica
de Wald;
U
T 1


c) obtenha a expresso para a estatstica da razo de verossimilhanas
; ( ) ( ) | | y y ; ; 2 l l =

d) para amostras grandes as estatsticas escore, de Wald e da razo de verossimilhanas tm
distribuio assinttica . Sejam m = 10 e y = 3 e usando i) ; ii) e
iii) , compare-as. Quais as concluses obtidas? (Dobson, 1990).
1
2
1 , 0 = 3 , 0 =
5 , 0 =


2.12.17 Seja Y uma amostra aleatria de uma distribuio exponencial de mdia
. Sejam as hipteses
n
Y Y ..., , ,
2 1

60 Clarice G.B. Demtrio


0 0 0
: vs : =
a
H H .
Mostre que:

a)
(


+
|
|
.
|

\
|
=
o
o
o

y

y
n n 2 LR l (teste da razo de verossimilhanas);

b)
( )
2
2
y
y n
o

= W (teste de Wald);

c)
( )
2
2
o
o
y n
E


= (teste escore).

2.12.18 Sejam Y variveis independentes com distribuio de Poisson com mdia
(i = 1, ..., n). Obter as estatsticas escore, de Wald e da razo de verossimilhanas
para o teste das hipteses que se seguem:
n
Y Y ..., , ,
2 1
1
=
i
i


a) , quando conhecido;
0 a 0 0
: vs : = H H


b) , quando conhecido. (Cordeiro, 1986, pg. 57).
0 a 0 0
: vs : = H H


2.12.19 Considere a estrutura linear , i =1, ..., n com um nico parmetro
desconhecido e ligao
i i
x =
( )
1
1 =


, conhecido. Obter o estimador de mxima
verossimilhana para , considerando-se os modelos normal, Poisson, gama, normal inverso
e binomial negativo. Fazer o mesmo para o modelo binomial com ligao
, conhecido. Obter, ainda as estimativas no caso de
. (Cordeiro, 1986, pg. 36).

1
} ] 1 ) 1 {[( n

=

l
n
x x x = = = ...
2 1


2.12.20 No exerccio anterior, considere o teste de:

0 0
: = H versus ,
0
:
a
H

sendo um valor especificado para o parmetro desconhecido. Obtenha:
0
a) a varincia assinttica para ;

b) as estatsticas para os testes da razo de verossimilhanas, Wald e escore;


c) um intervalo de confiana, com um coeficiente de confiana de 100 , para ; )% 1 (
d) um intervalo de confiana, com um coeficiente de confiana de 100 , para uma
funo com conhecido. (Cordeiro, 1986, pg. 56).
)% 1 (
) ( g (.) g


2.12.21 Considere o Exemplo 5 e obtenha os intervalos de confiana, com um coeficiente de
confiana de , para , usando os testes de Wald e o da razo de verossimilhanas. % 95





Captulo 3

Tcnicas para Verificao de Ajuste do Modelo

3.1 Introduo

A escolha de um modelo linear generalizado envolve trs passos:

1
o
) definio da distribuio (que determina a funo de varincia);
2
o
) definio da funo de ligao;
3
o
) definio da matriz do modelo.

Na prtica, porm, pode acontecer que aps uma escolha cuidadosa de um modelo e
subseqente ajuste a um conjunto de dados o resultado obtido seja insatisfatrio. Isso pode
ocorrer em funo de algum desvio sistemtico entre valores observados e valores ajustados
ou, ento, porque um ou mais valores so discrepantes em relao aos demais.
Desvios sistemticos podem ser provocados pela escolha inadequada da funo de
varincia, da funo de ligao e da matriz do modelo, ou ainda pela definio errada da
escala da varivel dependente ou das covariveis.
Discrepncias isoladas podem ocorrer ou porque os pontos esto nos extremos da
amplitude de validade da covarivel, ou porque eles esto realmente errados como resultado
de uma leitura errada ou uma transcrio mal feita, ou ainda por que algum fator no
controlado influenciou na sua obteno.
Na prtica, em geral, ocorre que h uma interao dos diferentes tipos de falhas.
Assim, por exemplo, a deteco de uma escolha errada da funo de ligao pode ocorrer
porque ela est realmente errada ou porque uma ou mais covariveis esto na escala errada ou
devido presena de alguns pontos discrepantes. Isso faz com que a verificao da adequao
de um modelo para um determinado conjunto de dados seja um processo realmente difcil.
Maiores detalhes podem ser vistos em Atkinson (1985), Atkinson et al. (1989),
Cordeiro (1986), McCullagh & Nelder (1989), Francis, Green & Payne (1993), Paula (2000).
Clarice G.B. Demtrio 62
3.2 Tcnicas para a verificao do ajuste de um modelo a um conjunto de
dados

As tcnicas usadas para esse fim podem ser formais ou informais.
As informais baseiam-se em exames visuais de grficos para a deteco de padres, ou
ento, de pontos discrepantes.
As formais envolvem aninhar o modelo sob pesquisa em uma classe maior pela
incluso de um parmetro (ou vetor de parmetros) extra . As mais usadas so baseadas nos
testes da razo de verossimilhanas e escore. Parmetros extras podem aparecer devido a:
- incluso de uma covarivel adicional;
- aninhamento de uma covarivel x em uma famlia indexada por um parmetro ,
sendo um exemplo a famlia de Box-Cox;
) ; ( x h
- aninhamento de uma funo de ligao em uma famlia maior , sendo um
exemplo a famlia de Aranda-Ordaz (Exerccio 2.12.5)
) ( g ) ; ( g
- incluso de uma varivel construda, por exemplo , a partir do ajuste original, para o
teste de adequao da funo de ligao;
2

- incluso de uma varivel dummy tomando o valor 1 (um) para a unidade discrepante e 0
(zero) para as demais. Isso equivalente a eliminar essa observao do conjunto de
dados, a fazer a anlise com a observao discrepante e sem ela e verificar se a
mudana no valor da deviance significativa, ou no. Ambos, porm, dependem da
localizao do(s) ponto(s) discrepante(s).

3.3 Anlise de resduos e diagnsticos para modelos lineares clssicos

3.3.1 Introduo

No modelo linear os elementos do vetor so as diferenas
entre os valores observados dos Y
Y X = + = +
i
i
s e aqueles esperados pelo modelo (
i
s). Esses elementos
so chamados de erros e admite-se que os s so independentes e, alm disso,
. Esses termos representam a variao natural dos dados, mas podem, tambm,
ser interpretados como o efeito cumulativo de fatores que no foram considerados no modelo.
Se as pressuposies do modelo so violadas, a anlise resultante pode levar a resultados
duvidosos. Este tipo de violao do modelo d origem s chamadas falhas sistemticas (no
linearidade, no-normalidade, heterocedasticidade, no-independncia etc). Outro fato
bastante comum a presena de pontos atpicos (falhas isoladas), que podem influenciar, ou
no, no ajuste do modelo. Eles podem surgir de vrias maneiras. Algumas possibilidades so:
'
i
) , 0 ( ~
2
N
i

- devido a erros grosseiros na varivel resposta ou nas variveis explanatrias, por
medidas erradas ou registro da observao, ou ainda, erros de transcrio;
- observao proveniente de uma condio distinta das demais,
- modelo mal especificado (falta de uma ou mais variveis, modelo inadequado etc).
- escala usada errada, talvez os dados sejam melhor descritos aps uma transformao, do
tipo logartmica ou raiz quadrada;
- a parte sistemtica do modelo e a escala esto corretas, mas a distribuio da resposta
tem uma cauda mais longa do que a distribuio normal.
Modelos Lineares Generalizados na Experimentao Agronmica 63
Dado um conjunto de observaes e ajustado um determinado modelo a ele, para a
verificao das pressuposies devem ser considerados como material bsico:
- os valores estimados (ou ajustados) ;
$

i
- os resduos
i
; r y
i i
=
$

- a varincia residual estimada, ; QMRes


2 2
= = s
- os elementos da diagonal (leverage) da matriz de projeo , isto ,
T T
X X X X H
1
) (

=

i
T T
i
x X X x
1
) (

= =
ii i
h h ,

sendo .
T
i
x ] x x x [
ik 2 i 1 i
K =
Uma idia importante, tambm, a da deleo (deletion), isto , a comparao do
ajuste do modelo escolhido, considerando-se todos os pontos, com o ajuste do mesmo modelo
sem os pontos atpicos. As estatsticas obtidas pela omisso de um certo ponto i so denotadas
com um ndice entre parnteses. Assim, por exemplo, representa a varincia residual
estimada para o modelo ajustado, excludo o ponto i.
s
i ( )
2

3.3.2 Tipos de resduos

Vale destacar que os resduos tm papel fundamental na verificao do ajuste de um
modelo. Vrios tipos de resduos foram propostos na literatura (Cook & Weisberg, 1982;
Atkinson, 1985; Miazaki & Stangenhaus, 1994).

a) Resduos ordinrios: Os resduos do processo de ajustamento por mnimos quadrados
so dados por:
i i i i
y r = = .

Enquanto os erros ' s so independentes e com a mesma varincia, o mesmo no
ocorre com os resduos do ajuste do modelo atravs de mnimos quadrados, isto ,
i


2
) ( ) [( Var ) ( Var H I Y] H I = = .

Em particular, a varincia do i-simo resduo dada por:

2
) 1 ( ) ( Var ) ( Var h r
ii i i
= =

e a covarincia dos resduos dos i-simo e i-simo resduos dada por:

2
' '
) ( Cov ) , ( Cov h , r r
ii i' i i i
= = .

Assim, usar r pode no ser adequado devido heterogeneidade de varincias.
Foram, ento, propostas diferentes padronizaes para sanar esse problema.
i i
=

Clarice G.B. Demtrio 64
b) Resduos estudentizados internamente (Studentized residual): Considerando-se s =
QMRes como a estimativa de , tem-se que um estimador no tendencioso para
dado por:
2
2
) ( Var
QMRes ) 1 ( ) 1 ( ) ( r a V
2
i i i
h s h = =

e, como , ento o resduo estudentizado internamente
dado por:
0 ) ( ) ( ) ( = = =
i i i i
Y E E r E
QMRes ) 1 (

) 1 ( ) ( r a V

2
i
i i
i
i
i
i
i
h
u y
s h
r
rsi

=


Esses resduos so mais sensveis que os anteriores por considerarem varincias
distintas. Entretanto, um valor discrepante pode alterar profundamente a varincia residual
dependendo do modo como se afasta do grupo maior das observaes. Alm disso, numerador
e denominador so variveis dependentes, isto , Cov . 0 ) QMRes , (

c) Resduos padronizados externamente (jackknifed residuals, deletion residuals,
externally studentized residual, RStudent): Para garantir a independncia do
numerador e denominador na padronizao dos resduos, define-se o resduo
estudentizado externamente, como:

) 1 (
) ( i i
i
i
h s
r
rse

= ,

sendo o quadrado mdio residual livre da influncia da observao i, ou seja, a
estimativa de , omitindo-se a observao i. Prova-se que:
2
) (i
s
2

2
1
i
i i
rsi p n
p n
rsi rse


= ,

sendo p o nmero de parmetros independentes.

A vantagem de usar que, sob normalidade, ele tem distribuio t de Student
com graus de liberdade. Embora no seja recomendada a prtica de testes de
significncia na anlise de resduos, sugere-se que a i-sima observao seja merecedora de
ateno especial se | for maior do que o
rse
i
) 1 ( p n
| rse
i
|
.
|

\
|

n 2
1 100 -simo percentil da distribuio t
com graus de liberdade, sendo que , o nvel de confiana, dividido por n por
ser este o nmero de pontos sob anlise.
) 1 ( p n

Modelos Lineares Generalizados na Experimentao Agronmica 65
3.3.3 Estatsticas para diagnsticos

Discrepncias isoladas (pontos atpicos) podem ser caracterizadas por ter h e/ou
resduo grandes, ser inconsistente e/ou ser influente (ver pg 404, McCullagh & Nelder,
1989). Em geral, pode-se classificar uma observao como:

i) ponto de alavanca (bom ou ruim): h alto;
ii) inconsistente: o ponto no segue a tendncia dos dados;
iii) outlier: h baixo e resduo grande;
iv) influente: afeta, de forma significativa, o ajuste do modelo.

Assim, uma observao influente aquela cuja omisso do conjunto de dados resulta
em mudanas substanciais em certos aspectos do modelo. Ela pode ser um outlier, ou no.
Uma observao pode ser influente de diversas maneiras, isto ,

- no ajuste geral do modelo;
- no conjunto de estimativas dos parmetros;
- na estimativa de um determinado parmetro;
- na escolha de uma transformao de uma varivel explanatria.

As estatsticas mais utilizadas para a verificao de pontos atpicos so:

a) Elementos da diagonal da matriz de projeo H (h
i
, leverage): Quando uma
observao est distante das outras em termos das variveis explanatrias ela pode ser, ou
no, influente. A distncia de uma observao em relao s demais medida pelo h (medida
de leverage).
No processo de ajuste, como , tem-se
$
= HY

n i Y h Y h Y h Y h Y h
n
j
n in i ii i i j ij i
+ + + + + = =
=
1 , ... ...
1
2 2 1 1


sendo que dependente da matriz do delineamento. Mas, como H
uma matriz de projeo, verifica-se que
i
T T
i
x X X x
1
) (

= =
ii i
h h

+ = = =
= '
2
'
2
1 '
2
'
i i
ii ii
n
i
ii ii i
h h h h h

e, alm disso, 0 , e . 1
ii
h

=
=
n
i
ii
h
1 '
'
1 p h tr r
n
i
ii
= = =

=1
) ( ) ( H H
V-se, portanto, que o valor ajustado a mdia ponderada dos valores observados
e que o peso de ponderao o valor de
'
. Assim, o elemento da diagonal de H o peso
com que a observao participa do processo de obteno do valor ajustado . Valores
com
$

i
ii
h
i
Y
i

n
p
h
ii
2
> , segundo Belsley et al. (1980, pg. 17) indicam observaes que merecem uma
anlise mais apurada.

b) DFBeta: importante quando o coeficiente de regresso tem um significado prtico.
Mede a alterao em ao se retirar o i-simo ponto da anlise. dado por:

Clarice G.B. Demtrio 66


i i
i
i i
h
x X X' ) (
) 1 (
1

DFBeta
' 1
) ( ) (

= = .

No tem interpretao simples. Cook & Weisberg (1982) propuseram curvas
empricas para o estudo dessa medida.

c) DFFitS - Mede a alterao provocada no valor ajustado pela retirada da observao i.

DFFitS
(i)
i i
i i i i i
i i
i i
i i
i i
r
h s h s h s h s h
x X X x
x DFFit
T T
i
1
2
) (
2
) (
) (
2
) (
) (
2
) (
(i)
) (
) 1 (
1
)

(

= =

ou, ainda,
DFFitS
(i)
i
i
i
i i
i
i
i
rse
h
h
h s
r
h
h
2
1
2
1
) (
2
1
1
) 1 (
1
|
|
.
|

\
|

|
|
.
|

\
|

=

sendo o quociente
i
i
h
h
1
chamado potencial de influncia e uma medida da distncia do
ponto x em relao s demais observaes. Belsley et al. (1980, pg. 28) sugerem que valores
absolutos excedendo
n
p
2 podem identificar observaes influentes.

d) Distncia de Cook: tambm uma medida de afastamento do vetor de estimativas
provocado pela retirada da observao i. uma expresso muito semelhante ao DFFitS mas
que usa como estimativa da varincia residual aquela obtida com todas as n observaes, ou
ainda, usa o resduo estudentizado internamente. dada por:
p h
h
s h
r
ps
r
h
h
ps
i
i
i
i i
i
i
i
T
i
i
1
) 1 (
) 1 (
) 1 (
)

)( ( )

(
D
2
2
1 2
2
2 2
) ( ) (
) (

|
|
|
.
|

\
|

=

=
X X
T

ou, ainda,
2
) (
1
) 1 (
D
i
i
i
i
rsi
p h
h

= .

e) Distncia de Cook modificada: Atkinson (1981) sugeriu uma modificao para a
distncia de Cook
| |
1
2
1
i
i
i
i
rse
h
h
p
p n
C
|
|
.
|

\
|

= .

3.3.4 Tipos de grficos

a) Valores observados ( ) vs variveis explanatrias ( ): Esse tipo de grfico indica
a estrutura que pode existir entre a varivel dependente e as diversas covariveis. Pode
indicar, tambm, a presena de heterocedasticidade. Pode, porm, levar a uma idia falsa no
y
j
x
Modelos Lineares Generalizados na Experimentao Agronmica 67
caso de muitas covariveis (a no ser que haja ortogonalidade entre todas). O padro nulo
deste grfico uma distribuio dos resduos em torno de zero com amplitude constante.

b) Varivel explanatria vs varivel explanatria : Esse tipo de grfico indica a
estrutura que pode existir entre duas variveis explanatrias. Pode indicar, tambm, a
presena de heterocedasticidade. Pode, porm, levar a uma idia falsa no caso de muitas
covariveis (a no ser que haja ortogonalidade entre todas). O padro nulo deste grfico
uma distribuio dos resduos em torno de zero com amplitude constante.
j
x
' j
x

c) Resduos vs variveis explanatrias no includas ( ): Pode mostrar se existe
uma relao entre os resduos do modelo ajustado e uma varivel ainda no includa no
modelo. Pode mostrar, tambm, a evidncia de heterocedasticidade. Pode levar, porm, ao
mesmo tipo de problema apontado nos itens (a) e (b). Uma alternativa melhor para esse tipo
de grfico o grfico da varivel adicionada (added variable plot). O padro nulo deste
grfico uma distribuio dos resduos em torno de zero com amplitude constante.
fora
x

d) Resduos vs variveis explanatrias includas ( ): Pode mostrar se ainda existe
uma relao sistemtica entre os resduos e a varivel j includa, isto , por exemplo se
deve ser includa. Esse tipo de grfico apresenta o mesmo tipo de problema que o
citado nos itens (a), (b) e (c). Alternativa melhor para isso o grfico de resduos parciais
(partial residual plot). O padro para esse tipo de grfico uma distribuio aleatria de
mdia 0 e amplitude constante. Desvios sistemticos podem indicar:
dentro
x
j
x
2
dentro
x

- escolha errada da varivel explanatria;
- termo quadrtico (ou ordem superior) faltando;
- escala errada da varivel explanatria.

e) Resduos vs valores ajustados: O padro para esse tipo de grfico uma distribuio
aleatria de mdia 0 e amplitude constante.

f) Grficos de ndices: servem para localizar observaes com resduo, leverage (h),
distncia de Cook modificada etc, grandes.

g) Grfico da varivel adicionada ou da regresso parcial (added variable plot):
Embora os grficos de resduos vs variveis no includas no modelo possam indicar a
necessidade de variveis extras no modelo, a interpretao exata deles no clara. A
dificuldade est em que, a menos que a varivel explanatria, considerada para incluso, seja
ortogonal a todas as variveis que j esto no modelo, o coeficiente angular do grfico de
resduos no o mesmo que o coeficiente angular no modelo ajustado, incluindo a varivel
em questo. Esse tipo de grfico pode ser usado para detectar a relao com uma varivel
explanatria e como isto influenciado por observaes individuais. No caso do modelo
linear geral, tem-se

u X Y + = ) ( E

sendo u a varivel a ser adicionada (pode ser uma varivel construda). O interesse est em se
saber se , isto , se no h necessidade de se incluir a varivel u no modelo. A partir do
sistema de equaes normais
0 =
Clarice G.B. Demtrio 68
| |

= +
= +

=
(

Y u u u X u
Y X u X X X
Y u
Y X
u X
u
X
T T T
T T T
T
T
T
T



tem-se
) ( ) (

1 1
u X X X Y X X X
T T T T
=
e
*
T
*
T
*
u u
r u
u H I u
Y H I u
=

=
) (
) (

T
T


que o coeficiente angular de uma reta que passa pela origem e em que
so os resduos de Y ajustado para X e so os resduos
de u ajustado para X.
Y H I X Y r ) (

= = u H I u ) (
*
=
O grfico da varivel adicionada (added variable plot) de r versus tem coeficiente
angular (diferente de r vs u). Ele pode mostrar, tambm, como a evidncia para a incluso
de u depende de observaes individuais. Esse grfico, portanto, obtido a partir dos resduos
ordinrios da regresso de Y como funo de todas as covariveis exceto u versus os
resduos ordinrios da regresso de u como funo das mesmas covariveis usadas para
modelar Y. Assim, por exemplo, para um modelo com 3 covariveis, o grfico da varivel
adicionada para obtido a partir de
u
*

j
x =
j
x =
3
x

Y r x x

2 2 1 1 0
= + + =
e
3 3
*
2 2 1 1 0 3


x x u x x x = + + = .

h) Grfico de resduos parciais ou grfico de resduos mais componente (partial
residual plot): Se o interesse est em se detectar uma estrutura omitida, tal como uma forma
diferente de dependncia em u, um grfico usando u pode servir melhor. Esse grfico
tambm, tem coeficiente angular . Consiste em se plotarem os resduos do modelo
mais versus u, isto , no grfico de versus u. Por isso ele,
tambm, chamado de grfico do resduo mais componente.

u X Y + = ) ( E u u r r
~
+ =

i) Grfico normal e semi-normal de probabilidades (normal plots e half normal
plots): Segundo Weisberg (1985) o grfico normal de probabilidades destaca-se por dois
aspectos:

- identificao da distribuio originria dos dados e,
- identificao de valores que se destacam no conjunto.

Seja uma amostra aleatria de tamanho n. As estatsticas de ordem correspondentes
aos resduos obtidos a partir do ajuste de um determinado modelo a essa amostra so
.
) ( ) 2 ( ) 1 (
..., , ,
n
d d d
O fundamento geral para a construo do grfico normal de probabilidades que se os
valores de uma dada amostra provm de uma distribuio normal, ento os valores das
estatsticas de ordem e os correspondentes, obtidos da distribuio normal padro so s '
i
z
Modelos Lineares Generalizados na Experimentao Agronmica 69
linearmente relacionados. Portanto, o grfico dos valores versus deve ser,
aproximadamente, uma reta. Formatos aproximados comuns que indicam ausncia de
normalidade so:
) (i
d
i
z
) (i
(.)
.
+
2n
n
z
i

- S (Esse): indica distribuies com caudas muito curtas, isto , distribuies cujos
valores esto muito prximos da mdia;
- S invertido (Esse invertido): indica distribuies com caudas muito longas e, portanto,
presena de muitos valores extremos;
- J e J invertido: indicam distribuies assimtricas, positivas e negativas,
respectivamente.

Esses grficos, na realidade so muito dependentes do nmero de observaes,
atingindo a estabilidade quando o nmero de observaes grande (em torno de 300). Para a
construo desse grfico seguem-se os passos:

i) ajuste um determinado modelo a um conjunto de dados e obtenha , os valores
ordenados de uma certa estatstica de diagnstico (resduos, distncia de Cook, h etc);
d
ii) dada a estatstica de ordem na posio i, calcule a respectiva probabilidade acumulada
e o respectivo quantil, ou seja, o inverso da funo de distribuio normal , no ponto
. Essa probabilidade , em geral, aproximada por
i
p
i
p
i
p
1 2 +

=
c n
c i
p
i


para . Diversos valores tm sido propostos para a constante c. Vrios autores
recomendam a utilizao de
1 0 < < c
8
3
= c , ficando, ento,

n ..., , 2 , 1 i ,
25 , 0 n
375 , 0 i
1
z
i
= |
.
|

\
|
+

=

iii) coloque, em um grfico, versus .
) (i
d
i
z

Esse grfico tem, tambm, o nome de Q-Q plot, por relacionar os valores de um
quantil amostral versus os valores do quantil correspondente da distribuio normal.
) (i
d
A construo do grfico semi-normal de probabilidades (half normal plot) o
resultado do conjunto de pontos obtidos por | versus , sendo
) (
|
i
d
i
z |
.
|

\
|
+

=

5 , 0
125 , 0
1
i
.
McCullagh & Nelder (1989) sugerem o uso do grfico normal de probabilidades
(normal plot) para resduos e o grfico semi-normal de probabilidades (half normal plot) para
medidas positivas como o caso de h (medida de leverage) e da distncia de Cook
modificada.
No caso do grfico normal de probabilidades para resduos, espera-se que na ausncia
de pontos discrepantes, o aspecto seja linear, mas no h razo para se esperar que o mesmo
acontea quando so usados h ou a distncia de Cook modificada. Os valores extremos
aparecero nos extremos do grfico, possivelmente com valores que desviam da tendncia
indicada pelos demais.
Clarice G.B. Demtrio 70
Para auxiliar na interpretao do grfico semi-normal de probabilidades (half normal
plot), Atkinson (1985) props a adio de um envelope simulado. Este envelope tal que sob
o modelo correto as quantias (resduos, leverage, distncia de Cook etc) obtidas a partir dos
dados observados caem dentro do envelope. Esse grfico obtido seguindo-se os passos:
i) ajuste um determinado modelo a um conjunto de dados e obtenha , os valores
absolutos ordenados de uma certa estatstica de diagnstico (resduos, distncia de Cook,
leverage etc);
*
) (i
d
ii) simule 19 amostras da varivel resposta, usando as estimativas obtidas aps um
determinado modelo ter sido ajustado aos dados e os mesmos valores para as variveis
explanatrias;
iii) ajuste o mesmo modelo a cada uma das 19 amostras e calcule os valores absolutos
ordenados da estatstica de diagnstico de interesse, , j = 1, ..., 19, i = 1, ..., n;
*
) (i j
d
iv) para cada i, calcule a mdia, o mnimo e o mximo de ;
*
) (i j
d
v) coloque em um grfico as quantidades obtidas no item anterior e contra .
*
) (i
d
i
z

Demtrio & Hinde (1997) apresentam um conjunto de macros que permitem fazer
esses grficos para uma grande variedade de modelos, usando o GLIM, enquanto que Paula
(2000) faz o mesmo em SPlus.

j) Valores observados ou Resduos versus tempo: Mesmo que o tempo no seja uma
varivel includa no modelo, grficos de respostas (Y) ou de resduos versus tempo devem ser
feitos sempre que possvel. Esse tipo de grfico pode levar deteco de padres no
suspeitados, devido ao tempo ou, ento, a alguma varivel altamente correlacionada com
tempo.

3.4 Anlise de resduos e diagnsticos para modelos lineares generalizados

3.4.1 Introduo

As tcnicas usadas para anlise de resduos e diagnsticos para modelos lineares
generalizados so semelhantes s usadas para modelos lineares clssicos, com algumas
adaptaes. Assim, por exemplo, na verificao da pressuposio de linearidade para o
modelo linear clssico usam-se os vetores y e enquanto que para o modelo linear
generalizado devem ser usados , a varivel dependente ajustada, e , o preditor linear. A
varincia residual substituda por uma estimativa consistente do parmetro e a matriz
torna-se:

z
2
s
H
2 1 1 2 1
) ( W X WX X X W H
T T
=

o que equivalente a substituir por X X
2 1
W . Note-se que, agora depende das variveis
explanatrias, da funo de ligao e da funo de varincia, tornando mais difcil a
interpretao da medida de leverage. Pode ser mostrado que:
H

) ( ) (
2 1 2 1
Y HV V

,

Modelos Lineares Generalizados na Experimentao Agronmica 71
sendo . Isso mostra que mede a influncia em unidades estudentizadas de
sobre .
)} ( { diag
i
V = V

H
Y

3.4.2 Tipos de resduos

Os tipos de resduos mais usados para os modelos lineares generalizados so:

a) resduos ordinrios
i i i
y r = ;

b) resduos de Pearson generalizados

( )
i
i
i i P
i
V
w
y
r


= ,

sendo uma estimativa consistente do parmetro e um peso a priori (na maior parte dos casos
igual a 1);

i
w

c) resduos de Pearson generalizados estudentizados internamente

( ) ) 1 (

'
i i
i
i i P
i
h V
w
y
r


,

sendo elemento da diagonal da matriz ;
i
h H

d) componentes da deviance

( ) )]

( )
~
( )

~
( [
2
- y sinal
i i i i i i
i
i
D
i
b b y
w
r

+ = ;

e) componentes da deviance estudentizado internamente (Cox & Snell, 1968)

( )
i
D
i D
i
h
r
r

=
1

'

;

f) componentes da deviance estudentizado externamente (Jackknifed residuals,
deletion residuals, Williams, 1987; Pregibon, 1981).

( ) ( )
2 '
1
2 '
1 i
*
) ( ) ( 1 - y sinal
P
i i
D
i i i
D
i
r h r h r + = ,
sendo que o ndice 1 significa 1
a
iterao.

Clarice G.B. Demtrio 72
3.4.3 Tipos de grficos

So basicamente os mesmos grficos j estudados em (3.3.4) com algumas
modificaes e com intrepretaes semelhantes.

a) Resduos versus alguma funo dos valores ajustados: recomendado o grfico de
algum tipo de resduo estudentizado versus , ou ento, versus os valores ajustados
transformados de tal forma a se ter varincia constante (McCullagh & Nelder, 1989) para a
distribuio em uso. Assim, usar para a distribuio normal,
i

i
2 para a Poisson,
para a binomial, para a gama e ) / ( arcoseno 2
i i
m ) (
i
n 2l
2 1
2

i
para a normal inversa. O
padro nulo desse grfico uma distribuio dos resduos em torno de zero com amplitude
constante. Desvios sistemticos podem ser algum tipo de curvatura ou, ento, mudana
sistemtica da amplitude com o valor ajustado. No tem significado para dados binrios
(Bernoulli).

b) Resduos versus variveis explanatrias no includas: Pode mostrar se existe uma
relao entre os resduos do modelo ajustado e uma varivel ainda no includa no modelo.
Uma alternativa melhor para esse tipo de grfico o grfico da varivel adicionada (added
variable plot). O padro nulo deste grfico uma distribuio dos resduos em torno de zero
com amplitude constante.

c) Resduos versus variveis explanatrias j includas: Pode mostrar se ainda existe
uma relao sistemtica entre os resduos e uma varivel j includa. Alternativa melhor para
isso o grfico de resduos parciais (partial residual plot). O padro nulo para esse tipo de
grfico uma distribuio aleatria de mdia 0 e amplitude constante.

d) Grfico da varivel adicionada ou da regresso parcial (added variable plot):
Inicialmente, ajusta-se o modelo com preditor linear X . Em seguida, faz-se o grfico de =
s W
2 1
versus u W H I
2 1
) ( , sendo s o vetor com elementos
i
i
i i
i i
i
d
d
V a
y
s



) ( ) (

= (Wang,
1985). Aqui s W
2 1
representa o vetor de elementos
) ( ) (

i i
i i
V a
y


X
(resduo de Pearson
generalizado da regresso ponderada de Y em relao a com matriz de pesos ) e W
u W H I
2 1
) ( representa os resduos da regresso ponderada de u em relao a com
matriz de pesos .
X
W

e) Grfico de resduos parciais ou grfico de resduos mais componente (partial
residual plot): Inicialmente ajusta-se o modelo com preditor linear u, obtendo-se
e . Em seguida, faz-se o grfico de versus u (Wang, 1987).
X + =
s W
1
u s W +
1

f) Grficos de ndices: servem para localizar observaes com resduo, leverage (h),
distncia de Cook modificada etc, grandes.

Modelos Lineares Generalizados na Experimentao Agronmica 73
g) Grfico normal e semi-normal de probabilidades (normal plots e half normal
plots): construdos da mesma forma que para os modelos lineares clssicos, usando-se, porm,
a distribuio pertinente.

h) Valores observados ou resduos versus tempo: Mesmo que o tempo no seja uma
varivel includa no modelo, grficos de respostas (Y) ou de resduos versus tempo devem ser
feitos sempre que possvel. Esse tipo de grfico pode levar deteco de padres no
suspeitados, devido ao tempo ou, ento, a alguma varivel altamente correlacionada com
tempo.

3.5 Verificao da funo de ligao

Um mtodo informal para isso o grfico da varivel dependente ajustada z contra o
preditor linear estimado . O padro nulo uma reta. O grfico da varivel adicionada
tambm pode ser usado, considerando-se , sendo que o padro nulo indicar que a
funo de ligao usada adequada.

2
u =
Para funes de ligao na famlia potncia, uma curvatura para cima no grfico
indica que deve ser usada uma funo de ligao com expoente maior enquanto que, uma
curvatura para baixo indica um expoente menor. Esse tipo de grfico no serve para dados
binrios.
Existem dois mtodos formais para a verificao da adequacidade da funo de
ligao utilizada:

1
o
) o mais simples consiste em se adicionar como uma covarivel extra e examinar a
mudana ocorrida na deviance o que equivale ao teste da razo de verossimilhanas. Se
ocorrer uma diminuio drstica h evidncia de que a funo de ligao insatisfatria.
Pode-se usar, tambm, o teste escore;
2


2
o
) outro mtodo formal consiste em indexar a famlia de ligaes por um parmetro e
fazer um teste da hiptese . Para isso podem ser usados os testes da razo de
verossimilhanas e o escore. Incerteza sobre a funo de ligao mais comum com dados
contnuos que tm distribuio gama e com propores tendo erros binomiais. Assim, por
exemplo, para dados com distribuio gama, pode-se usar a famlia de funes de ligao
. Para dados com distribuio binomial, pode-se usar a famlia de funes de ligao
de Aranda-Ordaz (1981) que tem como casos especiais a funo de
ligao logstica para e a complemento log-log quando . Em geral, usa-se o
mtodo do perfil de verossimilhana para se estimar . Para o modelo linear clssico esse
teste eqivale ao teste proposto por Tukey (1949) para no-aditividade.

0 0
= : H
) - n{[(1
-
= l

=
} ] 1

/
1 = 0

A verificao da adequacidade da funo de ligao , inevitavelmente, afetada pela
falha em estabelecer escalas corretas para as variveis explanatrias no preditor linear. Em
particular, se o teste formal construdo pela adio de ao preditor linear indica desvio do
modelo, isto pode indicar funo de ligao errada ou escalas erradas para as variveis
explanatrias ou ambas. Pontos atpicos, tambm, podem afetar a escolha da funo de
ligao.
2

Clarice G.B. Demtrio 74


3.5.1 Justificativa para o uso de
2


Suponha que a funo de ligao usada foi e que a verdadeira seja .
Ento,
) g( = )
*
( g =
( ) ( ) { } ( ) = =

h g g g
1
* .

A hiptese nula e a alternativa = no-linear. Usando-se a
expanso de Taylor para tem-se:
= ) (
0
h H :
) g(
) ( : h H
a
( ) ( ) ( )
( )
L +

+ +
2
0
0 0
2
h
h h g
o que mostra que a varivel adicionada , desde que o modelo tenha termos para o qual a
mdia geral marginal.
2


Exemplo 19: Considere os dados do Exemplo 5. A varivel resposta tem distribuio
binomial, isto , Y . Adotando-se a funo de ligao logstica (cannica) e os
preditores lineares dados por:
) , ( ~
i i i
m Bin
i
i i
i
i
d
m
n
2 1
+ =
|
|
.
|

\
|

= l ,
e
i i
i i
i
i
u d
m
n + + =
|
|
.
|

\
|

=
2 1
l ,

sendo , usa-se a diferena de deviances para testar a adequao da funo de ligao,
obtendo-se os resultados da Tabela 13. Verifica-se que se rejeita a hiptese , ao
nvel de 5% de probabilidade, indicando que a ligao logstica no adequada. A estimativa
para = -0,2087 (0,0757).
2

i i
u =

0
0
= : H


Tabela 13: Anlise de Deviance
Causa de variao g.l. Deviances Valor p
Regresso linear 1 153,480 < 0,0001
Funo de ligao 1 9,185 0,0024
Novo Resduo 3 1,073
(Resduo) 4 10,260
Total 5 163,740
84 , 3
2
05 , 0 ; 1
= ; 64 , 6
2
01 , 0 ; 1
=

Fazendo-se uma anlise de resduos verifica-se que a 1
a
observao discrepante.
Eliminando-a e refazendo-se o teste para a funo de ligao a hiptese no
rejeitada, indicando a adequao da funo de ligao logstica. Tem-se, ento, = -0,1140
(0,086) e,
0
0
= : H

n l =
i
|
|
.
|

\
|

i i
i
m

= .
i
d 7506 , 0 5823 , 3 +
Modelos Lineares Generalizados na Experimentao Agronmica 75
3.6 Verificao da adequao da funo de varincia

Um mtodo informal para a adequao da funo de varincia (que definida ao se
escolher uma determinada distribuio) o grfico dos resduos absolutos contra os valores
ajustados transformados em uma escala com varincia constante (como usado em 3.4.3, item
a). O padro nulo para esse tipo de grfico uma distribuio aleatria de mdia 0 (zero) e
amplitude constante. A escolha errada da funo de varincia mostrar uma tendncia na
mdia. Em geral, a no adequao da funo de varincia ser tratada como superdisperso
(Hinde & Demtrio, 1998).
Um mtodo formal para a verificao da adequacidade da funo de varincia usada
consiste em indexar a funo de varincia por um parmetro e fazer um teste da hiptese
. Para isso podem ser usados os testes da razo de verossimilhanas e o escore.
Assim, por exemplo, pode-se usar V e observar como o ajuste varia em funo da
variao de . Em geral, usa-se o mtodo do perfil de verossimilhana para se estimar .
0 0
= : H

= ) (
Para a comparao de ajustes com diferentes funes de varincia, a deviance no
pode mais ser usada, h necessidade de se usar a teoria de quase verossimilhana estendida
(Nelder & Pregibon, 1987)
A verificao da adequacidade da funo de varincia , inevitavelmente, afetada pela
falha em estabelecer escalas corretas para as variveis explanatrias no preditor linear,
escolha errada da funo de ligao e pontos atpicos.

3.7 Verificao da adequao das escalas das covariveis

O grfico de resduos parciais uma ferramenta importante para saber se um termo
no preditor linear pode ser melhor expresso como para alguma funo montona
. Em modelos lineares generalizados o resduo parcial definido por:
x
(. h
( ; x h )
)
) ;

x z u + = ,

sendo z a varivel dependente ajustada, o preditor linear ajustado e a estimativa do
parmetro para a varivel explanatria x.

O grfico de u contra x leva a um mtodo informal. Se a escala de x satisfatria o
grfico deve ser aproximadamente linear. Se no, sua forma pode sugerir um modelo
alternativo. Podero, entretanto, ocorrer distores se as escalas das outras variveis
explanatrias estiverem erradas, tal que pode ser necessrio olhar grficos de resduos
parciais para diversos x's.
Um mtodo formal consiste em colocar x em uma famlia indexada por ;
calcular, ento, a deviance para um conjunto de valores de e determinar como aquele
valor que leva a uma deviance mnima (mtodo do perfil de verossimilhana). O ajuste para
ser, ento, comparado com o ajuste para a escolha inicial que em geral 1. Este
procedimento pode ser usado para vrios x's simultaneamente e particularmente til quando
tm as mesmas dimenses fsicas, tal que necessria uma transformao comum. A famlia
mais comum de transformao a famlia de Box & Cox (1964) dada por
( .; z

0

Clarice G.B. Demtrio 76
( )

=

0 = para x n
0 para
1 x
; x h
l
.

Um mtodo informal para o estudo de uma nica covarivel toma a forma de
0
) (
) (
0
=

=
d
dz
u que , ento, usada como varivel adicional para o teste de adequao da
escala usada para a varivel explanatria de interesse. Pode-se, ento, fazer o grfico de
resduos parciais, como j discutido em 3.4.3, item (e).
Essa mesma varivel u construda pode ser usada como uma varivel adicional no
modelo para o teste da hiptese (o que equivale ao teste de ) que, se
no rejeitada, indicar a adequacidade da escala escolhida para a varivel explanatria de
interesse.
0 0
= : H 0
0
= : H

Exemplo 20: Transformao para a varivel dependente Seja a famlia de
transformaes de Box-Cox normalizada


= + =

0 = para n
0 para
1
) (
1
y
y
X z
l &
&
y
y

sendo a mdia geomtrica das observaes. A expanso de z em uma srie de Taylor
em relao a , conhecido, dada por:
y& ) (
0


) ( ) ( ) ( ) (
0 0 0
+ u z z ,

sendo
0
) (
) (
0
=

=
d
dz
u . Ento,

u X u z z + + = + = ) ( ) ( ) ( ) (
0 0 0
.

Mas
1
1
) (


=
y&
y
z e, portanto,

1
-1
) y n )( 1 - ( y n ) (
) (

+
=

=
y
y y
d
d
&
& l l z
u .

O interesse, em geral, est em testar alguns valores de , tais como (sem
transformao) e (transformao logartmica). Desde que so necessrios apenas
resduos de u , ento, constantes podem ser ignoradas se contm uma constante. Ento,
1
0
=
0
0
=
) (

(

|
|
.
|

\
|
= 1
y
n y ) 1 (
&
l
y
u , varivel construda para testar se 1
0
=
e
Modelos Lineares Generalizados na Experimentao Agronmica 77
(

= y n
2
n
n y (0) & l
l
l &
y
y u , varivel construda para testar se . 0
0
=

Como , tem-se que uma estimativa para pode ser obtida por
. Usa-se, em geral, um valor para prximo de que tenha uma interpretao
prtica.
0
=
=




Exemplo 21: Transformao para as variveis explanatrias Se em lugar de transformar
houver necessidade de transformar tem-se que a famlia maior : y
' j
x

) ( ) (
j j
= + =

z x x Y
'
'
j
j j
j
E .

A expanso de em uma srie de Taylor em relao a , conhecido, dada por: ) ( z
0


) ( ) ( ) ( ) (
0 0 0
+ u z z

sendo
0
) (
) (
0
=

=
d
dz
u . Ento,

) ( n ) ( ) (
0 j' j 0 j' j' j
0 0 0
+ + = + +

u z
' ' '
'
'
'
j j j
x x x x x x
j j
j j
j j
j
l

pois
'
'
z
j
x x
d
d
j
n
) (
j'
l

. Portanto, testar equivalente a testar para a regresso


com a varivel construda com j no modelo. Para tem-se
0
=
' j
x
0 =
0
=
'
u x
j
n ) (
0
0
l

=
0

' j
x 1

u X
' '
'
+ = + + =

j j
j j
j
x x x E n ) 1 ( (Y)
j' j' j
l ,

sendo .
' '
u
j j
x x n ) ( l =



Exemplo 22: Transformao simultnea para as variveis resposta e explanatrias
Para a transformao simultnea das variveis resposta e exploratrias (exceto a constante
) mesma potncia, a varivel construda u para : 1 1 =

) (
0
1
0
=

u(1) =

=
(

|
|
.
|

\
|

p
j
j j j
y
y
y x x
2
1 n n

&
l l .

Clarice G.B. Demtrio 78
Observao: Comandos GLIM para obteno de alguns grficos:

i) Grficos da varivel adicionada ou da regresso parcial

! Entrada de dados....
$Yvar Y $
$Fit X1+X2 $
$Extract %rs $Ca R= %rs $
$Yvar X3 $
$Fit . $
$Extract %rs $Ca U = %rs $
$Graph R U $


ii) Grfico de resduos parciais ou de resduos mais componente

$Yvar Y $
$Fit X<2> $
$Extract %pe %rs $Ca R* = %rs + %pe(2) $
$Graph R* X $


iii) Grfico normal de probabilidades (normal plot)

$Input %plc qplot $
$use qplot $

colocado logo aps o ajuste do modelo desejado.


iv) Grfico semi normal de probabilidades (half normal plot)

$Yvar Y $
$Fit <modelo> $
$Input hnp.mac $
$Use hnp y $


Modelos Lineares Generalizados na Experimentao Agronmica 79
3.8 Exerccios

3.8.1 Os dados da Tabela 14 referem-se mortalidade de escaravelhos aps 5 h de exposio
a diferentes doses de CS
2
.

Tabela 14: Mortalidade de escaravelhos
Doses m
i
Y
i
1,69 59 6
1,72 60 13
1,76 62 18
1,78 56 28
1,81 63 52
1,84 59 53
1,86 62 61
1,88 60 60
Fonte: Bliss (1935)

Pede-se:
a) ajuste o modelo logstico linear e faa o teste para a funo de ligao;
b) ajuste o modelo complemento log-log e faa o teste para a funo de ligao;
c) faa o grfico da varivel adicionada para os itens (a) e (b);
d) verifique se h necessidade de transformao para a varivel dose, usando o grfico de
resduos parciais.

3.8.2 Os dados da Tabela 15 referem-se a medidas de dimetro altura do peito (X
1
) e altura
(X
2
) de rvores em p e de volumes (Y) das rvores derrubadas. O objetivo desse tipo de
experimento verificar de que forma essas variveis esto relacionadas para, atravs de
medidas nas rvores em p, poder se predizer o volume de madeira em uma rea de floresta.

Pede-se:

a) fazer os grficos de variveis adicionadas para X
1
e X
2
;
b) fazer os grficos de resduos parciais para X
1
e X
2
;
c) fazer as transformaes , e e repetir os
grficos dos itens (a) e (b);
) (Y LY log = ) (
1
log 1 X LX = ) (
2 2
log X LX =

d) verificar se existem pontos discrepantes em ambas as escalas;
e) usando
(

|
|
.
|

\
|
=

=
1 n n

) 1 (
2
y
y
y x x
j j
p
j
j
&
l l u obtido no Exemplo 22, como varivel
adicionada, verifique que h necessidade da transformao simultnea de Y, X
1
e X
2
;

Clarice G.B. Demtrio 80
Tabela 15: Medidas de rvores em uma rea florestal.
Amostra X
1
X
2
Y
1 8,3 70 10,3
2 8,6 65 10,3
3 8,8 63 10,2
4 10,5 72 16,4
5 10,7 81 18,8
6 10,8 83 19,7
7 11,0 66 15,6
8 11,0 75 18,2
9 11,1 80 22,6
10 11,2 75 19,9
11 11,3 79 24,2
12 11,4 76 21,0
13 11,4 76 21,4
14 11,7 69 21,3
15 12,0 75 19,1
16 12,9 74 22,2
17 12,9 85 33,8
18 13,3 86 27,4
19 13,7 71 25,7
20 13,8 64 24,9
21 14,0 78 34,5
22 14,2 80 31,7
23 14,5 74 36,3
24 16,0 72 38,3
25 16,3 77 42,6
26 17,3 81 55,4
27 17,5 82 55,7
28 17,9 80 58,3
29 18,0 80 51,5
30 18,0 80 51,0
31 20,6 87 77,0
Fonte: Ryan et al. (1976).

3.8.3 Os dados da Tabela 16 so provenientes de um experimento em delineamento blocos ao
acaso em que foram usadas como tratamentos 8 doses de um inseticida fosforado e foram
contadas quantas (Y) cenouras estavam danificadas de totais de M cenouras.

Tabela 16: Nmero de cenouras danificadas (Y) de M cenouras
Log (dose) Bloco I Bloco II Bloco III
X Y M Y M Y M
1,52 10 35 17 38 10 34
1,64 16 42 10 40 10 38
1,76 8 50 8 33 5 36
1,88 6 42 8 39 3 35
2,00 9 35 5 47 2 49
2,12 9 42 17 42 1 40
2,24 1 32 6 35 3 22
2,36 2 28 4 35 2 31
Fonte: Phelps (1982).
Modelos Lineares Generalizados na Experimentao Agronmica 81
Pede-se:
a) ajuste o modelo logstico linear e faa o teste para a funo de ligao;
b) ajuste o modelo complemento log-log e faa o teste para a funo de ligao;
c) faa o grfico da varivel adicionada para os itens (a) e (b);
d) usando a famlia de funes de ligao de Aranda-Ordaz, obtenha a varivel construda e
estime ;
e) ]ajuste o modelo logstico com preditor linear quadrtico e faa o teste para a funo de
ligao.

3.8.4 Considere
( )


= =

0 = para n
0 para
1
l
; g .

Mostre que a varivel construda para o teste da hiptese dada por 0 :
0
= H
2 2
n ) ; (
) 0 (
2 2
0


=
=

u
l
d
dg
(Atkinson, 1985, pg. 238).




Captulo 4

Aplicaes

4.1 Estimao da Dose Efetiva

Como j foi visto no captulo 2, ensaios do tipo dose-resposta so muito usados na
rea de toxicologia. Em geral os dados resultantes so propores e os modelos mais usados
so: logstico, probit e complemento log-log. Tais modelos, ajustados a conjuntos de dados,
no caso em que o preditor linear uma regresso linear simples, podem ser usados para
sumariz-los atravs do par de estimativas dos parmetros e formam a base para
comparao de diferentes conjuntos de dados (Morgan, 1992). Assim, por exemplo, podem
ser usados para a comparao de potncia de diferentes produtos (inseticidas, fungicidas,
herbicidas etc).
) (
2 1


,

Em muitos casos, porm, o interesse est na determinao de estimativas de doses


efetivas,

(DE
100p
), que so doses, as quais sob o modelo ajustado causam uma mudana
de estado em 100p% dos indivduos. Um exemplo muito comum a determinao da DL
50

(tambm chamada dose mediana) que a dose que causa 50% de mortalidade dos indivduos.
p

Assim, para os modelos citados tem-se:


( )
p 2 1
p 1
p
p

n logit + =
|
|
.
|

\
|

= l
(

|
|
.
|

\
|

=
1
2
p
p 1
p 1

l , logstico;

( ) ( )
p 2 1
1

p p Probit + = =

( ) | |
1
1
2
p
p
1

=

, probit;

( ) | |
p 2 1
p 1

n n + = l l ( ) | | {
1
2
p
p 1
1

n n

= l l } , complemento log-log.
Observao: Para qualquer modelo simtrico verifica-se que
2
1
50

= .
De uma forma geral, tem-se:
]

) ( [

1
1
2
p
p F
1

=

,
sendo ( )
p 2 1
F p

+ = . Se , ento, . )

( n

p p
d l = }

exp{

p p
d =
Modelos Lineares Generalizados na Experimentao Agronmica 83
Para o modelo assimtrico proposto por Aranda-Ordaz (1981), tem-se

( ) p e 1 1 F
1
p 2 1
p 2 1
= |
.
|

\
|
+ = +

+





.
Ento,

1
p 2 1
e 1 p 1

+
|
.
|

\
|
+ =

( )
p 2 1
e 1 p 1


+
+ =
ou, ainda,
( )
p 2 1
e
1
p 1
1


+
=


( )
( ) p F
1
p 1
1
1
p 2 1

=
|
|
.
|

\
|

= +



n

l .

Portanto,
( )
(
(

|
|
.
|

\
|

=
1
2
p
1
p 1
1 1

l
e, para p = 0,50,
( )
(
(

|
|
.
|

\
|
=
1
2
50
1
2 1
1 1

l
(
(

|
|
.
|

\
|

=
1
2
50
1 2 1

l .

Dentre os mtodos usados para a construo de intervalos de confiana para doses
efetivas, os mais comuns so: o mtodo Delta, o de Fieller e o da razo de verossimilhanas
(perfil de verossimilhanas) (Collett, 1991; Morgan, 1992).
Usando-se os dados do Exemplo 5, e calculando-se a dose letal que mata 50% dos
insetos e os intervalos de confiana com um coeficiente de confiana de 90% de
probabilidade, pelos 3 mtodos obtiveram-se os resultados:

i) dose letal: ;
$
,
50
5 3 =

Fieller: 4,8 <
50
< 5,9
ii) intervalos de confiana: Delta: 4,8 <
50
< 5,9
Perfil de verossimilhana: 5,0 <
50
< 5,7.

4.2 Paralelismo entre retas no modelo logstico linear

Na rea de toxicologia muito comum o interesse na comparao da eficincia de
produtos (fungicidas, inseticidas, herbicidas, medicamentos etc). Considerando-se o modelo
logstico linear com uma varivel quantitativa x (dose ou l ) e J produtos a serem
testados, os preditores lineares a serem considerados so:
n(dose)

i) x
j j
+ = |
.
|

\
|

=
1
n l - retas concorrentes;

ii) x
j
+ = |
.
|

\
|

=
1
n l - retas paralelas;
84 Clarice G.B. Demtrio
iii) x
j
+ = |
.
|

\
|

=
1
n l - retas com intercepto comum;

iv) x + = |
.
|

\
|

=
1
n l - retas coincidentes,

sendo que j =1, 2, ..., J. O ajuste desses modelos aos dados testado atravs das diferenas
das deviances residuais. No caso em que existem evidncias de que o modelo de retas
paralelas ajusta-se bem aos dados, tem-se, ento, que a dose efetiva ( ) para 100p% dos
indivduos obtida por:
) (

p
j

) (

p
j j
p
p
+ =
|
|
.
|

\
|

=
1
n constante l , j = 1, 2, ..., J.

Portanto, para , tem-se ' j j
) ( ) (
'
'


p
j
p
j
j j
=


.
Se , ento, n(d) n(dose) l l = = x

j
j j j
(p)
j
(p)
j' j j
d
d
50 DE
50 DE
exp n n
jj' jj'
' ' '


=
|
|
.
|

\
|


= =


l l ,

sendo a estimativa da eficincia relativa do produto j em relao ao j e
medindo a diferena horizontal entre as duas retas paralelas.
Portanto, a razo de duas doses igualmente efetivas. Intervalos de confiana para
podem ser obtidos pelos mtodos Delta, de Fieller e da razo de verossimilhanas (perfil de
verossimilhanas) (Collett, 1991; Morgan, 1992),
jj'

n l =

jj'
) ( ) (
'

p
j
p
j
d d n n
jj'
l l
jj' jj'

Exemplo 4.1: Resistncia a cypermethrin - Amostras de 20 insetos, Heliothis virescens
(praga do algodo), resistentes a cypermethrin, foram expostas a doses crescentes do
inseticida, dois dias depois da emergncia da pupa. Aps 72h foram contados os nmeros de
insetos mortos e os resultados obtidos esto na Tabela 17.

Tabela 17: Mortalidade do Heliothis virescens aps
exposio a cypermethrin
Nmero de insetos mortos (Y
i
)
Doses
Machos Fmeas
1,0 1 0
2,0 4 2
4,0 9 6
8,0 13 10
16,0 18 12
32,0 20 16
Fonte: Collett (1991)
Modelos Lineares Generalizados na Experimentao Agronmica 85
Consideraes:
- varivel resposta: Y = nmero de insetos mortos em amostras de tamanho ;
i
20 =
i
m

- distribuio: Binomial;
- parte sistemtica: inteiramente casualizado no esquema fatorial, modelos de regresso;
- objetivo: determinao de doses letais para machos e fmeas e verificao se so diferentes.

A Tabela 18 apresenta as deviances e residuais e seus respectivos nmeros de
graus de liberdade (g.l.) e a Tabela 19, a Anlise de deviance.
2
X


Tabela 18: Deviances e X
2
residuais
Modelo g.l. Deviances Valor p X
2
Valor p
=
11 124,88 < 0,0001 101,4 < 0,0001
j
sexo = 10 118,80 < 0,0001 97,4 < 0,0001
k
dose = 6 15,15 0,0191 12,9 0,0446
k j
dose sexo + =

5 5,01 0,4146 3,7 0,5933

V-se que existem evidncias de que o modelo com preditor linear com dois fatores,
sexo (com dois nveis, j = 1, 2) e dose (com 6 nveis, k = 1, .., 6, em princpio sem levar em
considerao o fato de serem quantitativos), ajusta-se bem aos dados, enquanto que os
modelos mais simples, no.

Tabela 19: Anlise de Deviance
Causa de variao g.l. Deviances Valor p
Sexo 1 6,08 0,0137
Doses|Sexo 5 113,79 < 0,0001
Doses 5 109,72 < 0,0001
Sexo|Doses 1 10,14 0,0015
Resduo 5 5,01 0,4146
Total 11 124,88


Pela Tabela 19 verifica-se que h evidncias para efeito significativo de sexo e de
dose. Note-se, ainda, que as deviances para sexo ignorando dose e, para sexo ajustado para
dose, so diferentes devido no ortogonalidade por se estar considerando a distribuio
binomial. O mesmo ocorre para dose ignorando sexo e, para dose ajustada para sexo. Pode-se,
ainda, tentar uma simplificao desse modelo, considerando que dose um fator quantitativo.
Se for usado como preditor linear um polinmio com , verifica-se que h
necessidade de grau 3. Como, porm, as doses esto em progresso geomtrica conveniente
usar como varivel regressora , considerando-se os modelos de retas
concorrentes, paralelas, com intercepto comum e coincidentes. Os resultados para as
deviances e X
dose = x
(dose) log
2
= x
2
residuais esto apresentados na Tabela 20.
86 Clarice G.B. Demtrio

Tabela 20: Deviances e X
2
residuais
Modelo g.l.
Deviances
Valor p
2
X
Valor p
=
11 124,88 <0,0001 101,4 <0,0001
x + = 10 16,98 0,0748 14,8 0,1395
x
j
+ = 9 5,04 0,8308 3,5 0,9411
x
j
+ = 9 6,76 0,6621 5,3 0,8074
x
j j
+ = 8 4,99 0,7586 3,5 0,8991

Pela Tabela 20, v-se que existem evidncias que os modelos com retas concorrentes,
paralelas e com intercepto comum ajustam-se bem aos dados. Tem-se, ainda, que as
diferenas de deviances entre os modelos com retas paralelas e retas concorrentes (6,76 4,99
= 1,77) e entre os modelos com intercepto comum e retas concorrentes (5,04 4,99 = 0,05),
ambas com 1 grau de liberdade, no so estatisticamente significativas. Utilizando de
parcimnia e facilidade de interpretao opta-se pelo modelo de retas paralelas. A Tabela 21
traz a Anlise de deviance para o modelo escolhido.

Tabela 21: Anlise de Deviance
Causa de variao g.l. Deviances Valor p
Sexo 1 6,08 0,0137
Regresso linear 1 112,04 < 0,0001
Resduo 9 6,76 0,6600
Total 11 124,88

A partir do modelo escolhido obtm-se, ento, respectivamente, para machos e
fmeas:

(dose) log 064 , 1 372 , 2
1

n
2
+ =
|
.
|

\
|

= l e 68 4 DL
50
, = 62 19 DL
90
, =
e
(dose) log 064 , 1 473 , 3
1

n
2
+ =
|
.
|

\
|

= l e . 60 9 DL
50
, = 18 40 DL
90
, =

Verifica-se que as fmeas so mais resistentes, pois para matar 100p% das fmeas h
necessidade de uma dose 2 vezes maior do que para matar 100p% dos machos.V-se, que a
dose letal para para as fmeas est fora do intervalo estudado o que perigoso pois
acima da dose 32 no se sabe se o comportamento ser o mesmo. Se o interesse estiver na
estimao dessa dose h necessidade de se aumentar a amplitude de doses para fmeas em um
novo experimento. Necessria se faz ainda uma anlise de residuos e diagnsticos.
9 0, = p
A Figura 5 mostra o grfico das curvas ajustadas e os valores observados.

Modelos Lineares Generalizados na Experimentao Agronmica 87

Figura 5: valores observados e modelos ajustados


Exemplo 4.2: Mortalidade do besouro da farinha - Grupos de insetos (Tribolium
confusum, praga da farinha) foram expostos a doses (mg/l) crescentes de bisulfeto de carbono
(CS
2
). Depois de 4 horas foram contados os nmeros de insetos mortos e os resultados
obtidos esto na Tabela 22.

Tabela 22: Mortalidade de besouros aps 72h de exposio a CS
2

Dose de CS
2
Repetio 1 Repetio 2
d
i
i
y
i
m
i
y
i
m
49,06 2 29 4 30
52,99 7 30 6 30
56,91 9 28 9 34
60,84 14 27 14 29
64,76 23 30 29 33
68,69 29 31 24 28
72,61 29 30 32 32
76,54 29 29 31 31

Fonte: Collett (1991)

Consideraes:

- varivel resposta: Y = nmero de insetos mortos em amostras de tamanho ;
i i
m
- distribuio: binomial;
- parte sistemtica: inteiramente casualizado, modelos de regresso;
- objetivo: determinao de doses letais.

A Tabela 23 apresenta as deviances e X
2
residuais e seus respectivos nmeros de
graus de liberdade (g.l.) e a Tabela 24, a Anlise de deviance, considerando-se o modelo
logstico.
88 Clarice G.B. Demtrio
Tabela 23: Deviances e X
2
residuais (Logstico)
Modelo g.l.
Deviances
Valor de p
2
X
Valor de p
=
15 289,14 < 0,0001 241,00 < 0,0001
x
1
+ = 14 12,51 0,5654 10,84 0,6985
2 LP
1
+ + = x 13 7,93 0,8475 7,36 0,8826
2
2 1
x x + + = 13 7,93 0,8475 7,36 0,8826
2 LP
2
2 1
+ + + = x x 12 7,88 0,7944 7,39 0,8308
k
= 8 4,94 0,7639 4,52 0,8074

V-se que, em uma primeira anlise, existem evidncias de que os modelos com
preditores lineares dados por uma regresso linear simples, por uma regresso linear
quadrtica e aquele usando dose como fator qualitativo ajustam-se bem aos dados. Entretanto,
ao se considerar a diferena de deviances para o modelo com preditor dado por uma regresso
linear simples e por uma regresso linear quadrtica (12,51-7,93 = 4,58) verifica-se que
existem evidncias de um ajuste mais significativo da regresso linear quadrtica. Essa
diferena pode ser explicada, pois como foi visto, a aproximao assinttica da distribuio
da deviance residual de uma distribuio pode ser pobre. J a distribuio da diferena de
deviances residuais tem propriedades melhores. Verifica-se, ainda que o teste para a funo
de ligao aps a regresso linear (coincide, neste caso, com o teste para a adio do termo
quadrtico) indica a no adequao da funo de ligao logstica, enquanto que aps a
regresso linear quadrtica indica a adequao. Necessria se faz ainda uma anlise de
residuos e diagnsticos.
2

Tabela 24: Anlise de Deviance (Logstico)
Causa de variao g.l. Deviances Valor de p
Regresso linear 1 276,60 < 0,0001
(Funo de ligao) (1) (4,58) 0,0323
Regresso quadrtica 1 4,58 0,0323
(Funo de ligao) (1) (0,04) 0,8415
(Desvios) (5) (2,99) 0,7015
(Doses) (7) (284,20) < 0,0001
Resduo 13 7,93 0,8481
Total 15 289,14

Tem-se, ento, a partir do modelo logstico com preditor linear dado por uma
regresso linear quadrtica

2
dose 0,006372 dose 5166 , 0 968 , 7
1

n + =
|
.
|

\
|

= l 80 67 LD e 35 60 LD
90 50
, , = = .

Note que para a obteno das doses letais h a necessidade de se resolver uma equao
de segundo grau. Como soluo de

2
0,006372 5166 , 0 968 , 7 0 n(1)
0,5 - 1
0,5
n + = = = |
.
|

\
|
l l

Modelos Lineares Generalizados na Experimentao Agronmica 89
obtm-se os valores 60,35 e 20,72, e como soluo de
2
0,006372 5166 , 0 968 , 7 n(9)
9 , 0 1
9 , 0
n + = = |
.
|

\
|

l l ,

os valores 67,80 e 13,36.
A Tabela 25 apresenta as deviances e X
2
residuais e seus respectivos nmeros de
graus de liberdade (g.l.) e a Tabela 26, a Anlise de deviance, considerando o modelo
complemento log-log.


Tabela 25: Deviances e X
2
residuais (complemento log-log)
Modelo g.l.
Deviances
Valor de p
2
X
Valor de p
=
15 289,14 < 0,0001 241,00 < 0,0001
x
1
+ = 14 8,67 0,8516 8,62 0,8546
2 LP
1
+ + = x 13 8,30 0,8235 7,87 0,8519
k
= 8 4,94 0,7639 4,52 0,8074

V-se que, em uma primeira anlise, existem evidncias de que os modelos com
preditores lineares dados por uma regresso linear simples e aquele usando dose como fator
qualitativo ajustam-se bem aos dados. Alm disso, ao se considerar a diferena de deviances
para o modelo com preditor dado por uma regresso linear simples e dose como fator
qualitativo (8,67 - 4,94 = 3,73) existem evidncias de que ela no significativa. Tambm, o
teste para a funo de ligao aps a regresso linear indica a adequao da funo de ligao
complemento log-log. Necessria se faz ainda uma anlise de resduos e diagnsticos.

Tabela 26: Anlise de Deviance (Complemento log-log)
Causa de variao g.l.
Deviances
Valor de p
Regresso linear 1 280,50 < 0,0001
(Funo de ligao) (1) (0,37) 0,5430
(Desvios) (6) (3,73) 0,7131
(Doses) (7) (284,20) < 0,0001
Resduo 14 8,67 0,8516
Total 15 289,14

Tem-se, ento, a partir do modelo complemento log-log com preditor linear dado por
uma regresso linear simples

dose 1554 , 0 755 , 9 )] 1 n( n[- + = = l l . 13 68 LD e 40 60 LD
90 50
, , = =

A Figura 6 mostra o grfico das curvas ajustadas usando o modelo logstico com
preditor linear dado por uma regresso linear quadrtica e o modelo complemento log-log
com preditor linear dado por uma regresso linear simples e os valores observados.

90 Clarice G.B. Demtrio

Figura 6. Curvas ajustadas e valores observados

Exemplo 4.3: Os dados da Tabela 27 referem-se a um experimento em que gemas de galhos
de trs variedades de macieiras foram classificadas em florais ou vegetativas. Para cada
variedade os galhos foram agrupados de acordo com o nmero de frutos (de 0 a 4) produzidos
no ano anterior. O objetivo do experimento foi estudar a relao entre a proporo de gemas
florais e o nmero de frutos produzidos no ano anterior e verificar se essa relao era
diferente para as variedades estudadas.


Tabela 27: Nmero de frutos produzidos no ano anterior e o nmero de gemas
Variedades
Nmero de frutos no
ano anterior (X)
Nmero
total de
gemas (N)
Nmero de
gemas florais
(Y)
Proporo de
gemas florais
(P)
Crispin 0 69 42 0,61
Crispin 1 93 43 0,46
Crispin 2 147 59 0,40
Crispin 3 149 57 0,38
Crispin 4 151 43 0,28
Cox 0 34 12 0,35
Cox 1 92 15 0,16
Cox 2 133 18 0,14
Cox 3 146 14 0,10
Cox 4 111 9 0,08
Golden Delicious 0 21 6 0,29
Golden Delicious 1 89 20 0,22
Golden Delicious 2 118 20 0,17
Golden Delicious 3 124 21 0,10
Golden Delicious 4 81 4 0,00
Fonte: Ridout (1991)

Modelos Lineares Generalizados na Experimentao Agronmica 91
Consideraes:

- varivel resposta: = nmero de gemas florais em totais de n
i
Y
i
gemas;

- distribuio: binomial;
- ligao: funo logstica |
.
|

\
|

=
1
n l ;
- parte sistemtica: delineamento inteiramente casualizado e modelos de anlise de varincia
com , isto , supondo uma equao linear com coeficientes linear e angular
diferentes para as trs variedades, sendo x, o nmero de frutos no ano anterior;
x
j j
+ =

- objetivo: verificar se o nmero de frutos de um ano tem influncia na produo do ano
seguinte e se isso depende da variedade.

A Tabela 28 apresenta as deviances e residuais e seus respectivos nmeros de
graus de liberdade (g.l.) e a Tabela 29, a Anlise de deviance.
2
X


Tabela 28: Deviances e X
2
residuais
Modelo g.l. Deviances Valor p X
2
Valor p
=
14 182,16 < 0,0001 181,10 < 0,0001
x + = 13 138,99 < 0,0001 139,00 < 0,0001
j
= 12 53,04 < 0,0001 54,51 < 0,0001
x
j
+ = 11 31,08 0,0011 30,97 0,0011
x
j
+ = 11 8,80 0,6403 8,67 0,6523
x
j j
+ = 9 7,87 0,5473 7,76 0,5585

V-se que existem evidncias de que os modelos com retas paralelas e com retas
concorrentes ajustam-se bem aos dados, enquanto que os outros modelos, no. Alm disso, ao
se considerar a diferena de deviances para o modelo com retas paralelas e com retas
concorrentes (8,80 7,87 = 0,93) existem evidncias de que ela no significativa. A Tabela
29 traz a Anlise de deviance para o modelo de retas paralelas. V-se que existem evidncias
para o efeito de variedades e para o efeito de regresso linear.

Tabela 29: Anlise de Deviance
Causa de variao g.l. Deviances Valor p
Variedades 2 129,12 <0,0001
Regresso linear 1 44,24 <0,0001
Resduo 11 8,80 0,6403
Total 14 182,16

Tem-se, tambm, que

92 Clarice G.B. Demtrio
252 0
1563 0 s( e 258 1
1566 0 s( e 510 1
2 3
1 3 1 3
1 2 1 2
,
, ) ,
, ) ,
^
^ ^
^ ^
=
= =
= =


e, usando-se as estimativas da matriz de varincias e covarincias,

. 03445 , 0 00725 , 0 2 02443 , 0 02452 , 0
, Cov 2 ) ( Var ) ( Var ) ( V
^ ^ ^ ^ ^
1 3 1 2 1 3 1 2 2 3
= + =
|
|
.
|

\
|
+ =

e, portanto,
1856 , 0 ) ( s
^
2 3
= .
Logo,
, 36 , 1
1856 , 0
252 , 0
) ( t
05 , 8
1563 , 0
258 , 1
) ( t
64 , 9
1566 , 0
510 , 1
) ( t
^
^
^
2 3
1 3
1 2
= =
=

=
=

=


que comparados com o valor tabelado da distribuio t de Student mostram
que as variedades Cox e Golden Delicious no diferem entre si (como os contrastes feitos no
so ortogonais, no se tem o nvel conjunto de significncia para as comparaes feitas).
Devido a esse resultado um novo modelo foi usado considerando-se os dados das variedades
2 e 3 como se fosse uma nica variedade. A diferena entre as deviances residuais, (10,64 -
8,80 = 1,84) indica que existem evidncias de que as variedades 2 e 3 comportam-se de forma
semelhante. Os resultados obtidos para a anlise de deviance esto na Tabela 30.
2,20 t
0,05 11;
=

Tabela 30: Anlise de Deviance
Causas de Variao g.l. Deviances Valor p
Variedades 1 127,17 <0,0001
Regresso linear 1 44,35 <0,0001
Resduo 12 10,64 0,556
Total 14 182,16

Modelos Lineares Generalizados na Experimentao Agronmica 93
Logo, a proporo esperada de gemas florais pode ser calculada por

+
+
=

. 15 , 6, = para
1
5 , 1, = para
1
3302 0 0285 1
3302 0 0285 1
3302 0 3605 0
3302 0 3605 0
K
K
i
e
e
i
e
e
x
x
x
x
i
, ,
, ,
, ,
, ,


A Figura 7 mostra os grficos das curvas ajustadas usando-se o modelo logstico,
considerando-se trs e dois interceptos diferentes, e os valores observados.



Figura 7. Modelos logstico para trs e dois interceptos diferentes e os valores observados


4.3 Outras Aplicaes

Exemplo 4.4: Os dados apresentados na Tabela 31 referem-se a um experimento no
delineamento em blocos casualizados com cultura de tecidos de mas. Os tratamentos no
esquema fatorial 2 x 3 x 3 foram:

- A: 2 tipos de citocinina (BAP, TDZ)
- B: 3 nveis de citocinina (5,0; 1,0 e 0,1)
- C: 3 tipos de auxina (NAA, IBA, 2-4D)

Cada parcela do experimento era constituda de um recipiente em que era colocado o
meio de cultura (de acordo com a combinao dos nveis dos 3 fatores) e o explante. A
varivel resposta, Y, binria, isto ,


=
contrrio. caso em 0
semanas 4 aps regenerou explante o se 1
Y


94 Clarice G.B. Demtrio
Consideraes:

- varivel resposta: Y = nmero de insetos mortos em amostras de tamanho ;
i
1 =
i
m
- distribuio: Bernoulli (caso particular da Binomial);
- ligao: funo logstica;
- parte sistemtica: delineamento em blocos casualizados e modelos de anlise de varincia
com preditor linear: ; = + + + + + + + +
l i j k ij ik ik ijk
- objetivo: verificar a influncia dos fatores sobre a regeneraco e se existe interao entre
eles.



Tabela 31: Dados de um experimento com cultura de tecidos de maas
Citocinina
Blocos
Tipo Nvel
Auxina
1 2 3 4 5 6 7 8 9 10
NAA 1 1 0 0 1 0 1 0 1 1
IBA 0 1 1 1 1 1 0 1 1 1 5,0
2-4D 1 1 1 1 1 1 1 0 0 1
NAA 0 0 0 0 0 0 0 0 0 0
IBA 1 1 1 0 0 1 1 0 1 1 1,0
2-4D 1 0 1 1 0 1 1 1 1 1
NAA 0 0 1 1 1 0 1 0 0 0
IBA 0 0 0 1 1 1 1 0 1 0
BAP
0,1
2-4D 0 0 1 1 1 1 1 0 1 1
NAA 1 1 1 1 1 0 1 1 1 1
IBA 1 1 1 1 1 1 1 1 1 1 5,0
2-4D 1 0 1 1 1 1 1 1 1 1
NAA 1 1 1 1 1 1 1 1 1 1
IBA 1 1 1 1 1 1 1 1 1 1 1,0
2-4D 1 1 1 1 1 1 1 1 1 0
NAA 1 1 1 1 1 1 1 0 1 1
IBA 1 1 1 1 1 1 0 1 1 1
TDZ
0,1
2-4D 0 0 1 0 1 1 1 1 1 1

Fonte: Ridout (1991)


A Tabela 32 apresenta as deviances e X
2
residuais e seus respectivos nmeros de
graus de liberdade (g.l.) e a Tabela 33, a Anlise de deviance, considerando-se o modelo
logstico.
Como foi observado em 2.7 a deviance residual no informativa para a verificao
da adequao dos modelos para dados binrios, pois apenas uma funo dos dados
(Exerccio 2.12.12). A diferena entre deviances, porm, pode ser utilizada. Verifica-se,
ento, que apenas o Tipo de Citocinina e o Tipo de Auxina tm influncia significativa na
regenerao de tecidos de ma e alm do mais existe uma interao entre esses dois fatores,
conforme mostra a Tabela 33, para os modelos encaixados na seqncia.

Modelos Lineares Generalizados na Experimentao Agronmica 95
Tabela 32: Deviances e X
2
residuais (logstico)
Modelo g.l. Deviances
2
X
1 179 202,44 180,0
Bl 170 193,79 180,0
Bl

+A 169 165,65 179,5
Bl

+B 168 189,72 183,4
Bl

+C 168 187,07 178,9
Bl

+A

+

B 167 160,83 181,8
Bl

+A

+

C 167 157,57 207,1
Bl

+B

+

C 166 182,83 181,5
Bl

+A*B 165 157,57 189,2
Bl

+A*C 165 147,82 210,3
Bl

+B*C 163 142,27 214,0
Bl

+A*B

+

C 163 149,03 221,0
Bl

+A*C

+

B 163 142,27 214,0
Bl

+B*C

+

A 161 148,08 203,1
Bl

+A*B

+

A*C 161 138,66 197,9
Bl

+A*B

+

B*C 159 141,71 547,8
Bl

+B*C

+

A*C 159 137,05 232,7
Bl

+A*B*C 153 127,01 152,4


Tabela 33: Anlise de Deviance
Causas de Variao g.l. Deviance Valor p
Blocos 9 8,6 0,4749
Tipo de Citocinina (A) 1 28,1 < 0,0001
Nvel de Citocinina (B|A) 2 4,8 0,0907
Auxina (C|A,B) 2 8,4 0,0149
AB|(A,B,C) 2 3,4 0,1827
AC|(A*B,C) 2 10,4 0,0055
BC|(A*B,A*C) 4 6,0 0,1991
ABC 4 5,6 0,2311
Resduo 153 127,0 0,9383
Total 179 202,4


Foi, ento, considerado o modelo reduzido com preditor linear:

jk k j
+ + + + + =
l
,

e os resultados esto na Tabela 34. Necessria se faz, ainda, uma anlise de resduos e
diagnsticos.

96 Clarice G.B. Demtrio
Tabela 34: Anlise de Deviance
Causas de Variao g.l. Deviances Valor p
Blocos 9 8,6 0,4749
Tipo de Citocinina (A) 1 28,1 < 0,0001
Auxina (C|A) 2 8,1 0,0174
AC 2 9,8 0,0074
Resduo 165 147,8 0,8276
Total 179 202,4

A seguir tem-se o quadro de mdias considerando-se os fatores tipo de citocinina e
tipo de auxina.

Tabela 35: Quadro de mdias
Tipo de Citocinina
Auxina
BAP TDZ
NAA 0,33 0,93
IBA 0,67 0,97
2-4D 0,77 0,83

Verifica-se que o dado da casela marcada o responsvel pela interao significativa
entre os dois fatores. Na realidade esse experimento foi repetido mais 4 vezes e a interao
no foi significativa.

Exemplo 4.5: Os dados apresentados na Tabela 36 referem-se ao nmero de brotos
produzidos por explante em um experimento de micropropagao. O delineamento
experimental utilizado foi o inteiramente casualizado com os tratamentos no esquema fatorial
3 x 2, isto , 3 meios de cultura aos quais era adicionada uma quantia de hormnio (2 nveis,
X1: quantia pequena e X2: quantia grande). As parcelas eram constitudas de recipientes com
3 explantes e os dados esto apresentados em grupos de 3 para indicar os recipientes
diferentes. Inicialmente, havia 10 recipientes (portanto, 30 explantes) para cada tratamento,
porm, alguns explantes morreram. No caso em que morreram todos os explantes, o recipiente
foi eliminado do experimento, pois algumas dessas mortes podem ter sido devido
contaminao com bactrias o que no est relacionado com o tratamento. No caso em que
houve 1 ou 2 mortes no recipiente os dados foram considerados e, usou-se * no lugar do
dado perdido.

Consideraes:

- varivel resposta: Y = nmero de brotos;
i

- distribuio: Poisson;
- ligao: funo logartmica, ; ) n( = l

- parte sistemtica: delineamento inteiramente casualizado, modelos de anlise de varincia
com preditor linear: +
k ij j i
+ + + =
- objetivo: verificar se existe interao entre meio de cultura e quantidade de hormnio e se
influenciam o nmero de brotos.
Modelos Lineares Generalizados na Experimentao Agronmica 97
Tabela 36: Nmeros de brotos por explante.
Meio de
Cultura
Hormnio Nmero de Brotos
A X1 4 5 2 1 2 5 2 2 *
A X2 3 5 3 2 2 1 2 2 3 1 4 4 2 4 * 1 * *
2 * *
B X1 4 1 4 5 4 5 5 4 3 3 4 4 2 3 2 1 0 1
0 4 2 6 2 2 3 3 * 1 5 *
B X2 2 2 1 2 4 4 2 3 0 0 0 4 12 0 4 1 0 4
0 8 2 2 4 * 3 1 * 10 * *
C X1 0 2 0 1 1 3 5 3 3 3 2 1 2 2 2 0 2 2
2 2 2 2 0 2
C X2 2 2 3 11 6 5 5 3 4 6 4 * 4 4 * 3 3 *
Fonte: Ridout (1991)

A Tabela 37 apresenta a Anlise de deviance, considerando-se o modelo proposto.

Tabela 37: Anlise de Deviance
Causas de Variao g.l. Deviances Valor p
Meio de cultura (M) 2 0,42 0,8106
Nveis de hormnio (H) 1 5,20 0,0226
Interao M x H 2 14,93 0,0006
Entre recipientes 38 61,99 0,0083
Entre pl. d. recipientes 73 94,70 0,0448
Total 116 177,31

Verifica-se que a diferena entre as deviances obtidas para Entre recipientes e Entre
plantas dentro de recipientes no significativa. Adotou-se, ento, como preditor linear

= + + +
i j ij
,

obtendo-se os resultados da Tabela 38.

Tabela 38: Anlise de Deviances
Causas de Variao g.l. Deviances Valor p
Meios de cultura (M) 2 0,42 0,8106
Nveis de hormnio (H) 1 5,20 0,0226
Interao M x H 2 14,93 0,0006
Resduo 111 156,76 0,0028
Total 116

A deviance residual mostra que existem evidncias de que o modelo usado est se
ajustando relativamente bem aos dados. H necessidade, porm, de se utilizarem outras
tcnicas de diagnsticos como complementao. V-se, ainda, que a interao entre meios de
cultura e nveis de hormnio significativa. Ao se observar o quadro de mdias apresentado
98 Clarice G.B. Demtrio
na Tabela 39 verifica-se que a interao est sendo significativa devido ao meio de cultura C. O
exame da Tabela 36, indica duas parcelas em destaque cuja influncia na anlise mereceria ser melhor
estudada.
Tabela 39: Quadro de mdias.
Meios de Nveis de Hormnio
Cultura Baixo Alto
Mdias
A 2,9 2,6 2,7
B 3,0 2,9 2,9
C 1,8 4,3 2,8
Mdias 2,5 3,2

Exemplo 4.6: Considere os dados da Tabela 4, que se referem a contagens de partculas de
vrus para 5 diluies diferentes, sendo que foram usadas 4 repeties para as 4 primeiras
diluies e 5 repeties para a ltima diluio. O objetivo do experimento era estimar o
nmero de partculas de vrus por unidade de volume.
A anlise desses dados foi feita inicialmente considerando-se, um modelo do tipo
discutido em (2.2) para ensaios de diluio em que se tem

- distribuio: Poisson
- ligao: logartmica
- preditor linear: , offset" " varivel x n n
i i i
+ = + = l l

porm, com a diferena de se estar supondo que os coeficientes escalares variam dependendo
da concentrao. Os resultados obtidos foram

Tabela 40: Anlise de Deviance
Causas de Variao g.l. Deviance Valor p
Diluies 4 3,168 0,5301
Resduo 16 10,381 0,8460
Total 20 13,549

Verifica-se que no h necessidade de se utilizarem coeficientes 's diferentes para as
diferentes diluies, isto , pode-se considerar como preditor linear


= + = + log log x
i
varivel "offset".

Tem-se, ento, que

2 , 52

955 , 3

log

955 , 3
= = = = e ,

isto , 52 partculas de vrus por unidade de volume. Um intervalo de confiana para com
um coeficiente de confiana de 95% de probabilidade dado por

( ) 42 , 61 ; 36 , 44 : ) ( C . I 083 , 0 96 , 1 955 , 3
95 , 0
.
A Figura 8 a seguir apresenta os valores observados e o modelo ajustado.
Modelos Lineares Generalizados na Experimentao Agronmica 99


Figura 8. Valores observados e modelo ajustado.





APNDICE A


A.1 Programa Glim para os dados do exemplo 4.1 - Captulo 4.


! Exemplo 3.7 - Collett pag. 75
$slen 12 $data r $read
1 4 9 13 18 20
0 2 6 10 12 16
$gfactor sexo 2 dose 6 $
$ca n=20 : ld=dose-1 :d=2**ld $
$yvar r $err b n $
$fit $pr 'X2= ' %X2 $
$fit +sexo $pr 'X2= ' %X2 $
$fit +dose $pr 'X2= ' %X2 $
$fit : +dose $pr 'X2= ' %X2 $
$fit +sexo $
$fit sexo : +d : +d<2> : +d<3> : +d<4> : +dose $
!
$pr 'Usando log(dose) - base 2'$
$pr 'Modelo com interceptos comuns' $
$fit : +sexo.ld $pr 'X2= ' %X2$
$pr 'Modelo de retas coincidentes' $
$fit : +ld $pr 'X2= ' %X2 $
$pr 'Modelo de retas concorrentes' $
$fit sexo : +sexo.ld $pr 'X2= ' %X2$
$pr 'Modelo de retas paralelas'$
$fit sexo-1 : +ld $pr 'X2= ' %X2 $d e $
$extr %pe $
$number d50M d50F d90M d90F $
$ca d50M=2**(-%pe(1)/%pe(3)) : d50F=2**(-%pe(2)/%pe(3))$
$pr 'LD50 (macho)= ' d50M : 'LD50 (femea)= ' d50F $
$ca d90M=2**((%log(9)-%pe(1))/%pe(3))
: d90F=2**((%log(9)-%pe(2))/%pe(3)) $
$pr 'LD90 (macho)= ' d90M : 'LD90 (femea)= ' d90F $
!
$number z $ca z=%log(32)/%log(2) $
$ca p=r/n : $
$assign pld=0,0.05...z$
: pld=pld,pld
: psex=pld $
$ca psex=%gl(2,%len(pld)/2) $
$fac psex 2 $
$predict sexo=psex ld=pld $
$gstyle 2 colour 1 linetype 0 symbol 5$
$graph (c='post' ) p,%pfv ld,pld 1,2,10,11 sexo,psex $
$ca lgtp=%log(p/(1-p))/%log(2)
: lgtfv=%log(%pfv/(1-%pfv))/%log(2) $
$graph lgtp,lgtfv ld,pld 1,2,10,11 sexo,psex $
$finish

Modelos Lineares Generalizados na Experimentao Agronmica
101
A.2 Programa Glim para os dados do exemplo 4.2 - Captulo 4.

! *** CS2.glm ***
! Collett (1991), pag. 109
$slen 16 $
$data y n $read
2 29 4 30
7 30 6 30
9 28 9 34
14 27 14 29
23 30 29 33
29 31 24 28
29 30 32 32
29 29 31 31
$assign X=49.06, 52.99, 56.91, 60.84, 64.76, 68.69, 72.61, 76.54$
$ca i=%gl(8,2) : d=X(i) : p=y/n $
$ca d2=d**2 $
$gfactor dose 8 $
$yvar y $error B n $
$pr 'Ligacao logistica' $
$link G !ligacao logistica
$fit $pr 'X2= ' %X2 $
$fit +d $pr 'X2= ' %X2 $
$ca LP2=%lp**2 $
$fit +LP2 $pr 'X2= ' %X2 $d e $
$fit d : +d2 $pr 'X2= ' %X2 $
$d e $
$ca LP2=%lp**2 $
$fit +LP2 $pr 'X2= ' %X2 $d e $
!
$fit : +d<1> : + d<2> $pr 'X2= ' %X2 $
$assign pd=49, 49.5...77 $
$predict d=pd $ca fv1=%pfv $
$fit +dose $pr 'X2= ' %X2 $
$fit : +dose$
!
$pr 'Ligacao complemento log-log'$
$link c $ !ligacao complemento log-log
$fit $pr 'X2= ' %X2 $
$fit + d $pr 'X2= ' %X2 $
$ca LP2=%lp**2 $
$fit + LP2 $pr 'X2= ' %X2 $
$fit d : + dose $pr 'X2= ' %X2 $
$fit d $d e $extr %pe $
$predict d=pd $ca fv2=%pfv $
$graph(c='post' h='dose' v='proporcao') p,fv1,fv2 d,pd,pd 1,10,11 $
$number ld50 ld90$
$ca ld50=(%log(%log(2))-%pe(1))/%pe(2)$
$pr 'LD50= ' ld50 $
$ca ld90=(%log(%log(10))-%pe(1))/%pe(2)$
$pr 'LD90= ' ld90 $
$fit : +dose$
$return


102 Clarice G.B. Demtrio
A.3 Programa Glim para os dados do exemplo 4.3 - Captulo 4.

! Exemplo 5.2 - Demetrio pag. 105
$slen 15 $data x Y N $read
0 42 69
1 43 93
2 59 147
3 57 149
4 43 151
0 12 34
1 15 92
2 18 133
3 14 146
4 9 111
0 6 21
1 20 89
2 20 118
3 21 124
4 4 81
$gfactor var 3 $
$yvar Y $err b N $
$pr 'Modelo de retas concorrentes'$
$fit $pr 'X2= ' %X2 $
$fit +var $pr 'X2= ' %X2 $
$fit +var.X $pr 'X2= '%X2$
$pr 'Modelo de retas coincidentes'$
$fit $fit +X $pr 'X2= ' %X2$
$pr 'Modelo com interceptos comuns '$
$fit $fit +var.X $pr 'X2= ' %X2$
$pr 'Modelo de retas paralelas'$
$fit var-1 : +X $pr 'X2= ' %X2$d e$
$d e $
$ca p=y/n $
$gstyle 2 colour 1 linetype 0 symbol 5$
$gstyle 3 colour 1 linetype 0 symbol 2$
$assign PX=0,0.1...4.0$
$assign Px=Px,Px,Px$
$assign Pv=Px$
$ca pv=%gl(3,%len(Px)/3) $
$fac pv 3$
$predict var=pv x=px$
$graph (h='numero de frutos' v='logit(proporcao)')
p,%pfv x,px 1,2,3,10,11,12 var, pv $

$factor var 2 $assign var=1,1,1,1,1,2,2,2,2,2,2,2,2,2,2 $
$fit : +var : +x $
$fit var-1+x $d e$
!
$del pv : px$
$assign PX=0,0.1...4.0$
$assign Px=Px,Px$
$assign Pv=Px$
$ca pv=%gl(2,%len(Px)/2) $
$fac pv 2$
$predict var=pv x=px$
$graph (c='post' h='numero de frutos' v='proporcao')
p,%pfv x,px 1,2,10,11 var, pv $
$return
$finish
Modelos Lineares Generalizados na Experimentao Agronmica
103
A.4 Programa Glim para os dados do exemplo 4.4 - Captulo 4.

$slen 180 $data y $read
1 1 0 0 1 0 1 0 1 1
0 1 1 1 1 1 0 1 1 1
1 1 1 1 1 1 1 0 0 1
0 0 0 0 0 0 0 0 0 0
1 1 1 0 0 1 1 0 1 1
1 0 1 1 0 1 1 1 1 1
0 0 1 1 1 0 1 0 0 0
0 0 0 1 1 1 1 0 1 0
0 0 1 1 1 1 1 0 1 1
1 1 1 1 1 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1
1 0 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 0
1 1 1 1 1 1 1 0 1 1
1 1 1 1 1 1 0 1 1 1
0 0 1 0 1 1 1 1 1 1
$gfactor A 2 B 3 C 3 Bl 10 $
$ca n=1$
$yvar y $err Bin n$
$fit $pr 'X2= ' %X2 $
$fit : +Bl $pr 'X2= ' %X2 $
$fit Bl : +A $pr 'X2= ' %X2 $
$fit Bl : +B $pr 'X2= ' %X2 $
$fit Bl : +C $pr 'X2= ' %X2 $
$fit Bl +A : +B $pr 'X2= ' %X2 $
$fit Bl +B : +A$pr 'X2= ' %X2 $
$fit Bl +A : +C $pr 'X2= ' %X2 $
$fit Bl +C : +A$pr 'X2= ' %X2 $
$fit Bl +B : +C $pr 'X2= ' %X2 $
$fit Bl +C : +B$pr 'X2= ' %X2 $
$fit Bl +A+B : +A.B $pr 'X2= ' %X2 $
$fit Bl +A+C : +A.C $pr 'X2= ' %X2 $
$fit Bl +B+C : +B.C $pr 'X2= ' %X2 $
$fit Bl +A*B : +C $pr 'X2= ' %X2 $
$fit Bl +A*C : +B $pr 'X2= ' %X2 $
$fit Bl +B*C : +A $pr 'X2= ' %X2 $
$fit Bl +A*B+C : + A.C $pr 'X2= ' %X2 $
$fit Bl +A*B+C : + B.C $pr 'X2= ' %X2 $
$fit Bl +A*C+B : + A.B $pr 'X2= ' %X2 $
$fit Bl +A*C+B : + B.C $pr 'X2= ' %X2 $
$fit Bl +B*C+A : + A.C $pr 'X2= ' %X2 $
$fit Bl +B*C+A : + A.B $pr 'X2= ' %X2 $
$fit Bl : +A*B*C $pr 'X2= ' %X2 $fit -A.B.C$

$pr 'Modelo final'$
$fit Bl : +A : +C : +A.C $

$return


104 Clarice G.B. Demtrio
A.5 Programa Glim para os dados do exemplo 4.5 - Captulo 4.


$slen 132 $data y $read
4 5 2 1 2 5 2 2 -1
3 5 3 2 2 1 2 2 3 1 4 4 2 4 -1 1 -1 -1
2 -1 -1
4 1 4 5 4 5 5 4 3 3 4 4 2 3 2 1 0 1
0 4 2 6 2 2 3 3 -1 1 5 -1
2 2 1 2 4 4 2 3 0 0 0 4 12 0 4 1 0 4
0 8 2 2 4 -1 3 1 -1 10 -1 -1
0 2 0 1 1 3 5 3 3 3 2 1 2 2 2 0 2 2
2 2 2 2 0 2
2 2 3 11 6 5 5 3 4 6 4 -1 4 4 -1 3 3 -1
$ca w=%ge(y,0) $ca y=y+%eq(y,-1) $
$factor meio 3 horm 2 $
$var 9 A : 21 B : 30 C D : 24 e : 18 f $
$ca a=1: b=1 : c=2 : d=2 : e=3 : f=3 $
$assign meio=a,b,c,d,e,f $
$ca b=2 : c=1 : d=2 : e=1 : f=2 $
$assign horm=a,b,c,d,e,f $
$fac jar 44 $ca jar =%gl(44,3) $
$yvar y $wei w $err P$
$fit : +meio : +horm : +meio.horm $
$d e $
$fit + jar $
$return


A.6 Programa Glim para os dados do exemplo 4.6 - Captulo 4.


$slen 21 $data y $read
13 14 17 22
9 14 6 14
4 4 3 5
3 2 1 3
2 1 3 2 2
$data x $read
0.3162 0.3162 0.3162 0.3162
0.1778 0.1778 0.1778 0.1778
0.1000 0.1000 0.1000 0.1000
0.0562 0.0562 0.0562 0.0562
0.0316 0.0316 0.0316 0.0316 0.0316
$fac fx 5 $assign fx=1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4,5,5,5,5,5 $
$ca logx=%log(x) $ ! Calcula o offset
$yvar y $err P $off logx $
$fit $d e $
$fit +fx $
$return


Modelos Lineares Generalizados na Experimentao Agronmica
105




APNDICE B


B.1 Programas SAS para os dados do exemplo 4.1 - captulo 4


B.1.1 - Para esquema fatorial

data collett;
input es $ sexo $ y n; dos
datalines;
1.0 m 1 20
2.0 m 4 20
4.0 m 9 20
8.0 m 13 20
16.0 m 18 20
32.0 m 20 20
1.0 f 0 20
2.0 f 2 20
4.0 f 6 20
8.0 f 10 20
16.0 f 12 20
32.0 f 16 20
;


proc genmod;
class sexo doses;
model y/n= / dist=b type1 type3;
run;

proc genmod;
class sexo doses;
model y/n=sexo / dist=b type1 type3;
run;

proc genmod;
class sexo doses;
model y/n=doses / dist=b type1 type3;
run;

proc genmod;
class sexo doses;
model y/n=sexo doses / dist=b type1 type3;
run;

proc genmod;
class sexo doses;
model y/n=sexo|doses / dist=b type1 type3;
run;

B.1.2 - Para modelo de regresso

data collett;
input doses sexo $ y n;
ld=log(doses);
datalines;
1.0 m 1 20
2.0 m 4 20
4.0 m 9 20
8.0 m 13 20
16.0 m 18 20
32.0 m 20 20
1.0 f 0 20
2.0 f 2 20
4.0 f 6 20
8.0 f 10 20
16.0 f 12 20
32.0 f 16 20
;


proc genmod;
class sexo;
model y/n= / dist=b type1 type3;
run;

proc genmod;
class sexo;
model y/n=sexo sexo*ld /dist=b type1 type3;
run;

proc genmod;
class sexo;
model y/n=sexo ld / noint dist=b type1 type3;
run;

proc genmod;
class sexo;
model y/n=sexo*ld / dist=b type1 type3;
run;

proc genmod;
class sexo;
model y/n=ld/ dist=b type1 type3;
run;


106 Clarice G.B. Demtrio
B.2 Programas SAS para os dados do exemplo 4.3 - captulo 4


B.3.1 - Para Cox, Golden e Crispin diferentes

data macieira;
input var $ X N Y;
p=y/n;
datalines;
Cox 0 34 12
Cox 1 92 15
Cox 2 133 18
Cox 3 146 14
Cox 4 111 9
Golden 0 21 6
Golden 1 89 20
Golden 2 118 20
Golden 3 124 21
Golden 4 81 4
Crispin 0 69 42
Crispin 1 93 43
Crispin 2 147 59
Crispin 3 149 57
Crispin 4 151 43
;
title 'Modelo Completo com Intercepto';
proc genmod order=data;
class var;
model y/n=var|x /dist=bin type1 type3 covb;
run;
title;

title 'Modelo Completo sem Intercepto';
proc genmod order=data;
class var;
model y/n=var|x /noint dist=bin type1 type3
b; cov
run;
title;

title lo Reduzido com Intercepto'; 'Mode
proc genmod order=data;
class var;
model y/n=var x / dist=bin type1 type3 covb;
contrast 'Golden vs Cox' var -1 1 0;
contrast 'Cox vs Crispin' var 1 0 -1;
contrast 'Golden vs Crispin' var 0 1 -1;
estimate 'Golden vs Cox' var -1 1 0;
estimate 'Cox vs Crispin' var 1 0 -1;
estimate 'Golden vs Crispin' var 0 1 -1;
run;
title;

title 'Modelo Reduzido sem Intercepto';
proc genmod order=data;
class var;
model y/n=var x/noint dist=bin type1 type3 covb;
contrast 'Golden vs Cox' var -1 1 0;
contrast 'Cox vs Crispin' var 1 0 -1;
contrast 'Golden vs Crispin' var 0 1 -1;
estimate 'Golden vs Cox' var -1 1 0;
estimate 'Cox vs Crispin' var 1 0 -1;
estimate 'Golden vs Crispin' var 0 1 -1;
run;
title;
B.3.2 - Para Cox e Golden reunidas

data macieira2;
input var $ X N Y;
p=y/n;
datalines;
Crispin 0 69 42
Crispin 1 93 43
Crispin 2 147 59
Crispin 3 149 57
Crispin 4 151 43
CoxGold 0 34 12
CoxGold 1 92 15
CoxGold 2 133 18
CoxGold 3 146 14
CoxGold 4 111 9
CoxGold 0 21 6
CoxGold 1 89 20
CoxGold 2 118 20
CoxGold 3 124 21
CoxGold 4 81 4
;
title lo Reduzido 1 com Intercepto'; 'Mode
proc genmod order=data;
class var;
model y/n=var x /dist=bin type1 type3 covb;
estimate 'Crispin vs CoxGold' var 1 -1;
run;
title;
title 'Modelo Reduzido 1 sem Intercepto';
proc genmod order=data;
class var;
model n=var x /noint dist=bin type1 type3 covb; y/
estimate 'Crispin vs CoxGold' var 1 -1;
run;
title;




Modelos Lineares Generalizados na Experimentao Agronmica
107
B.3 Programa SAS para os dados do exemplo 4.5 - captulo 4

DATA EXE53;
INPUT Meio $ Hormonio $ Erecip $ Drecip $
Brotos;
DATALINES;
A X1 1 1 4
A X1 1 2 5
A X1 1 3 2
A X1 2 4 1
A X1 2 5 2
A X1 2 6 5
A X1 3 7 2
A X1 3 8 2
A X1 3 9 .
A X2 4 10 3
A X2 4 11 5
A X2 4 12 3
A X2 5 13 2
A X2 5 14 2
A X2 5 15 1
A X2 6 16 2
A X2 6 17 2
A X2 6 18 3
A X2 7 19 1
A X2 7 20 4
A X2 7 21 4
A X2 8 22 2
A X2 8 23 4
A X2 8 24 .
A X2 9 25 1
A X2 9 26 .
A X2 9 27 .
A X2 10 28 2
A X2 10 29 .
A X2 10 30 .
B X1 11 31 4
B X1 11 32 1
B X1 11 33 4
B X1 12 34 5
B X1 12 35 4
B X1 12 36 5
B X1 13 37 5
B X1 13 38 4
B X1 13 39 3
B X1 14 40 3
B X1 14 41 4
B X1 14 42 4
B X1 15 43 2
B X1 15 44 3
B X1 15 45 2
B X1 16 46 1
B X1 16 47 0
B X1 16 48 1
B X1 17 49 0
B X1 17 50 4
B X1 17 51 2
B X1 18 52 6
B X1 18 53 2
B X1 18 54 2
B X1 19 55 3
B X1 19 56 3
B X1 19 57 .
B X1 20 58 1
B X1 20 59 5
B X1 20 60 .
B X2 21 61 2
B X2 21 62 2
B X2 21 63 1
B X2 22 64 2
B X2 22 65 4
B X2 22 66 4
B X2 23 67 2
B X2 23 68 3
B X2 23 69 0
B X2 24 70 0
B X2 24 71 0
B X2 24 72 4
B X2 25 73 12
B X2 25 74 0 B X2
25 75 4

B X2 26 76 1
B X2 26 77 0
B X2 26 78 4
B X2 27 79 0
B X2 27 80 8
B X2 27 81 2
B X2 28 82 2
B X2 28 83 4
B X2 28 84 .
B X2 29 85 3
B X2 29 86 1
B X2 29 87 .
B X2 30 88 10
B X2 30 89 .
B X2 30 90 .
C X1 31 91 0
C X1 31 92 2
C X1 31 93 0
C X1 32 94 1
C X1 32 95 1
C X1 32 96 3
C X1 33 97 5
C X1 33 98 3
C X1 33 99 3
C X1 34 100 3
C X1 34 101 2
C X1 34 102 1
C X1 35 103 2
C X1 35 104 2
C X1 35 105 2
C X1 36 106 0
C X1 36 107 2
C X1 36 108 2
C X1 37 109 2
C X1 37 110 2
C X1 37 111 2
C X1 38 112 2
C X1 38 113 0
C X1 38 114 2
C X2 39 115 2
C X2 39 116 2
C X2 39 117 3
C X2 40 118 11
C X2 40 119 6
C X2 40 120 5
C X2 41 121 5
C X2 41 122 3
C X2 41 123 4
C X2 42 124 6
C X2 42 125 4
C X2 42 126 .
C X2 43 127 4
C X2 43 128 4
C X2 43 129 .
C X2 44 130 3
C X2 44 131 3
C X2 44 132 .
;
RUN;
title 'Modelo com Efeito Entre e Dentro de
Recipientes';
PROC GENMOD;
CLASS Meio Hormonio Erecip Drecip;
MODEL BROTOS=MEIO|HORMONIO Erecip Drecip
/DIST=P TYPE1 TYPE3;
RUN;
title;

PROC GENMOD;
CLASS Meio Hormonio Erecip Drecip;
MODEL BROTOS=meio|hormonio /DIST=P TYPE1
TYPE3;
Lsmeans meio|hormonio; RUN;


108 Clarice G.B. Demtrio

B.4 Programa SAS para os dados do exemplo 4.6 - captulo 4

data ex54;
input diluicao valor rep;
of=log(valor);
datalines;
0.0316 2
0.0316 1
0.0316 3
0.0316 2
0.0316 2
0.0562 3
0.0562 2
0.0562 1
0.0562 3
0.1000 4
0.1000 4
0.1000 3
0.1000 5
0.1778 9
0.1778 14
0.1778 6
0.1778 14
0.3162 13
0.3162 14
0.3162 17
0.3162 22
;

proc genmod order=data;
class diluicao;
model valor=diluicao of /dist=poisson type1
type3 offset=of;
output out=saida p=predito;
run;
proc print data=saida;
run;

Goptions vsize=6 hsize=6 ;

Symbol1 c=black i=none v=dot l=1 h 1 w 1; = =
Symbol2 c=black i=spline v=none l=1 h=2 w=1;

Axis1 w=1 label=(a=90 'Contagens') order=(0
to 25 by 5);
Axis2 w=1;

PROC GPLOT data=saida;
plot (valor predito)*Diluicao / overlay
nolegend vaxis=axis1 haxis=axis2 noframe;
label Y='Contagens' X='Diluio';
run;






Referncias Bibliogrficas

AGRESTI, A. Categorical Data Analysis. New York: John Wiley & Sons, 1990. 558p.

AITKIN, M.; ANDERSON; D.; FRANCIS, B.; HINDE, J. Statistical Modelling in GLIM.
New York: Oxford University Press, 1989. 374p.

ARANDA-ORDAZ, F. J. On two families of tranformations to additivity for binary response
data. Biometrika, 68, p.357-63, 1981.

ASHTON, W. D. The Logit Transformation with Special Reference to its Uses in
Bioassay, London: Griffin, 1972. 88p.

ATKINSON, A. C. Two graphical displays for outlying and influential observations in
regression. Biometrika, 68, p.13-20, 1981.

ATKINSON, A. C. Plots, Transformations and Regression. New York: Oxford University
Press, 1985. 282p.

ATKINSON, A. C.; DAVISON, A. C.; NELDER, J. A.; O'BRIEN, C. M. Model Checking.
London: Imperial College, 1989.

BARNDORFF-NIELSEN, O. E. Parametric Statistical Models and Likelihood. Lecture
Notes in Statistics, 50, New York: Springer-Verlag, 1988.

BELSLEY, D. A.; KUH, E.; WELSCH, R. E. Regression Diagnostics. New York: John
Wiley & Sons, 1980.

BERKSON, J. Application of the logistic function to bioassay. Journal of the American
Statistical Association, 39, p.357-365, 1944.

BIRCH, M. W. Maximum likelihood in three-way contingency tables. Journal of the Royal
Statistical Society B, 25, p.220-233, 1963.

BLISS, C. I. The calculation of the dosage-mortality curve. Annals Applied Biology, 22,
p.134-167, 1935.

BOX, G. E. P.; COX, D. R. An analysis of transformations. Journal of the Royal Statistical
Society B, 26, p.211-52, 1964.

BUSE, A. The likelihood ratio, Wald and Lagrange multiplier tests: An expository note. The
American Statistician, 36, 3, p.153-57, 1982.

COLLETT, D. Modelling Binary Data. London: Chapman & Hall, 1991. 369p.

COOK, R. D.; WEISBERG, S. Residuals and Influence in Regression. New York:
Chapman and Hall, 1982.
110 Clarice G.B. Demtrio
COX, D. R.; SNELL, E. J. A general definition of residuals (with discussion). Journal of the
Royal Statistical Society B, 30, p.248-275, 1968.

COX, D. R.; HINKLEY, D.V. Theoretical Statistics. Cambridge: Chapman and Hall, 3
rd
ed.,
1986. 174p.

CORDEIRO, G.M. Modelos Lineares Generalizados. Campinas, VII SINAPE, 1986. 286p.

DYKE, G. V.; PATTERSON, H. D. Analysis of factorial arrangements when the data are
proportions. Biometrics, 8, p.1-12, 1952.

DEMTRIO, C. G. B.; HINDE, J. P. Half normal plots and overdispersion. GLIM
newsletter, 27, p.19-26, 1997.

DOBSON, A. J. An Introduction to Statistical Modelling. London: Chapman and Hall, 2
nd

ed., 1990. 174p.

FAHRMEIR, L; KAUFMAN, H. Consistency and asymptotic normality of the maximum
likelihood estimator in generalized linear models. Annals of Statistics, 13, p.342-68,
1985.

FAHRMEIR, L.; TUTZ; G. Multivariate Statistical Modelling based on Generalized
Linear Models. New York,: Springer-Verlag, 1994.

FEIGL, P.; ZELEN, M. Estimation of exponential survival probabilities with concomitant
information. Biometrics, 21, p.826-838, 1965.

FIRTH, D. Generalized Linear models. In D. Hinkley, N., N. Reid, and E. Snell (Eds.),
Statistical Theory and Modelling, p.55-82, Chapman & Hall, 1991.

FISHER, R. A. On the mathematical foundations of theoretical statistics. Philosophical
Transactions of the Royal Society, 222, p.309-368, 1922.

FISHER, R. A. Two new properties of mathematical likelihood. Proceedings of the Royal
Society A , 144, p.285-307, 1934.

FISHER, R. A.; YATES, F. Statistical Tables for Biological, Agricultural and Medical
Research. Edinburgh: Oliver & Boyd, 1970.

FRANCIS, B. J.; GREEN, M.; PAYNE, C. The GLIM System. Release 4 Manual. New
York: Oxford University Press, 1993.

GASSER, M. Exponential survival with covariance. Journal of the American Statistical
Association, 62, p.561-568, 1967.

HINDE, J. P.; DEMTRIO, C. G. B. Overdispersion: Models and Estimation. 13
o
SINAPE -
Simpsio Nacional de Probabilidade e Estatstica, Caxambu, MG, 1998.
Modelos Lineares Generalizados na Experimentao Agronmica
111
JRGENSEN, B. Exponential dispersion models (with discussion). Journal of the Royal
Statistical Society B, 49, p.127-62, 1987.

JRGENSEN, B.; LABOURIAU, R. S. Famlias Exponenciais e Inferncia Terica. Rio
de Janeiro: Intituto de Matemtica Pura e Aplicada, 1992. 264p.

KENDALL, M. G.; STUART, A. The Advanced Theory of Statistics - Distribution
Theory. New York: Hafner, 3
rd
ed., 1969, 3v.

LINDSEY, J. K. Applying Generalized Linear Models. New York: Springer-Verlag, 1997.
256p.

MARTIN, J.T. The problem of the evaluation of rotenone-containing plants. VI: The toxicity
of 1-elliptone and of poisons applied jointly, with further observations on the rotenone
equivalent method of assessing the toxicity of derris root. Annals of Applied Biology,
29, p 69-81, 1942.

McCULLAGH, P.; NELDER, J. A. Generalized Linear Models. London: Chapman and
Hall, 2
nd
ed., 1989. 511p.

McCULLOCH, C. E.; SEARLE, S.R. Generalized, Linear, and Mixed Models. New York:
John Wiley & Sons, 2000. 325p.

MENDENHALL, W.; SCHEAFFER, R. L.; WACKERLY, D. D. Mathematical Statistics
with Applications. Boston, Duxbury, 2
nd
ed., 1981. 686p.

MIAZAKI, E.; STANGENHAUS, G. Mtodos para Deteco de Dados Atpicos. 11
o

SINAPE Simpsio Nacional de Probabilidade e Estatstica. Belo Horizonte MG,
1994.

MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to the Theory of Statistics.
McGraw-Hill, 3
rd
ed., 1974. 564p.

MORGAN, B. J. T. Analysis of Quantal Response Data. London: Chapman & Hall, 1992.

NELDER, J. A. Inverse polynomials, a useful group of multifactor response functions.
Biometrics, 22, p.128-141, 1966.

NELDER, J. A.; WEDDERBURN, R. W. M. Generalized Linear Models. Journal of the
Royal Statistical Society A, 135, 3, p.370-84, 1972.

NELDER, J. A.; PREGIBON, D. An extended quasi-likelihood function. Biometrika, 74,
221-232, 1987.

PAULA, G. A. Modelos de Regresso com Apoio Computacional. So Paulo: IME/USP.
2000.

112 Clarice G.B. Demtrio
PHELPS, K. Use of the complementary log-log function to describe dose response
relationship in inseticide evaluation field trials. In GLIM 82: Proceedings of the
International Conference on Generalized Linear Models. Lecture notes in Statistics,
14, p.155-163. New York: Springer-Verlag, 1982.

PREGIBON, D. Logistic regression diagnostics. Ann. Statist., 9, p.705-724, 1981.

RASCH, G. Probabilistic Models for Some Intelligence and Attainment Tests.
Copenhagen: Danmarks Paedogogiske Institut., 1960.

RIDOUT, M. S. Non-convergence of Fisher's method of scoring - A simple example, GLIM
Newsletter, 20, p.8-11, 1990.

RIDOUT, M. S. Using Generalized Linear Models to Analyze Data from Agricultural, and
Horticultural Experiments. Minicurso lecionado no Departamento de Matemtica e
Estatstica da ESALQ/USP, 1991 (no publicado).

RIDOUT, M. S.; FENLON, J. Statistics in Microbiology. East Malling: Notes for
workshop. 1998.

RYAN, T. A.; JOINER, B. L.; RYAN, B. F. Minitab Student Handbook. North Scituate,
Mass: Duxbury Press, 1976.

SAHA, A.; DONG, D. Estimating nested count data models. Oxford Bulletin of Economics
& Statistics, 59, p.423-430, 1997.

SEARLE, S. R. Matrix Algebrebra Useful for Statistics. New York: John Wiley & Sons,
1982

SAS Institute. SAS/STAT Users Guide 8.0. Cary, N. C.: SAS Institute Inc., 1999.

SILVEIRA NETO, S.; NAKANO, O.; BARBIN, D.; VILLA NOVA, N. A. Manual de
Ecologia dos Insetos. So Paulo: Ed. Agronmica 'Ceres', 1976. 419p.

SILVEY, S. D. Statistical Inference. London: Chapman and Hall, 2
nd
ed., 1975. 191p.

SMYTH, G. K. Generalized linear models with varying dispersion. Journal of the Royal
Statistical Society B, London, 51, 1, p.47-60, 1989.

TUKEY, J. W. One degree of freedom for non-additivity. Biometrics, 5, p.232-242, 1949.

WALD, A. Tests os statistical hypotheses concerning several parameters when the number of
observations is large. Trans. Amer. Math. Soc., 54, p.426-482, 1943.

WANG, P. C. Adding a variable in generalized linear models. Technometrics, 27, p.273-
276, 1985.

Modelos Lineares Generalizados na Experimentao Agronmica
113
WANG, P. C. Residuals plots for detecting non-linearity in generalized linear models.
Technometrics, 29, p.435-438, 1987.

WEISBERG, S. Applied Linear Regression. New York: John Wiley & Sons, 2
nd
ed. 1985.
324p.

WILLIAMS, D.A. The Use of the deviance to test the goodness of fit of a logistic-linear
model to binary data". The GLIM Newsletter, 6, p.60-62, 1983.

WILLIAMS, D.A. Generalized Linear model diagnostics using the deviance and "single-case
deletions". Applied Statistics, 36, p.181-191, 1987.

ZIPPIN C.; ARMITAGE, P. Use of concomitant variables and incomplete survival
information in the estimation of an exponential survival parameter. Biometrics, 22,
p.665-672, 1966

































LISTA ADICIONAL DE MODELOS LINEARES GENERALIZADOS

Prof. Clarice G. B. Demtrio

1.5.1 Suponha que X tenha distribuio de Poisson com parmetro .Suponha ainda que seja uma
varivel aleatria com distribuio exponencial de parmetro . Pede-se:

a) a distribuio marginal de X;

b) a densidade condicional de dado X = k.


1.5.2 O nmero de acidentes em que se envolve um motorista durante um ano uma varivel aleatria
Y tendo distribuio de Poisson com parmetro . Suponha ainda que seja uma varivel aleatria
com distribuio Gama ( ). Pede-se:

,

a) a distribuio marginal de Y;

b) a densidade condicional de dado Y = k;

c) a mdia e a varincia de Y usando argumentos de esperana e varincia condicionais;

d) o coeficiente de correlao entre Y e .


1.5.3 Uma varivel aleatria X com distribuio Beta tem densidade

f(x)=
) ( . ) (
) (



+
I
1 -
x
1 -
x) - 1 (

(0,1)
(x).

Seja Y uma varivel aleatria cuja distribuio condicionada a X = p Binomial de parmetros N e p,
pede-se:

a) a distribuio marginal de Y;

b) a densidade condicional de X dado Y = k;

c) a mdia e a varincia de Y usando argumentos de esperana e varincia condicionais;

d) o coeficiente de correlao entre Y e X.


1.5.4 Seja X
1
, X
2
, ..., X
n
uma amostra aleatria de X ~ B(p). Suponha que p uma varivel aleatria
com distribuio Beta ( . , )

a) Determine a distribuio condicional de p dado X
1
, X
2
, ..., X
n.

b) Calcule a esperana condicional de p dado X
1
, X
2
, ..., X
n.


1.5.4 As variveis X e Y tem distribuio conjunta dada por f(x, y) = 2 I
A
(x, y), onde A = {0 < y < x
<1}. Achar:

a) as distribuies condicionais de X dado Y = 1/2 e de Y dado X = 1/3;

b) Cov (X, Y);

c) as marginais de X e de Y. Elas so independentes?


1.5.6 Seja X
1
, X
2
, ... uma seqncia de variveis aleatrias independentes e identicamente distribudas
segundo uma distribuio exponencial de parmetro > 0. Defina Y = 0 se N = 0 e Y = X
1
+ X
2
+ .....
+ X
N
se N = 1, 2, 3, ... , onde N uma varivel tendo distribuio Geomtrica de parmetro p, isto ,
P(N = n) = pq
n 1
I
A
(n), A = {1, 2, 3, ...}. Ache a distribuio de Y.


1.5.7 Seja X ~ B(N, p) onde N ~ Bin(m, a). Mostre que X ~ Bin(m, pa).


1.5.8 Suponha que X | N = n ~ Bin(n, p) e que N ~ Poisson( ). Mostre que X ~ Poisson( p).


1.5.9 Suponha que X | R = r ~ Binneg(r,p) e que R ~ Geomtrica( ), sendo A = {1, 2, 3....}. Mostre
que a distribuio marginal de X geomtrica com parmetro c = (1- ).p/ (1 - p) e A = {0, 1, 2,
3...}.


Obs.: A = { x | f(x) = P ( X = x ) > 0}.


1.5.10 O nmero de acidentes por semana em uma usina de acar uma varivel aleatria com
distribuio de Poisson com mdia 2.O nmero de empregados acidentados em diferentes acidentes
so independentemente distribudos com mdia 3 e varincia 4. Determine a mdia e a varincia do
nmero de empregados acidentados por semana.


1.5.11 Solomon (1983) detalha o seguinte modelo biolgico. Suponha que cada um de um nmero
aleatrio, N, de insetos ponha X
i
ovos, onde as X
is
so independentes e identicamente distribudas. 0
nmero total de ovos postos :
H = .

=
N
1 i
i
X

muito comum supor que N ~ Poisson ( ). Alm disso vamos supor ainda que cada X
i
tenha uma
distribuio logartmica de parmetro p, isto ,:
P( X = x ) = -
x
p) 1 (
) ln(
1
x

p
I
A
(x), sendo A={1,2,3....}.

Mostre que a distribuio de H ~ Binneg(r, p), em que r = - /ln(p).



1.5.12 Se Y | X = x ~ N (x, x
2
) e X ~ U (0, 1). Achar:

a) E(Y) e Var (Y);

b) a distribuio conjunta de (X, Y);

c) a marginal de Y.


1.5.13 Seja f(x,y) =
1) (
2
+ n n
I
A
(x,y), sendo A = {1, 2, ...., n} x {1, 2, ..., x}. Achar:

a) E(X | Y = y) e E (Y | X = x);

b) (X,Y).


1.5.14 Seja f(x ,y) = ( x + y) I
A
(x , y), sendo A = (0, 1) x (0, 1). Calcular:

a) E(X), Var(X), E(Y), Var(Y);

b) E(X | Y = y) e Var(X | Y = y).


1.5.15 Sejam X e Y variveis aleatrias relacionadas com ovelhas de um rebanho da raa Corriedale
assim definidas.

X : Cordeiros nascidos por ovelha parida;
Y : Cordeiros desmamados por ovelha parida.

A distribuio conjunta de (X,Y) dada por:

x
y
1 2
0 0,15 0,05
1 0,50 0,20
2 0 0,10

a) determine E(X), E(Y), Var(X), Var(Y), cov(X, Y);

b) ache a distribuio condicional de Y | X = x e a de X | Y = y;

c) ache a distribuio de: V = E(X | Y), U = E(X | Y), W = Var(X | Y) e T = Var(Y | X);

d) verifique que: E[E(Y | X)] = E(Y) e Var[E(Y | X)] + E[Var(Y | X)] = Var(Y).




1.5.16 Remessas dirias contendo um nmero varivel de peas (N) chegam a uma loja de acordo
com a seguinte lei de probabilidade

n 10 11 12 13 14 15
P(N = n) 0,05 0,10 0,10 0,20 0,35 0,20

A probabilidade de que qualquer pea em particular seja defeituosa a mesma para todas as peas
igual a 0,10. Se X representar o nmero de peas defeituosas recebidas pela loja durante o dia, qual
ser a mdia e a varincia de X?


1.5.17 Suponha que o fornecimento energtico (quilowatts) a uma companhia hidreltrica, durante um
perodo especificado, seja uma varivel aleatria X, a qual admitiremos ter uma distribuio
uniforme sobre [10, 30]. A demanda da potncia (quilowatts) tambm uma varivel aleatria Y, que
admitiremos ser uniformemente distribuda sobre [10,20]. Deste modo, em mdia, mais potncia
fornecida do que demandada, porque E(X) = 20 e E(Y) = 15. Para cada quilowatt fornecido, a
companhia tem um lucro de US$ 0,03. Se a demanda exceder a oferta, a companhia obter potncia
adicional de outra fonte, tendo um lucro de US$ 0,01 por quilowatt desta potncia fornecida. Qual
ser o lucro esperado, durante o perodo especificado?


1.5.18 Suponha que o peso do filho de um homem com x quilos seja uma varivel aleatria
normalmente distribuda com mdia (x +1) e varincia 4. Voc vai prever o peso do filho de um
homem com 72 quilos. Qual a melhor a previso?


1.5.19 Um rato est preso em um labirinto. Nesse local h 3 portas. A primeira porta leva a um tnel
que aps 3 minutos o levar para a liberdade. A segunda porta o levar a um outro tnel que o trar de
volta ao labirinto aps 5 minutos. A terceira porta o levar par e um outro tnel que o trar de volta
aps 7 minutos. Se supusermos que em todas as vezes o ratinho escolher uma das portas com igual
probabilidade determine a mdia e a varincia do tempo gasto pelo rato at alcanar a liberdade?


1.5.20 A funo densidade conjunta de (X,Y) dada por

f(x,y) = x exp[ -x (y + 1)] I
A
(x,y), A = (0, )
2


a) Qual a densidade condicional de Y | X = x? E de X | Y = y?

b) Qual a densidade de V= E(X/Y)?

Você também pode gostar