Você está na página 1de 16

Rev. Mat. Estat., So Paulo, v. 22, n.1, p.

55-70, 2004 55
MODELAGEM DA SUPERDISPERSO EM DADOS
POR UM MODELO LINEAR GENERALIZADO MISTO
Jos Airton Rodrigues NUNES
1

Augusto Ramalho de MORAIS
2

Jlio Slvio de Sousa BUENO FILHO
2
RESUMO: A modelagem de dados binomiais, em muitos casos, constitui-se numa tarefa difcil
uma vez que estes, no raramente, apresentam variao extra-binomial. O objetivo deste trabalho
constituiu-se na aplicao de modelos lineares generalizados mistos (MLGMs), em dois
conjuntos de dados da literatura, com o intuito de acomodar de forma satisfatria a
superdisperso presente. As estimativas dos parmetros foram derivadas a partir da funo de
quase-logverossimilhana penalizada conjunta utilizando funo de ligao logstica por meio
dos seguintes algoritmos: macro glimmix do programa SAS 8.10, glmmPQL (Biblioteca MASS)
do programa R 1.6.1 e algoritmo MLGM implementado no R 1.6.1. Primeiramente os conjuntos
de dados foram submetidos ao ajuste pelo modelo binomial padro, obtendo-se fortes evidncias
de superdisperso em ambos. Os resultados do ajuste pelos MLGs com incorporao de efeito
aleatrio de parcela mostraram que os modelos sugeridos conseguiram explicar satisfatoriamente
a variabilidade presente nos dados. Observou-se ainda que as propores ajustadas pelo
algoritmo implementado no R 1.6.1 foram iguais s obtidas pelo SAS 8.10 para os conjuntos de
dados. Em virtude dos resultados apresentados pode-se aferir que o algoritmo implementado
constitui-se um procedimento bastante confivel para ajuste de MLGMs para dados binomiais.
PALAVRAS-CHAVE: Algoritmo; variao extra-binomial; quase-verossimilhana penalizada;
desvio; ensaio de germinao.
1 Introduo
Na pesquisa agronmica, o pesquisador se depara, no raramente, com situaes nas
quais os dados obtidos apresentam distribuio binomial. Nestes casos, as pressuposies
bsicas requeridas para aplicao da metodologia da anlise de varincia associada ao
teste F, tcnica normalmente utilizada, so violadas. Negligenciando estas restries, o
pesquisador incorrer em elevadas taxas de erro para os testes de hipteses realizados e
em inferncias pouco confiveis.
Para tornar vlida a utilizao deste mtodo estatstico, os pesquisadores tm
adotado a mudana adequada da escala da varivel aleatria por meio de transformaes
nestes dados.

1
Departamento de Biologia, Universidade Federal de Lavras - UFLA, Caixa postal 37, CEP: 37200-000, Lavras,
MG, Brasil. E-mail: janunes@ufla.br.
2
Departamento de Cincias Exatas, Universidade Federal de Lavras - UFLA, Caixa postal 37, CEP: 37200-000,
Lavras, MG, Brasil. E-mail: armorais@ufla.br / jssbueno@ufla.br.
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 56
Com a introduo dos modelos lineares generalizados, os problemas com escalas
foram grandemente reduzidos (McCullagh e Nelder, 1989). Trata-se de uma extenso dos
modelos lineares, desenvolvida por Nelder e Wedderburn (1972), para dados no
normalmente distribudos. Esta metodologia motiva-se no fato que os efeitos sistemticos
so linearizados por uma transformao adequada dos valores esperados, permitindo aos
valores ajustados variarem dentro da amplitude real das respostas.
No obstante o uso deste mtodo estatstico, dados binomiais apresentam, em muitas
ocasies prticas, uma varincia nas respostas superior varincia nominal da distribuio
binomial comportada pelo modelo, denominada de variao extra-binomial ou
superdisperso. Vrios autores tm mencionado a importncia de considerar a presena
deste fenmeno na modelagem e, com isso, tm sugerido vrias formas de lidar com este
problema prtico.
A incorporao de efeitos aleatrios no preditor linear, os modelos lineares
generalizados mistos (MLGMs), tm se mostrado numa tcnica de grande utilidade e
aplicabilidade na rea das cincias biolgicas para acomodao da superdisperso. Esta se
fundamenta numa extenso da teoria dos modelos mistos para dados com distribuies
pertencentes famlia exponencial, assumindo-se uma distribuio particular para os
efeitos aleatrios.
O objetivo deste trabalho foi a aplicao de modelos lineares generalizados mistos
com funo de ligao logstica baseado numa quase-logverossimilhana penalizada
conjunta, em dois ensaios envolvendo dados binomiais superdispersos, com o intuito de
acomodar de forma satisfatria a variabilidade extra presente. Um importante objetivo
adicional foi o de ajustar estes modelos com um algoritmo implementado em ambiente R
1.6.1 e comparar os resultados aos de algoritmos j implementados nos programas
estatsticos SAS 8.10 (macro GLIMMIX ), e R 1.6.1 (procedimento glmmPQL).
2 Material e mtodos
2.1 Material
No presente trabalho foram analisados dois conjuntos de dados presentes na
literatura com respostas binomiais com fins metodolgicos de aplicao. A descrio
desses conjuntos de dados feita a seguir.

Exemplo 1: Ensaio de germinao

Crowder (1978), citado por Breslow e Clayton (1993), apresenta dados sobre a
proporo de sementes germinadas observadas (r
i
) em 21 bandejas provenientes de um
experimento conduzido num delineamento inteiramente casualizado com os tratamentos
repetidos, dispostos num esquema fatorial cruzado 2 x 2, sendo duas espcies de sementes
(Orobanche aegyptiaco 75 (= 0), Orobanche aegyptiaco 73 (= 1)) e dois diferentes meios
para germinao provenientes de extratos de raiz (feijo (= 0), pepino (= 1)). As sementes
de Orobanche foram colocadas em diluies 1/125 dos referidos extratos.

Exemplo 2: Ensaio de sobrevivncia

Manly (1978), citado por Hinde e Demtrio (1998), retrata um experimento sobre a
sobrevivncia de ovos de truta. O experimento constitui-se de caixas contendo
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 57
quantidades variveis de ovos, que foram colocadas aleatoriamente em cinco diferentes
locais num fluxo e a quatro diferentes perodos (4, 7, 8 e 11 semanas). Uma caixa de cada
local foi amostrada e os nmeros de ovos sobreviventes foram contados.
3 Mtodos
3.1 Modelo linear generalizado binomial
Tendo os dados descritos propores de sucessos (r
i
) em amostras de tamanho (m
i
),
admitiu-se, primeiramente, o modelo binomial para explicar os dados apresentados.
Assim, conforme a teoria de modelos lineares generalizados considerando efeitos fixos,
descrita extensivamente em McCullagh e Nelder (1989), Dobson (1990) e Demtrio
(2001), optou-se pelo uso da funo de ligao logstica (cannica) como uma
transformao do valor esperado que se deseja modelar como uma combinao linear nos
parmetros, conforme estrutura dos experimentos, devido interpretao mais simples
como o logaritmo da razo de chances. Assim, o MLG ajustado
( ) = R E

X = |
.
|

\
|

=
1
log
(1)
em que:
R o vetor de propores observadas, de dimenses n x 1, tal que se admite:
i
i i
i
m
m Bin
R
) , (
~

, com i = 1,...,n;
o vetor dos preditores lineares, de dimenses n x 1;
X a matriz do delineamento, de dimenses n x p;
o vetor de p parmetros desconhecidos do preditor linear do modelo, de dimenses
p x 1.
Para efetuar o ajuste dos modelos generalizados propostos para os conjuntos de
dados descritos foram utilizados o procedimento GENMOD do programa SAS 8.10,
comando GLM do programa R 1.6.1 (Ihaka e Gentleman, 1996) e um algoritmo MLG
implementado no programa R 1.6.1. O algoritmo implementado no R utiliza o
procedimento de quadrados mnimos reponderados iterativamente para obteno das
estimativas dos parmetros com uso do algoritmo de Escore de Fisher (Demtrio, 2001).

Exemplo 1: Ensaio de germinao

A proporo de sementes germinadas (r
ijk
) em bandejas com m
ijk
sementes foram
modeladas admitindo-se dois possveis modelos, M1 com efeitos principais e M2
incluindo o efeito da interao:

Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 58
( ) ( )
( ) ( ) ( ) ( ) ijk ijk ijk ijk
ijk
ijk
ijk
ijk ijk
ijk
ijk
ijk
x x x x M
x x M
2 1 12 2 2 1 1 0
2 2 1 1 0
1
log : 2
1
log : 1

+ + + =
|
|
.
|

\
|

=
+ + =
|
|
.
|

\
|

=
(2)
em que:

ijk
= o preditor linear correspondente observao r
ijk
, k = 1,...,n
ij
;
x
1(ijk)
= 1 se a variedade de semente i foi O. aegyptiaco 73, 0 se O. aegyptiaco 75;
x
2(ijk)
= 1 se o extrato de raiz j foi pepino, 0 se feijo;
= representa os efeitos fixos associados com variedade de semente, extrato de raiz e
interao.

Exemplo 2: Ensaio de sobrevivncia

As propores de ovos sobreviventes (r
ij
), obtidas a partir da contagem em caixas
com m
ij
ovos, foram analisados conforme MLG descrito por

j i
ij
ij
ij

+ + =
|
|
.
|

\
|

=
1
log (3)
em que:

ij
= o preditor linear correspondente observao r
ij
, i = 1,...,5 e j = 1,...,4;
= constante associada a todas as observaes;

i
= o efeito do local i;

j
= o efeito do perodo j.
4 Critrios de verificao de ajuste
4.1 Deviance binomial residual
Para verificao do ajuste dos modelos descritos utilizou-se a deviance como
medida de ajustamento. A deviance binomial residual dada por
( ) ( ) ( ) [ ] r l r r l r D , , 2 , =
( ) ( )
(
(

|
|
.
|

\
|

+
|
|
.
|

\
|
=

i
i
i
i
i
i
n
i
i
r
r
r
r m r D

1
1
log 1

log 2 ,
1

(4)
Por conseguinte, realizou-se o teste da adequao do modelo corrente com p
parmetros linearmente independentes por meio da estatstica
2
( ; ) n p


; se a deviance
binomial residual (4) fosse inferior a este quantil superior, no existia evidncias para
supor que o acrscimo de parmetros no modelo forneceria ganhos no ajuste; caso
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 59
contrrio, o modelo proposto no comportaria a variao presente nos dados, a qual em
muitos casos se deve variao extra-binomial presente.
4.2 Estimativa do parmetro de disperso
A adequao do modelo linear generalizado binomial foi complementarmente
verificada pela estimao do parmetro de escala (); dentre vrios estimadores
encontrados na literatura, utilizou-se o estimador de momentos da estatstica X
2

generalizada de Pearson, dado por

( ) ' ( )

W
n p

z z

(5)
sendo z o vetor de variveis dependentes ajustadas, o vetor de estimativas dos
preditores lineares, n o nmero de observaes e p o nmero de parmetros linearmente
independentes.
A estimativa (5) foi utilizada para checagem de superdisperso, indicada por valores
calculados significativamente maiores 1.
4.3 Modelo linear generalizado binomial misto
A aplicao do modelo binomial padro em dados de propores superdispersos
limitada pelo fato de a varincia ser automaticamente determinada estando a mdia
especificada (Hinde e Demtrio, 1998). Assim, evidenciada a presena de variao extra-
binomial efetuou-se a modelagem dos dados correspondentes pelo uso da abordagem que
utiliza a incorporao de efeitos aleatrios no preditor linear, ou seja, por um modelo
linear generalizado misto descrito em McCulloch e Searle (2001).
Os modelos lineares generalizados mistos (MLGM) surgem em experimentos
aleatorizados em que se observam dados discretos da mesma forma como surgem os
modelos lineares Gauss-Markov normal (MLGMN) para uma varivel contnua.
Assumindo aditividade entre efeitos de unidade experimental (UE) e de tratamentos, o
modelo hierrquico produzido aproximadamente normal-normal (nos nveis de parcelas
e dados) e a convoluo de duas normais gera uma nova distribuio normal. No caso dos
dados discretos, a convoluo da aproximao normal para o efeito subjacente de parcelas
com a distribuio dos dados observados (contagens ou propores) gera um MLGM na
forma de modelo hierrquico (Normal-Poisson ou Normal-Binomial, respectivamente).
3

Seja r
1
, r
2
,..., r
n
um conjunto de realizaes condicionalmente independentes de
variveis aleatrias
i
i i
i i
m
m Bin
u R
) , (
~ |

, com funo de densidade discreta dada por


3
GILMOUR, S. G. 2002, Lavras - MG, comunicao pessoal.
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 60
( )
i i R i i
u r f iid u R
u i
| . ~ |
|

( ) ( )

|
|
.
|

\
|
+
(
(

+
|
|
.
|

\
|

=
i i
i
i
i
i
i i i i R
r m
m
r m u r f
i
u i
log 1 log
1
log exp |
|


(6)
O MLGM para anlise destas propores condicionais foi construdo utilizando-se
uma funo de ligao logstica, resultando no seguinte modelo proposto
( )
u X
u R
+ = = |
.
|

\
|

1
log
| E
(7)
em que:
R|u o vetor de propores condicionalmente independentes, de dimenses n x 1, tal que
se admite
i
i i
i i
m
m Bin
u R
) , (
~ |

, correspondente a (6);
o vetor dos preditores lineares, de dimenses n x 1;
X a matriz do delineamento referente aos efeitos fixos, de dimenses n x p;
Z a matriz do delineamento referente aos efeitos aleatrios, de dimenses n x q;
o vetor de efeitos fixos desconhecidos do preditor linear do modelo, de dimenses
p x 1;
u o vetor de efeitos aleatrios desconhecidos do preditor linear do modelo, de dimenses
q x 1, assumindo-se u ~ N
q
(0, G);
Assim, tendo-se admitido o modelo (7), submeteu-se os dados binomiais a uma
anlise pela teoria dos MLGMs conforme descrito nos trabalhos de Gilmour et al. (1985),
Shall (1991) e Breslow e Clayton (1993), assumindo-se os efeitos aleatrios normalmente
distribudos.
As estimativas dos vetores de parmetros e u foram obtidos a partir da
maximizao da funo de quase-logverossimilhana penalizada conjunta (QVP) dada por
( ) ( ) u G u r m r u QVP
i
i
i
i
i
i
1 '
2
1
1 log
1
log , ,

(
(

+
|
|
.
|

\
|

(8)
As diferenciaes realizadas resultam num sistema de equaes pouco tratvel;
porm, com base na varivel dependente ajustada dada por
( ) + = r y
*
(9)
tem-se que esta pode ser aproximada por um modelo linear misto (Henderson et al., 1959)
da forma
* *
e X y + + =
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 61
em que:
e* = (r - ) ; Cov(e*) = W
-1
; Cov(u) = G;
E(Y*) = X ; Cov(Y*) = W
-1
+ ZGZ.
Logo, aqueles autores sugerem o uso de algoritmo iterativo similar, em que um
modelo generalizado misto ajustado para encontrar solues para estimativas dos
vetores de parmetros e u por
(
(

(
(

=
(
(


+

* '
* '
'
'
'
'

1
Wy X
Wy Z
WZ X
G WZ Z
WX X
WZ Z u

(10)
em que, para um MLGM para dados binomiais, tem-se que
( )
)
`

(
(

|
|
.
|

\
|

=
)
`

=
i i i
i
diag diag diag

1
1
1
log
1 1
1

( ) [ ]
( ) [ ]
( )
( ) { }
i i i
i i
i i
i
i i
i
i
m diag
m
diag u y V diag W

|
|
.
|

\
|

=

1
1
1
|
2
1
2
.
Os MLGMs foram ajustados por algoritmos j implementados nos pacotes
estatsticos SAS 8.10, por meio da macro GLIMMIX associada ao PROC MIXED, e R
1.6.1, pelo comando glmmPQL, e ainda por um algoritmo implementado em ambiente R
1.6.1, sendo as solues obtidas a partir da maximizao da funo de quase-
logverossimilhana penalizada conjunta (8).
O algoritmo implementado no R 1.6.1 utiliza o algoritmo de Newton-Raphson no
passo do modelo generalizado e o algoritmo EM no passo de maximizao para estimar os
componentes de disperso referente aos efeitos aleatrios.
O algoritmo utilizado pelo SAS 8.10, assim como o algoritmo implementado no R
1.6.1 constituem algoritmos de maximizao conjunta descritos em Shall (1991) e
Breslow e Clayton (1993) e obtm as estimativas dos parmetros por meio da resoluo
do sistema de equaes dos MLGMs (9), enquanto que as estimativas obtidas pelo
comando glmmPQL do programa R 1.6.1, derivadas de (8), utiliza o procedimento de
quadrados mnimos reponderados iterativamente.

Exemplo 1: Ensaio de germinao

As propores condicionalmente independentes de sementes germinadas (r
ijk
|b
k
)
em bandejas com m
ijk
sementes foram modeladas admitindo-se dois possveis modelos,
M1 com efeitos principais e M2 incluindo o efeito da interao:
( )
( )
( )
( )
( )
( ) ( ) ( ) k ijk ijk ijk
ijk
k ijk
k ijk
ijk
k ijk
b x x x x b x
b x x b x
+ + + + = =
+ + + = =
2 1 12 2 2
1
1 0 ,
2 2
1
1 0 ,
| 1 Pr logit : 2
| 1 Pr logit : 1


(11)
em que:
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 62
b
k
= o efeito aleatrio associado parcela k, considerando b
k
~ N(0,
2
p
).

Exemplo 2: Ensaio de sobrevivncia

As propores condicionalmente independentes de ovos sobreviventes no local i e
perodo j (r
ij
|b
k
) em caixas com m
ij
ovos, foram modeladas admitindo-se um MLGM por:
( )
k j i k j i ij
b b + + + = = = , , | 1 Pr log
(12)
no qual b
k
o efeito aleatrio da parcela k, considerando b
k
~ N(0,
2
p
).
4.4 Verificao de ajuste
Verificou-se o ajuste do MLGMs propostos por meio do clculo da estimativa do
componente de extra-disperso (
2
) conforme descrito por Shall (1991). O teste para a
superdisperso presente foi realizado verificando se os valores de
2
eram
significativamente maiores que 1, respectivamente (Shall, 1991). O estimador sugerido foi
calculado de forma anloga a (5) e aproximado pelo algoritmo implementado por

( ) ( )
( ) X r n
u Z X z W u X z

'

2

(13)
em que, ( ) X r o posto da matriz de efeitos fixos.
5 Resultados e discusso
Exemplo 1: Ensaio de germinao

Primeiramente foram ajustados os modelos de regresso logstica ordinrios para
estes dados. A Tabela 1 apresenta as estimativas de mxima verossimilhana dos
coeficientes de regresso logstica para os modelos ajustados, de (2), para as 21
propores de sementes germinadas por meio de programas executados nos pacotes
estatsticos SAS 8.10 e R 1.6.1. As estimativas dos parmetros obtidas foram idnticas
para as trs anlises do MLG proposto.
Verifica-se que para o modelo de efeitos principais M1, de (2), a estimativa de ,
de (5), foi de 2,1284, excedendo o valor assumido para o modelo ( ) 1 = , evidenciando
presena de variao extra no comportada pelo modelo sugerido. O valor da deviance
residual, de (4), para o modelo M1 com 18 graus de liberdade, foi de 39,6859,
tendo ( ) 0023 , 0 Pr = > D , rejeitando-se a hiptese de que o modelo est bem ajustado e
somando forte evidncia de variao extra no modelada ou m especificao do modelo.
A partir da evidncia do efeito da interao dos fatores presente, conforme mostrado
na Figura 1, ajustou-se o modelo M2, de (2), incluindo o efeito da interao da
variedade de semente e tipo de raiz. Para este modelo, a deviance residual, de (4), com
17 graus de liberdade, foi de 33,2778, a qual superou o valor do ( ) 5871 , 27
05 . 0 ; 17
2
= X ,
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 63
rejeitando-se a hiptese de ajustamento do modelo. A estimativa de , de (5), para o
modelo sugerido foi igual a 1,8618, excedendo o valor assumido para o modelo (=1),
evidenciando-se presena de superdisperso.
Tabela 1 - Estimativas dos parmetros para os modelos de regresso logstica descritos em
(2) por trs algoritmos para MLG
ALGORITMOS
GENMOD SAS GLM R ALGORITMO MLG
Varivel

( ) EP

( ) EP

( ) EP
Modelo com efeitos principais
Intercepto -0,43 (0,1137) -0,43 (0,1137) -0,43 (0,1137)
Variedade -0,27 (0,1547) -0,27 (0,1547) -0,27 (0,1547)
Extrato raiz 1,07 (0,1442) 1,07 (0,1442) 1,07 (0,1442)


2,1284 2,1284 2,1284
Modelo com interao
Intercepto -0,56 (0.1260) -0,56 (0,1260) -0,56 (0,1260)
Variedade 0,15 (0,2232) 0,15 (0,2232) 0,15 (0,2232)
Extrato raiz 1,32 (0,1775) 1,32 (0,1775) 1,32 (0,1775)
Interao -0,78(0,3064) -0,78 (0,3064) -0,78 (0,3064)


1,8618 1,8618 1,8618


FIGURA 1 - Representao grfica da proporo mdia de sementes germinadas em funo das
variedades O. aegyptiaco 73 e 75 e dos extratos de razes de feijo e pepino.
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 64
A Figura 2 apresenta as propores observadas e correspondentes valores ajustados
pelo modelo M2, de (2), obtidos pela inversa da funo de ligao logstica
correspondente, respectivamente:
( ) ( )
( )
( ) ( )
( )
ijk ijk
ijk ijk
x x
x x
M
2 2 1 1 0
2 2 1 1 0
exp 1
exp
: 1

+
+
+ +
+
=
( )
( ) ( ) ( ) ( )
( )
ijk ijk ijk ijk
ijk ijk ijk ijk
x x x x
x x x x
M
2 1 12 2 2 1 1 0
) ( 2 ) ( 1 12 ) ( 2 2 ) ( 1 1 0
exp 1
exp
: 2

+ + + +
+ + +
=


Crowder (1978), citado por Breslow e Calyton (1993), observou que existe uma
variao dentro de parcelas que excede predita pelos modelos acima ajustados,
caracterizando o fenmeno da superdisperso.
Com base na evidncia anunciada, partiu-se para o ajuste de modelos com incluso
do efeito aleatrio de parcela no preditor linear (10) como forma de modelar a variao
extra-binomial por um MLGM. Devido dificuldade na convergncia do algoritmo,
optou-se por re-expressar os ensaios binomiais na forma de ensaios de Bernoulli (1s e
0s) (Littell et al., 1996).
A Tabela 2 apresenta as estimativas de mxima quase-verossimilhana penalizada
dos coeficientes de regresso logstica obtidas pela macro Glimmix-SAS 8.10, pelo
algoritmo MLGM implementado na linguagem R 1.6.1 e pelo comando glmmPQL do R
1.6.1 para os efeitos fixos dos modelos generalizados mistos com ausncia e presena da
interao dos fatores (11) e as estimativas dos componentes de disperso referentes ao
parmetro de extra-disperso e ao efeito aleatrio da parcela.
Observa-se que as estimativas obtidas pela macro Glimmix do SAS 8.10 e algoritmo
MLGM apresentam os mesmos resultados para ambos os modelos, com e sem interao,
denotando uma boa caracterizao do algoritmo para fins de ajuste de um MLGM via
quase-verossimilhana penalizada conjunta, tendo assumido pressuposio distribucional
de normalidade para o efeito aleatrio presente.
Os resultados obtidos pelo comando glmmPQL do software R 1.6.1 apresentaram
resultados similares com relao aos dois outros procedimentos de anlise, por utilizar
uma implementao diferente a partir da QVP (8). Porm, as estimativas obtidas pelo
glmmPQL foram bem prximas das estimativas obtidas por Breslow e Clayton (1993) e
Hinde e Demtrio (1998) via mxima verossimilhana, demonstrando uma robustez dos
estimadores de QVP. Observa-se, ainda, que os erros padres das estimativas obtidas pelo
glmmPQL do R 1.6.1 foram menores do que os obtidos pelo glimmix SAS 8.10 e pelo
algoritmo MLGM implementado.
Para todos os algoritmos de anlise foram calculadas as estimativas do parmetro
referente ao componente de extra-disperso (
2
), de (13), para fins de verificao da
acomodao da superdisperso (Shall, 1991), e a estimativa do parmetro relacionado
com a varincia do efeito aleatrio de parcela (
2
p
).
Para o modelo M1, de (11), as estimativas alcanadas para o algoritmo MLGM e
SAS 8.10 foram iguais a 0,9805 e 0,1242, enquanto as obtidas no R 1.6.1 foram de 0,9871
e 0,0857, respectivamente, para os componentes de extra-disperso e componentes de
varincia da parcela. Como os valores dos componentes de extra-disperso esto bem
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 65
Tabela 2 - Estimativas dos parmetros para os MLGMs descritos em (11) por trs
algoritmos para MLGM
ALGORITMOS
Glimmix SAS glmmPQL R ALGORITMO - MLGM
Varivel

( ) EP

( ) EP

( ) EP
Modelo com efeitos principais
Intercepto -0,38 (0,1821) -0,38 (0,1643) -0,38 (0,1821)
Variedade -0,36 (0,2284) -0,34 (0,2085) -0,36 (0,2284)
Extrato raiz 1,02 (0,2236) 1,02 (0,2030) 1,02 (0,2236)
2

p
0,1242 0,0857 0,1242
2

0,9805 0,9871 0,9805
Modelo com interao
Intercepto -0,54 (0,1904) -0,54 (0,1656) -0,54 (0,1904)
Variedade 0,08 (0,3081) 0,10 (0,2746) 0,08 (0,3081)
Extrato raiz 1,34 (0,2699) 1,33 (0,2347) 1,34 (0,2699)
Interao -0,83 (0,4296) -0,81 (0,3817) -0,83 (0,4296)
2

p
0,09780 0,0551 0,09780
2

0,9855 0,9899 0,9855

prximos a 1, valor admitido e fixo para este no modelo binomial, indicam que a varincia
est consistente com a distribuio assumida, isto , os dados no fornecem evidncia de
superdisperso para o modelo assumido.
Para o modelo M2, de (11), considerando o efeito de interao, as estimativas
alcanadas para os componentes de extra-disperso e de varincia da parcela pelo
algoritmo MLGM e Glimmix-SAS 8.10 foram similares e iguais a 0,9855 e 0,0978,
enquanto as obtidas no R foram de 0,9899 e 0,0551, respectivamente. A incluso do efeito
da interao, a qual foi significativa no modelo, aproximou a estimativa de
2
a 1,
evidenciando melhor acomodao da variao extra-binomial.
A Figura 2 apresenta as propores observadas e correspondentes valores ajustados
pelo modelo M2, de (11), a partir da inversa da funo de ligao logstica por meio das
estimativas obtidas pelo glimmix SAS 8.10 e algoritmo MLGM (A) e pelo comando
glmmPQL do programa R 1.6.1(B), conforme apresentado abaixo:
( ) ( )
( )
( ) ( )
( )
k ijk ijk
k ijk ijk
ijk
b x x
b x x
M

exp 1

exp
: 1
2 2 1 1 0
2 2 1 1 0
+ + + +
+ + +
=



( ) ( ) ( ) ( )
( )
( ) ( ) ( ) ( )
( )
k
ijk
ijk ijk ijk
k ijk ijk ijk ijk
ijk
b x x x x
b x x x x
M

exp 1

exp
: 2
2 1 12 2 2 1 1 0
2 1 12 2 2 1 1 0
+ + + + +
+ + + +
=



Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 66
A Figura 2 mostra que os valores das propores ajustadas pelo MLGM M2, de
(11), em ambos algoritmos utilizados, ajustou-se de forma mais adequada aos dados
observados.



FIGURA 2 - Propores de sementes germinadas e correspondentes propores ajustadas pelo
modelo MLG M2, de (2), e pelo MLGM M2, de (11): SAS 8.10 e algoritmo
implementado (A) e comando glmmPQL do programa R 1.6.1 (B).
Exemplo 2: Ensaio de sobrevivncia

A Tabela 3 apresenta algumas de muitas solues possveis para as estimativas dos
parmetros para o modelo binomial via mxima verossimilhana, de (3), para as 20
propores de ovos sobreviventes em funo das variveis classificatrias local e perodo,
por meio de programas executados nos pacotes estatsticos SAS 8.10 e R 1.6.1.
Verifica-se que a estimativa de , obtida de (5), para as anlises realizadas, foi de
5,3303, excedendo o valor assumido para o modelo ( = 1), evidenciando presena
de superdisperso. O valor da deviance residual, de (4), para o modelo com 12 graus de
liberdade, foi 64,495, sendo superior ao quantil do qui-quadrado com 12 graus de
liberdade para o nvel de significncia adotado ( = 0,05), rejeitado-se a hiptese de
ajustamento do modelo.
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 67
Tabela 3 - Estimativas dos parmetros para o modelo binomial padro (3) por trs
algoritmos para ajuste do MLG
ALGORITMOS
GENMOD SAS GLM R ALGORITMO MLG
Varivel

( ) EP

( ) EP

( ) EP
Intercepto -2,43 (0,1919) 4,64 (0,2810) 1,00 (0,0502)
Local 01 4,61 (0,2502) 0 1,65 (0,1630)
Local 02 4,20 (0,2317) -0,42 (0,2461) 1,23 (1,1445)
Local 03 3,37 (0,2014) -1,24 (0,2194) 0,40 (0,1119)
Local 04 3,66 (0,2131) -0,95 (0,2287) 0,69 (0,1244)
Local 05 0 -4,61 (0,2500) -2,99 (0,1439)
Perodo (4 sem.) 2,45 (0,2341) 0 1,99 (0,1684)
Perodo (7 sem.) 0,28 (0,1640) -2,17 (0,2381) -0,18 (0,1118)
Perodo (8 sem.) 0,12 (0,1648) -2,33 (0,2456) -0,34 (0,1144)
Perodo (11 sem.) 0 -2,45 (0,2338) -0,46 (0,1029)


5,3303 5,3303 5,3303

A Figura 3 mostra as propores de ovos de truta observados e ajustados pelo
modelo (3), obtidos pela inversa da funo ligadora denotada por
( )
( )
j i
j i
ij

exp 1

exp

+ + +
+ +
= ,
para as 20 unidades experimentais. Denota-se que o modelo ajustado no descreve de
forma satisfatria os dados deste experimento.


FIGURA 3 - Propores de ovos de truta sobreviventes observados e ajustados pelo modelo (3)
para as 20 parcelas.
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 68
Em virtude da inadequao do modelo proposto (3) em explicar os dados, props-se,
analogamente, modelar esta variabilidade por meio de um MLG com incluso do efeito
aleatrio da parcela experimental, conforme (12).
Com base neste modelo (12), as estimativas de mxima quase-verossimilhana
penalizada dos parmetros para os efeitos fixos de local e perodo resultaram em iguais
propores ajustadas para as anlises realizadas pela macro glimmix do SAS 8.10 e
algoritmo MLGM e estas foram prximas s obtidas por meio das estimativas
provenientes pelo comando glmmPQL do programa R 1.6.1, conforme mostrado na
Tabela 4.
A Figura 4 apresenta a plotagem das propores de ovos de truta sobreviventes
observados e ajustados pelo modelo (12), obtidos analogamente pela inversa da funo de
ligao
( )
( )
ij j i
ij j i
ij
b
b

exp 1

exp

+ + + +
+ + +
=



com substituio pelas estimativas dos parmetros correspondentes ao modelo. Nota-se
que o modelo misto proposto explica de forma bastante satisfatria a variabilidade
inerente aos dados experimentais.
Tabela 4 - Estimativas dos parmetros para o MLGM descrito em (12) por trs algoritmos
para MLGM
ALGORITMOS
Glimmix SAS GLM R Algoritmo MLGM
Varivel

( ) EP

( ) EP

( ) EP
Intercepto -2,87 (0,5877) 4,36 (0,4367) 0,96 (0,1392)
Local 01 4,61 (0,6401) 0 1,46 (0,4065)
Local 02 4,42 (0,6404) -0,25 (0,4375) 1,26 (0,4058)
Local 03 3,61 (0,6230) -1,07 (0,4190) 0,45 (0,3888)
Local 04 4,09 (0,6433) -0,69 (0,4303) 0,94 (0,4081)
Local 05 0 -4,54 (0,4321) -3,15 (0,4043)
Perodo (4 sem.) 2,59 (0,5996) 0 1,91 (0,3827)
Perodo (7 sem.) 0,59 (0,5534) -2,01 (0,4109) -0,09 (0,3410)
Perodo (8 sem.) 0,48 (0,5502) -2,11 (0,4080) -0,19 (0,3378)
Perodo (11 sem.) 0 -2,47 (0,4131) -0,67 (0,3460)
2

p
0,6550 0,2330 0,6550
2

0,9097 0,9392 0,9097

Estimaram-se, ainda, os componentes de disperso ou varincia relativos parcela e
variao extra (13) iguais a 0,655 e 0,9097, respectivamente, para as anlises realizadas
no SAS 8.10 e algoritmo MLGM. A anlise oriunda do glmmPQL do programa R 1.6.1
resultou em estimativas equivalentes a 0,2330 e 0,9392 para estas componentes. Nota-se
que a estimativa da componente de varincia para o efeito aleatrio de parcela para as
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 69
anlises diferem substancialmente devido diferente implementao utilizada a partir de
(8), utilizada pelo comando glmmPQL.
Com base no critrio sugerido por Shall (1991), aproximado por (13), tem-se que o
valor estimado para a componente de extra-disperso foi, relativamente, prximo a 1, o
que nos permite aferir que o modelo misto comporta de forma satisfatria a variao
extra-binomial presente.

FIGURA 4 - Propores de ovos de truta sobreviventes observados e ajustados pelo modelo (12)
para as 20 parcelas.
Concluses
A aplicao dos modelos lineares generalizados mistos para fins de acomodao da
variao extra-binomial presente nos dados referentes aos ensaios de germinao e
sobrevivncia considerados constitui uma tcnica bastante adequada;
O algoritmo implementado em ambiente R 1.6.1 mostrou-se consistente com
softwares de renomada preciso, nos dois exemplos utilizados para o ajuste de modelos
lineares generalizados mistos com ligao logstica e pressuposio de normalidade para o
efeito aleatrio presente.

NUNES, J.A.R.; MORAIS, A.R. de; BUENO FILHO, J.S. de S. Modelling overdispersion
in binomial data by a generalized linear mixed model. Rev. Mat. Estat., So Paulo, v.22,
n.1, p.55-70, 2004.
ABSTRACT: In agronomic research, experimental data with binomial distribution are found
frequently. In model selection, the presence of extra-binomial variation needs to be considered.
The use of generalized linear mixed models (GLMM) is a flexible methodology to analyze
proportions as well as an elegant way to model such overdispersion. The objective of this study
was to apply this methodology in two experiments involving binomial data with the purpose to
model the extra-binomial variability to an appropriate and valid inference. Furthermore, it
aimed at implementing an algorithm in R environment to fit GLMM with the logit link function in
order to obtain maxima penalized quasi-likelihood estimators assuming normally distributed
random effects. The estimates of the dispersion parameters using standard binomial fit to both
Rev. Mat. Estat., So Paulo, v. 22, n.1, p.55-70, 2004 70
data sets were greater than one, giving strong evidence of overdispersion. Analysis using a
generalized linear model with a random effect to plots was performed in SAS 8.1 by the
glimmix macro, R 1.6.1 through the glmmPQL command (Library MASS) and the
implemented algorithm in R 1.6.1 environment. Results showed that the suggested models
explained the present variability in a very acceptable way. Estimates of the components of extra
dispersion close to one provided no indication of overdispersion. The estimates achieved by the
implemented algorithm for fitting GLMM were similar to the estimates of the SAS program,
denoting that it can be used to fit mixed models for binomial data using the logit link function.
KEYWORDS: Algorithm; extra-binomial variation; penalized quasi-likelihood; deviance;
germination trial.
Referncias
BRESLOW, N.E.; CLAYTON, D.G. Approximate inference in generalized linear mixed
models. J. Am. Stat. Assoc., Washington, v.88, n.421, p.9-25, 1993.
DEMTRIO, C.G.B. Modelos lineares generalizados em experimentao agronmica. In:
REUNIO ANUAL DA RBRAS, 46.; SEAGRO, 9., 2001. Piracicaba. Resumos...
Piracicaba: ESALQ/USP, 2001. 113 p.
DOBSON, A.J. An introduction to generalized linear models. London: Chapman and
Hall, 1990. 173 p.
GILMOUR, A.R.; ANDERSON, R.D.; RAE, A.L. The analysis of binomial data by a
generalized linear mixed model. Biometrika, London, v.72, n.3, p.593-9, 1985.
HENDERSON, C.R.; KEMPTHORNE, O.; SEARLE, S.R.; KROSIGK, C.M.. The
estimation of environmental and genetic trends from records subject to culling.
Biometrics, London, v.15, n.1, p.192-218, 1959.
HINDE, J.P.; DEMTRIO, C.G.B. Overdispersion: models and estimation. Comp. Stat.
Data Anal., v.27, n.2, p.151-70, 1998.
IHAKA, R.; GENTLEMAN, R.R: A language for data analysis and graphics. J. Comp.
Graphical Stat., Alexandria, v.5, n.3, p.299-314, 1996.
LITTLEL, R.C.; MILLEKEN, G.A.; STROUP, W.W.; WOLFINGER, R.D. SAS

System
for mixed models. Cary: SAS Institute, 1996. 633 p.
McCULLAGH, P.; NELDER, J. A. Generalized linear model. 2.ed. London: Chapman
and Hall, 1989. 511 p.
McCULLOCH, C. E.; SEARLE, S. R. Generalized, linear, and mixed models. New York:
E. Willey-Interscience, 2001. 324 p.
NELDER, J.A.; WEDDERBURN, R. W.M.Generalized linear model. J. R. Stat. Soc. A,
London, v.135, n.3, p.370-84, 1972.
SHALL, R. Estimation in generalized linear models with random effects. Biometrika,
London, v.78, n.4, p.719-27, 1991.
Recebido em 23.04.2003.
Aprovado aps reviso em 01.11.2003.

Você também pode gostar