Escolar Documentos
Profissional Documentos
Cultura Documentos
Gauss M. Cordeiro
22
o
s podem produzir
a mesma verossimilhanca ou, equivalentemente, uma dada verossimilhanca pode corres-
ponder a um contorno R(y) de vetores amostrais. Este processo produz uma reducao
de informacao sobre , disponvel em y, que e transferida para as estatsticas sucientes
denidas pela funcao de verossimilhanca (vide equacao (1.5) a seguir).
E impressionan-
te como os conceitos (aparentemente distintos) de suciencia e verossimilhanca, ambos
introduzidos por Fisher, estao intimamente relacionados conforme a descricao acima.
A inferencia via verossimilhanca e fundamentada em princpios genericos como os
descritos a seguir. O princpio de suciencia estabelece que vetores de dados distintos
com os mesmos valores das estatsticas sucientes para um vetor de parametros fornecem
conclusoes identicas sobre . O princpio fraco de verossimilhanca implica que vetores de
dados com verossimilhancas proporcionais produzem as mesmas conclusoes sobre . Para
a validade destes dois princpios, admite-se que o modelo estatstico em investigacao e
adequado. O princpio forte de verossimilhanca e relativo a variaveis aleatorias distintas
que dependem de um mesmo parametro e de um mesmo espaco parametrico. Supondo
que dois modelos sao adequados aos vetores de dados y e z em questao, este princpio
estabelece que se y e z fornecem verossimilhancas proporcionais, entao as conclusoes sobre
4 Introducao `a Teoria Assintotica Gauss M. Cordeiro
tiradas destes dois vetores de dados sao identicas.
Muito frequentemente, as componentes de Y sao mutuamente independentes para
todas as distribuicoes em F e a verossimilhanca de reduz-se a
L() =
n
i=1
f(y
i
; ) . (1.1)
Usualmente, trabalha-se com a log-verossimilhanca () = log L(), tambem chamada de
funcao suporte. No caso de variaveis aleatorias independentes, a log-verossimilhanca e
aditiva
() =
n
i=1
log f(y
i
; ) . (1.2)
Em geral, mesmo no caso de variaveis aleatorias dependentes, a log-verossimilhanca pode
ser dada por uma soma, denindo-a a partir das funcoes densidade (ou de probabilidade)
condicionais. Seja Y
(j)
= (Y
1
, . . . , Y
j
)
T
e dena a funcao densidade condicional de Y
j
dado
Y
(j1)
= y
(j1)
por f
Y
j
|Y
(j1)
(y
j
|y
(j1)
; ). Assim, a log-verossimilhanca de e dada por
() =
n
j=1
log f
Y
j
|Y
(j1)
(y
j
|y
(j1)
; ) , (1.3)
com Y
(0)
especicando o que for necessario para determinar a distribuicao da primeira
componente Y
1
. A versao (1.3) e importante nos modelos de series temporais.
Exemplo 1.1 Suponha que as componentes de Y sao geradas por um modelo autore-
gressivo estacionario de primeira ordem com parametro de correlacao e media , i.e.,
Y
j
= +(Y
j1
)+
j
, onde
2
, . . . ,
n
sao variaveis aleatorias independentes distribudas
como normal N(0, ). A log-verossimilhanca (1.3) para = (, , )
T
se simplica pois a
distribuicao de Y
j
dado Y
(j1)
= (Y
1
, . . . , Y
j1
)
T
depende somente de Y
j1
e contribui para
a log-verossimilhanca com o termo
log f
Y
j
|Y
(j1)
(y
j
|y
(j1)
; ) =
1
2
log(2) (2)
1
{y
j
(y
j1
)}
2
.
22
o
j=2
(y
j
)
2
} +
j=2
(y
j
)(y
j1
) .
A funcao de verossimilhanca informa a ordem natural de preferencia entre diversas
possibilidades de . Um conjunto de dados e mais consistente com um vetor do que
com outro
) L() para todo . Muitas vezes existe um unico vetor de parametros que
maximiza a verossimilhanca em , sendo portanto o unico vetor mais plausvel neste
espaco parametrico. Entretanto, a EMV pode nao ser unica e nem mesmo nita dentro
de um dado espaco de parametros. A EMV
desempenha um papel central na inferencia
parametrica em grandes amostras (vide Captulo 4).
Como a funcao logaritmo e monotona, maximizar L() e () em sao processos
equivalentes. Entao, a EMV
e denida de modo que para todo
l(
) () . (1.4)
O graco de () versus em e chamado superfcie suporte. Para p = 1 este graco
(curva suporte) e bastante informativo, embora nao tenha valor imediato no calculo de
.
Para p 3 a superfcie suporte nao pode ser tracada e deve-se recorrer a tecnicas iterativas
apresentadas na Secao 1.4. Se e um conjunto discreto, computa-se () para os diversos
6 Introducao `a Teoria Assintotica Gauss M. Cordeiro
s e escolhe-se
como aquele valor de correspondente ao maximo (). Quando ()
e contnua e diferenciavel em , a EMV
pode ser obtida resolvendo-se o sistema de
equacoes simultaneas ()/
r
= 0 para r = 1, . . . , p desde que nao se encontre na
fronteira do espaco parametrico. Das solucoes deste sistema (em geral nao-linear) pode-se
achar a EMV
. Convem frisar, entretanto, que a EMV nao coincide necessariamente com
alguma solucao do sistema. Mesmo que o sistema tenha solucao unica, nao signica que
ela seja a EMV, que pode ate mesmo nem existir.
Como foi enfatizado anteriormente, a funcao de verossimilhanca resume toda a in-
formacao relevante sobre um vetor de parametros e, em especial, o quociente de verossi-
milhancas ou a diferenca entre log-verossimilhancas expressa as plausibilidades relativas
de dois vetores de parametros especicados. Assim, a verossimilhanca retira dos dados
toda a informacao relevante para inferir sobre um vetor de parametros de interesse e a
sua inspecao possibilita responder questoes especcas sobre estes parametros. Toda
informacao relevante na verossimilhanca sobre um vetor de parametros esta contida num
conjunto de estatsticas denominadas sucientes, denidas a seguir. Assim, um conceito
diretamente relacionado `a verossimilhanca e a suciencia. Considere-se uma estatstica
S = S(Y ) funcao das variaveis aleatorias Y
1
, . . . , Y
n
. Seja s o valor observado de S. Diz-
se que S e suciente para na famlia de distribuicoes denida por F se a distribuicao
condicional f(y|s) de Y = (Y
1
, . . . , Y
n
)
T
dado S = s independe de . A suciencia de S
implica que toda informacao relevante que os dados y contem sobre esta concentrada
em S. Uma condicao necessaria e suciente para esta suciencia e que a verossimilhanca
possa ser fatorada na forma
L() = g(s, )h(y) , (1.5)
onde g(, ) depende dos dados y somente atraves de s = s(y) e h(y) e uma funcao dos
dados que independe de . A condicao (1.5) e conhecida como o Teorema da Fatora cao
de Neyman-Fisher. Uma demonstracao detalhada (o caso discreto e trivial) pode ser
encontrada no livro de Lehmann (1959, p.470). Claro que se S e suciente para , qualquer
funcao um-a-um de S tambeme suciente. A escolha entre distintas estatsticas sucientes
para um parametro pode ser baseada na consistencia, eciencia e no fato de ser nao-viesada
(Secao 4.1.1).
22
o
1
, . . . ,
p
devem ser funcoes de
S
1
, . . . , S
m
. Entretanto, as dimensoes m e p de S e , respectivamente, nao sao necessa-
riamente iguais. O caso m < p podera ocorrer se existirem relacoes nao-lineares entre as
componentes de , mas a situacao mais comum na pratica e m p. Como as componentes
do vetor
podem nao ser funcoes um a um das estatsticas sucientes S
1
, . . . , S
m
, as es-
timativas
1
, . . . ,
p
nao formam necessariamente um conjunto de estatsticas sucientes
para , pois podem ser apenas funcoes de um subconjunto dessas estatsticas.
Usando-se a denicao de suciencia ou a condicao (1.5) e facil mostrar, por exemplo,
que no caso de observacoes iid (independentes e identicamente distribudas), a media
amostral e suciente para a media da distribuicao de Poisson e para a probabilidade de
sucesso da distribuicao binomial. Pode-se ainda vericar no caso iid que se Y N(,
2
)
a verossimilhanca para = (,
2
)
T
pode ser fatorada como (1.5) com g(y, s
2
, ,
2
)
onde y = y
i
/n e s
2
= (y
i
y)
2
/n e, portanto, a media y e a variancia s
2
amostrais
sao estatsticas conjuntamente sucientes para e
2
. Entretanto, s
2
sozinha nao sera
suciente para
2
quando for desconhecido. A partir da log-verossimilhanca do modelo
autoregressivo discutido no exemplo 1.1, observa-se que as estatsticas y
2
1
+ y
2
n
,
n1
j=2
y
2
j
e
n
j=2
y
j
y
j1
sao sucientes para os parametros e quando e conhecido.
A inferencia atraves da funcao suporte deve ser consistente com os dados observados
e, portanto, as conclusoes nao deverao ser alteradas por dois tipos de transformacoes: (i)
transformacao inversvel de Y ; (ii) transformacao nao necessariamente inversvel de .
Mostra-se agora que a funcao suporte quando usada relativamente e invariante segun-
do transformacao unvoca dos dados. Supondo uma transformacao um-a-um da variavel
aleatoria contnua Y para Z=Z(Y ), a verossimilhanca segundo os novos dados z (L
(; z))
pode ser expressa em termos da verossimilhanca segundo os dados y (L(; y)) por
L
(), onde e
sao os suportes em
termos de e , respectivamente. Se
e a EMV de , obtem-se (
) () para qualquer
. Denindo
= f(
)) (f
1
()) ou seja
(), o
que implica
ser a EMV de = f(). Note-se que as superfcies suportes () e
() tem
formas distintas, porem o mesmo maximo (
) =
, (1.7)
onde o operador
) = 0
devem ser obtidas por tecnicas iterativas. Quando as EMV tem forma fechada, pode
ser viavel determinar suas distribuicoes exatas e, portanto, obter suas propriedades em
pequenas amostras. Quando este nao e o caso, a inferencia deve ser baseada na teoria
assintotica apresentada nos Captulos 4 e 5.
Como ilustracao do calculo de EMV, considere n observacoes iid da distribuicao nor-
22
o
2
n
2
n1
e como suas distribuicoes sao independentes,
r
= E(Z
r
) de Z e simplesmente
r
= exp(r +r
2
2
/2) para
r 1. No caso da estimacao do parametro da distribuicao de Cauchy (exemplo 1.4
dado a seguir), a equacao de MV nao tem forma simples, sendo representada por um
polinomio de grau n 1 em cujas solucoes em geral incluem varios maximos e mnimos
da log-verossimilhanca. Portanto, a inferencia sobre deve ser baseada em propriedades
assintoticas de sua EMV
.
A matriz de informacao (algumas vezes chamada informacao esperada) para IR
p
obtida dos dados y e uma matriz p p denida por
K() = E{U()U()
T
} . (1.8)
Para observacoes independentes, a funcao escore e a informacao sao somas de contribuicoes
individuais sobre .
Este texto considera apenas problemas regulares que satisfazem `as seguintes condicoes:
(a) e fechado, compacto e tem dimensao nita sendo o parametro verdadeiro
0
um
ponto interior de ; (b) f(y; ) e uma funcao um-a-um de ; (c) as tres primeiras derivadas
de () existem numa vizinhanca de
0
; (d) K() e nita e positiva denida numa viz-
inhanca de
0
. Alem das condicoes (a)-(d), admite-se, para modelos contnuos, que a
10 Introducao `a Teoria Assintotica Gauss M. Cordeiro
igualdade
E{t(Y )} =
_
t(y)
f(y; )dy
e valida para qualquer estatstica t(Y ). Para modelos discretos basta substituir esta
integral por um somatorio. Esta equacao garante que as operacoes de diferenciacao com
respeito a e integracao em y sao permutaveis. Isso e possvel, por exemplo, se os limites
de variacao de y sao nitos e independem de ou, no caso de innitos, se a integral
resultante da permutacao e convergente para todo e o integrando e uma funcao contnua
de y e . Estas condicoes de regularidade serao rediscutidas na Secao 4.1.3.
As condicoes anteriores sao usadas para justicar expansoes em series de Taylor e
tecnicas similares. Uma discussao mais detalhada destas condicoes pode ser encontrada
em LeCam (1956, 1970). De agora em diante omite-se o argumento das funcoes de
verossimilhanca, suporte, escore e informacao, escrevendo abreviadamente estas quanti-
dades como L, , U e K. Ainda, a distribuicao conjunta dos dados e escrita apenas como f
sem os argumentos y e . As demonstracoes serao dadas em forma resumida para modelos
contnuos. Para modelos discretos, basta substituir a integral por um somatorio.
A esperanca e a covariancia da funcao escore sao dadas por
E(U) = 0 (1.9)
e
Cov(U) = E
_
U
T
_
= E
_
T
_
= K, (1.10)
respectivamente. De (1.7) U =
1
f
f
e, entao, E(U) =
_
f
dy =
(
_
fdy) = 0. Diferen-
ciando
_
Ufdy = 0 em relacao a vem
_
{
U
T
f + U
f
T
}dy =
_
{
U
T
+ UU
T
}fdy = 0.
Por (1.8) e (1.9) obtem-se (1.10). Esta equacao implica que o elemento (r, s) de K pode
ser calculado de duas formas, como E{
2
s
} ou E{
s
}, sendo a primeira geral-
mente mais facil. De agora em diante, quantidades avaliadas na EMV
serao escritas
com superescritos .
A matriz de primeiras derivadas da funcao escore com sinal negativo J =
U
T
T
e denominada matriz de informacao observada. A matriz Hessiana e simplesmente
J e tem-se E(J) = K. Para
ser um maximo local, as condicoes
U = 0 e
J 0 (
J
22
o
i
s sao variaveis aleatorias iid tendo dis-
tribuicao exponencial com funcao densidade e
y
, entao a log-verossimilhanca e a funcao
escore para sao, respectivamente, () = nlog
n
i=1
y
i
e U() = n/
n
i=1
y
i
.
E simples
checar diretamente que E{U()} = 0 e Var{U()} = n/
2
.
Exemplo 1.3 A funcao de probabilidade em serie de potencias SP() e denida por
P(Y = y; ) = a
y
y
/f() para y = 0, 1, . . . e > 0, onde a
y
0 e f() =
y=0
a
y
y
.
Supondo que as observacoes sao iid, a funcao de verossimilhanca e expressa por L() =
ny
f()
n
n
i=1
a
y
i
, sendo y a media amostral. A EMV
e uma funcao nao-linear de y
obtida iterativamente de y/
)/f(
() +{f()f
() f
()
2
}] .
Expandindo o suporte em em serie multivariada de Taylor ao redor de
e notando
que
U = 0 obtem-se, aproximadamente,
=
1
2
(
)
T
J(
) . (1.11)
A equacao (1.11) revela que a diferenca entre o maximo suporte e o suporte num
ponto arbitrario, que pode ser vista como a quantidade de informacao dos dados sobre ,
e proporcional a
J (i.e. `a informacao observada no ponto
). O determinante de
J(|
J|)
pode ser interpretado geometricamente como a curvatura esferica da superfcie suporte
no seu ponto maximo. A forma quadratica do lado direito de (1.11) aproxima a superfcie
suporte por um paraboloide, passando pelo seu ponto de maximo, com a mesma curvatura
esferica da superfcie neste ponto. O recproco de |
1
2
(
)
T
J(
)
_
, (1.12)
que representa a forma de curva normal multivariada com media
e estrutura de co-
variancia igual a
J
1
. Atraves desta aproximacao pode-se entao tratar o vetor de
parametros como se fosse um vetor de variaveis aleatorias tendo distribuicao normal mul-
tivariada com media igual `a EMV
e estrutura de covariancia
J
1
. Quando o suporte
for quadratico, a verossimilhanca tera a forma normal. A forma de L se aproximara cada
vez mais da distribuicao normal quando n tender para innito.
A formula (1.12) mostra a fatoracao da verossimilhanca como (1.5) pelo menos para
n grande, estabecelendo a suciencia assintotica da EMV (Secao 4.2). Conclui-se que,
embora as EMV nao sejam necessariamente sucientes para os parametros do modelo,
esta suciencia sera alcancada quando a dimensao do vetor de dados tender para innito.
Convem citar nesta secao algumas propriedades da matriz de informacao. Seja
K
y
() a informacao sobre um vetor parametrico contida nos dados y obtidos de
certo experimento. A informacao e aditiva para amostras y e z independentes, isto e,
K
y+z
() = K
y
()+K
z
(). Esta igualdade implica que a informacao contida numa amostra
de tamanho n de observacoes iid e igual a n vezes a informacao devida a uma unica ob-
servacao. Como seria previsto, a informacao (esperada ou observada) sobre contida
nos dados mantem-se invariante segundo qualquer transformacao um-a-um desses dados.
Como conseq uencia direta de (1.6), obtem-se K
z
() = K
y
() se z = z(y). Uma pro-
priedade procedente do teorema da fatoracao expressa que a informacao sobre fornecida
por uma estatstica suciente s = s(y) e a mesma daquela fornecida pelos dados y. Em
smbolos, K
s
() = K
y
().
22
o
log g
t
(x; )}
2
] e usar a formula da esperanca condicional da funcao escore
dado t = x, ou seja,
E{U()|t = x} =
log g
t
(x; ) .
Assim, a reducao de uma amostra por uma estatstica podera implicar perda de informacao
relativa a um parametro desconhecido. Entretanto, nao havera perda se e somente se a
suciencia for mantida no processo de reducao dos dados.
As propriedades da EMV e alguns criterios para a estimacao parametrica serao dis-
cutidos na Secao 4.1.
1.4 Metodos Iterativos
Os metodos iterativos para o calculo da EMV sao bastante utilizados na pratica e, em ge-
ral, mostram-se imprescindveis quando a dimensao p do espaco de parametros e grande.
Expandindo
U (a funcao escore em
) em serie multivariada de Taylor ate primeira ordem
ao redor de um ponto qualquer pertencente a uma vizinhanca de
, tem-se, aproximada-
mente,
U = U +
U
T
(
) .
Como
U = 0 obtem-se a relacao aproximada
= J
1
U (1.13)
entre a EMV e a funcao escore e a informacao observada avaliadas no ponto proximo
de
. O metodo de Newton-Raphson para o calculo da EMV consiste em usar a equacao
(1.13) iterativamente. Obtem-se uma nova estimativa
(m+1)
a partir de uma anterior
(m)
atraves de
(m+1)
=
(m)
+J
(m)
1
U
(m)
, (1.14)
onde quantidades avaliadas na m-esima iteracao do procedimento iterativo sao indicadas
com o superescrito (m). O processo e entao repetido ate a distancia entre
(m+1)
e
(m)
se
14 Introducao `a Teoria Assintotica Gauss M. Cordeiro
tornar desprezvel ou menor que uma quantidade pequena especicada. Geometricamente,
uma iteracao do metodo equivale a ajustar um paraboloide `a superfcie suporte em
(m)
,
tendo o mesmo gradiente e curvatura da superfcie neste ponto, e entao obter o ponto
maximo do paraboloide que correspondera `a estimativa atualizada
(m+1)
. Quando
e um escalar, a equacao (1.14) reduz-se a
(m+1)
=
(m)
U
(m)
/U
(m)
, onde U
=
dU
d
,
que representa o metodo das tangentes, bastante usado para calcular a solucao de uma
equacao nao-linear
U = 0.
A seq uencia {
(m)
; m > 1} gerada depende fundamentalmente do vetor inicial
(1)
,
dos valores amostrais e do modelo estatstico e, em determinadas situacoes, onde n e
pequeno, pode revelar irregularidades especcas aos valores amostrais obtidos do experi-
mento e, portanto, pode nao convergir e mesmo divergir da EMV
. Mesmo existindo a
convergencia, se a verossimilhanca tem razes m ultiplas, nao ha garantia de que o proce-
dimento converge para a raiz correspondente ao maior valor absoluto da verossimilhanca.
No caso uniparametrico, se a estimativa inicial
(1)
for escolhida proxima de
e se J
(m)
para m 1 for limitada por um n umero real positivo, existira uma chance apreciavel que
esta seq uencia va convergir para
.
A expressao (1.13) tem uma forma alternativa assintotica equivalente, pois pela lei
dos grandes n umeros J deve convergir para K quando n (vide Secao 4.1.4). Assim,
substituindo a informacao observada em (1.13) pela esperada, obtem-se a aproximacao
= K
1
U . (1.15)
O procedimento iterativo baseado em (1.15) e denominado metodo escore de Fis-
her para parametros, i.e.,
(m+1)
=
(m)
+ K
(m)
1
U
(m)
. O aspecto mais trabalhoso dos
dois esquemas iterativos e a inversao das matrizes J e K. Ambos os procedimentos sao
muitos sensveis em relacao `a estimativa inicial
(1)
. Se o vetor
(1)
for uma estimativa
consistente, os metodos convergirao em apenas um passo para uma estimativa eciente
assintoticamente (Secao 4.1.7).
Existe evidencia emprica que o metodo de Fisher e melhor, em termos de con-
vergencia, do que o metodo de Newton-Raphson. Ela possui ainda a vantagem de usufruir
22
o
1
, . . . ,
p
como sera visto na Secao 4.1.6.
Exemplo 1.4 No caso da funcao densidade de Cauchy f(y; ) =
1
{1 + (y )
2
}
1
,
apresentada na Secao 1.3, mostra-se facilmente que a informacao e K = {
n
2
} e o processo
iterativo (1.14) segue de
(m+1)
=
(m)
+
4
n
n
i=1
y
(m)
1 + (y
i
(m)
)
2
.
Exemplo 1.5 A funcao densidade de Weibull W(, ) e dada por
f(y; , ) =
_
y
_
1
exp
_
_
y
_
com > 0 e > 0. Supondo observacoes iid, as EMV sao expressas por
=
_
i
y
i
log y
i
i
y
i
log y
_
1
(1.16)
e
=
_
n
1
i
y
i
_
1/2
, (1.17)
onde y e a media geometrica dos dados. A EMV e calculada iterativamente de (1.16)
e depois obtem-se
de (1.17). A matriz de informacao de e e dada por
K =
_
_
_
2
/6+
(2)
2
(2)
(2)
2
_
_
_ ,
onde (p) =
_
0
x
p1
e
x
dx e a funcao gama e
s tais que
_
h(y) exp(s
T
)dy < . A quantidade exp{b()}
representa a constante normalizadora de modo a tornar a integral (1.18) igual a 1.
O modelo exponencial (1.18) e de grande interesse pois inclui varias distribuicoes
importantes na analise de dados, tais como, normal, gama, Poisson e binomial, como
casos especiais. Cordeiro, Ferrari, Aubin e Cribari-Neto (1996) listam 24 distribuicoes
importantes no modelo exponencial uniparametrico (p = 1).
Exemplo 1.6 Considere o modelo de regressao normal linear Y N(,
2
I), onde =
E(Y ) = X e X e uma matriz n p conhecida, IR
p
e um vetor de parametros
desconhecidos e
2
e a variancia comum desconhecida. A log-verossimilhanca para os
parametros = (
T
,
2
)
T
pode ser escrita como
(,
2
) =
n
2
log
2
1
2
2
(y X)
T
(y X) . (1.19)
Maximizando (1.19) obtem-se as EMV
= (X
T
X)
1
X
T
y e
2
= SQR/n, onde
SQR = (yX
)
T
(yX
)
T
(y X
) + (
)
T
X
T
X(
) .
22
o
T
, SQR)
T
. Quando
2
e conhecido,
e a estatstica suciente para .
Observe-se que o modelo normal linear pertence `a famlia exponencial (1.18) pois a
verossimilhanca pode ser expressa por
L() = f(y; ) =
1
(2)
n/2
exp
_
y
T
y
_
1
2
2
_
+
T
_
(X
T
X)
1
2
_
T
(X
T
X)
1
2
2
n
2
log
2
_
,
sendo as estatsticas sucientes (
T
, y
T
y). Este exemplo ilustra que a suciencia e preser-
vada segundo transformacao um-a-um, pois y
T
y = SQR +
T
(X
T
X)
1
.
A funcao escore e a informacao para o modelo (1.18) sao obtidas de (1.7) e (1.8),
respectivamente, como
U() = s
b()
e K() =
2
b()
T
.
Usando (1.9) verica-se que o vetor S de estatsticas sucientes tem esperanca E(S) =
b()/. Alem disso, obtem-se de (1.10) a matriz (p p) de covariancia de S como
Cov(S) =
2
b()/
T
. No exemplo 2.5 (Secao 2.3) mostra-se que b() em (1.18) e
a funcao geradora de cumulantes de S e, portanto, os casos acima se referem aos dois
primeiros cumulantes de S.
A EMV
do parametro canonico em modelos exponenciais e solucao da equacao
b()
= s ,
ou seja, e obtida igualando E(S) avaliado em
ao valor observado s do vetor S de
estatsticas sucientes.
18 Introducao `a Teoria Assintotica Gauss M. Cordeiro
1.6 Estimacao por Intervalos
Suponha que Y tem funcao densidade ou funcao de probabilidade f(y; ) dependendo
de um parametro real desconhecido. A partir dos dados y constroem-se intervalos de
conanca para atraves de uma quantidade pivotal (t, ) cuja distribuicao pode ser obtida
(pelo menos aproximadamente) nao dependendo de , onde t = t(y) e uma estimativa
pontual razoavel de . Da distribuicao de (t, ) calculam-se os limites a e b tais que
P(a (t, ) b) = 1 , (1.20)
onde 1 e uma conabilidade especicada. Suponha ainda que, para t xo, (t, )
seja uma funcao monotona de . Entao, observado t, a desigualdade em (1.20) pode ser
invertida para produzir uma regiao de valores de com conabilidade 1 . Esta regiao
e frequentemente um intervalo do tipo
P{k
1
(t) k
2
(t)} = 1 , (1.21)
onde k
1
(t) e k
2
(t) sao funcoes de t, a e b mas nao envolvem . O conjunto [k
1
(t), k
2
(t)]
e um intervalo de 100(1 )% de conanca para . A generalizacao para um vetor
sera feita nas Secoes 4.3 e 4.4. A desigualdade em (1.21) deve ser cuidadosamente
interpretada. Como os limites em (1.21) sao aleatorios, nao se pode interpretar 1
como a probabilidade do parametro verdadeiro
0
estar em algum intervalo observado.
Isto so teria sentido se o parametro desconhecido fosse uma variavel aleatoria e os limites
k
1
(t) e k
2
(t) constantes. Contrariamente, os intervalos do tipo [k
1
(t), k
2
(t)] serao em
geral diferentes para amostras diferentes. Alguns deles conterao o valor verdadeiro de
enquanto outros nao. Assim, deve-se interpretar 1 como a freq uencia esperada
dos casos, numa longa serie de amostras independentes, em que os intervalos [k
1
(t), k
2
(t)]
conterao
0
.
A distribuicao assintotica N(, K()
1
) da EMV
do escalar (Secao 4.1.6) possibilita
construir um intervalo aproximado para este parametro, supondo que (
)K(
)
1/2
tem
distribuicao N(0, 1) aproximadamente. Logo,
zK(
)
1/2
corresponde a um intervalo
aproximado de 100(1)% de conanca para , onde z e tal que (z) = 1/2, sendo ()
22
o
)
podera substituir K(
n.
1.7 Testes de Hipoteses
A teoria dos testes de hipoteses parametricos e parte integrante da inferencia de verossimi-
lhanca e esta intimamente relacionada `a teoria de estimacao. A partir de repeticoes de um
experimento envolvendo um modelo parametrico, o interesse consiste em determinar se
um ou mais parametros pertencem a uma dada regiao do espaco parametrico. Nos testes
parametricos, as hipoteses sao classicadas em simples e compostas. Se uma distribuicao
depende de p parametros e a hipotese especica valores para d parametros, entao ela e
simples se d = p e composta se d < p. Em termos geometricos, uma hipotese simples
seleciona um unico ponto de IR
d
enquanto uma hipotese composta corresponde a uma
regiao de IR
d
com mais de um ponto. Nas hipoteses compostas, os parametros adicionais
nao-especicados devem ser estimados.
Admite-se que f(y; ) e a funcao de probabilidade conjunta dos dados y IR
n
e e
um ponto de IR
p
. Considere-se uma hipotese nula H :
0
versus uma alternativa
A :
1
(
1
=
0
). Qualquer teste de hipotese divide o espaco amostral (i.e.,
o conjunto de valores possveis do vetor y) em duas regioes mutuamente excludentes: C,
a regiao de rejeicao de H (regiao crtica), e C, a regiao complementar de aceitacao de H.
A decisao de um teste consiste em vericar se o vetor de dados y pertence a C ou a C. Se
a distribuicao de probabilidade dos dados segundo a hipotese nula H e conhecida, pode-se
determinar C tal que, dado H, a probabilidade de rejeita-la (i.e., y C) seja menor ou
igual a um valor pre-especicado tal que
P(y C|
0
) . (1.22)
A rejeicao erronea da hipotese nula H, quando ela e verdadeira, e denominada erro
tipo I. Assim, a equacao (1.22) expressa que a probabilidade do erro tipo I ou alarme falso
20 Introducao `a Teoria Assintotica Gauss M. Cordeiro
nunca excede (nvel de signicancia do teste). O outro tipo de erro que se pode cometer
ao se testar uma hipotese, denominado erro tipo II, e funcao da hipotese alternativa A e
representa a aceitacao erronea da hipotese nula H quando ela e falsa, sua probabilidade
sendo = P(y C|
1
).
Em geral, pode-se encontrar varias regioes crticas satisfazendo (1.22). Qual delas
deve ser a preferida? Este e o problema crucial da teoria dos testes de hipoteses. Pode-se
escolher uma regiao crtica C
= {y;
L(
0
)
L(
1
)
k
}, onde k
1
s maiores (menores) do que
0
, sendo denominado de
teste uniformemente mais poderoso (TUMP). Claramente, esta e uma propriedade mais
desejavel. Entretanto, quando a alternativa e bilateral
1
=
0
em geral nao existe o
TUMP. Para obte-lo, o teste deve estar restrito a certas formas de hipoteses alternativas.
Suponha que existe um vetor S de estatsticas conjuntamente sucientes para um
22
o
(ou S b
T
= (
T
,
T
) e
T
= (
(0)
T
,
T
) as estimativas de MV de
T
= (
T
,
T
)
correspondentes `a maximizacao de L(, ) segundo A e H, respectivamente. A razao de
verossimilhanca no teste de H versus A e denida por
R
=
L(
(0)
,
)
L(
)
, (1.23)
e, portanto, representa o quociente entre os maximos das verossimilhancas condicional `a
22
o
}, onde k
e determinado da
distribuicao (exata ou aproximada) g() de
R
para produzir um teste de tamanho , ou
seja,
_
k
0
g()d = . O metodo da razao de verossimilhanca produz regioes crticas simi-
lares quando a distribuicao de
R
nao depende de parametros de perturbacao. Em geral,
isso ocorre num grande n umero de aplicacoes. Como a distribuicao de
R
e, em geral,
complicada, utiliza-se uma transformacao conveniente de
R
denida por w = 2 log
R
(vide Secao 4.4) que tem, assintoticamente e sob certas condicoes de regularidade, dis-
tribuicao
2
com graus de liberdade q igual a dimensao do vetor que esta sendo testado.
A regiao crtica do teste aproximado de H versus A passa a ser C = {y; w
2
q
()}, onde
2
q
() e o ponto crtico da
2
q
correspondente ao nvel de signicancia .
1.8 Exerccios
1. A funcao de probabilidade de Y em serie logartmica e expressa por P(Y = y) =
y
/y para 0 < < 1 e y = 1, 2, . . ., onde = {log(1 )}
1
. Demonstre que a
EMV de e obtida da equacao
/{(1
) log(1
)} = y,
onde y e a media amostral.
2. Suponha uma famlia de densidades indexada por dois parametros
1
e
2
. Demons-
tre que, se t
1
e suciente para
1
quando
2
e conhecido e t
2
e suciente para
2
quando
1
e conhecido, entao (t
1
, t
2
) e suciente para (
1
,
2
).
3. Suponha a funcao densidade simetrica em (0,1) dada por c()y
(1y)
, onde c() e
a inversa da funcao beta. Calcule a EMV de baseada numa amostra de tamanho
n. Qual a sua variancia assintotica?
24 Introducao `a Teoria Assintotica Gauss M. Cordeiro
4. Obtenha uma estatstica t de modo que P(
2
t) = 1 a partir de uma amostra
aleatoria de tamanho n extrada da distribuicao N(,
2
).
5. Considere a funcao densidade da distribuicao gama
f(y; , ) =
y
1
e
y
/() ,
onde > 0 e > 0. Mostre que as EMV e
no caso iid sao calculadas de
/ = y
e
log
(
) = log(y/ y) ,
onde y e y sao as medias aritmetica e geometrica dos dados e (x) = d log (x)/dx
e a funcao digama.
6. Uma distribuicao multinomial tem 4 classes de probabilidades (1 )/6, (1 +)/6,
(2 )/6 e (2 + )/6. Em 1200 ensaios as freq uencias observadas nestas classes
foram 155, 232, 378 e 435, respectivamente. Calcule a EMV de e o seu erro
padrao aproximado.
7. Demonstre que a forma mais geral para uma distribuicao com parametro escalar
cuja EMV iguala a media aritmetica y dos dados e (y; ) = exp{a() + a
()(y
) + c(y)}. Assim, y e suciente para . Interprete a(). Mostre ainda que se e
um parametro de locacao, (y; ) e a funcao densidade da distribuicao normal de
media , e se e um parametro de escala, (y; ) =
1
exp(y/). Quais seriam
as formas da distribuicao se no lugar da media aritmetica fossem consideradas as
medias geometrica e harmonica?
8. Sejam y
1
, . . . , y
n
variaveis aleatorias idd com funcao densidade (y; ). Seja t =
t(y
1
, . . . , y
n
) uma estatstica suciente unidimensional para . Se
1
e
2
sao dois
valores xados de demonstre que, para todo ,
y
log
_
(y; )
(y;
1
)
__
y
log
_
(y;
2
)
(y;
1
)
_
e funcao somente de .
22
o
, y (0, 1)
e > 0. (a) Demonstre que a EMV de e
=
n
log y
i
1; (b) Calcule um intervalo
de 95% de conanca para .
10. Mostre que as seguintes distribuicoes sao modelos exponenciais da forma (1.18) com
p = 1 ou p = 2: Poisson, binomial, geometrica, gama (ndice conhecido), gama
(ndice desconhecido), Gaussiana inversa e valor extremo. Identique em cada caso
as estatsticas sucientes e os parametros canonicos.
11. Sejam y
1
, . . . , y
n
observacoes iid de um modelo de locacao e escala denido por
f(y; , ) =
1
f
_
y
_
.
(a) Mostre como obter as EMV de e ;
(b) Calcule a matriz de informacao para esses parametros.
12. A funcao densidade da distribuicao normal inversa com parametros > 0 e > 0 e
f(y; , ) =
2
e
y
3/2
exp
_
1
2
(y
1
+y)
_
.
(a) Mostre como obter as EMV de e ;
(b) Calcule a matriz de informacao para esses parametros.
26 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Captulo 2
Metodos Assintoticos
2.1 Conceitos Basicos
O objetivo deste captulo e apresentar sistematicamente alguns metodos assintoticos
uteis em Probabilidade Aplicada e Estatstica. O interesse principal e resumir algumas
ideias b asicas importantes em teoria assintotica e ilustra-las com aplicacoes. Os detalhes
matematicos sao excludos e, quando muito, sao fornecidas apenas algumas referencias
e/ou estrategias de demonstracao dos resultados. As nocoes apresentadas neste captulo
formam a base necessaria para se entender os demais captulos deste livro. As secoes
seguintes exigem que o leitor esteja familiarizado com os conceitos de probabilidade da-
dos aqui. Seja {Y
n
} uma seq uencia de variaveis aleatorias de interesse denida para n
grande. Aqui n nao representa necessariamente o tamanho da amostra. Apresentam-se
inicialmente os quatro modos mais importantes de convergencia estocastica.
Convergencia em Probabilidade
A seq uencia {Y
n
} converge em probabilidade para uma variavel aleatoria Y (que pode ser
degenerada) se lim
n
P(|Y
n
Y | < ) = 1 para todo real > 0. Indica-se esta convergencia
por Y
n
P
Y . Esta convergencia implica, para n sucientemente grande, que Y
n
e
Y sao aproximadamente iguais com probabilidade proxima de 1. O caso especial mais
importante e quando Y
n
P
k, onde k e uma constante. Se h(u) e uma funcao contnua
em u = k, entao Y
n
P
k implica h(Y
n
)
P
h(k). A nocao associada em inferencia
27
28 Introducao `a Teoria Assintotica Gauss M. Cordeiro
estatstica e aquela de consistencia na estimacao de parametros.
Se {Y
n
} e uma seq uencia de variaveis aleatorias tal que E(Y
n
) k e Var(Y
n
) 0
quando n , entao Y
n
P
k. Entretanto, se Var(Y
n
) 0, nao se pode tirar
qualquer conclusao sobre o comportamento de {Y
n
}. Por exemplo, E(Y
n
) k e Y
n
P
= k.
Convergencia Quase-Certa
Uma seq uencia de variaveis aleatorias {Y
n
} converge quase-certamente (ou converge com
probabilidade um) para uma variavel aleatoria Y se P
_
lim
n
Y
n
= Y
_
= 1. Indica-se esta
convergencia por Y
n
q.c.
Y .
Convergencia em Media
Uma seq uencia de variaveis aleatorias {Y
n
} converge em media de ordem r para Y se
lim
n
E(|Y
n
Y |
r
) = 0. Usa-se a notacao Y
n
L
r
Y para indicar este tipo de convergencia.
Quanto maior o valor de r mais restritiva e esta condicao de convergencia. Assim, se
Y
n
L
r
Y , entao Y
n
L
s
Y para 0 < s < r.
Este modo de convergencia estocastica admite um criterio de convergencia. Uma
condicao necessaria e suciente para Y
n
L
r
Y e que para todo > 0 exista um n umero
n
0
= n
0
() tal que |Y
n
Y
m
|
r
para quaisquer m, n n
0
.
As denicoes de convergencia em probabilidade e convergencia quase-certa valem para
qualquer seq uencia de variaveis aleatorias. Entretanto, a convergencia em media nao vale
para qualquer seq uencia, pois requer a existencia de certos momentos.
Convergencia em Distribuicao
Uma seq uencia de variaveis aleatorias {Y
n
} converge em distribuicao para Y se
lim
n
P(Y
n
y) = F(y) para todo ponto y de continuidade da funcao de distribuicao
(nao-degenerada) F de Y . Para indicar esta convergencia usa-se a notacao Y
n
D
Y .
Se F e uma funcao de distribuicao degenerada no ponto k, entao P(Y
n
y) 0 ou
22
o
n=1
P(|Y
n
Y |) > ) < para todo > 0, entao Y
n
q.c.
Y ;
(f) Se
n=1
E(|Y
n
Y |
r
) < , entao Y
n
q.c.
Y ;
(g) Y
n
D
Y lim
n
E(Y
n
) = E(Y );
(h) Y
n
P
Y lim
n
E(Y
n
) = E(Y );
(i) Se Y
n
L
r
Y , entao lim
n
E(|Y
n
|
k
) = E(|Y |
k
) para k r.
Um caso especial importante de (i) corresponde a r = 2. Se lim
n
E(|Y
n
Y |
2
) = 0,
entao lim
n
E(Y
n
) = E(Y ) e lim
n
E(Y
2
n
) = E(Y
2
);
(j) Se Y
n
P
Y , entao existe uma subseq uencia {Y
n
j
} de {Y
n
} tal que Y
n
j
q.c.
Y ;
(l) Y
n
P
Y se e somente se toda subseq uencia {Y
n
j
} de {Y
n
} contem uma subseq uencia
que converge quase certamente para Y .
As convergencias em probabilidade e quase-certa nao implicam convergencia em
media. A convergencia em distribuicao tambem nao implica convergencia de momen-
tos e nem mesmo a existencia deles. Pode-se comprovar este fato supondo que Y
n
tem
30 Introducao `a Teoria Assintotica Gauss M. Cordeiro
funcao densidade
f
n
(y) = (1 e
n
)(y) +e
n
{(1 +y
2
)}
1
,
onde (y) e a funcao densidade da normal reduzida. Assim, f
n
(y) e uma combinacao
linear das funcoes densidades das distribuicoes normal e Cauchy e converge rapidamente
em distribuicao para a normal reduzida, mesmo sem seus momentos existirem.
As quatro formas de convergencia apresentadas aqui podem ser ilustradas no expe-
rimento de innitos ensaios de Bernoulli independentes. Seja Y
n
a proporcao de sucessos
nas n repeticoes de Bernoulli independentes, cada uma com probabilidade de sucesso p
constante. Tem-se:
Y
n
P
p, Y
n
q.c.
p,
n(Y
n
p)
{p(1 p)}
1/2
D
N(0, 1),
n(Y
n
p)
(log log n)
P
0,
n(Y
n
p)
(log log n)
1/2
q.c.
0 e Y
n
L
2
p.
Ordens de Magnitude
Os smbolos o() (de ordem menor que) e O() (de ordem no maximo igual a) sao
usados para comparar as ordens de magnitude de seq uencias de constantes {b
n
}, {c
n
}.
Escreve-se b
n
= o(c
n
) se
b
n
c
n
0 quando n e b
n
= O(c
n
) se a razao b
n
/c
n
e
limitada quando n . Assim, supondo n sucientemente grande, b
n
= o(c
n
) implica
que a ordem de magnitude de {b
n
} e menor que a de {c
n
}, enquanto que b
n
= O(c
n
)
signica que a ordem de magnitude de {b
n
} e no maximo igual `a ordem de {c
n
}. Neste
termos, b
n
= o(n
1
) implica que b
n
n 0 quando n , enquanto b
n
= O(n
1
)
signica que b
n
k/n para alguma constante k quando n e sucientemente grande.
As ordens de magnitude acima sao trivialmente generalizadas para variaveis aleatorias.
Diz-se que Y
n
= o
p
(b
n
) se
Y
n
b
n
P
0. Em especial, Y
n
P
k e equivalente a Y
n
= k +o
p
(1).
Por outro lado, diz-se que Y
n
= O
p
(c
n
) se a seq uencia {
Y
n
c
n
} e limitada em probabilidade
para n sucientemente grande. Mais explicitamente, se Y
n
= O
p
(c
n
) entao, para todo
> 0, existem constantes k
e n
0
= n
0
() tais que P(|Y
n
| < c
n
k
) > 1 quando n n
0
.
Adicionalmente, se Y
n
D
Y , entao Y
n
= O
p
(1).
22
o
e
ity
dF(y), (2.1)
onde i =
2
/2).
Supondo certas condicoes gerais, a funcao caracterstica determina completamente a
funcao de distribuicao. Este fato permite determinar resultados de grande interesse na teo-
ria assintotica. Em in umeras situacoes envolvendo funcoes lineares de variaveis aleatorias
independentes, o uso da funcao caracterstica possibilita determinar a distribuicao da
funcao linear em consideracao (vide Secao 2.4).
Se o r-esimo momento
r
de Y existe, (t) pode ser diferenciada k vezes (0 < k r)
em relacao a t e tem-se
k
=
(k)
(0)
i
k
, 0 k r,
com
(0)
(t) = (t). Assim, (t) pode ser expandida na vizinhanca de t = 0 como
(t) = 1 +
r
k=1
k
(it)
k
k!
+o(t
r
) . (2.2)
22
o
k=1
k
(it)
k
k!
+o(t
r
) ,
onde os coecientes
k
(k = 1, 2, . . .) sao denominados de cumulantes. Evidentemente,
k
=
1
i
k
d
k
log (t)
d t
k
|
t=0
para 0 < k r. Na Secao 2.3, mostra-se que
k
e um polinomio em
1
, . . . ,
k
e
k
e um polinomio em
1
, . . . ,
k
.
Dene-se a transformacao linear Z = aY +b e sejam
Y
(t) e
Z
(t) as funcoes carac-
tersticas de Y e Z. Mostra-se, facilmente, que
Z
(t) = e
ibt
Y
(at) .
Em especial, se Z e uma variavel aleatoria padronizada, isto e, Z = (Y )/ onde
= E(Y ) e = Var(Y )
1/2
, vem
Z
(t) = exp
_
it
Y
_
t
_
.
Quando Z = Y + b,
Z
(t) = e
bit
Y
(t) e, entao, log
Z
(t) = bit + log
Y
(t). Logo,
uma translacao da variavel aleatoria Y altera somente o coeciente de it na expansao
de log
Z
(t), ou seja, os primeiros cumulantes de Z e Y estao relacionados por
1
(Z) =
1
(Y ) + b, mas os demais cumulantes de Z e Y sao iguais
r
(Z) =
r
(Y ) para r 2.
Por causa desta semi-invariancia por translacao, os cumulantes sao tambem chamados de
semi-invariantes.
Exemplo 2.1 Suponha que Y tem distribuicao gama (Y G(p, )) com parametros p e
, ambos n umeros reais positivos. A funcao densidade de Y e dada por
f(y) =
p
y
p1
e
y
/(p) ,
onde (p) =
_
0
x
p1
e
x
dx e a funcao gama denida para x real ou complexo. A fun cao
caracterstica segue de
(t) =
p
(p)
_
0
e
y(+it)
y
p1
dy .
34 Introducao `a Teoria Assintotica Gauss M. Cordeiro
A substituicao z = y( it) implica
(t) =
p
(p)( it)
p
_
0
e
z
z
p1
dz
e, nalmente, (t) = (1
it
)
p
. Assim,
(t) = 1 +
p
it +
p(p + 1)
2
(it)
2
2!
+ ,
produz os momentos
1
= p/,
2
= p(p +1)/
2
,
3
= p(p +1)(p +2)/
3
, etc. Os cumu-
lantes sao diretamente obtidos de log (t). O k-esimo cumulante
k
de Y e o coeciente
de (it)
k
/k! em p log(1
it
) e, portanto,
k
= (k 1)!p
k
, k = 1, 2, . . .
Conhecendo a funcao de distribuicao F(y), a funcao caracterstica pode ser obtida de
(2.1). A recproca tambem e verdadeira e a funcao caracterstica determina univocamente
a funcao de distribuicao. Em muitos problemas de inferencia estatstica e mais facil cal-
cular a funcao caracterstica do que a correspondente funcao de distribuicao. O problema
que surge e como calcular a funcao de distribuicao a partir da funcao caracterstica. A
resposta segue da formula de inversao.
Assim, dado (t), a correspondente funcao de distribuicao F(y) e obtida de
F(y) F(0) =
1
2
_
+
1 e
ity
it
(t)dt , (2.3)
suposta contnua em y e 0. Adicionalmente, se
_
+
e
ity
(t)dt . (2.4)
A demonstracao de (2.3) e (2.4) pode ser encontrada em Wilks (1962, p.116), Fisz (1963,
p.116) e Rao (1973, p.104). Comparando as formulas (2.1) e (2.4) pode ser constatado
o tipo de relacao recproca entre f(y) e (t). Apresentam-se agora dois exemplos de
determinacao da funcao densidade a partir da funcao caracterstica.
Exemplo 2.2 Obtem-se aqui a funcao densidade correspondente `a funcao caracterstica
22
o
e
ity
e
t
2
/2
dt
=
1
2
_
+
exp
_
(t +iy)
2
2
_
exp
_
(iy)
2
2
_
dt
=
1
2
exp
_
y
2
2
_
1
2
_
+
exp
_
(t +iy)
2
2
_
dt
e, nalmente, f(y) =
1
2
e
y
2
/2
, que e a funcao densidade da distribuicao normal reduzida.
Exemplo 2.3 Deseja-se calcular a funcao densidade correspondente `a funcao carac-
terstica (t) = e
|t|
. De (2.4) vem
f(y) =
1
2
_
+
e
ity
e
|t|
dy
e, por simetria,
f(y) =
_
0
e
t
cos(ty) dt = e
t
cos(ty)
0
y
_
0
e
t
sen(ty) dt = 1 y
2
f(y) .
Logo, f(y) =
1
(1+y
2
)
, y IR, que e a funcao densidade da distribuicao de Cauchy.
A equacao (2.3) contem F(0) e a determinacao desta quantidade pode ser evitada
usando a formula de inversao alternativa
F(y) =
1
2
+
1
2
_
0
{e
ity
(t) e
ity
(t)}
dt
it
.
No caso de distribuicoes discretas nos inteiros nao negativos, a formula correspondente `a
equacao (2.4) e
P(Y = y) =
1
2
_
e
ity
(t)dt,
com alteracao apenas nos limites de integracao.
Como a funcao caracterstica determina univocamente a funcao de distribuic ao, o
problema de convergencia em probabilidade de uma seq uencia de variaveis aleatorias
36 Introducao `a Teoria Assintotica Gauss M. Cordeiro
pode ser resolvido atraves da convergencia da seq uencia correspondente de funcoes ca-
ractersticas. Este princpio fundamental, de grande interesse na teoria assintotica, e
conhecido como o teorema da continuidade (Levy, 1937; Cramer, 1937), descrito abaixo.
Teorema da Continuidade
Seja {Y
n
} uma seq uencia de variaveis aleatorias tendo funcoes de distribuicao F
1
, F
2
, . . . e
com funcoes caractersticas correspondentes
1
,
2
, . . . Se
n
converge pontualmente para
um limite e se e contnua no ponto zero, entao existe uma funcao de distribuicao F
de uma variavel aleatoria Y tal que Y
n
D
Y , sendo a funcao caracterstica de Y .
Da denicao de convergencia em distribuicao de uma seq uencia {Y
n
} de variaveis
aleatorias, i.e., Y
n
D
Y , usa-se tambem uma notacao equivalente F
n
F para as
funcoes de distribuicao de Y
n
e Y .
Corolario
Supondo que as funcoes de distribuicao F, F
1
, F
2
, . . . tem funcoes caractersticas corre-
spondentes ,
1
,
2
, . . . , entao as seguintes proposicoes sao equivalentes:
i) F
n
F;
ii) lim
n
n
(t) = (t), para qualquer t IR, e (t) sendo contnua em t = 0;
iii) lim
n
_
gdF
n
=
_
gdF, sendo g uma funcao contnua limitada, i.e., |g| < c para
algum c IR.
Se F
n
F, e F e contnua, entao a convergencia e uniforme, ou seja, lim
n
sup
x
|F
n
(x)
F| = 0.
2.3 Momentos e Cumulantes
As func oes geratrizes de momentos (fgm) e de cumulantes (fgc) de Y sao denidas por
M(t) = E(e
tY
) e K(t) = log M(t), respectivamente. Observe-se que a funcao carac-
terstica (t) e expressa diretamente pela fgmM(t) atraves de (t) = M(it). Quando a
fgm nao converge para t real num intervalo contendo a origem, trabalha-se geralmente
22
o
r
= M
(r)
(0) e
r
= K
(r)
(0), onde o sobrescrito (r) indica a r-esima derivada em relacao a t.
Exemplo 2.4 Para a distribuicao normal N(,
2
) obtem-se, facilmente,
M(t) = exp
_
t +
1
2
t
2
2
_
e, entao, K(t) = t +
1
2
2
t
2
, de modo que
1
= ,
2
=
2
e
r
= 0 para r 3. Como
todos os cumulantes da normal, acima de segunda ordem, sao nulos, a proximidade de
uma distribuicao pela distribuicao normal pode ser determinada pelas magnitudes de seus
cumulantes. Este fato revela a importancia dos cumulantes na teoria assintotica.
Exemplo 2.5 Suponha que Y tem funcao densidade na famlia exponencial
f(y) = exp{y b() +a(y)}, y IR
Y
. (2.5)
A condicao de normalizacao
_
IR
Y
exp{y b() +a(y)}dy = 1
implica para todo
M(t) =
_
exp{yt +y b() +a(y)}dy
e, entao, a fgm de Y e dada por
M(t) = exp{b( +t) b()} .
A fgc de Y segue como K(t) = log M(t) = b(+t)b(). Logo, o r-esimo cumulante de Y
e dado por
r
= K
(r)
(0) = b
(r)
(). Assim, a funcao b() na famlia exponencial (2.5) gera
os cumulantes de Y . A funcao b() esta relacionada diretamente `a log-verossimilhan ca de
e este fato representa uma das maiores motivacoes para o uso de cumulantes na teoria
assintotica.
38 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Seja Y uma variavel aleatoria e Z = aY + b uma transformacao linear de Y .
E
facil vericar que os r-esimos cumulantes de Z (
r
(Z)) e Y (
r
(Y )) sao expressos por
r
(Z) = a
r
r
(Y ). Assim, os cumulantes padronizados de Z e Y denidos por
r
=
r
/
r/2
2
sao iguais, i.e.,
r
(Z) =
r
(Y ). Logo, os cumulantes padronizados de variaveis aleatorias
sao invariantes segundo transformacoes lineares. Os momentos tem uma vantagem sobre
os cumulantes devido `a interpretacao (fsica e geometrica) simples. Entretanto, os cu-
mulantes na teoria assintotica sao de maior interesse que os momentos, principalmente
porque se anulam para a distribuicao normal e, com uma simples padronizacao, se tornam
invariantes segundo transformacoes lineares. Mostra-se, a seguir, que o conhecimento de
momentos e de cumulantes ate uma dada ordem sao equivalentes.
A funcao geratriz de momentos M(t) pode ser representada pela expansao
M(t) = 1 +
k
t
k
k!
, (2.6)
suposta convergente para todo |t| sucientemente pequeno. A soma ilimitada em (2.6)
pode ser divergente para todo real |t| > 0 porque alguns dos momentos de ordem superior
sao innitos ou porque os momentos, embora nitos, aumentam rapidamente, forcando
a divergencia. Neste caso, trabalha-se com expansoes nitas ate um certo n umero de
termos, especicando a ordem do erro como funcao do tamanho da amostra n ou de
alguma quantidade relacionada a n.
A funcao geratriz de cumulantes e expandida como
K(t) =
k
t
k
k!
. (2.7)
Das equacoes (2.6) e (2.7) vem
exp
_
k
t
k
k!
_
= 1 +
k
t
k
k!
.
Expandindo em serie de Taylor a funcao exponencial anterior e igualando os coe-
cientes de mesma potencia em t, expressam-se os momentos em termos dos cumulantes
22
o
1
=
1
,
2
=
2
+
2
1
,
3
=
3
+ 3
2
1
+
3
1
,
4
=
4
+ 4
3
1
+ 3
2
2
+ 6
2
2
1
+
4
1
,
5
=
5
+ 5
4
1
+ 10
3
2
+ 10
3
2
1
+ 15
2
2
1
+ 10
2
3
1
+
5
1
,
6
=
6
+ 6
5
1
+ 15
4
2
+15
4
2
1
+ 10
2
3
+ 60
3
1
+ 20
3
3
1
+ 15
3
2
+ 45
2
2
2
1
+ 15
2
4
1
+
6
1
.
A inversao das equacoes acima pode ser obtida diretamente destas formulas ou, mais
facilmente, expandindo o logaritmo abaixo em serie de Taylor
k
t
k
k!
= log
_
1 +
k
t
k
k!
_
e igualando os coecientes de mesma potencia em t. Encontram-se,
1
=
1
,
2
=
2
1
,
3
=
3
3
1
+ 2
3
1
,
4
=
4
4
1
3
2
2
+ 12
2
1
6
4
1
,
5
=
5
5
1
10
2
+ 20
2
1
+ 30
2
2
1
60
3
1
+ 24
5
1
,
6
=
6
6
1
15
2
+ 30
2
1
10
2
3
+ 120
1
120
3
1
+ 30
3
2
270
2
2
2
1
+ 360
4
1
120
6
1
.
Assim, existe uma relacao biunvoca entre momentos e cumulantes. Entretanto, os
cumulantes oferecem mais vantagens em termos estatsticos do que os momentos. En-
tre estas vantagens, citam-se: (a) muitos calculos estatsticos usando cumulantes sao
mais faceis do que os calculos correspondentes atraves de momentos; (b) para variaveis
aleatorias independentes, os cumulantes de uma soma sao, simplesmente, somas dos cumu-
lantes das variaveis individuais; (c) series do tipo Edgeworth para aproximar densidades
e distribuicoes (vide Secao 3.3) e logaritmos de densidades sao expressas de forma mais
conveniente via cumulantes ao inves de momentos; (d) os cumulantes de in umeras dis-
tribuicoes podem ter ordens pre-estabelecidas, o que nao ocorre com os momentos; (e)
considerando a aproximacao normal (vide Secoes 3.3 e 3.10), os cumulantes (mas nao os
momentos) de ordem superior a um valor especicado podem, usualmente, ser ignorados,
pois tendem a zero mais rapidamente que os demais quando o tamanho da amostra cresce.
Alem destas vantagens, os cumulantes tem interpretacao simples. Os dois primeiros
cumulantes sao o valor medio e a variancia da variavel Y em consideracao. O terceiro
40 Introducao `a Teoria Assintotica Gauss M. Cordeiro
cumulante e uma medida de assimetria da distribuicao de Y no sentido de que
3
e zero
quando Y e distribuda simetricamente. Entretanto,
3
= 0 nao e uma condicao su-
ciente para Y ter distribuicao simetrica. Para termos simetria a distribuicao deve ser
univocamente determinada pelos seus cumulantes e todos os cumulantes de ordemmpar
devem se anular. O quarto cumulante e uma medida de curtose da distribuicao de Y . Os
cumulantes de ordem superior a quatro podem ser interpretados como medidas de nao-
normalidade, pois eles se anulam quando Y tem distribuicao normal. Na teoria assintotica
os cumulantes padronizados
r
=
r
/
r/2
2
, para r = 1, 2, . . ., sao mais importantes, prin-
cipalmente
3
e
4
, por causa da invariancia segundo transformacao linear e por terem
ordens pre-estabelecidas.
Em muitas situacoes e mais facil trabalhar com momentos centrais (
r
) do que com
momentos ordinarios (
r
). Existem relacoes simples de recorrencia entre esses momentos.
Tem-se
r
= E{(Y
1
)
r
} e desenvolvendo o binomio vem:
r
=
r
k=0
_
r
k
_
rk
(
1
)
k
.
Analogamente,
r
=
r
k=0
_
r
k
_
rk
k
1
.
Em especial, relacoes entre cumulantes e momentos centrais sao bem mais simples do que
entre cumulantes e momentos ordinarios. As seis primeiras sao:
1
= 0,
2
=
2
,
3
=
3
,
4
=
4
+ 3
2
2
,
5
=
5
+ 10
2
3
,
6
=
6
+ 15
2
4
+ 10
2
3
+ 15
3
2
e
2
=
2
,
3
=
3
,
4
=
4
3
2
2
,
5
=
5
10
2
3
,
6
=
6
15
2
4
10
2
3
+ 30
3
2
.
Exemplo 2.6 Suponha que Y tem distribuicao binomial B(n, p) com parametros n e p.
Tem-se M(t) = (1 p +pe
t
)
n
, K(t) = nlog(1 p +pe
t
) e (t) = M(it) = (1 p +pe
it
)
n
.
Calculam-se, facilmente,
1
=
1
= np,
2
=
2
= np(1 p),
3
=
3
= np(1 p)(1
2p),
4
= 3n
2
p
2
(1 p)
2
+np(1 p)(1 6p + 6p
2
) e
4
= np(1 p)(1 6p + 6p
2
).
22
o
3
=
1 2p
_
np(1 p)
e
4
=
1 6p + 6p
2
np(1 p)
.
Note-se que
3
e
4
0 quando n . Este resultado esta de acordo com o teorema
de DeMoivre-Laplace (Secao 2.5) que mostra que a distribuicao binomial padronizada
tende para a distribuicao normal quando n .
Na Secao 2.2 mostrou-se que os momentos de uma variavel aleatoria, se existirem,
podem ser calculados derivando a funcao caracterstica e que, tambem, a funcao carac-
terstica determina a distribuicao. Entretanto, isto nao implica que o conhecimento dos
momentos determine completamente a distribuicao, mesmo quando os momentos de todas
as ordens existem. Somente segundo certas condicoes, que felizmente sao satisfeitas para
as distribuicoes comumente usadas na teoria assintotica, e que um conjunto de momentos
determina univocamente a distribuicao. Em termos praticos, o conhecimento de momen-
tos, quando todos eles existem, e em geral equivalente ao conhecimento da distribuicao,
no sentido de que e possvel expressar todas as propriedades da distribuicao em termos
de momentos.
Em algumas situacoes, os momentos sao mais facilmente obtidos atraves de outros
metodos que nao o de derivar (t) ou M(t). Uma pergunta pertinente e: Quais as
condicoes para que uma seq uencia de momentos
1
,
2
, . . . de uma variavel aleatoria Y
determine univocamente a funcao de distribuicao de Y ? Uma condicao suciente devida
a Cramer (1946) e a seguinte. Seja F(y) uma funcao de distribuicao cujos momentos
k
, k = 1, 2, . . ., sao todos nitos. Se a serie
k=0
k
t
k
k!
e absolutamente convergente para
algum t > 0, entao F(y) e a unica funcao de distribuicao cujos momentos correspondentes
sao iguais a
k
, k = 1, 2, . . .
No caso da variavel aleatoria ser limitada, i.e., se existirem n umeros a e b nitos (a < b)
tais que F(a) = 0 e F(b) = 1, entao sua funcao de distribuicao F(y) e univocamente
determinada pelos momentos
k
, k = 1, 2, . . ., desde que todos eles existam.
Uma diculdade que surge no calculo de momentos e cumulantes para demonstrar re-
sultados de natureza generica em teoria assintotica e que o conjunto innito de momentos
42 Introducao `a Teoria Assintotica Gauss M. Cordeiro
(ou cumulantes), pode nao ser suciente para determinar a distribuicao univocamente.
Por exemplo, Feller (1971, Secao VII.3) apresenta um par de funcoes densidades distintas
produzindo momentos identicos de todas as ordens. A nao-unicidade ocorre quando a
funcao M(t) nao e analtica na origem. Em um grande n umero de problemas, pode-se
evitar a nao-unicidade incluindo a condicao de que a expansao (2.6) seja convergente para
|t| < , onde > 0.
Finalmente, suponha que {Y
n
} e uma seq uencia de variaveis aleatorias com funcoes de
distribuicao F
1
, F
2
, . . . e cujas seq uencias de momentos sao conhecidas. Seja
rn
o r-esimo
momento de Y
n
, suposto nito para quaisquer n e r. Apresenta-se, agora, um criterio
simples baseado em momentos para determinar se Y
n
D
Y . Suponha que lim
n
r,n
=
r
,
onde
r
e nito para todo r. Se F
n
F, entao
0
,
1
,
2
, . . . e a seq uencia de momentos
correspondente a F. Em sentido inverso, se
0
,
1
,
2
, . . . determina univocamente a
distribuicao F(y), entao F
n
F. A demonstracao deste resultado pode ser encontrada
em Kendall e Rao (1950).
2.4 Somas de Variaveis Aleatorias Independentes
O calculo de distribuicoes assintoticas de somas de variaveis aleatorias independentes e
muito freq uente em inferencia estatstica. Esta secao trata de algumas propriedades das
somas de variaveis aleatorias independentes supondo um n umero n nito dessas vari aveis.
Na Secao 2.5 e no Captulo 3 consideram-se propriedades das somas quando n .
Sejam Y
1
, . . . , Y
n
variaveis aleatorias iid, copias de uma variavel aleatoria Y . Seja
S
n
=
n
i=1
Y
i
a soma das n variaveis supondo que todos os momentos de Y existem e que
E(Y ) = e Var(Y ) =
2
. Tem-se E(S
n
) = n e Var(S
n
) = n
2
.
Em calculos estatsticos e comum padronizar a variavel aleatoria de interesse de modo
que uma distribuicao limite nao-degenerada seja obtida quando n . Em geral,
padroniza-se a nova variavel de modo que ela tenha, exatamente ou aproximadamente,
media zero e variancia constante, ou mesmo unitaria. Assim, obtem-se a soma padronizada
S
n
= (S
n
n)/(
n
) = 0 e Var(S
n
) = 1.
22
o
i=1
E(e
t Y
i
) = M
Y
(t)
n
e, portanto, a fgc K
S
n
(t) e simplesmente um m ultiplo da fgc K
Y
(t)
K
S
n
(t) = nK
Y
(t) . (2.8)
Logo, os cumulantes de S
n
sao simplesmente iguais a n vezes os respectivos cumulantes
de Y , ou seja,
r
(S
n
) = n
r
(Y ) (2.9)
para r 1. A equacao (2.9) apresenta um forte motivo para se trabalhar com cumulantes
no contexto de somas de variaveis aleatorias iid. Da equacao (2.9) obtem-se os cumulantes
padronizados de S
n
como
3
(S
n
) =
3
(Y )
n
,
4
(S
n
) =
4
(Y )
n
,
r
(S
n
) =
r
(Y )
n
r/21
e, assim, estes cumulantes decrescem em potencias de 1/
n
sao iguais aos correspondentes cumulantes de S
n
devido
`a invari ancia segundo uma transformacao linear.
A funcao densidade exata de S
n
(ou S
n
) pode ser calculada pela convolucao (soma
ou integral), quando n e pequeno. Assim, no caso contnuo, onde as variaveis sao iid com
funcao densidade f
Y
(y), a funcao densidade f
S
n
(s) de S
n
e expressa pela integral m ultipla
de dimensao n 1
f
S
n
(s) =
_
_
n1
i=1
f
Y
i
(y
i
)
_
f
Y
n
_
s
n1
i=1
y
i
_
n1
i=1
dy
i
.
No caso discreto esta integral deve ser substituda por um somatorio. As funcoes de
distribuicao de S
n
e S
n
seguem de F
S
n
(z) =
_
z
f
S
n
(s)ds e F
S
n
(z) = F
S
n
(n +
nz),
respectivamente.
44 Introducao `a Teoria Assintotica Gauss M. Cordeiro
O c alculo algebrico da funcao densidade de S
n
pela formula da convolucao so e util
para valores pequenos de n ou em casos especiais. Na pratica e mais comum determinar
a distribuicao exata de S
n
a partir da formula de inversao (Secao 2.2) ou do criterio de
reprodutividade da funcao caracterstica dado a seguir, ou entao atraves das aproximacoes
assintoticas quando n (vide Secao 2.5 e Captulo 3).
Para a determinacao numerica da integral relativa `a f
S
n
(s) dada anteriormente
aproxima-se, em geral, a funcao densidade f
Y
(y) de Y por uma funcao densidade con-
hecida g(y), onde as convolucoes podem ser calculadas explicitamente em forma simples.
Considera-se, assim, f
Y
(y) = g(y) + (y), onde (y) e uma pequena perturbacao. Em
especial, a escolha de (y) pode ser (y) = g(y)
r
c
r
p
r
(y), onde {p
r
(y)} e um conjunto
de polin omios ortogonais associados a g(y) (vide Secao 3.2). Neste caso, pode-se ter uma
expansao para a convolucao onde os termos principais sao facilmente calculados.
No contexto das aplicacoes, as funcoes caractersticas fornecem os metodos mais
poderosos para determinar a funcao de distribuicao de somas (e medias) de variaveis
aleatorias independentes. Em especial, a funcao caracterstica
S
n
(t) de S
n
tem a pro-
priedade do produto linear similar `aquela de M
S
n
(t). Assim, no caso de variaveis aleatorias
independentes Y
1
, . . . , Y
n
com funcoes caractersticas respectivas
1
(t), . . . ,
n
(t), a funcao
caracterstica de S
n
=
n
i=1
Y
i
e dada por
S
n
(t) =
n
i=1
i
(t) . (2.10)
Quando as variaveis aleatorias sao iid, as funcoes caractersticas de S
n
e da media Y
n
=
S
n
/n sao iguais a (t)
n
e (
t
n
)
n
, respectivamente, e a funcao caracterstica de S
n
segue
de
n
(t) = exp
_
nit
_
t
n
_
n
. (2.11)
O resultado (2.10) da funcao caracterstica de uma soma de variaveis aleatorias inde-
pendentes e facilmente estendido para uma combinacao linear Z =
k
i=1
c
i
Y
i
. Sendo
i
(t
i
)
a funcao caracterstica de Y
i
, i = 1, . . . , k, tem-se
Z
(t) =
k
i=1
i
(c
i
t).
22
o
Y
(t; ) e a funcao caracterstica de Y , que depende de um certo vetor de parametros
da sua distribuicao, entao a funcao caracterstica de S
n
pode ser expressa por
S
n
(t; ) =
Y
(t; )
n
=
Y
(t; n) .
No caso do criterio acima ser satisfeito, S
n
tem a mesma distribuicao de Y a menos
da permuta do vetor de parametros por n. Por exemplo, baseando-se neste criterio, e
facil mostrar que se Y tem distribuicao B(m, p), P() e N(,
2
), entao S
n
=
n
i=1
Y
i
tem
distribuicao B(nm, p), P(n) e N(n, n
2
), respectivamente.
2.5 Teoremas Limites
A Secao 2.4 tratou do calculo da distribuicao de uma soma de variaveis aleatorias iid
supondo n xo. Esta secao apresenta resultados importantes sobre a distribuicao da
soma de variaveis aleatorias iid quando n . Estes resultados consistem em teore-
mas limites bastante uteis na inferencia para aproximar distribuicoes de estatsticas (em
grandes amostras) pela distribuicao normal. Nas aplicacoes verica-se que muitos desses
resultados assintoticos fornecem boas aproximacoes em amostras moderadas. Os teore-
mas limites mais citados sao aqueles de Lindeberg-Levy, Liapunov, Lindeberg-Feller e a
integral de DeMoivre-Laplace. A grande maioria destes teoremas foi desenvolvida entre
1920 e 1945 por B.W. Gnedenko, A. Khintchin, P. Levy, J.W. Lindeberg e A.N. Kol-
mogorov. Um estudo detalhado pode ser encontrado em Wilks (1962, Captulo 9), Fisz
(1963, Captulo 6), Feller (1971, Captulo VIII) e Rao (1973, Secao 2c).
Seja {Y
n
} uma seq uencia de variaveis aleatorias iid, S
n
=
n
n=1
Y
i
a soma das n primeiras
observacoes e Y
n
= S
n
/n a sua media. Quando se conhece apenas a media E(Y
i
) =
46 Introducao `a Teoria Assintotica Gauss M. Cordeiro
da seq uencia, as conclusoes sobre o comportamento de Y
n
para n grande sao dadas pelas
Leis Fraca e Forte dos Grandes N umeros apresentadas a seguir:
Lei Fraca dos Grandes N umeros
Se existe E(Y
i
) = < , entao Y
n
P
.
Lei Forte dos Grandes N umeros
Uma condicao necessaria e suciente para Y
n
q.c.
e que exista E(Y
i
) e E(Y
i
) = .
Quando se conhece a media E(Y
i
) = e a variancia Var(Y
i
) =
2
da seq uencia,
pode-se trabalhar com o teorema central do limite, que mostra o papel de destaque da
distribuicao normal na teoria assintotica. O teorema central do limite e um nome generico
para qualquer teorema dando a convergencia (em distribuicao) de uma soma de variaveis
aleatorias para a distribuicao normal. Formas classicas deste teorema se referem `a soma de
variaveis aleatorias independentes. No contexto de teoremas limites algumas vezes usam-
se os termos global e local para se referir `as convergencias das funcoes de distribuicao
e densidade, respectivamente. O termo teorema limite local e tambem usado quando
uma funcao de probabilidade discreta e aproximada por uma funcao densidade (vide
teorema de DeMoivre-Laplace a seguir). Se, alem da media , a variancia
2
da seq uencia
{Y
n
} e tambem conhecida, pode-se obter mais informacao sobre o comportamento de Y
n
quando n . No contexto de variaveis aleatorias iid, o teorema central do limite
de Lindeberg-Levy representa a forma mais simples dos teoremas centrais de limite mais
gerais.
Teorema de Lindeberg-Levy
Seja S
n
=
S
n
n
n
=
(Y
n
) a soma padronizada de n variaveis aleatorias iid. Se os
dois primeiros momentos E(Y
i
) = e Var(Y
i
) =
2
existem e ambos sao nitos, entao
S
n
D
N(0, 1), i.e.,
lim
n
P(S
n
y) = (y) . (2.12)
Como a distribuicao limite e contnua, a convergencia da funcao de distribuicao de S
n
para () e uniforme e, entao,
{P(S
n
t
n
) (t
n
)} 0
22
o
n
=
n
1=1
(Y
i
)/
n e
S
n
(t) = (
t
n
)
n
. Logo,
n
(t) =
_
1
t
2
2n
+o
_
t
2
n
__
n
e, portanto, lim
n
S
n
(t) = e
t
2
/2
. Como e
t
2
/2
e a funcao caracterstica da distribuicao
normal N(0, 1), a equacao (2.12) decorre do teorema da continuidade.
A convergencia S
n
D
N(0, 1), ou equivalentemente,
1
n(Y
n
)
D
N(0, 1)
representa o resultado central da teoria estatstica, pois permite construir intervalos de
conanca aproximados e testar hipoteses sobre usando a media amostral Y
n
e sua
distribuicao normal N(,
2
n
) aproximada.
A equacao (2.12) garante que a fda da soma padronizada S
n
converge para a dis-
tribuicao normal reduzida. Entretanto, a funcao densidade de S
n
nao converge neces-
sariamente para a funcao densidade da distribuicao normal reduzida, pois as variaveis
aleatorias Y
1
, . . . , Y
n
podem ser discretas. Ha condicoes bem gerais que garantem que a
funcao de probabilidade de S
n
pode ser aproximada no caso discreto pela funcao densi-
dade (x) =
1
2
e
x
2
/2
da distribuicao N(0, 1). O leitor deve consultar na Secao 3.10 as
aproximacoes baseadas na distribuicao normal para algumas variaveis aleatorias discretas.
Teorema Central do Limite (Local) para Densidades
Seja F
S
n
(y) = P(S
n
y) a fda de S
n
no contexto de variaveis aleatorias iid. Entao, S
n
tem uma funcao densidade contnua f
S
n
(y) =
dF
S
n
(y)
dy
para todo n sucientemente grande
e
lim
n
f
S
n
(y) = (y) (2.13)
48 Introducao `a Teoria Assintotica Gauss M. Cordeiro
uniformemente em y IR se, e somente se, existir um inteiro k > 0 para o qual a funcao
caracterstica comum (t) de Y
1
, . . . , Y
n
satisfaz
_
+
|(t)|
k
dt < . (2.14)
O teorema seguinte e um corolario do teorema de Lindeberg-Levy.
Teorema de DeMoivre-Laplace
Se S
n
B(n, p) entao S
n
=
S
n
np
np(1p)
tem distribuicao normal N(0, 1) assintotica. Alem
disso, se k = k
n
depende de n mas |(k np)/
_
np(1 p)| permanece limitado quando
n , entao
P(S
n
= k)
1
_
np(1 p)
_
_
k np
_
np(1 p)
_
_
, (2.15)
com a notacao a
n
b
n
signicando que lim
n
a
n
b
n
= 1.
A equacao (2.15) pode ser demonstrada por simples expansao de Taylor e aproximando
os fatoriais do coeciente binomial pela formula de Stirling (Secao 3.5, exemplo 3.7). A
proporc ao de sucessos em n ensaios Y
n
= S
n
/n tem, portanto, uma distribuicao normal
N(p, p(1 p)/n) assintotica implicando a formula aproximada
P(y
1
< Y
n
< y
2
) =(z
2
) (z
1
) ,
onde z
i
= (y
i
p)
_
n
p(1p)
para i = 1, 2.
O teorema de Lindeberg-Levy e um caso especial do teorema seguinte mais geral.
Teorema Central do Limite
Seja {Y
n
} uma seq uencia de variaveis aleatorias independentes (mas nao necessariamente
identicamente distribudas) com os dois primeiros momentos E(Y
i
) =
i
e Var(Y
i
) =
2
i
22
o
n
=
n
i=1
(Y
i
i
)
_
n
i=1
2
i
_
1/2
D
N(0, 1) . (2.16)
Varias condicoes que garantem a convergencia em distribuicao de S
n
para a dis-
tribuicao normal reduzida no teorema acima tem sido dadas por diferentes autores, in-
cluindo generalizacoes para o caso de somas de variaveis aleatorias dependentes. No caso
de variaveis independentes apresenta-se a seguir uma condicao suciente (teorema de Li-
apunov) e uma condicao necessaria e suciente (teorema de Lindeberg-Feller) para que a
convergencia (2.16) seja satisfeita. Outras condicoes que garantem (2.16) estao fora do
objetivo deste trabalho.
Teorema de Liapunov
Se para variaveis aleatorias independentes a relacao
lim
n
_
n
i=1
E(|Y
i
i
|
3
)
_
1/3
_
n
i=1
2
i
_
1/2
= 0
e satisfeita, entao segue-se (2.16).
Teorema de Lindeberg-Feller
Suponha que para variaveis aleatorias independentes, F
i
(y) e a funcao de distribuicao
de Y
i
e que s
2
n
= Var(S
n
) =
n
i=1
2
i
satisfaz
2
n
s
2
n
0, s
n
quando n . A
convergencia (2.16) e satisfeita se, e somente se, para todo > 0
lim
n
1
s
2
n
n
i=1
_
|y
i
|>s
n
(y
i
)
2
dF
i
(y) = 0 .
50 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Uma conseq uencia importante do teorema acima estabelece a seguinte condicao: se para
algum k > 2
n
i=1
E(|Y
i
i
|
k
) = o(s
k
n
)
quando n , entao (2.16) e satisfeita.
Finalmente, torna-se de interesse pratico e teorico caracterizar o erro do teorema
central do limite, i.e., o erro da aproximacao de F
S
n
(y) = P(S
n
y) por (y). No caso
iid tem-se a desigualdade de Berry-Esseen
sup
y
|F
S
n
(y) (y)|
33
4
E(|Y
i
|
3
)
n
3
que e v alida para todo n e implica que a taxa de convergencia de (2.12) e n
1/2
. Sob
condicoes mais restritivas na expansao assintotica de F
S
n
(y)(y) em potencias de 1/
n,
pode ser demonstrado que (Ibragimov e Linnik, 1971)
|F
S
n
(y) (y)|
E{|Y
i
|
3
}
2 n
(1 y
2
)e
y
2
/2
+o(n
1/2
)
uniformemente em y.
2.6 Transformacao Funcional
Um resultado muito util de transformacao funcional se refere ao comportamento
assintotico de uma funcao de duas variaveis aleatorias, onde uma delas admite con-
vergencia em distribuicao, nao se impondo qualquer restricao sobre uma possvel de-
pendencia entre essas variaveis aleatorias. Seja h(Y
n
, U
n
) uma transformacao funcional
envolvendo duas variaveis aleatorias Y
n
e U
n
supondo que Y
n
D
Y e U
n
P
k, onde Y
tem distribuicao nao-degenerada e k e uma constante nita. Admitindo-se que h(y, u) e
uma funcao contnua de u em u = k para todos os pontos y no suporte de Y , pode-se
demonstrar que h(Y
n
, U
n
)
D
h(Y, k). Este resultado tem grande aplicabilidade na de-
terminacao de in umeras distribuicoes assintoticas de funcoes de variaveis aleatorias. Em
especial, Y
n
+ U
n
D
Y + k, Y
n
U
n
D
kY e Y
n
/U
n
D
Y/k se k = 0. Como motivacao
pratica, suponha a estatstica T
n
=
n(Y
n
)/s denida a partir de n variaveis aleatorias
22
o
i=1
Y
i
/n e s
2
n
=
n
i=1
(Y
i
Y
n
)
2
/(n1).
A distribuicao exata de T
n
e t
n1
(t de Student com n 1 graus de liberdade). Tem-se
E(s
2
n
) =
2
e lim
n
Var(s
2
n
) = 0, de modo que s
2
n
P
2
e, portanto, s
n
P
. Pelo
teorema central do limite
n(Y
n
)
D
N(0,
2
). Combinando as duas convergencias
obtem-se T
n
D
N(0, 1), resultado bastante conhecido de convergencia da distribuicao t
de Student para a distribuicao normal reduzida quando seus graus de liberdade tendem
a innito.
Uma situacao comum na pratica envolve a seq uencia {Y
n
} admitindo-se as con-
vergencias Y
n
P
e
n(Y
n
)
D
Y , onde Y tem funcao de distribuicao F arbitraria.
Logo,
n(Y
n
) = Y +o
p
(1) e
Y
n
= +
Y
n
+o
p
(n
1/2
) .
Em muitos casos, F e a funcao de distribuicao da normal reduzida.
Seja {h(Y
n
)} uma transformacao funcional de {Y
n
}, sendo h() uma funcao qualquer
duas vezes diferenciavel com h
() = 0 e h
n{h(Y
n
) h()} =
nh
()(Y
n
)
+
1
2
nh
(Z
n
)(Y
n
)
2
,
(2.17)
onde Z
n
= +(1)Y
n
para (0, 1). Como h
n{h(Y
n
) h()} =
nh
()(Y
n
) +o
p
(1) . (2.18)
Por hip otese
nh
()(Y
n
)
D
h
n{h(Y
n
) h()}
h
()
D
Y . (2.19)
52 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Estimando-se h
() por h
(Y
n
) segue, tambem, a convergencia
n{h(Y
n
) h()}
h
(Y
n
)
D
Y .
Em especial, se Y N(0,
2
), entao (2.19) conduz ao resultado
n{h(Y
n
) h()}
D
N(0, h
()
2
2
) .
Alem disso, se = () e uma funcao contnua de , sendo estimada por (Y
n
), obtem-se
tambem,
n{h(Y
n
) h()}
(Y
n
)h
(Y
n
)
D
N(0, 1) .
Exemplo 2.7 Supoe-se que
n(Y
n
)
D
N(0,
2
) e sejam h
1
(Y
n
) = Y
2
n
e h
2
(Y
n
) =
Y
n
. Entao,
n(Y
2
n
2
)
D
N(0, 4
2
2
) e
n(
Y
n
)
D
N(0,
2
/(4)).
Os momentos centrais denidos a partir de n observacoes iid Y
1
, . . . , Y
n
por m
k
=
n
1
n
i=1
(Y
i
Y )
k
(k = 1, 2, . . .) sao freq uentes nas formulas das estatsticas e e importante
conhecer suas propriedades em grandes amostras. Para k = 1 e k = 2 tem-se a media e a
variancia amostrais. Pode-se demonstrar que (vide Sering, 1980, Secao 2.2.3)
(i) m
k
q.c.
k
;
(ii) o vies de m
k
e dado por
E(m
k
k
) =
k(k 1)
k1
2
2k
k
2n
+O(n
2
);
(iii) a variancia de m
k
iguala Var(m
k
) =
k
n
+O(n
2
), onde
k
=
2k
2
k
2k
k1
k+1
+k
2
2
k1
;
(iv)
n(m
k
k
)
D
N(0,
k
) com
k
dado em (iii).
22
o
2
,
k1
,
k
,
k+1
e
2k
de Y . O item (iv) para k = 1 e 2 produz
n Y
D
N(0,
2
) e
ns
2
D
N(0,
4
4
) ,
pois
1
= 0 e
2
=
2
. Portanto,
ns
D
N(0, (
4
4
)/(4
4
)) .
A equacao (2.18) escrita como
h(Y
n
) = h() +h
()(Y
n
) +o
p
(n
1/2
)
pode ser generalizada, supondo que h() e uma funcao real diferenciavel ate ordem k, para
h(Y
n
) =
k
j=0
h
(j)
()
j!
(Y
n
)
j
+o
p
(n
j/2
) .
Os momentos (e, entao, os cumulantes) de h(Y
n
) ate uma ordem pre-xada podem ser
obtidos a partir dos momentos de Y
n
elevando-se a expansao acima a potencias de ordens
dos momentos a serem calculados.
Finaliza-se este captulo tratando o problema de estabilizacao da variancia na es-
timacao de um parametro atraves de uma estatstica Y
n
que e assintoticamente normal
mas sua variancia assintotica depende de . Suponha que
n(Y
n
)/v()
1/2
D
N(0, 1),
ou seja, v()/n e a variancia assintotica de Y
n
. Neste caso, a regiao de rejeicao do
parametro depende de atraves de v() e pode nao haver a propriedade desejavel
de monotonicidade no parametro. Objetiva-se determinar uma transformacao h(Y
n
) para
se fazer inferencia sobre = h() de modo que
n(h(Y
n
) h())
k
D
N(0, 1) ,
54 Introducao `a Teoria Assintotica Gauss M. Cordeiro
ou seja, a variancia assintotica k
2
/n de h(Y
n
) e uma constante independente de . Tem-se
Var(h(Y
n
)) = h
()
2
Var(Y
n
) .
Entao, k
2
= h
()
2
v(), implicando
h() = k
_
t
0
dt
_
v(t)
. (2.20)
Dado v() obtem-se de (2.20) a transformacao estabilizadora e o intervalo de conanca
segue baseado em h(Y
n
) e = h(), i.e.,
n|h(Y
n
) | kz
/2
, onde z
/2
e o ponto
crtico da distribuicao N(0, 1) correspondente ao nvel de signicancia . Por exemplo,
se v() =
2m
e m = 1 vem h() = k
1m
/(1 m). Para m = 1, 2 e 1/2, h() iguala
k
2
/2, k/ e 2k
n
=
n(Y
n
)/
D
N(0, 1) e v() =
. Assim, h() = 2k
n(
_
Y
n
)
D
N(0, 1). O segundo caso (m = 1) pode ser exemplicado pela soma
S
n
de n variaveis aleatorias iid com distribuicao gama parametrizada pela media e pelo
parametro de forma p (vide, tambem, exemplo 2.1). Assim, E(Y ) = e Var() =
2
/p.
A soma S
n
padronizada e S
n
=
np(Y
n
)/ e v() =
2
/p. Entao, h() = k
p log e
a variancia de h(Y
n
) e estabilizada mediante a transformacao logartmica. Tem-se,
np(log Y
n
log )
D
N(0, 1) .
2.7 Exerccios
1. Mostre que a variavel qui-quadrado padronizada (
2
n
n)/
2n converge em dis-
tribuicao para a normal N(0, 1). Avalie um limite para o erro desta aproximacao.
2. Mostre que a variavel aleatoria Y com funcao densidade f(y) = {cosh(y)}
1
, y
IR, tem funcao caracterstica (t) = sech(t/2).
22
o
r
=
r
(p 1 r)/(p 1) se r < p 1 e que,
caso contrario, os momentos nao existem.
4. Justique que a distribuicao N(,
2
) e determinada univocamente pelos seus mo-
mentos.
5. Mostre que: (a) a distribuicao exponencial cuja funcao densidade e dada por f(y) =
1
e
y/
( > 0) tem cumulantes
r
=
r
(r1)!, r = 1, 2, . . . ; (b) a funcao exp(t
)
nao pode ser uma funcao caracterstica, exceto se = 2.
6. Mostre que: (a) se Y
D
Y , entao Y
n
= O
p
(1); (b) se Y
n
= o
p
(U
n
), entao Y
n
=
o
p
(U
n
); (c) se Y
n
D
Y e X
n
P
X, entao Y
n
+X
n
D
Y +X.
7. Seja
1
n
(Y
n
)
D
N(0, 1). Entao, Y
n
P
se, e somente se,
n
0 quando
n .
8. Seja (t) a funcao caracterstica da variavel aleatoria Y . Mostre que se Y e contnua
lim
|t|
(t) = 0 e se Y e discreta lim
|t|
sup |(t)| = 1.
9. Suponha as convergencias
n(Y
n
)/
D
N(0, 1) e
n(X
n
c)/
v
D
n(Y
n
)/(X
n
)
D
N(0, 1).
10. Demonstre que as funcoes caractersticas das distribuicoes logstica e de Laplace cu-
jas funcoes densidades sao f(y) = e
y
(1+e
y
)
2
e f(y) = exp{|y|/}/(2), y
IR em ambos os casos, sao dadas por (t) = (1it)(1+it) e (t) = e
it
(1+
2
t
2
)
1
,
respectivamente.
11. Sejam (Y
n
)/
n
D
N(0, 1) e X
n
= 0 e n com probabilidades 1 n
1
e n
1
respectivamente. Mostre que (Y
n
+X
n
)/
n
D
N(0, 1).
12. Mostre que se (t) e a funcao caracterstica de uma variavel aleatoria, (t)
2
tambem
e uma funcao caracterstica.
13. (a) Uma variavel aleatoria tem momentos
r
= k/(k +r), r = 1, 2, . . ., onde k > 0.
Mostre que sua funcao densidade e f(y) = y
k1
, y (0, 1); (b) uma variavel
56 Introducao `a Teoria Assintotica Gauss M. Cordeiro
aleatoria tem funcao caracterstica (t) = (1 +t
2
)
1
. Mostre que sua funcao densi-
dade e f(y) = e
|y|
/2, y IR.
14. Se Y e uma variavel aleatoria tendo momentos
r
= (k + r)!/k!, k um inteiro
positivo, entao a sua funcao densidade e univocamente determinada por f(y) =
y
k
e
y
/k!, y > 0.
15. Se Y
1
, . . . , Y
n
satisfazem `as suposicoes do teorema de Lindeberg-Levy e, alem disso,
o momento E(|Y
i
|
3
) existe, entao S
n
=
n(Y
n
)/n tem fda que satisfaz
|F
S
n
(y) (y)|
k E(|Y
i
|
3
)
n
3
,
onde k e uma constante.
16. Se Y e uma variavel aleatoria tal que E(e
kY
) existe para k > 0, entao
P(Y ) E(e
kY
)/e
k
.
17. Se Y
1
, Y
2
, . . . e uma seq uencia de variaveis aleatorias iid. Se E(Y
i
) = e nito, entao
Y
n
P
.
18. A funcao densidade da distribuicao de Laplace tem a forma f(y; , ) =
(2)
1
exp(|y |/), > 0. Mostre que a sua funcao caracterstica e dada
por (t) = (1 +
2
t
2
)
1
exp(it). Mostre que ela tem momentos de todas as ordens
e que nao e preservada segundo convolucao.
Captulo 3
Expansoes Assintoticas
3.1 Introducao
Considere uma expansao assintotica para a funcao g
n
(y) em algum ponto xo y expressa
para n como
g
n
(y) = f(y)
_
1 +
1
(y)
n
+
2
(y)
n
+
3
(y)
n
n
+
_
, (3.1)
onde n e usualmente o tamanho da amostra ou uma quantidade de informacao. Na
inferencia a funcao g
n
(y) de interesse e tipicamente uma funcao densidade (ou de dis-
tribuicao) de uma estatstica baseada numa amostra de tamanho n e f(y) pode ser
considerada uma aproximacao de primeira ordem tal qual a funcao densidade (ou de
distribuicao) da normal reduzida. A funcao g
n
(y) pode ser denida diretamente de uma
seq uencia de comprimento n de variaveis aleatorias, por exemplo, como a funcao densi-
dade da media amostral Y
n
= n
1
n
i=1
Y
i
de n variaveis aleatorias iid sendo f(y) sua funcao
densidade limite, que e usualmente a funcao densidade (y) da normal reduzida. Ela pode
ser tambem uma funcao geratriz de momentos ou cumulantes. Embora a equacao (3.1)
seja denida para um valor xo y, tem-se o interesse em saber para qual regiao dos valores
de y ela permanece valida como uma expansao assintotica.
Uma caracterstica importante da expansao assintotica (3.1) e que ela nao e, em geral,
uma serie convergente para g
n
(y) e, assim, tomando-se mais termos no seu lado direito a
aproximacao para g
n
(y) nao necessariamente melhora.
57
58 Introducao `a Teoria Assintotica Gauss M. Cordeiro
As expansoes assintoticas sao usadas rotineiramente em muitas areas da analise
matematica. Os livros de Jereys (1962), DeBruijn (1970) e Bleistein e Handelsman
(1975) sao excelentes fontes para estudos aprofundados. Embora uma aproximac ao do
tipo (3.1) seja somente valida quando n , obtem-se frequentemente uma boa pre-
cisao mesmo para valores pequenos de n. Ha interesse de investigar em cada caso a
precisao da aproximacao (3.1) para varios valores de y, bem como o intervalo de variacao
de y para o qual o erro da aproximacao e uniforme. Apresentam-se a seguir expansoes
do tipo (3.1) permitindo o termo principal f(y) depender de n para algumas funcoes
matematicas de grande interesse na Estatstica:
(i) A funcao gama (n) =
_
0
x
n1
e
x
dx admite para n grande a expansao de Stirling
expressa somente em potencias de n
1
(n) = (2)
1/2
e
n
n
n0,5
_
1 +
1
12n
+
1
288n
2
139
51840n
3
571
2488320n
4
+O(n
5
)
_
.
Fixando n e tomando mais termos no lado direito da formula acima, o erro da
aproximacao aumenta. Para valores de n 5, a formula assintotica
2 e
n
n
n0,5
e suciente para muitos propositos;
(ii) A funcao gama incompleta (k, y) =
_
y
e
t
t
k1
dt admite a expansao
(k, n) = n
k1
e
n
_
1 +
k 1
n
+
(k 1)(k 2)
n
2
+O(n
3
)
_
;
(iii) A funcao log y (y), onde (y) =
d log (y)
dy
e a funcao digama, e estudada na
estimacao do parametro de forma da distribuicao gama. Valores inteiros sao com-
putados como (1) = , (n) = +
n1
k=1
k
1
(n 2), onde = 0, 5772156649 . . .
e a constante de Euler. Tem-se a expansao, quando o argumento y (ao inves
de n )
log y (y) =
1
2y
_
1 +
1
6y
1
60y
3
+
1
126y
5
+O(y
7
)
_
.
Neste captulo sao apresentadas varias expansoes importantes do tipo (3.1), geral-
22
o
j=1
j
(D)
j
/j!
_
_
_
e a aproximacao para g(y) e denida por
g(y) = T(D)f(y) ,
onde D e o operador diferencial, ou seja, D
j
f(y) = d
j
f(y)/dy
j
.
Os cumulantes de g(y) sao determinados como os coecientes de t
r
/r! na expansao de
log
__
+
e
ty
g(y)dy
_
(Secao 2.3). Expandindo o operador T(D) em serie de Taylor vem
T(D) =
i=0
1
i!
j=1
j
(D)
j
j!
de onde se conclui que os cumulantes de g(y) sao dadas por
1
+
1
,
2
+
2
, . . . A funcao g(y) pode nao satisfazer a condicao g(y) 0 para todo y,
mas seus cumulantes
r
+
r
sao denidos mesmo que esta condicao nao seja satisfeita.
De g(y) = T(D)f(y) obtem-se, pela expansao de T(D),
g(y) = f(y)
1
Df(y) +
1
2
(
2
1
+
2
)D
2
f(y)
1
6
(
3
1
+ 3
1
2
+
3
)D
3
f(y) +
1
24
(
4
1
+ 6
2
1
2
+ 4
1
3
+
4
)D
4
f(y) +
(3.2)
A equacao (3.2) mostra que a funcao densidade g(y) de uma variavel aleatoria contnua
qualquer pode ser expandida em termos de uma funcao densidade f(y) de referencia
conhecida e de suas derivadas, cujos coecientes sao funcoes de diferencas (
i
s) en-
tre os cumulantes correspondentes associados `as funcoes densidade g(y) e f(y). Em
60 Introducao `a Teoria Assintotica Gauss M. Cordeiro
muitos casos, D
j
f(y) = P
j
(y)f(y), onde P
j
(y) e um polinomio de grau j em y. Es-
ses polinomios sao geralmente ortogonais com relacao `a distribuicao associada a f(y), ou
seja,
_
P
j
(y)P
k
(y)f(y) = 0 para j = k. Por exemplo, se f(y) e a funcao densidade (y)
da distribuicao normal reduzida, (1)
j
P
j
(y) e o polinomio de Hermite H
j
(y) de grau j
denido pela identidade
(D)
r
(y) = H
r
(y)(y) .
Os primeiros polinomios de Hermite sao H
0
(y) = 1, H
1
(y) = y, H
2
(y) = y
2
1, H
3
(y) =
y
3
3y, H
4
(y) = y
4
6y
2
+3, H
5
(y) = y
5
10y
3
+15y e H
6
(y) = y
6
15y
4
+45y
2
15.
Esses polinomios tem propriedades interessantes decorrentes da identidade
exp(ty t
2
/2) =
j=0
t
j
j!
H
j
(y) ,
tais como:
d
dy
H
r
(y) = r H
r1
(y) ,
D
j
H
r
(y) = r
(j)
H
rj
(y) para r j,
onde r
(j)
= r(r 1) (r j + 1). Satisfazem ainda a relacao de recorrencia
H
r
(y) = yH
r1
(y) (r 1)H
r2
(y) (r 2) .
Suponha agora que as medias e as variancias de g(y) e f(y) sao tomadas iguais, por
exemplo, pela padronizacao atraves de transformacao linear das variaveis. Neste caso,
1
=
2
= 0 e (3.2) implica
g(y) = f(y)
_
3
3!
P
3
(y)
4
4!
P
4
(y) +
_
f(y) . (3.3)
Integrando (3.3) obtem-se uma relacao equivalente para as funcoes de distribuicao G(y) =
_
y
g(t)dt e F(y) =
_
y
3
3!
P
2
(y)
4
4!
P
3
(y) +
_
f(y) . (3.4)
O caso especial mais importante e de maior aplicabilidade das expansoes (3.3) e (3.4)
surge quando f(y) e a funcao densidade (y) da distribuicao normal reduzida. Neste
22
o
3
3!
H
2
(y) +
4
4!
H
3
(y) +
5
5!
H
4
(y) +
(
6
+ 10
2
3
)
6!
H
5
(y) +
_
(y), (3.6)
onde (y) e a funcao de distribuicao da normal reduzida.
As formulas (3.5) e (3.6) mostram que as funcoes densidade e de distribuicao de uma
variavel aleatoria qualquer Y padronizada podem, em geral, ser expressas por expansoes
envolvendo seus cumulantes, os polinomios de Hermite e as funcoes densidade e de dis-
tribuicao da normal reduzida. Nas aplicacoes de (3.5) e (3.6) e importante coletar os
termos de mesma magnitude, conforme mostra o exemplo seguinte.
Exemplo 3.1 Seja Z uma variavel aleatoria com distribuicao gama de parametros 1(es-
cala) e > 0 (forma). A funcao geratriz de cumulantes de Z e K(t) = log(1 t)
e os seus cumulantes igualam
r
= (r 1)!. Deseja-se obter uma aproximacao para a
funcao densidade g(y) da variavel gama padronizada Y = (Z
1
)/
1/2
2
em termos da
funcao densidade (y) da distribuicao normal reduzida. Os cumulantes de Y sao dados
por
r
+
r
= (r 1)!
(2r)/2
(vide Secao 2.3), sendo
1
= 0,
2
= 1 e
r
= 0, r > 2.
Na expansao de Gram-Charlier da funcao densidade g(y) = (y)
12
j=0
c
j
H
j
(y), decorrente
de (3.5) e ate o termo envolvendo H
12
(y), os coecientes c
j
tem as seguintes ordens de
magnitude em :
c
0
c
3
c
4
c
5
c
6
c
7
c
8
c
9
c
10
c
11
c
12
0 1/2 1 3/2 1 3/2 2 3/2 2 5/2 2
62 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Assim, os termos da expansao de Gram-Charlier nao necessariamente decrescem em or-
dem de magnitude de . Deve-se ter cuidado ao truncar (3.5) de modo que todos os
termos nao includos sejam realmente de ordem inferior `aqueles da expansao truncada.
Por exemplo, para obter uma expansao corrigida para g(y) ate ordem
3/2
, somente os
termos correspondentes a c
8
, c
10
, c
11
e c
12
nao seriam includos.
3.3 Expansoes de Edgeworth
Trata-se aqui das expansoes de Edgeworth para somas padronizadas de variaveis aleatorias
univariadas iid. Estas expansoes sao importantes na teoria assintotica quando a integral de
convolucao referente `a soma de variaveis aleatorias nao pode ser calculada explicitamente.
A extensao para o caso de variaveis multivariadas esta fora dos objetivos deste texto e o
leitor podera consultar o livro de McCullagh (1987, Captulo 5).
Seja Y uma variavel aleatoria com funcoes densidade f(y) e geratriz de cumulantes
K(t). Os cumulantes padronizados de Y sao
r
=
r
/
r/2
2
para r 2. Tem-se
1
=
E(y) = e
2
= Var(Y ) =
2
. Suponha que Y
1
, . . . , Y
n
sao realizacoes iid de Y e sejam:
S
n
=
n
i=1
Y
i
, a soma estocastica e S
n
= (S
n
n)/(
n
sao dadas por
K
S
n
(t) = nK(t) e
K
S
n
(t) =
nt
+nK
_
t
n
_
, (3.7)
respectivamente. A expansao de K(t) em serie de Taylor equivale a uma soma de funcoes
dos cumulantes padronizados de Y
K(t) = t +
2
t
2
/2 +
3
3
t
3
/6 +
4
4
t
4
/24 +
que substituda em (3.7) implica
K
S
n
(t) = t
2
/2 +
3
t
3
/(6
n) +
4
t
4
/(24n) +O(n
3/2
) . (3.8)
A expansao (3.8) revela o esperado, ou seja, que K
S
n
(t) t
2
/2 quando n
, pois pelo teorema central do limite (Secao 2.5) S
n
converge em distribuicao para a
distribuicao normal N(0, 1) quando n tende a innito. A funcao geratriz de momentos
22
o
n
(t) de S
n
e obtida de (3.8) tomando exponenciais. Logo,
M
S
n
(t) = exp(t
2
/2){1 +
3
t
3
/(6
n) +
4
t
2
/(24n) +
2
3
t
6
/(72n) +O(n
3/2
)}.
Para obter a funcao densidade de S
n
, a equacao acima deve ser invertida termo a termo
usando a identidade
_
e
ty
(y)H
r
(y)dy = t
r
exp(t
2
/2) .
Entao, a funcao densidade de S
n
e dada por
f
S
n
(y) = (y)
_
1 +
3
6
n
H
3
(y) +
4
24n
H
4
(y) +
2
3
72n
H
6
(y)
_
+O(n
3/2
) . (3.9)
A integral de (3.9) produz a expansao da funcao de distribuicao de S
n
como
F
S
n
(y) = (y) (y)
_
3
6
n
H
2
(y) +
4
24n
H
3
(y) +
2
3
72n
H
5
(y)
_
+O(n
3/2
) . (3.10)
As formulas (3.9) e (3.10) sao as expansoes de Edgeworth para as funcoes densidade
e de distribuicao de uma soma padronizada S
n
, respectivamente.
E importante salientar
que a expansao (3.9) segue diretamente da expansao de Gram-Charlier (3.5), pois os
cumulantes de S
n
sao simplesmente
r
= O(n
1r/2
) para r 3 com
3
=
3
/
n e
4
=
4
/n. O termo principal em (3.10) e a funcao de distribuicao (y) da normal
reduzida, como previsto pelo teorema central do limite. O termo de ordem n
1/2
e um
ajustamento face `a assimetria da distribuicao de Y e os termos de ordem n
1
representam
um ajustamento simultaneo devido `a assimetria e curtose da distribuicao de Y .
A adequacao das aproximacoes (y), (y){1 +
3
H
3
(y)/(6
n
depende do valor de y. A aproximacao (3.9) podera nao ser apropriada
nas extremidades da distribuicao de S
n
quando |y| crescer, pois os polinomios de Hermite
nao sao limitados. No ponto y = 0, o erro da aproximacao normal (y) e O(n
1
) e nao
O(n
1/2
), enquanto o da expansao (3.9) e O(n
2
), pois os termos de potencia mpar em
n
1/2
dependem apenas de polinomios de grau mpar e todos eles se anulam para y = 0.
Assim, desejando-se aproximar a funcao densidade de S
n
na origem, f
S
n
(0), obtem-se
uma expansao em potencias de n
1
ao inves de potencias de n
1/2
. Quando
3
= 0
(distribuicoes de Y assimetricas) o termo de ordem n
1/2
podera ser muito grande nas ex-
64 Introducao `a Teoria Assintotica Gauss M. Cordeiro
tremidades da distribuicao de S
n
quando H
3
(y) for apreciavel, invalidando a aproximacao
(y){1+
3
H
3
(y)/(6
n
. Diferentemente, a aproximacao
em torno da media E(S
n
) = 0, onde H
3
(0) = 0, sera satisfatoria, pois envolvera somente
termos de ordem n
1
. Obviamente, se a funcao densidade de Y e simetrica (
3
= 0), a
aproximacao normal usual para a funcao densidade de S
n
estara correta ate ordem n
1/2
ao inves de ate ordem 1.
A funcao (y){1 +
3
H
3
(y)/(6
n)}.
Entretanto, esta forma tem a desvantagem de ser ilimitada e, portanto, pode n ao ser
normalizada exatamente em IR.
O erro em (3.10) so sera O(n
3/2
) se S
n
tiver distribuicao contnua. No caso discreto,
a funcao de distribuicao exata de S
n
e descontnua nos seus possveis valores, com saltos
de ordem O(n
1/2
). A aproximacao (3.10) e contnua e deve envolver erros de ordem n
1/2
proximo aos pontos de descontinuidade. Entretanto, Kolassa e McCullagh (1990) propoem
uma versao de (3.10), valida ate O(n
1
) para distribuicoes discretas, pelo ajustamento
dos cumulantes
3
e
4
atraves das correcoes de Sheppard.
Exemplo 3.2 Sejam Y
1
, . . . , Y
n
variaveis aleatorias iid com distribuicao exponencial de
media um. A funcao densidade exata de S
n
e dada por
n
(y) =
n(n +y
n)
n1
exp(n y
n)/(n 1)! .
Para obter de (3.9) a expansao de Edgeworth tem-se E(S
n
) = n, Var(S
n
) = n,
3
= 2 e
4
= 6. Logo,
f
S
n
(y) = (y)
_
1 +
H
3
(y)
3
n
+
H
4
(y)
4n
+
H
6
(y)
18n
_
+O(n
3/2
) .
Na Tabela 3.1 compara-se para n = 5 o valor exato
S
n
(y) com a aproximacao normal
(y) (termo principal) e com aquelas expansoes de f
S
n
(y) obtidas da equacao acima con-
siderando apenas o termo O(n
1/2
) e com aqueles dois termos de ordem O(n
1
).
22
o
n
. A Tabela 3.1 mostra que, fora dessas caudas, a expansao de Edgeworth incluindo
os termos O(n
1
) e superior `aquela expansao de Edgeworth ate O(n
1/2
). Exceto no ponto
y = 0, a aproximacao normal (y) para
S
n
(y) nao e satisfatoria, como esperado, pois n
e pequeno.
Exemplo 3.3 Este exemplo (Barndor-Nielsen e Cox, 1990, p.96) ilustra o desempenho
da expansao de Edgeworth no contexto discreto. Seja S
n
a soma de n variaveis aleatorias
iid com distribuicao de Poisson de media 1. Assim, S
n
tem distribuicao de Poisson de
media n. Todos os cumulantes da distribuicao de Poisson sao iguais e, entao,
3
=
4
= 1.
A soma padronizada S
n
= (S
n
n)/
n
(y) = (y) (y)
_
H
2
(y)
6
n
+
H
3
(y)
24n
+
H
5
(y)
72n
_
+O(n
3/2
) .
No uso desta expansao para aproximar P(S
n
r), pode-se adotar uma correcao de con-
tinuidade como y = (r n + 0, 5)/
n
(y).
A Tabela 3.2 compara a aproximacao (y) e as expansoes de F
S
n
(y) ate O(n
1/2
) e
O(n
1
) com o valor exato de P(S
n
r) quando n = 8. Ambas as expansoes de Edgeworth
aproximam melhor P(S
n
r) do que a funcao de distribuicao normal (y).
66 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Tabela 3.2: Aproximacoes para a funcao de distribuicao da Poisson de media n = 8
Expansoes de Edgeworth
r Exato Normal ate O(n
1/2
) ate O(n
1
)
2 0,0138 0,0259 0,0160 0,0148
4 0,0996 0,1079 0,1021 0,1011
6 0,3134 0,2981 0,3128 0,3141
8 0,5926 0,5702 0,5926 0,5919
10 0,8159 0,8116 0,8151 0,8146
12 0,9362 0,9442 0,9340 0,9374
14 0,9827 0,9892 0,9820 0,9824
Em inferencia, o interesse principal reside em computar nveis de signicancia e, assim,
a expansao (3.10) e mais util do que a expansao para a funcao densidade (3.9). Frequente-
mente, em testes de hipoteses, trabalha-se com estatsticas padronizadas de media zero,
variancia um e cumulantes
j
=
j
/
j/2
2
de ordens O(n
1j/2
) para j 3. Neste caso, as
probabilidades unilaterais envolvendo estatsticas padronizadas do tipo P(Y
n
y) podem
ser calculadas ate O(n
1
) diretamente de (3.10) como
P(Y
n
y) = 1 (y) +(y)
_
3
6
n
H
2
(y) +
4
24n
H
3
(y) +
2
3
72n
H
5
(y)
_
, (3.11)
envolvendo um termo de ordem O(n
1/2
) e mais dois termos de ordem O(n
1
). Entretanto,
as probabilidades bilaterais do tipo P(|Y
n
| y) sao obtidas (para y > 0) de (3.10) como
P(|Y
n
| y) = 2{1 (y)} + 2(y)
_
4
24n
H
3
(y) +
2
3
72n
H
5
(y)
_
,
envolvendo apenas correcoes de ordem O(n
1
). Neste caso, ocorre cancelamento das
correcoes de ordem O(n
1/2
). Elas sao iguais em magnitude, mas com sinais diferentes, e
se cancelam quando as duas extremidades sao combinadas.
Pode-se trabalhar com as expansoes de Edgeworth (3.9) e (3.10) se as componentes
Y
j
sao independentes mas nao sao necessariamente identicamente distribudas. Tem-se
r
(S
n
) =
r
(Y
j
) e padroniza-se S
n
na forma usual
S
n
=
S
n
1
(Y
j
)
2
(Y
j
)
22
o
3
=
3
(Y
j
)
{
2
(Y
j
)}
3/2
e
4
=
4
(Y
j
)
{
2
(Y
j
)}
2
sejam limitadas quando n .
3.4 Expansoes de Cornish-Fisher
As expansoes de Cornish-Fisher sao usadas para determinar numericamente as dis-
tribuicoes de probabilidade de estatsticas quando suas distribuicoes exatas sao difceis
de ser computadas. Suponha que uma variavel aleatoria contnua padronizada Y tem
media zero, variancia um e cumulantes
j
de ordens O(n
1j/2
) para j 3. Neste caso, a
expansao de Edgeworth para P(Y y) segue diretamente de (3.11). Suponha agora que
y
e u
) = (u
) = 1 . As expansoes de Cornish-Fisher
sao duas expansoes assintoticas relacionando os quantis y
e u
como funcao de y
em termos
de u
.
A demonstracao dessas expansoes requer calculos algebricos longos e apresenta-se aqui
apenas a ideia da prova. Expandindo (u
) vem
(u
) = {y
+ (u
)} = (y
) +
r=1
(u
)
r
r!
D
r
(y
)
e, entao,
(u
) = (y
) +
r=1
(u
)
r
r!
(1)
r1
H
r1
(y
)(y
). (3.12)
Igualando P(Y y
em
funcao de y
ate O(n
1
) como
u
= p(y
) = y
3
6
n
(y
2
1) +
2
3
36n
(4y
2
7y
)
4
24n
(y
3
3y
) . (3.13)
Entao, qualquer probabilidade P(Y y
) ate O(n
1
) e facilmente calculada como
1 (u
), com o quantil u
(Y
2
1)
1
72
(3Y
3
8Y
2
+ 5Y ) .
Assim, a variavel transformada p(Y ) acima tem distribuicao N(0, 1) com erro O(
3/2
).
A expansao formal de Edgeworth para a distribuicao de P(Z z) segue de (3.10) como
P(Z z) = (y) (y)
_
y
2
1
6
+
y
5
7y
3
+ 3y
72
_
+O(
3/2
),
sendo y = (z + 0, 5)/
de Y
como funcao dos correspondentes quantis u
em termos do quantil u
= u
+ g(y
) pode ser
expandido em termos de u
como
y
= g(u
) +
Dg
2
(u
)
2!
+
D
2
g
3
(u
)
3!
+ (3.14)
Identicando o polinomio g(y
) = y
p(y
em funcao de u
ate O(n
1
)
22
o
= u
+
3
6
n
(u
2
1)
2
3
36n
(2u
3
5u
) +
4
24n
(u
3
3u
). (3.15)
A importancia da inversao de Cornish-Fisher (3.15) na inferencia e possibilitar o
calculo dos quantis de estatsticas em termos dos quantis correspondentes da distribuicao
normal reduzida, conforme ilustra o exemplo abaixo.
Exemplo 3.5 Suponha que Z
2
n
e seja Y = (Z n)/
2 e
4
= 12. Logo,
P(Z z
) = P(Y (z
n)/
= n +
2n
_
u
2
3
n
(u
2
1) +
1
18n
(u
3
7u
)
_
.
A Tabela 3.3 (Barndor-Nielsen e Cox, 1990, p.119) mostra a adequacao das aprox-
imacoes para z
)
e aquelas incluindo os termos O(n
1/2
) e O(n
1
). Observa-se desta tabela que a correcao
O(n
1/2
) ja melhora substancialmente a aproximacao normal, sendo que esta aproximacao
e ruim mesmo para n = 100, ao nvel de signicancia de 1%.
Tabela 3.3: Comparacao das expansoes de Cornish-Fisher para os quantis da
2
n
Expansoes ate
n Exato O(1) O(n
1/2
) O(n
1
)
5 15,09 12,36 15,20 15,07
10 23,21 20,40 23,34 23,25
0,01 50 76,15 73,26 76,20 76,16
100 135,81 132,90 135,84 135,81
5 9,24 9,65 9,48 9,24
10 15,99 15,73 16,16 15,99
0,10 50 63,17 62,82 63,24 63,16
100 118,50 118,12 118,55 118,50
70 Introducao `a Teoria Assintotica Gauss M. Cordeiro
3.5 Expansoes Ponto de Sela
As expansoes ponto de sela sao muito importantes na teoria assintotica para aproximar
com grande precisao as funcoes densidade e de distribuicao, sendo facilmente deduzidas
da func ao geratriz de cumulantes correspondente.
SejamY
1
, . . . , Y
n
variaveis aleatorias contnuas iid com funcao densidade f(y) e funcoes
geratrizes de momentos e cumulantes M(t) e K(t), respectivamente. Dene-se a famlia
exponencial conjugada de f(y), indexada por um parametro , por
f(y; ) = exp{y K()}f(y) . (3.16)
A famlia exponencial (3.16) reproduz exatamente a funcao densidade f(y) postulada para
os dados quando = 0. O divisor necessario para normalizar a expressao exp(y)f(y)
e igual ` a funcao geratriz de momentos M(t) de Y . A funcao geratriz de cumulantes
K(t; ) correspondente a (3.16) e expressa em termos daquela K(t) de Y por K(t; ) =
K(t +) K().
Sejam f
S
n
(s; ) e K
S
n
(t; ) as funcoes densidade e geratriz de cumulantes de S
n
rela-
tivas `a famlia (3.16). Tem-se K
S
n
(t; ) = nK(t +) nK() e, por inversao, vem
f
S
n
(s; ) = exp{s nK()}f
S
n
(s) (3.17)
sendo f
S
n
(s) = f
S
n
(s; 0).
As funcoes densidade de S
n
e S
n
correspondentes `a famlia (3.16) estao relacionadas
por
f
S
n
(s; ) = f
S
n
(y; )
1
_
nK
()
, (3.18)
onde y = {s nK
()}/
_
nK
(). Aproxima-se f
S
n
(y; ) pela expansao de Edgeworth
(3.9) escolhendo convenientemente y = 0 para anular o termo O(n
1/2
). Esta esco-
lha equivale a considerar a distribuicao em (3.16) denida por
que satisfaz a equacao
K
n
(0;
){nK
)}
1/2
. Agora, f
S
n
(0;
) segue de (3.9),
22
o
n
(0;
) =
1
2
{1 +M(
)} +O(n
2
), (3.19)
onde M() e um termo de ordem n
1
dado por
M() =
3
4
() 5
3
()
2
24n
, (3.20)
sendo
j
() = K
(j)
()/K
(2)
()
j/2
para j = 3 e 4 e K
(j)
() = d
j
K()/d
j
. Assim,
3
() e
4
() sao os cumulantes padronizados que medem a assimetria e a curtose da distribuicao
(3.16). O erro em (3.19) e O(n
2
), pois o polinomio correspondente a O(n
3/2
) e de ordem
mpar e se anula em zero.
Fazendo =
em (3.17), explicitando f
S
n
(s) e usando (3.18) e (3.19) vem
f
S
n
(s) =
exp{nK(
) s
}
_
2nK
(2)
(
)
{1 +M(
) +O(n
2
)} . (3.21)
A formula (3.21) para aproximar a funcao densidade de S
n
e denominada expansao ponto
de sela da soma e produz aproximacoes precisas para funcoes densidades baseadas nas
suas funcoes geratrizes de cumulantes. A terminologia e proveniente de uma deducao
alternativa atraves da integral de contorno que inverte na funcao geratriz de momentos
de S
n
(Daniels, 1954). Observe-se que o termo principal de (3.21) so depende da funcao
geratriz de cumulantes K(t) de Y . Esta formula e bem diferente da expansao de Edge-
worth (3.9). Primeiro, para usar (3.21) e necessario calcular, alem de
, a funcao geratriz
de cumulantes K(t) de Y e nao somente os seus 4 primeiros cumulantes. Entretanto, nas
aplicacoes isso nao apresenta grandes diculdades. O termo principal em (3.21) nao e
a funcao densidade da distribuicao normal N(0, 1) e, embora seja sempre positivo, nem
sempre integra um. Entretanto, este termo pode ser normalizado. A expansao (3.21) e
dada em potencias de n
1
, enquanto a expansao de Edgeworth e dada em potencias de
n
1/2
. Uma desvantagem de (3.21) e que nem sempre e facil integrar o seu lado direito
para obter uma aproximacao para a funcao de distribuicao de S
n
.
Verica-se de imediato que a expansao ponto de sela para S
n
num ponto qualquer w
segue expressao identica `a (3.21) com nK
(1)
(0) +
nwK
(2)
(0) no lugar de s e o radicando
72 Introducao `a Teoria Assintotica Gauss M. Cordeiro
sendo substituido por 2K
(2)
(
)/K
(2)
(0). Esta expansao constitui, em geral, uma melhor
aproximacao para a funcao densidade exata de S
n
do que (3.9), pois o erro e O(n
2
)
ao inves de O(n
3/2
). Entretanto, na expansao ponto de sela, o erro e multiplicativo,
enquanto na de Edgeworth e aditivo. A formula (3.21) e satisfeita mesmo para regioes
de grandes desvios da forma |s nE(Y )| b
n
, para b
n
xado, e em certos casos, mesmo
para todos os valores de s (Jensen, 1988). Na Secao 5.4 apresenta-se uma aproximacao
para a funcao densidade da EMV baseada em (3.21).
A expansao para a funcao densidade da media amostral Y
n
= S
n
/n segue diretamente
de (3.21) como
f
Y
n
(y) =
_
n
2K
(2)
(
)
_
1/2
exp[n{K(
y}]{1 +M(
) +O(n
2
)}, (3.22)
onde M() e obtido de (3.20). O termo principal em (3.22) e denominado aproximacao
ponto de sela para f
Y
n
(y). Assim, basta conhecer a funcao geratriz de cumulantes K(t)
comum de n variaveis aleatorias iid para se obter a aproximacao ponto de sela da funcao
densidade da media amostral dessas variaveis.
Exemplo 3.6 Sejam Y
1
, . . . , Y
n
variaveis aleatorias iid com distribuicao N(,
2
). A
funcao geratriz de cumulantes e K() = +
2
2
/2 e a EMV
e obtida de +
2
= s/n.
Tem-se K
(2)
(
) =
2
e K
(3)
() = K
(4)
() = 0 implicando M() = 0. Logo, obtem-se de
(3.21)
f
S
n
(s) =
exp{(s n)
2
/(2n
2
)}
2n
2
{1 +O(n
2
)}.
O termo principal da expressao acima e a funcao densidade da distribuicao N(n, n
2
)
de S
n
. Neste caso, a expansao ponto de sela reproduz a funcao densidade exata de S
n
.
Exemplo 3.7 Considere a situacao do exemplo 3.2 na qual Y
1
, . . . , Y
n
tem distribui cao
exponencial de media 1 e, entao, S
n
tem funcao densidade
S
n
(s) = s
n1
e
s
/(n 1)!.
Assim, M() = (1 )
1
e K() = log(1 ). A EMV
e
= 1 n/s, K(
) =
log(s/n) e K
(2)
(
) = s
2
/n
2
. O termo M(
) = 1/12n.
Logo, a expansao ponto de sela (3.21) implica
f
S
n
(s) =
s
n1
e
s
2e
n
n
n1/2
_
1
1
12n
+O(n
2
)
_
.
22
o
e
{nK(
)x
}
_
2nK
(2)
(
)
dx .
O calculo da integral acima e complicado e o leitor podera consultar Daniels (1987),
DiCiccio, Field e Fraser (1990), Barndor-Nielsen e Cox (1990, Secao 4.3) e Hinkley, Reid
e Snell (1991, Secao 12.4).
Pode-se demonstrar, com extensa algebra, que a expansao de P(S
n
s) ate termos
de ordem O(n
1
) quando s > nE(Y ), isto e, quando
> 0, e dada por (Daniels, 1987)
P(S
n
s) = exp(n
Ks
+ v
2
/2)
_
{1( v)}
_
1
3
v
3
6
n
+
1
n
_
4
v
4
24
+
2
3
v
6
72
__
+( v)
_
3
( v
2
1)
6
n
1
n
_
4
( v
3
v)
24
+
2
3
( v
5
v
3
+3 v)
72
___
,
(3.23)
onde
3
=
3
(
),
4
=
4
(
),
K = K(
) e v =
{nK
(2)
(
)}
1/2
. A aproximacao obtida de
(3.23) com apenas os termos de ordem O(
s + v
2
/2)
_
{H( v) ( v)}
_
1
3
v
3
6
n
_
+( v)
3
( v
2
1)
6
n
_
,
(3.24)
74 Introducao `a Teoria Assintotica Gauss M. Cordeiro
onde H(w) = 0, 1/2 e 1 quando w < 0, w = 0 e w > 0, respectivamente.
As equacoes (3.23) e (3.24) dependem do sinal de
, sendo (3.24) correta apenas ate
O(n
1/2
). Uma forma alternativa simples de obter P(S
n
s) ate O(n
1
), valida sobre
todo o intervalo de variacao de s, e devida a Lugannani e Rice (1980), que deduziram a
seguinte formula:
P(S
n
s) = ( r) +
_
1
r
1
v
_
( r), (3.25)
onde r = sinal(
)[2n{
) K(
)}]
1/2
, cujo erro e o(n
1
) uniformemente em s.
As quantidades r e v podem ser interpretadas como a razao de verossimilhanca sinali-
zada e a estatstica escore (vide Secao 4.3), respectivamente, para testar = 0 no modelo
exponencial (3.17) determinado por S
n
.
A aproximacao (3.25) e boa em quase todo o intervalo de variacao de s, exceto proximo
ao ponto s = E(S
n
) ou r = 0, onde deve ser substituda pelo seu limite, quando r 0,
dado por
P(S
n
s) =
1
2
+
3
6
2n
.
Os exemplos 3.8 e 3.9 e as Tabelas 3.4 e 3.5 correspondentes ilustram para as dis-
tribuicoes exponencial e uniforme, respectivamente, a adequacao das aproximacoes para
P(S
n
s) decorrentes de (3.23) incluindo os termos de ordens O(n
1/2
) e O(n
1
) e
aquela aproximacao dada por (3.25), onde estao expressos tambem os valores exatos de
P(S
n
s) para comparacao.
Exemplo 3.8 Suponha a distribuicao exponencial de media um e funcao densidade
f(y) = e
y
(y > 0). Tem-se K() = log(1 ). A Tabela 3.4 compara as tres aproxi-
macoes decorrentes de (3.23) e (3.25) e o valor exato de P(S
n
s) para n = 1, 5 e 10
e diversos valores de s. Observe-se que (3.25) fornece resultados excelentes mesmo para
n = 1.
Exemplo 3.9 Considere a distribuicao uniforme com funcao densidade f(y) =
1
2
(1
y 1) e K() = log{senh()/}. A Tabela 3.5 compara as tres aproximacoes decorrentes
de (3.23) e (3.25) e o valor exato de P(S
n
s) para n = 1, 3 e 10 e diversos valores de
s. Para n = 10, as aproximacoes (3.23) ate O(n
1
) e (3.25) praticamente se igualam aos
valores exatos.
22
o
/(1 e
)}
_
_
(1 ( v))
_
_
_
1
3
v
3
6
n
v
_
n
K
1
(e
1)
1
)
_
_
_
+( v)
_
_
_
3
( v
2
1)
6
n
+
1
_
n
K
1
(e
1)
1
)
_
_
_
_
_
,
(3.26)
com todas as quantidades ja denidas anteriormente.
A formula de Lugannani e Rice (3.25) pode ser aplicada no contexto discreto com as
correcoes de continuidade para
e v dadas por
nK
) = s 0, 5 e v = (1 e
){nK
(2)
(
)}
1/2
.
Exemplo 3.10 Ilustra-se na Tabela 3.6 o desempenho das equacoes (3.25) (com as
correcoes de continuidade acima) e (3.26) para aproximar P(S
n
s) no caso da dis-
tribuicao de Poisson com media , onde K() = (e
1), supondo = 0, 2, n = 1 e
= 1, n = 1, 5 e 10, e considerando varios valores de s. A Tabela 3.6 mostra que o
desempenho da formula (3.25) e excelente mesmo no caso discreto com n = 1.
Outros exemplos numericos apresentados por Daniels (1983, 1987) e Davison e Hinkley
(1988) sinalizam para o uso em inferencia da formula (3.25) no calculo aproximado de
probabilidades nao somente associadas com somas e medias de variaveis aleatorias mas
com in umeras distribuicoes contnuas e discretas.
22
o
0
e
zy
f(y)dy para z grande. A
funcao geratriz de momentos M(t) da distribuicao com funcao densidade f(y) sobre os
reais nao-negativos e dada por M(t) = L(t). Para funcoes f(y) bem comportadas, a
forma de L(z) para z grande e determinada pelos valores de f(y) proximos a y = 0.
Expandindo f(y) em serie de Taylor vem
f(y) =
r
f
(r)
(0)
y
r
r!
e, entao,
L(z) =
_
0
e
zy
_
r
f
(r)
(0)
y
r
r!
_
dy
ou
L(z) =
r
f
(r)
(0)
r!
_
0
e
zy
y
r
dy .
78 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Como a integral acima iguala r!/z
r+1
, obtem-se
L(z) =
r
f
(r)
(0)
z
r+1
=
f(0)
z
+
f
(0)
z
2
+ (3.27)
Exemplo 3.11 Considere a determinacao da expansao da integral da normal (z) =
1
_
z
(y)dy para z grande. Por simples mudanca de variaveis vem
(z) = 1 (z)
_
0
e
zt
e
t
2
/2
dt .
Fazendo f(t) = e
t
2
/2
e calculando a expansao da integral acima usando (3.27), tem-se
(z) = 1
(z)
z
_
1
1
z
2
+
3
z
4
7
2z
6
+. . .
_
. (3.28)
Para z xado, o erro cometido no trunamento de (3.28) e menor do que o primeiro termo
omitido, embora a serie innita seja divergente. Claramente, xado o n umero de termos
em (3.28), a aproximacao melhora quando z cresce.
Considere agora que a integral a ser avaliada para z tem a forma
w(z) =
_
b
a
e
zr(y)
f(y)dy . (3.29)
O calculo da expansao da integral (3.29) para z grande e util para aproximar varias
integrais de interesse na Estatstica. A contribuicao principal para w(z) quando z e
grande vem dos valores de y proximos ao mnimo de r(y) que pode ocorrer em a ou b ou
no interior do intervalo (a, b). Suponha, inicialmente, que r(y) e minimizada em y (a, b)
e que r
( y) = 0, r
( y) > 0 e f( y) = 0. Tem-se,
w(z) =
_
b
a
exp{z r z(y y)
2
r
/2 }f(y)dy
com a convencao r = r( y), r
= r
( y),
f = f( y), etc. Ainda,
w(z) = e
z r
2
z r
_
+
f + (y y)
f
+. . .}
_
y y;
1
y r
_
dy ,
22
o
2
z r
f +
1
z
_
f
2 r
r
(3)
f
2 r
2
r
(4)
f
8 r
2
+
5( r
(3)
)
2
f
24 r
3
_
+O(z
2
)
_
. (3.30)
No caso de r(y) ser minimizada em y = a (ou b) e r
+O(z
2
)
_
.
Outros renamentos do metodo de Laplace incluindo a possibilidade de r(y) depender
fracamente de z sao apresentados no livro de Barndor-Nielsen e Cox (1990, Secao 3.3).
Exemplo 3.12 Seja o calculo da funcao gama (z + 1) =
_
0
x
z
e
x
dx para z grande.
Com a mudanca de variavel y = x/z vem
(z + 1) = z
z+1
_
0
exp(z log y zy)dy
que e exatamente da forma (3.29) com f(y) = 1 e r(y) = log y +y. Tem-se y = 1, r =
1, r
= 0, r
= 1, r
(3)
= 2 e r
(4)
= 6. Substituindo esses valores em (3.30) vem
(z + 1) =
2z
z+1/2
e
z
_
1 +
1
12z
+O(z
2
)
_
(3.31)
que e a expansao de Stirling. A aproximacao (3.31) e boa para z 1, 5.
3.7 Expansoes Assintoticas para Variaveis Aleatorias
Algumas vezes e mais facil aproximar as variaveis aleatorias de interesse diretamente
do que obter aproximacoes atraves de suas funcoes de distribuicao. Sejam X
0
, X
1
e X
2
variaveis aleatorias contnuas com funcoes densidade marginais nao dependentes de n e
tendo suporte em IR. Considere a seq uencia de variaveis aleatorias {Y
n
} denida quando
80 Introducao `a Teoria Assintotica Gauss M. Cordeiro
n por
Y
n
= X
0
+n
1/2
X
1
+n
1
X
2
+O
p
(n
3/2
) . (3.32)
Uma expansao como (3.32) e denominada expansao estocastica assintotica. Varios exem-
plos de expansoes do tipo (3.32) aparecem na literatura estatstica. O objetivo principal e
calcular a funcao de distribuicao F
n
(y) = P(Y
n
y) de Y
n
ate ordem n
1
em termos das
funcoes de distribuicao F
0
(y) = P(X
0
y) e densidade f
0
(y) =
dF
0
(y)
dy
de X
0
e de certos
valores esperados de X
1
e X
2
condicionados a X
0
= y. Expansoes estocasticas assintoticas
e expansoes assintoticas para funcoes de distribuicao sao equivalentes supondo a validade
de certas condicoes de regularidade, conforme determina o seguinte teorema de Cox e
Reid (1987):
Teorema de Cox e Reid
A funcao de distribuicao F
n
(y) da variavel aleatoria Y
n
denida por (3.32), supondo certas
condicoes gerais, e dada ate O(n
1
) por
F
n
(y) = F
0
(y){1 +n
1/2
a
1
(y) +n
1
a
2
(y)}, (3.33)
onde as funcoes a
1
(y) e a
2
(y) sao determinadas a partir das equacoes
F
0
(y)a
1
(y) = E(X
1
|X
0
= y) f
0
(y), (3.34)
F
0
(y)a
2
(y) = E(X
2
|X
0
= y) f
0
(y) +
1
2
y
{E(X
2
1
|X
0
= y)f
0
(y)} . (3.35)
A recproca do teorema acima e tambem verdadeira e pode-se construir Y
n
em (3.32) a
partir de (3.33) denindo convenientemente X
0
, X
1
e X
2
para satisfazer (3.34) (3.35). A
equivalencia entre as expansoes (3.32) e (3.33) e importante na teoria assintotica, conforme
sera mostrado nos dois exemplos seguintes e na Secao 5.7.
Exemplo 3.13 Como ilustracao da aplicabilidade do teorema de Cox e Reid mostra-se
como obter a expansao de Edgeworth (3.11) para a funcao de distribuicao de Y
n
a partir
da expansao de Cornish-Fisher (3.15) de Y
n
. Assim, a expansao estocastica assintotica
22
o
n
(U
2
1)
2
3
36n
(2U
3
5U) +
4
24n
(U
3
3U)
com U N(0, 1). Identicando X
0
= U, f
0
(y) = (y), X
1
=
3
(U
2
1)/6 e X
2
=
2
3
(2U
3
5U)/36 +
4
(U
3
3U)/24 vem
E(X
1
|U = y) =
3
(y
2
1)/6 ,
E(X
2
|U = y) =
2
3
(2y
3
5y)/36 +
4
(y
3
3y)/24 ,
E(X
2
1
|U = y) =
2
3
(y
2
1)
2
/36
e
y
{
2
3
(y
2
1)
2
(y)/36} =
2
3
(y
5
6y
3
+ 5y)(y)/36 .
Logo, de (3.34) e (3.35) obtem-se
F
0
(y)a
1
(y) =
3
(y
2
1)(y)/6
e
F
0
(y)a
2
(y) = {
4
(y
3
3y)/24 +
2
3
(2y
3
5y)/36}(y)
2
3
(y
5
6y
3
+ 5y)(y)/72
ou
F
0
(y)a
2
(y) =
4
H
3
(y)(y)/24
2
3
H
5
(y)(y)/72 .
Finalmente, substituindo-se em (3.33) chega-se `a expansao de Edgeworth (3.11).
Exemplo 3.14 Suponha a variavel aleatoria qui-quadrado padronizada Y
n
= (
2
n
n)/
2 e
4
= 12 (vide exemplo 3.5).
Mostra-se aqui como se obtem a inversao de Cornish-Fisher para Y
n
a partir da expansao
de Edgeworth para a sua funcao de distribuicao e do teorema de Cox e Reid. A expansao
para a funcao de distribuicao de Y
n
ate O(n
1
) segue de (3.11) como
F
n
(y) = (y) (y)
_
2
3
n
H
2
(y) +
1
2n
H
3
(y) +
1
9n
H
5
(y)
_
.
82 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Dene-se X
0
= U N(0, 1) e, entao, f
0
(y) = (y). Consideram-se X
1
e X
2
como
funcoes dependentes apenas de U, X
1
=
1
(U) e X
2
=
2
(U), a serem determinadas.
Comparando os termos de ordem O(n
1/2
) da expansao acima e de (3.33), obtem-se de
(3.34)
(y)
2
3
H
2
(y) = E{
1
(U)|U = y}(y) =
1
(y)(y).
Logo, X
1
=
2
3
(U
2
1). Analogamente, comparando os termos de ordem O(n
1
), obtem-se
de (3.35)
(y)
_
1
2
H
3
(y) +
1
9
H
5
(y)
_
= E{X
2
|U = y}(y) +
1
2
y
_
2
9
(y
2
1)
2
(y)
_
=
2
(y)(y) +
1
9
{(y
2
1)
2
y + 4y(y
2
1)}(y).
Assim,
2
(y) =
1
2
H
3
(y) +
1
9
H
5
(y) +
1
9
{(y
2
1)
2
y + 4y(y
2
1)}
que pela substituicao dos polinomios de Hermite reduz-se a
2
(y) =
1
18
(y
3
7y). Final-
mente, X
2
=
1
18
(U
3
7U) e a formula (3.32) do teorema de Cox e Reid implica
Y = U +
2
3
n
(U
2
1) +
1
18n
(U
3
7U) .
Este resultado e identico `aquele obtido no exemplo 3.5 usando diretamente a formula da
inversao de Cornish-Fisher.
3.8 Expansoes por Metodos Diretos
Muitas expansoes do tipo (3.1) podem ser deduzidas para funcoes densidade e de dis-
tribuicao e para funcoes geratrizes de momentos e cumulantes atraves dos metodos dire-
tos, que consistem em padronizar a variavel aleatoria de interesse e expandir as funcoes
matematicas que dependem de n. Algumas vezes e mais conveniente expandir as funcoes
geratrizes de momentos ou cumulantes e depois inverter termo a termo para obter as ex-
pansoes das funcoes de distribuicao e densidade. A seguir, apresentam-se alguns exemplos
de expansoes deduzidas pelos metodos diretos.
22
o
n(
n
2
)
(1 +y
2
/n)
(n+1)/2
, y IR .
A variavel aleatoria t de Student tem media zero e variancia diferente de um, mas pode-se
obter a expansao de log g
n
(y) a partir das expansoes calculadas diretamente
log
_
1 +
y
2
n
_
=
y
2
n
+
y
4
2n
2
+
(y
2
)
j
jn
j
+ ,
1
2
(n + 1) log
_
1 +
y
2
n
_
=
y
2
2
+
j(y
2
)
j+1
+ (j + 1)(y
2
)
j
2j(j + 1)n
j
+
e de
log
_
(
n+1
2
)
(
n
2
)
_
=
1
2
log
_
n
2
_
1
4n
+
1
24n
3
1
20n
5
+
obtida da expansao de Stirling para log (n + 1). Assim,
log g
n
(y) =
1
2
log(2)
y
2
2
+
1
4n
(y
4
2y
2
1)
1
12n
2
(2y
6
3y
4
) +
1
24n
3
(3y
8
4y
6
+ 1) +O(n
4
) .
Tomando a exponencial da expressao anterior, obtem-se
g
n
(y) = (y)
_
1 +
1
4n
(y
4
2y
2
1) +
1
96n
2
(3y
8
16y
6
12y
5
+ 18y
4
+ 12y
2
+ 12y
2
+ 12y + 3) +O(n
3
)
_
.
(3.36)
Da expansao (3.36) verica-se facilmente que a distribuicao t de Student tende para a
distribuicao normal reduzida quando n .
Exemplo 3.16 A distribuicao de Poisson P() pode ser considerada como o limite da
distribuicao binomial B(n, ) fazendo n , 0 com n = xado. O logaritmo
da probabilidade
r
de r sucessos na distribuicao binomial e dado por (r xo)
84 Introducao `a Teoria Assintotica Gauss M. Cordeiro
log
r
= log
_
r
r!
_
+ (n r) log
_
1
n
_
+ log
_
1
1
n
_
+ log
_
1
(r 1)
n
_
= log
_
r
r!
_
+
1
n
_
r
2
2
r
2
2
+
r
2
_
+O(n
2
) .
Entao,
r
=
e
r
r!
_
1 +
1
n
_
r
2
2
r
2
2
+
r
2
_
+O(n
2
)
_
. (3.37)
A expansao (3.37) mostra que a probabilidade da distribuicao binomial e aproximada por
uma probabilidade associada `a distribuicao de Poisson, com erro O(n
2
).
3.9 Expansoes de Funcoes Nao-Lineares
Nas secoes anteriores, a discussao se referia a somas (ou medias) de variaveis aleatorias
iid. Discute-se aqui uma generalizacao util nas aplicacoes da teoria assintotica referente
a uma funcao nao-linear de uma soma (ou media) de variaveis aleatorias independentes.
Por exemplo, a EMV em muitos problemas e uma funcao nao-linear da soma (ou media)
das observacoes.
Seja T
n
uma estatstica qualquer tal que T
n
P
e suponha que
n(T
n
) tem
distribuicao normal N(0, 1) assintotica. Admite-se que
n(T
n
) tem uma expansao de
Edgeworth do tipo (3.33) calculada a partir dos quatro primeiros momentos de T
n
. Neste
caso, o teorema de Cox e Reid (Secao 3.7) garante que e possvel encontrar, a partir das
equacoes (3.34) (3.35), as funcoes
1
() e
2
() de uma variavel aleatoria X N(0, 1)
tal que
n(T
n
) = X +
1
(X)
n
+
2
(X)
n
+O
p
(n
3/2
) .
Seja g(t) uma funcao nao-linear de t bem comportada. Deseja-se obter a expansao
estocastica assintotica para
n{g(T
n
) g()} e calcular a expansao de sua funcao de
distribuicao. Tem-se que
g(T
n
) = g
_
+
X
n
+
1
(X)
n
+
2
(X)
n
n
+O
p
(n
2
)
_
.
22
o
n{g(T
n
) g()} = Xg
() +
_
1
(X)g
(X) +
1
2
X
2
g
()
_
/
n
+
_
2
(X)g
() +X
1
(X)g
() +
1
6
X
3
g
()
_
/n +O
p
(n
3/2
) .
(3.38)
A equacao (3.38) representa uma expansao estocastica assintotica do tipo (3.32) com
X
0
= Xg
(), X
1
=
1
(X)g
(X)+
1
2
X
2
g
() e X
2
=
2
(X)g
()+X
1
(X)g
()+
1
6
X
3
g
()
e, portanto, admite uma expansao de Edgeworth do tipo (3.33), cujas funcoes a
1
() e a
2
()
podem ser deduzidas com algum algebrismo das equacoes (3.34) (3.35). Resumindo,
funcoes nao-lineares de estatsticas que possuem expansoes de Edgeworth admitem tais
expansoes que podem ser deduzidas do teorema de Cox e Reid.
3.10 Aproximacao Normal para Algumas Variaveis
Discretas
As aplicacoes das expansoes de Edgeworth e ponto de sela para variaveis aleatorias dis-
cretas envolvem o uso das correcoes de continuidade, que representa um metodo simples de
avaliar probabilidades quando uma distribuicao discreta e aproximada por uma contnua.
Em muitas aplicacoes, a distribuicao contnua que serve como aproximacao e a distribuicao
normal e o metodo consiste em aproximar uma probabilidade do tipo P(Y = y) de uma
distribuicao discreta por um intervalo correspondente P(y 0, 5 Y y + 0, 5) da
distribuicao normal supondo que Y varia de um em um. Similarmente, uma probabilidade
tal qual P(Y y) de uma distribuicao discreta pode ser aproximada por P(Y y +0, 5)
da distribuicao normal correspondente. O ajustamento de y pela adicao e subtracao de
0,5 e uma correcao de continuidade. A correcao objetiva transformar um ponto y de um
conjunto discreto, num intervalo [y 0, 5, y + 0, 5] contnuo, de modo que o valor aproxi-
mado da probabilidade pontual P(Y = y) seja obtido como uma area correspondente
ao intervalo unitario centrado em y e abaixo da funcao densidade usada na aproximacao
contnua. As distribuicoes discretas mais comuns onde sao aplicadas as correcoes de
continuidade sao: binomial, Poisson, binomial negativa e hipergeometrica. No que se
segue a probabilidade P = P(Y k|), onde representa parametros, e aproximada por
86 Introducao `a Teoria Assintotica Gauss M. Cordeiro
(u), onde u e uma funcao simples de k e e () e a funcao de distribuicao acumulada
da distribuicao N(0, 1).
Distribuicao Binomial
Se Y B(n, p), entao
P = P(Y k) =
k
j=0
_
n
j
_
p
j
(1 p)
nj
para k = 0, . . . , n. Pode-se usar P =((k+0, 5np)/(np(1p))
1/2
) quando min(p, 1p) >
5/n. Este resultado e valido assintoticamente quando n e k , de modo que
(y np)
3
/{np(1 p)}
2
0. O erro absoluto maximo desta aproximacao e menor do
que 0, 140
_
np(1 p). Um resultado aproximado equivalente e
P =
_
_
k np
_
np(1 p)
_
_
+
1
2
_
np(1 p)
_
_
k np
_
np(1 p)
_
_
,
onde () e a funcao densidade da distribuicao N(0, 1). Melhores aproximacoes para P
sao obtidas das equacoes
P =
_
2[{(k + 1)(1 p)}
1/2
{(n k)p}
1/2
]
_
(3.39)
ou
P =
_
{(4k + 3)(1 p)}
1/2
{(4n 4k 1)p}
1/2
_
. (3.40)
Usa-se (3.39) quando p 0, 05 ou p 0, 93 e (3.40) se 0, 05 < p < 0, 93. Uma aproximacao
mais precisa e dada por Pratt (1968): P(Y k) =(u), onde
u = d
_
1 +
(1 p)
np
g(k + 0, 5) +
p
n(1 p)
g(n k 0, 5)
_
1/2
__
n +
1
6
_
p(1 p)
_
1/2
(3.41)
com d = k +
2
3
(n +
1
3
)p e g(x) = (1 x
2
+ 2x log x)(1 x)
2
sendo g(1) = 0.
22
o
(k np)
2
2np(1 p)
_
.
Distribuicao de Poisson
Se Y P(), entao
P = P(Y k) =
k
j=0
e
j
j!
.
A probabilidade P acima pode ser computada exatamente a partir da funcao de dis-
tribuicao qui-quadrado usando
P = P(Y k) = P(
2
2(k+1)
2) .
A aproximacao classica para P e obtida do teorema central do limite como ((k + 0, 5
)
1/2
). Mesmo para grande sua precisao nao e boa: para = 30, k = 17, resulta
em 0, 0113 enquanto o valor exato e 0, 0073. Uma aproximacao mais precisa para P e
P = P(Y k) =1 (w), onde w = 3[(
k+1
)
1/3
1 +
1
9(k+1)
](k + 1)
1/2
, sendo baseada
na aproximacao de Wilson-Hilferty para a distribuicao qui-quadrado. Uma outra aprox-
imacao simples supoe que 2(
1/2
}) (3.42)
e
P =((4k + 3)
1/2
2
1/2
) . (3.43)
A aproximacao (3.42) e bastante adequada proximo aos nveis de signicancia usuais
enquanto (3.43) funciona melhor se 0, 05 < P < 0, 93. Uma aproximacao alternativa para
88 Introducao `a Teoria Assintotica Gauss M. Cordeiro
P pode ser deduzida da expansao (3.13) de Cornish-Fisher. Assim, P = P(Y k) =(u),
onde u segue do exemplo 3.4 como u = p(w) e w = (k + 0, 5 )/
1/2
. Entretanto, a
aproximacao mais precisa para P = P(Y k) segue de P =(u) com
z =
__
k +
2
3
+
k + 1
_
{1 +g[(k + 0, 5)/]}
1/2
1/2
_
,
onde g(x) foi denido logo apos a equacao (3.41). A constante so e relevante para
pequeno e pode ser considerada igual a 0,02 ou, se nas extremidades, igual a 0,022. Esta
aproximacao tem erro de ordem
3/2
uniformemente em k, com alguma deteriorac ao no
caso trivial k = 0, onde P = e
_
_
k 0, 5
_
.
Se k e grande, atraves da aproximacao de Stirling para (k + 1) = k!, obtem-se
P(Y = k) =
e
k
2k
_
k
_
k _
1 +
1
12k
+O(k
2
)
_
.
Distribuicao Binomial Negativa
A distribuicao binomial negativa B
j=0
_
s +j 1
j
_
p
s
(1 p)
j
,
22
o
s arcsenh(
_
Y/s), tendo Z, aproximadamente, distribuicao normal N(0, 1).
Distribuicao Hipergeometrica
Considere uma populacao de N elementos classicada em S sucessos e N S fracassos.
Retira-se desta populacao, sem reposicao, uma amostra de n indivduos. O n umero Y
de sucessos nesta amostra tem distribuicao hipergeometrica de parametros (S, n, N) com
funcao de probabilidade
P(Y = k) =
_
S
k
__
N S
n k
_
_
N
n
_ (3.44)
para k = 0, 1, . . . , min(S, n). Demonstra-se que = E(Y ) = np e
2
= Var(Y ) =
np(1p)
(Nn)
(N1)
, onde p = S/N. Uma aproximacao para a funcao de distribuicao de (3.44)
e dada por
P = P(Y k) =((k + 0, 5 )/) .
Sejam = np(1p)(1
n
N
), w = (k+0, 5)/ e v = (k+0, 5)/. Demonstra-se que
Y tem distribuicao assintoticamente normal quando N se, e somente se,
e . A aproximacao (v) para P e melhor do que (w), e esta correta ate ordem
O(
1
). Uma aproximacao aperfeicoada para P, correta ate O(
2
), e P =(u), onde
u = v +
(1 v
2
)(N 2S)(N 2n)
6N
2
+
v{N
2
3S(N S)}
48N
2
2
.
As probabilidades pontuais (3.44) podem ser aproximadas pelas distribuicoes binomial
e de Poisson. Usando a distribuicao binomial, tem-se como primeira aproximacao, quando
n < 0, 1N,
P(Y = k) =
_
n
k
_
p
k
(1 p)
nk
.
90 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Uma melhoria nesta aproximacao pode ser conseguida substituindo n e p por n
= np/p
e p
= {(n 1) +(N n)p}/(N 1). Uma aproximacao assintotica cujo termo principal
e a distribuicao binomial e dada por
P(Y = k) =
_
n
k
_
p
k
(1 p)
nk
_
1 +
{k (k np)
2
}
2Np
+O
_
1
N
2
p
2
__
.
Se n > Np, uma expansao melhor e obtida permutando n e NP. Quando p e pequeno e
n e grande, pode-se usar a distribuicao de Poisson como aproximacao tal qual
P(Y = k) =
e
np
(np)
k
k!
_
1 +
_
1
2Np
+
1
2n
_
{k (k np)
2
} +O
_
1
k
2
+
1
n
2
_
_
.
3.11 Exerccios
1. Calcule a funcao de distribuicao da soma S
n
de 3, 4, 5 e 6 variaveis aleatorias
uniformes em (0, 1). Compare numericamente as probabilidades P(S
n
s) exatas
com aquelas obtidas das expansoes de Edgeworth ate O(n
1/2
) e O(n
1
), fazendo s
igual a um, dois e tres desvios padrao acima da media de S
n
.
2. Seja
2
r,
2
uma variavel aleatoria qui-quadrado nao-central, com r graus de liberdade
e parametro de nao-centralidade
2
, cuja funcao geratriz de momentos e M(t) =
(1 2t)
1/(2r)
exp{t
2
(1 2t)
1
}.
(a) Demonstre por expansao direta que
M(t) = (1 2t)
1/2r
_
1 +t
2
(1 2t)
1
+
1
2
t
2
4
(1 2t)
2
+O(
6
)
_
;
(b) Demonstre por inversao de M(t), que a funcao densidade f(y; r,
2
) da
variavel
2
r,
2
pode ser expandida em termos da funcao densidade f
r
(y) de uma
variavel aleatoria qui-quadrado central
2
r
, com r graus de liberdade, como
f(y; r,
2
) = f
r
(y) +
2
2
{f
r
(y) f
r+2
(y)}
+
4
8
{f
r
(y) 2f
r+2
(y) +f
r+4
(y)} +O(
6
).
22
o
i=1
Y
i
pode ser expressa por
f
S
n
(s;
0
) =
exp[(
0
)s +n{K(
) K(
0
)}]
_
2n K
)
{1 +O(n
1
)} .
4. Deduza a expansao de Edgeworth para a convolucao S
n
de n variaveis aleatorias
iid cuja funcao de distribuicao e F(y) = (
y
/y, = {log(1 )}
1
, 0 < < 1 e y = 1, 2, . . . Faca = 0, 2, 0, 4, 0, 6
e 0, 8 e s = 5E(y) + k
5Var(Y )
1/2
, onde k = 0, 1 e 2, E(Y ) = /(1 ) e
Var(Y ) = (1 )/(1 )
2
.
6. Demonstre que para a distribuicao gama, cuja funcao densidade e f(y) =
r
y
r1
e
y
/(y), tem-se
lim
r
P
_
(Y r)
r
y
_
= (y) .
7. Demonstre as expansoes abaixo:
(a) (n + 1) =
2(n + 1)
n+0,5
e
n1
_
1 +
1
12(n + 1)
+
1
288(n + 1)
2
_
;
(b) (n + 0, 5) =
2n
n
e
n
exp
_
1
24n
+
7
2880n
3
+O(n
5
)
_
.
8. Demonstre que a funcao de distribuicao da
2
n
pode ser expressa da expansao de
92 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Gram-Charlier como
F
2
n
(y) = (y)
1
6
(3)
(y) +
2
24
(4)
(y) ,
onde
1
=
128/(27n
n),
2
= 4/(9n) 64/(81n
2
) e
(k)
(y) =
d
k
(y)
dy
k
.
9. Calcule a expansao ponto de sela para a soma de n variaveis aleatorias binomiais
B(m
j
, ) com a mesma probabilidade de sucesso mas com ndices m
1
, . . . , m
n
diferentes.
Captulo 4
Teoria Assintotica de Primeira
Ordem
4.1 Fundamentos
Neste captulo apresenta-se a teoria assintotica de primeira ordem denida na inferencia
estatstica dos modelos parametricos supondo que a informacao e grande. Nesta teoria os
resultados sao validos somente quando n e decorrem de tecnicas de linearizacao
local baseadas nas expansoes em serie de Taylor e nos teoremas centrais do limite. Em
especial, a funcao escore sendo uma soma de componentes independentes tem assintoti-
camente distribuicao normal. A linearizacao local relaciona a distribuicao da EMV com
a distribuicao da funcao escore, implicando que a EMV tambem tem assintoticamente
distribuicao normal. A teoria assintotica de primeira ordem produz uma variedade de
metodos e testes estatsticos que sao equivalentes somente ate esta ordem mas diferem
por quantidades de ordem inferior.
A teoria assintotica de primeira ordem geralmente admite que o n umero de observacoes
n cresce mas a dimensao do vetor de parametros p se mantem constante. Ela e impor-
tante porque produz simplicacoes consideraveis para problemas em grandes amostras,
implicando resultados simples e elegantes. Ao contrario, a teoria em pequenas amostras e
extremamente complicada e as solucoes exatas tem alto grau de complexidade. O ponto
fundamental a favor da teoria assintotica de primeira ordem e que as solucoes aproxi-
madas mostram-se, em geral, bastante razoaveis mesmo quando n nao e grande. Esta
93
94 Introducao `a Teoria Assintotica Gauss M. Cordeiro
teoria e importante por dois motivos bem distintos. O primeiro surge quando nao se tem
em princpio uma solucao exata para o problema estatstico ou quando a solucao exata e
muito complicada. Entao, pode ser muito mais vantajoso obter uma aproximacao simples
em grandes amostras para alcancar objetivos praticos ou para se ter mais informacao
sobre a solucao exata do problema. O segundo motivo, o mais freq uente, revela o seu
papel central na inferencia estatstica quando o problema realmente nao tem solucao ex-
ata, como, por exemplo, quando nao existe uma regiao de conanca exata ou um teste
otimo para o parametro de interesse. Entao, torna-se natural e inevitavel obter solucoes
aproximadas supondo que o n umero de observacoes e grande.
Nesta secao apresentam-se alguns criterios mais comuns (erro medio quadratico
e eciencia) para selecionar as estimativas dos parametros nos modelos estatsticos e
estudam-se as propriedades assintoticas de maior interesse das EMV, tais como, con-
sistencia, unicidade, normalidade, eciencia e suciencia. Estas propriedades sao validas
somente quando n e formam a base da teoria assintotica de primeira ordem com
o objetivo de se fazer inferencia.
4.1.1 Erro Medio Quadratico
Considera-se aqui apenas o caso uniparametrico (p = 1). O erro medio quadratico (EMQ)
e uma das medidas preferidas para medir o desempenho de uma estimativa T de um escalar
, sendo denido por
EMQ(T) = E{(T )
2
} = Var(T) +B()
2
,
onde B() = E(T) e o vies de T. Em geral, tem-se interesse em estimativas nao-
viesadas (B() = 0) de variancia mnima (NVVM) visando reduzir o EMQ. Entretanto,
em muitas situacoes, pode-se preferir uma estimativa cujas quantidades B() e Var(T) sao
pequenas a uma outra estimativa nao-viesada mas de variancia apreciavel. As estimativas
de EMQ mnimo nao sao muito usadas face a diculdades em minimizar o EMQ sem
restricoes adicionais. Entretanto, existe uma teoria elegante para as estimativas NVVM
que tornam estas estimativas atraentes. O EMQ fornece um limite superior para a proba-
bilidade de que o erro absoluto de estimacao exceda uma determinada quantidade pois,
22
o
E obvio que quanto menor for a variancia de uma estimativa nao-viesada, maior sera a
chance desta estimativa estar proxima do parametro verdadeiro. Uma propriedade de-
sejavel e que a variancia de uma estimativa nao-viesada seja tao pequena quanto possvel.
Esta propriedade conduz a estimativas mais ecientes. Na estimacao de um escalar ,
uma estimativa T e mais eciente do que uma outra T
). A eciencia relativa de T
em relacao a
T e expressa pelo quociente e(T
, T) = EMQ(T)/EMQ(T
) e geralmente depende de .
No caso de estimativas nao-visadas, a eciencia reduz-se ao quociente das variancias das
estimativas e, entao, a estimativa NVVM e a mais eciente. Felizmente, em problemas
regulares, existe um limite inferior tal que a variancia de uma estimativa nao pode ser
menor do que este limite. Para qualquer estimativa T de um parametro cujo vies e
B(), a sua variancia satisfaz Var(T) {1+B
()}
2
/K(), onde B
() = dB()/d. Esta
expressao e conhecida como desigualdade de Cramer-Rao. Se a estimativa e nao-viesada,
a variancia mnima se iguala ao inverso da informacao.
Se uma estimativa T tem esperanca E(T) = (), a desigualdade de Cramer-Rao
passa a ser Var(T)
()
2
/K(). Claro que a forma anterior e um caso especial desta
desigualdade. Entao, a eciencia absoluta de uma estimativa nao-viesada T de ()
e denida por e(T) = {Var(T)K()/
()
2
}
1
sendo evidentemente menor ou igual a
um. Se e(T) = 1 a estimativa T e eciente. Quando () = , a eciencia reduz-se a
e(T) = {Var(T)K()}
1
. A EMV
de e assintoticamente eciente.
Uma condicao necessaria e suciente para que uma estimativa nao-viesada T de ()
96 Introducao `a Teoria Assintotica Gauss M. Cordeiro
seja eciente (isto e, o limite de Cramer-Rao seja alcancado) e que a funcao escore seja
fatorada como
U() =
K()
()
{T ()} . (4.1)
Caso T seja nao-viesada para , (4.1) simplica-se para U() = K()(T ). Pode-
se provar ainda que existe uma estimativa T do escalar () de variancia mnima se, e
somente se, os dados tem distribuicao na famlia exponencial uniparametrica dada por
f(y; ) = exp{a(y)c() b() +d(y)}. (4.2)
)T +D(
()
2
/K(). No sentido inverso, quando (4.1) for satisfeita, (4.2) sera vericada
e, obviamente, existira uma estatstica suciente para . Constata-se ainda comparando
(4.1) com a equacao U() = M(s, ) que a condicao de suciencia e bem menos restritiva
que a condicao de existencia da estimativa NVVM.
22
o
i
s sao realizacoes iid de uma variavel aleatoria Y caracterizada
por distribuicoes P
implica P
= P
;
(ii) as distribuicoes P
3
log f(y; )
< M
ijk
(y)
para todo
1
, onde E
0
{M
ijk
(Y )} < .
A condicao (iii) representa a existencia de
1
e de derivadas de f(y; ) ate terceira
ordem em
1
, a (iv) que a matriz de informacao e nita e positiva denida numa vizin-
hanca aberta de
0
e a (v) que as terceiras derivadas da log-verossimilhanca sao limitadas
por uma funcao integravel de Y cuja esperanca e nita.
4.1.4 Consistencia
Usualmente, uma estimativa e funcao (explcita ou implcita) do tamanho da amostra n
e, pelo menos intuitivamente, espera-se que a precisao desta estimativa aumente quando
n . Neste sentido, uma estimativa T
n
e chamada de consistente para um parametro
se EMQ(T
n
) 0 quando n . A grande maioria dos metodos de estimacao,
como o metodo de maxima verossimilhanca, produz estimativas consistentes segundo cer-
tas condicoes de regularidade. Geralmente, duas denicoes de consistencia sao usadas
amplamente na teoria assintotica. Sejam estimativas T
n
baseadas em variaveis aleatorias
iid, Y
1
, . . . , Y
n
. Diz-se que T
n
e: (a) fracamente consistente para se T
n
= + o
p
(1); (b)
fortemente consistente para se T
n
= + o(1) com probabilidade um. A consistencia
fraca (forte) ocorre quando T
n
satisfaz `a lei fraca (forte) dos grandes n umeros. Entao,
T
n
e fracamente ou fortemente consistente para se lim
n
P
(|T
n
| ) = 0, > 0
ou P
( lim
n
T
n
= ) = 1, respectivamente. Uma propriedade importante da EMV e a
consistencia (forte) supondo validas algumas condicoes de regularidade da Secao 4.1.3.
22
o
) () (4.3)
para todo . Por causa da igualdade em (4.3), a seq uencia de valores de
quando
n podera nao ser univocamente determinada. Mostra-se aqui que se as condic oes de
regularidade (i) (ii) da Secao 4.1.3 sao validas e e nito, entao a EMV
e (fortemente)
consistente para o parametro verdadeiro
0
(
q.c.
0
), ou seja, P
0
_
lim
n
=
0
_
= 1. Uma
versao simplicada da demonstracao usa a desigualdade de Jensen E{(Z)} (E(Z))
valida quando (Z) e uma funcao concava denida em IR e Z e uma variavel aleatoria
integravel. Como a funcao logaritmo e estritamente concava, pode-se aplica-la `a variavel
aleatoria L()/L(
0
) para obter
E
0
_
log
_
L()
L(
0
)
__
< log
_
E
0
_
L()
L(
0
)
__
,
para todo =
0
, onde E
0
signica o operador esperanca matematica segundo o parametro
0
. Mas E
0
{L()/L(
0
)} = 1 e, portanto, E
0
{()} < E
0
{(
0
)} para todo =
0
. A
essencia da demonstracao da consistencia de
e que (4.3) e E
0
{()} < E
0
{(
0
)} sao
incompatveis a menos que
convirja para
0
. Pela lei (forte) dos grandes n umeros
n
1
() = n
1
log f(y
i
; ) converge para n
1
E
0
{()} quando n . Logo, por
causa de E
0
{()} < E
0
{(
0
)} vem
lim
n
P
0
(() < (
0
)) = 1, =
0
. (4.4)
O limite em (4.4) especica que, para n grande, a log-verossimilhanca em
0
excede
o seu valor em qualquer outro ponto =
0
, com probabilidade proxima de um. Os
resultados (4.4) e (4.3) com =
0
so nao serao incompatveis para n grande se
P
0
_
lim
n
L(
) = L(
0
)
_
= 1 for satisfeita. As condicoes (i) (ii) e a nitude de
permitem concluir que P
0
_
lim
n
=
0
_
= 1, ou seja,
e (fortemente) consistente para
0
.
Se for innito ou mesmo innito enumeravel nao se pode deduzir a consistencia
100 Introducao `a Teoria Assintotica Gauss M. Cordeiro
(forte) de
diretamente de (4.4) sem as suposicoes (iii) (v) da secao anterior. Assim,
prova-se agora a consistencia (forte) da EMV
, supondo que as condicoes de regularidade
(i) (v) sao satisfeitas, a partir do resultado (4.4) na situacao geral de innito. Como
a log-verossimilhanca e diferenciavel por (iii), obtem-se por expansao de (
) em serie de
Taylor ate segunda ordem
(
) = (
0
) +U(
0
)(
0
)
1
2
(
0
)
T
J(
)(
0
) (4.5)
onde J() e a informacao observada (Secao 1.3) para e
e
0
. Como U(
0
) e J(
)
q.c.
K(
)
q.c.
(
0
). Deste modo, a forma quadratica em (4.5) deve aproximar-se de zero
quando n cresce e, forcosamente,
q.c.
0
. Entao, demonstrou-se a consistencia (forte)
de qualquer seq uencia de estimativas
obtidas segundo (4.3).
Segundo as condicoes (i) (v) pode-se tambem demonstrar que, com probabilidade
tendendo a um quando n , existe pelo menos uma seq uencia de solucoes
da
equacao de maxima verossimilhanca U() = 0 tal que
q.c.
0
, ou seja,
e fortemente
consistente para
0
. A prova formal, entretanto, e bastante complicada e sera omitida
aqui. Se as observacoes forem independentes mas nao identicamente distribudas, muitos
dos argumentos usados anteriormente continuarao valendo aplicando-se a lei fraca dos
grandes n umeros.
4.1.5 Unicidade Assintotica
Segundo as condicoes gerais (i) (v) pode-se demonstrar a unicidade assintotica de
,
isto e, para n grande existe uma unica EMV de
0
. Em outras palavras, para grandes
amostras a log-verossimilhanca se torna estritamente concava. Antes de demonstrar a
existencia de uma unica EMV para
0
quando n mostra-se que para n grande
) = U(
0
) J(
)(
0
) . (4.6)
Os dois termos no lado direito de (4.6) tendem a zero quando n ; o primeiro
pela lei forte dos grandes n umeros e o segundo pela consistencia da EMV. Logo, para n
grande,
e uma solucao de U() = 0. Como as observacoes sao iid pode-se considerar
K() = nk(), para todo , onde k() (> 0 por (iv)) e a matriz de informacao para
relativa a uma unica observacao. Pela consistencia forte de
vem n
1
J(
)
q.c.
n
1
J(
0
)
e, pela lei forte dos grandes n umeros, n
1
J(
0
) converge com probabilidade um para
k(
0
) > 0. A conjuncao dos dois resultados implica que qualquer EMV
deve vericar
lim
n
P
0
(J(
) > 0) = 1, (4.7)
de onde se conclui que
corresponde, com probabilidade um, a um maximo local de
U() = 0. Prova-se agora facilmente a unicidade assintotica de
. Para n grande, se (4.3)
produzisse duas EMV
um ponto de
mnimo consistente para
0
(
q.c.
0
) satisfazendo J() < 0. Mas isto violaria (iv), pois
para n grande, J() deve ser positiva denida para
1
. Como a ocorrencia de dois
maximos locais consistentes implica uma contradicao ca provada a unicidade da EMV
em grandes amostras.
Em geral, no caso multiparametrico p 2, mesmo que U() = 0 tenha solucao unica
nao implica que ela seja a EMV de que pode ate mesmo nem existir. Contudo, no
caso uniparametrico (p = 1), se a solucao da equacao de MV for unica, a probabilidade
de que esta solucao seja a EMV tendera para um quando n . Havera unicidade
das equacoes de MV quando f(y; ) for uma distribuicao nao-degenerada pertencente `a
famlia exponencial com p parametros (Secao 1.5), pois () sera estritamente concava.
102 Introducao `a Teoria Assintotica Gauss M. Cordeiro
4.1.6 Normalidade Assintotica
Considere n observacoes iid, supondo validas as condicoes de regularidade (i) (v) da
Secao 4.1.3. Se
e uma solucao consistente da equacao de maxima verossimilhanca
U() = 0, entao
n(
0
)
D
N
p
(0, k(
0
)
1
), (4.8)
ou seja, em grandes amostras, a distribuicao de
e aproximadamente normal p-dimen-
sional com media
0
e matriz de covariancia K(
0
)
1
= n
1
k(
0
)
1
. Cramer (1946, Secao
33.3) e Lehmann (1935, Secao 6.4) apresentam demonstracoes rigorosas da convergencia
(4.8) para p = 1 e p 1, respectivamente. Mostra-se inicialmente a demonstracao de
(4.8) no caso uniparametrico. As condicoes gerais de regularidade garantem a expansao
de U(
(
0
)(
0
) +
1
2
U
)(
0
)
2
= 0,
onde |
0
| < |
0
| e, portanto,
(
0
) = O
p
(n), U
) = O
p
(n) e
0
= O
p
(n
1/2
). Como U(
0
) e U
(
0
) sao somas
de variaveis aleatorias iid, a expansao anterior implica
n(
0
)
_
i=1
U
i
(
0
)
nk(
0
)
+O
p
(n
1/2
)
_
_
=
n
i=1
U
i
(
0
)
nk(
0
)
.
Pela lei fraca dos grandes n umeros
n
i=1
U
i
(
0
)/{nk(
0
)} = 1 +o
p
(1). Logo,
n(
0
){1 +o
p
(1)} =
n
i=1
U
i
(
0
)
nk(
0
)
. (4.9)
Observe-se que (4.9) e o caso uniparametrico da aproximacao (1.15), a ultima equacao
sem o erro estocastico. Aplicando o teorema central do limite `a soma estocastica do lado
direito de (4.9) e por (iv) prova-se a convergencia (4.8).
22
o
n(
0
){1 +o
p
(1)} =
1
n
k(
0
)
1
U(
0
), (4.10)
onde k() = n
1
K() e a matriz de informacao para uma unica observacao. De (4.10) e
(iv) e facil checar que
tem media assintotica zero e estrutura de covariancia assintotica
dada por Cov(
) = K(
0
)
1
. Entao, a normalidade p-dimensional assintotica de
decorre
do teorema central do limite multivariado aplicado ao termo do lado direito de (4.10).
O fato de se aproximar a distribuicao da EMV
por N
p
(
0
, n
1
k(
0
)
1
) e um dos
resultados mais relevantes da teoria assintotica de primeira ordem com objetivos de in-
ferencia.
4.1.7 Eciencia Assintotica
No caso p = 1, observe-se que k(
0
)
1
e a variancia da distribuicao assintotica de
n(
0
)
que, em geral, nao coincide com o limite de Cramer-Rao (Secao 4.1.2) para a sua variancia
exata. Este fato e melhor compreendido observando que para qualquer estimativa T de
assintoticamente normal, i.e.,
n(T )
D
N(0, v()), v() > 0, (4.11)
tem-se: lim
n
{nVar(T)} v() k()
1
. O resultado (4.11) implica que a estimativa T
e consistente para , mas ela pode ter vies nao-nulo (para n nito). Contrariamente, o
limite de Cramer-Rao k()
1
e relativo `a variancia exata de
n(T ) exigindo-se que
ela seja necessariamente nao-viesada. Uma estimativa T de e assintoticamente eciente
se satisfaz (4.11) com v() = k(). Desta denicao e de (4.8) conclui-se que qualquer
solucao consistente
de U() = 0 e assintoticamente eciente.
Nao ha diculdade em generalizar o limite de Cramer-Rao e (4.11) para as com-
ponentes de um vetor de parametros IR
p
. Assim, se k()
r,r
representa o r-esimo
elemento da diagonal da matriz k()
1
, n
1
k()
r,r
e um limite inferior para a variancia
assintotica de qualquer estimativa de
r
assintoticamente normal (mesmo viesada para n
104 Introducao `a Teoria Assintotica Gauss M. Cordeiro
nito). A desigualdade de Cramer-Rao estabelece que qualquer estimativa nao-viesada de
r
tem variancia (exata) superior a n
1
k()
r,r
. Como por (4.8) lim
n
{nVar(
r
)} = k()
r,r
,
deduz-se que qualquer componente de
e assintoticamente eciente para o parametro
correspondente.
Os resultados de normalidade e eciencia assintoticas apresentados aqui poderao ser
generalizados para situacoes menos restritivas em que as observacoes sao independentes
mas nao identicamente distribudas, desde que: a) a lei fraca dos grandes n umeros se
aplique `a informacao observada media n
1
J() com esta convergindo em probabilidade
para n
1
K() (a matriz de informacao media); b) o teorema central do limite se aplique
`a funcao escore total U() sendo a convergencia para uma distribuicao assintotica nao-
singular. Existem in umeros outros aperfeicoamentos com suposicoes mais fracas para
garantir consistencia, unicidade, normalidade e eciencia da EMV em situacoes gerais e
especcas que nao serao citados aqui.
4.2 Suciencia Assintotica
A fatoracao de Neyman-Fisher (1.5) representa a melhor forma de se vericar a suciencia
de uma estatstica S = S(Y ). Para demonstrar a suciencia assintotica de uma solucao
da equacao de maxima verossimilhanca U() = 0 deve-se supor que as condicoes (i) - (v)
da Secao 4.1.3 sao verdadeiras. Neste caso pode-se expandir () analogamente `a equacao
(4.5) como
() = (
)
1
2
(
)
T
J(
)(
) +o
p
(1)
com
= O
p
(n
1/2
). Portanto, a forma da verossimilhanca
L() = L(
) exp
_
1
2
(
)
T
J(
)(
) +o
p
(1)
_
implica que
e assintoticamente suciente para , quando existir uma estatstica su-
ciente.
Em pequenas amostras, a solucao
da equacao de maxima verossimilhanca pode nao
ser suciente para mas sempre sera funcao de uma estatstica suciente para , quando
existir uma estatstica suciente.
22
o
) (
(0)
)}, (4.12)
a estatstica escore de Rao
S
R
= U(
(0)
)
T
K(
(0)
)
1
U(
(0)
), (4.13)
e a estatstica de Wald
W = (
(0)
)
T
K(
)(
(0)
). (4.14)
As tres estatsticas acima representam as tecnicas mais importantes para avaliacao e teste
de modelos estatsticos. A forma (4.12) foi proposta por Wilks em 1938. Depois, Wald
propos (4.14) em 1943 e Rao desenvolveu (4.13) em 1947.
As formas quadraticas (4.13) e (4.14) sao deduzidas das distribuicoes assintoticas
N
p
(0, K(
(0)
)) e N
p
(
(0)
, K(
(0)
)
1
) de U(
(0)
) e
, respectivamente. As estatsticas (4.12)
e (4.13) independem da parametrizacao adotada para f(y; ) enquanto a estatstica de
106 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Wald depende da parametrizacao do modelo. Apenas a estatstica S
R
nao requer o calculo
da EMV
embora envolva a inversa da matriz de informacao.
Se as condicoes de regularidade (i) (v) da Secao 4.2 sao satisfeitas, as tres estatsticas
acima s ao equivalentes ate primeira ordem, isto e, elas tem segundo a hipotese nula H
a mesma distribuicao assintotica
2
com p graus de liberdade. Assim, a hipotese H
sera rejeitada para valores grandes de w, S
R
e W comparados com o valor crtico
2
p
()
obtido da distribuicao
2
p
para um nvel de signicancia nominal xado. As regioes de
100(1 )% de conanca para sao formadas, aproximadamente, por
R() = {; T()
2
p
()},
onde T() pode ser qualquer uma das estatsticas (4.12) (4.14).
Como U(
(0)
) e K(
(0)
) se referem a um vetor de dados de dimensao n, pode-se adotar,
sujeito a condicoes de estabilidade, nos calculos assintoticos quando n , a seguinte
convencao:
U(
(0)
) =
nU(
(0)
) = O
p
(n
1/2
),
K(
(0)
) = nK(
(0)
),
(0)
= O
p
(n
1/2
),
onde K(
(0)
) e a informacao media por observacao e U(
(0)
) e a funcao escore normalizada.
Tem-se K(
(0)
) = O(1) e U(
(0)
) = O
p
(1). A vantagem da notacao acima e expressar todas
as quantidades em termos de outras que sao de ordem O(1) ou de variaveis aleatorias que
sao O
p
(1). Se as observacoes sao iid, entao K(
(0)
) e a informacao relativa a uma unica
observacao.
Se K() e contnua em =
(0)
obtem-se, quando n ,
n
1
J(
(0)
)
P
K(
(0)
),
n
1
J(
)
P
K(
(0)
).
(4.15)
Assim, nas estatsticas (4.13) e (4.14) as matrizes K(
(0)
) e K(
nU()
D
N
p
(0, K()),
n(
)
D
N
p
(0, K()
1
) .
(4.16)
A distribuicao assintotica das estatsticas escore (4.13) e Wald (4.14) segue de imediato
das convergencias em (4.16). Para demonstrar a distribuicao assintotica da razao de
verossimilhanca, expande-se () em serie de Taylor em torno da solucao
de U(
) = 0.
Assim,
() = (
)
1
2
(
)
T
J(
)(
) +o
p
(1)
ou
w = (
)
T
J(
)(
) +o
p
(1). (4.17)
Usando
= K()
1
U() +o
p
(n
1/2
) e a segunda convergencia em (4.9) encontra-se
w = U()
T
K()
1
U() +o
p
(1) . (4.18)
Usando a primeira relacao de convergencia em (4.16) obtem-se de (4.18) que w
D
2
p
supondo H : =
(0)
verdadeira. De (4.17) e (4.18) verica-se que W e S
R
sao assintoti-
camente equivalentes a w. A mesma equivalencia assintotica ocorre, pela combinacao dos
resultados (4.15) (4.16), com formas variantes das estatsticas (4.13) e (4.14) deduzidas
substituindo K(
(0)
) e K(
) por J(
(0)
) ou J(
). Assim, as estatsticas
U(
(0)
)
T
K(
)
1
U(
(0)
), U(
(0)
)
T
J(
(0)
)
1
U(
(0)
),
U(
(0)
)
T
J(
)
1
U(
(0)
), (
(0)
)
T
J(
(0)
)(
(0)
),
(
(0)
)
T
J(
)(
(0)
) e (
(0)
)
T
K(
(0)
)(
(0)
)
sao assintoticamente equivalentes `a distribuicao
2
p
.
108 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Exemplo 4.1 Considere a distribuicao multinomial y M(n, ) onde y = (y
1
, . . . , y
p
)
T
(com y
i
> 0) representa p freq uencias observadas com probabilidades associadas =
(
1
, . . . ,
p
)
T
. Para testar H : =
(0)
versus A : =
(0)
, as tres estatsticas reduzem-
se a: w = 2
p
i=1
y
i
log{y
i
/(n
(0)
i
)}, S
R
=
p
i=1
(y
i
n
(0)
i
)
2
n
(0)
i
e W =
p
i=1
(y
i
n
(0)
i
)
2
/y
i
. A
distribuicao limite destas estatsticas segundo H e
2
p1
. A estatstica S
R
e a famosa
estatstica
2
de Pearson. Sobre ela R.L. Plackett foi enfatico: Pearsons chi-squared
test is one of the great monuments of twentieth-century statistics.
No caso de ser um escalar, as formas (4.13) e (4.14) reduzem-se a S
R
=
U(
(0)
)
2
/K(
(0)
) e W = (
(0)
)
2
K(
w,
S
R
ou
(0)
)w
1/2
,
r
S
R
= U(
(0)
)/
_
K(
),
r
W
= (
(0)
)
_
K(
)
(4.19)
tem, assintoticamente, segundo H : =
(0)
, distribuicao normal N(0, 1). Aqui, tambem,
J(
) e J(
(0)
) podem substituir K(
) e K(
(0)
) e a distribuicao normal N(0, 1) assintotica
continua valendo. Na realidade, todas estas estatsticas sinalizadas satisfazem: (i) r =
Z + O
p
(n
1/2
), onde Z e uma variavel aleatoria que tem assintoticamente distribuicao
normal N(0, 1); (ii) P(r x) = (x) + O(n
1/2
). Assim, elas diferem por quantidades
estocasticas de ordem n
1/2
em probabilidade.
Exemplo 4.2 Considere uma amostra aleatoria de tamanho n da distribuicao de Poisson
P(), onde se deseja testar H : =
(0)
versus A : =
(0)
. De (4.12) (4.14) e
facil obter w = 2n(
(0)
y) + 2ny log(y/
(0)
), S
R
= n(y
(0)
)
2
/
(0)
e W = n(y
(0)
)
2
/y, sendo y a media amostral. Claramente, o teste de H via S
R
e equivalente ao
teste baseado na aproximacao normal N(n
(0)
, n
(0)
) da distribuicao de ny. Qualquer
uma destas estatsticas tem assintoticamente distribuicao
2
1
.
22
o
n(1
(0)
y) .
Uma outra estatstica equivalente e a Wald modicada r
W
com a informacao sendo avali-
ada na hipotese nula ao inves de ser calculada na EMV. Tem-se r
W
=
n{(
0
y)
1
1}.
Pode ser demonstrado por primeiros princpios que
r
w
=
Z +
1
3
Z
2
+O
p
(n
1
),
r
S
R
= r
W
=
Z, r
W
=
Z +
1
Z
2
+O
p
(n
1
),
o que ilustra a equivalencia ate primeira ordem destas estatsticas, isto e, todas elas con-
vergem em distribuicao para a normal N(0, 1) quando n .
As estatsticas em (4.19) sao quantidades pivotais assintoticas para o parametro
pois convergem para uma distribuicao conhecida que nao envolve este parametro quando
n . Assim, os limites de 100(1 )% de conanca para o escalar podem,
alternativamente, ser obtidos como R() = {; |r()| z
}, onde z
e tal que (z
) =
1 /2. A estatstica r
W
= (
)K(
)
1/2
tem a vantagem de englobar conjuntamente
uma estimativa de e sua precisao K(
)
1/2
, enquanto que a estatstica de Wald alternativa
r
W
1
= (
)J(
)
1/2
, equivalente assintoticamente a r
W
, contem uma variavel aleatoria
J(
) que nao envolve mas pode nao representar uma variancia em pequenas amostras.
Ambas estatsticas sao lineares em . Quando o vies B() de ordem n
1
de
(vide Secao
5.3) e apreciavel, deve-se aplicar a r
W
e r
W
1
uma correcao de vies (supondo K(
) e J(
)
praticamente constantes) substituindo
por
B(
). Alternativamente, determina-
se intervalos de conanca aproximados para em forma explcita usando as estatsticas
r
w
= sinal(
)w
1/2
e r
S
R
= U()/
_
K() quando elas forem funcoes monotonicas de .
Caso contrario, o intervalo para so podera ser construdo numericamente.
110 Introducao `a Teoria Assintotica Gauss M. Cordeiro
4.4 Inferencia com Parametros de Incomodo
Apresenta-se aqui a teoria assintotica de primeira ordem quando o modelo estatstico
contem parametros de perturbacao. Suponha que o vetor de parametros de dimensao p
e particionado como = (
T
,
T
)
T
, onde dim() = q e dim() = p q. Deseja-se testar
H : =
(0)
versus A : =
(0)
, onde e o vetor de parametros de interesse e o
vetor de parametros de perturbacao. Seja (, ) a log-verossimilhanca para e . De
agora por diante, os smbolos e indicam quantidades estimadas segundo A e H, i.e.,
avaliadas nas EMV irrestrita
= (
T
,
T
)
T
e restrita
= (
(0)
T
,
T
)
T
, respectivamente.
Particionam-se o vetor escore U, a matriz de informa cao K e sua inversa K
1
da mesma
maneira que , ou seja, U
T
= (U
T
, U
T
),
K =
_
K
_
e K
1
=
_
K
_
.
Usa-se notacao similar para a matriz de informacao observada J e para sua inversa J
1
.
Em geral, as quantidades U
, U
, K
, K
= K
T
e K
= U
(
(0)
, ) correspondente ao vetor de parametros de interesse, ou seja, no
resultado
U
D
N
q
(0, K
1
), (4.20)
onde K
= K
(
(0)
, ) e a matriz de covariancia assintotica de
. Entao, a estatstica
escore e denida pela forma quadratica
S
R
=
U
T
, (4.21)
onde
U = U
(
(0)
,
) e
K
= K
(
(0)
,
2
q
.
O desenvolvimento da estatstica de Wald e similar ao da estatstica escore e decorre
da normalidade assintotica da EMV
. Como
tem distribuicao normal p-dimensional
22
o
,
ou seja,
(0)
D
N
q
(0, K
). A matriz K
), K
(
(0)
,
), J
) ou J
(
(0)
,
(0)
)
T
K
1
(
(0)
), (4.22)
onde
K
= K
) de
(0)
e, portanto,
W
D
2
q
, supondo a hipotese nula verdadeira.
A razao de verossimilhanca para testar H : =
(0)
e denida como
w = 2{(
(0)
,
) (
(0)
,
)} . (4.23)
O inconveniente de (4.23) e que w requer duas maximizacoes. Pode-se mostrar que
w
D
2
q
segundo H (Wilks, 1938). Logo, as estatsticas (4.21) (4.23) sao equivalentes
ate primeira ordem, pois todas convergem sob a hipotese nula para a distribuicao
2
q
.
Apresenta-se, resumidamente, a estrategia de demonstracao da equivalencia assintotica
das estatisticas S
R
, W e w. Em primeiro lugar, a formula da inversa de uma matriz
particionada produz
K
= (K
K
1
)
1
,
K
= K
T
= K
K
1
e
K
= K
1
K
1
.
Alem disso, K
= K
1
+K
K
1
=
+K
1
) +O
p
(n
1
) .
Recorrendo `a aproximacao (1.15) tem-se ate primeira ordem
_
(0)
_
=
_
K
__
U
_
112 Introducao `a Teoria Assintotica Gauss M. Cordeiro
que substituda em (4.22) implica, ignorando quantidades de ordem o
p
(1),
W = (K
+K
)
T
K
1
(K
+K
). (4.24)
Ate primeira ordem tem-se
U
(
(0)
,
) = U
+
U
)
= U
).
Como
= K
+o
p
(n
1/2
), vem
U
(
(0)
,
) = U
.
Substituindo em (4.21) resulta ate primeira ordem
S
R
= (U
)
T
K
(U
). (4.25)
A razao de verossimilhanca pode ser decomposta como
w = 2{(
) (
(0)
, )} 2{(
(0)
,
) (
(0)
, )},
isto e, dada pela diferenca entre duas estatsticas para testar hipoteses sem parametros
de incomodo. Assim, usando o resultado (4.18) tem-se ate primeira ordem
w = (U
T
U
T
)
_
K
__
U
_
U
T
K
1
. (4.26)
Com uma longa algebra envolvendo as matrizes particionadas anteriores demonstra-se
que as expressoes (4.24) (4.26) sao iguais e, portanto, estabelece-se a equivalencia de
primeira ordem das estatsticas S
R
, W e w.
Um problema que surge na realizacao dos testes de hipoteses e na construcao de
regioes de conanca para e escolher dentre as estatsticas (4.21) (4.23) que, segundo
H : =
(0)
, sao assintoticamente equivalentes `a distribuicao
2
q
. Claramente, a escolha
22
o
2
q
()},
R
2
() = {; (
)
T
K
1
(
)
2
q
()},
R
3
() = {; (,
) (
)
1
2
2
q
()},
respectivamente. Claro que R
3
() e mais facil de ser construda do que as regioes R
1
()
e R
2
(), pois estas ultimas dependem de formas quadraticas. Observe-se que R
3
() e
decorrente da razao de verossimilhanca perlada (vide Secao 4.5), pois
e a EMV de
condicional a . As regioes R
1
(), R
2
() e R
3
() sao assintoticamente equivalentes
mas em pequenas amostras sao diferentes e podem ser imprecisas. Elas sao aplicaveis em
qualquer problema regular na construcao de regioes de conanca.
No caso do parametro de interesse ser escalar, pode-se tambem construir intervalos
de conanca aproximados para generalizando as estatsticas sinalizadas em (4.19). As-
sim, obtem-se quantidades pivotais assintoticas para analogas `aquelas em (4.19) dadas
por
r
w
= sinal(
)w
1/2
, r
S
R
=
U
1/2
,
r
W
= (
)/
K
1/2
, r
S
R
=
U
1/2
,
r
W
= (
)/
J
1/2
.
(4.27)
Todas as estatsticas em (4.27) tem distribuicao normal N(0, 1) assintotica. Como r
2
S
R
=
S
R
, r
2
W
= W e r
2
w
= w, os intervalos obtidos das regioes R
1
(), R
2
() e R
3
() sao
identicos `aqueles baseados em r
S
R
, r
W
e r
w
, respectivamente. As estatsticas r
S
R
e r
W
sao
versoes assintoticamente equivalentes a r
S
R
e r
W
com informacao observada no lugar de
informacao esperada.
Uma grande simplicacao ocorre no calculo das estatsticas w, S
R
e W quando os
114 Introducao `a Teoria Assintotica Gauss M. Cordeiro
vetores de parametros e sao ortogonais. Neste caso, a matriz de informacao e bloco-
diagonal pois as matrizes K
e K
de condicional a especicado
varia pouco com na vizinhanca de
, com uma variacao tambem reduzida da EMV
de
com especicado. Mais precisamente, se
= O
p
(n
1/2
), entao
= O
p
(n
1
).
Quando nao ha ortogonalidade,
= O
p
(n
1/2
).
Exemplo 4.4 Suponha que uma variavel aleatoria Y tem funcao densidade dependendo
de dois parametros (media) e (precisao) escrita convenientemente como
f(y; , ) = exp[{y b()} +c
1
(y) +d() +d
1
(y)], (4.28)
onde = q() e uma funcao unvoca do parametro . As funcoes densidade das dis-
tribuicoes normal N(,
1
), gama G(, ) e normal inversa N
=
n
V
(y ) e U
=
n{yq() b(q())} + c
1
(y
i
) +nd
) +yq(y) b(q(y)) +
1
n
n
i=1
c
1
(y
i
) = 0. (4.29)
22
o
V
(y
(0)
)
2
e W
1
=
n
V
(y
(0)
)
2
,
onde
V = V (
(0)
) e
V = V (y). Assim, as formas de S
R
1
e W
1
sao similares; a diferen ca
e que as quantidades da primeira estao avaliadas em H
1
e as da segunda em A
1
. A
razao de verossimilhanca w
1
pode ser calculada de (4.23) numa forma muito simples
(Cordeiro, 1987) levando-se em consideracao as equacoes que determinam
e
. Tem-se
w
1
= 2n{v(
) v(
) d(
(0)
) (
(0)
)d
= n{d
(
(0)
) d
)} e, portanto, obtem-se a
estatstica escore S
R
2
= n{d
(
(0)
) d
)}
2
/d
(
(0)
). A estatstica de Wald e simples-
mente W
2
= n(
(0)
)
2
d
). As tres estatsticas w
2
, S
R
2
e W
2
sao assintoticamente
equivalentes, quando H
2
e verdadeira, `a distribuicao
2
1
. As formas das tres estatsticas
nos testes de H
1
e H
2
, relativas `as distribuicoes normal, gama e normal inversa, sao
facilmente obtidas destas expressoes gerais a partir das funcoes V e d() (vide exerccio
1 da Secao 4.6).
Exemplo 4.5 Considere a distribuicao multinomial Y M(n, ), apresentada no exem-
plo 4.1, sendo o vetor de probabilidades de dimensao p. O interesse reside em testar a
hipotese que o vetor depende de um vetor desconhecido de dimensao q muito menor
que p, i.e., testar H : = () versus A : = (). Seja y = (y
1
, . . . , y
p
)
T
o vetor
das freq uencias observadas. Cox e Hinkley (1979, Secao 9.3) demonstram que as tres
estatsticas classicas para testar H versus A tem as seguintes expressoes:
116 Introducao `a Teoria Assintotica Gauss M. Cordeiro
w = 2
p
i=1
y
i
log
_
y
i
n
i
(
)
_
, S
R
=
p
i=1
{y
i
n
i
(
)}
2
n
i
(
)
e
W =
p
i=1
{y
i
n
i
(
)}
2
/y
i
,
onde
e a EMV de segundo H. Admite-se aqui que y
i
> 0 para i = 1, . . . , p. A
ideia da demonstracao e transformar a hipotese H : = () na forma canonica H :
=
(0)
, desconhecido, usada nesta secao. Assim, as tres estatsticas tem formas
semelhantes `aquelas expressoes do exemplo 4.1 relativas ao teste de uma hipotese simples
sobre . Segundo H, elas tem assintoticamente distribuicao
2
p1q
, e o teste e conduzido
comparando-se os seus valores com os pontos crticos desta distribuicao.
4.5 Verossimilhanca Perlada
No caso de modelos com parametros de perturbacao costuma-se fazer inferencia usando a
verossimilhanca perlada. Como na Secao 4.3, seja = (
T
,
T
)
T
o vetor de parametros
particionado nos vetores e de parametros de interesse e de incomodo, respectivamente.
Seja L(, ) a verossimilhanca para e . Denota-se por
L() = L(,
) (4.30)
e e usada em varios aspectos de forma analoga a uma verossimilhanca genuna. A log-
verossimilhanca perlada e
() = log
L(). A forma (4.30) sugere um procedimento de
maximizacao em duas etapas. A primeira etapa consiste em achar o valor unico
que
maximiza (, ) = log L(, ) com respeito a supondo xo. A segunda etapa visa
a encontrar o valor de que maximiza
(). Em geral,
difere de
(EMV usual de
) por termos de ordem O
p
(n
1/2
). Os maximos de
() e (, ) coincidem e, entao,
supondo que
maximiza (4.30) tem-se:
(
) l() ou (
) (,
) (, ).
Assim, as EMV perladas
e
= 0, /|
e solucao
de /|
= 0, entao a EMV
pode ser obtida diretamente da equacao de
22
o
()/|
= 0.
2. A razao de verossimilhanca perlada w = 2{
)
(
(0)
)} e igual `a razao de
verossimilhanca usual para testar a hipotese H : =
(0)
, i.e.,
w = 2{
)
(
(0)
)} = 2{(
) (
(0)
,
)}
e, portanto, w
D
2
q
, onde q = dim().
3. A regiao de conanca perlada
R() = {;
(
)
() c}
e uma regiao de conanca aproximada para com o nvel de signicancia determi-
nado da distribuicao
2
q
assintotica de w. Quando q 5, c = q + 1, q + 3 e q + 5
produz regioes de 95%, 99% e 99,9% de conanca para .
4. A inversa da informacao observada perlada
J() para e simplesmente dada por
J()
1
= J
(,
),
ou seja, e igual ao bloco (, ) da inversa da matriz de informacao observada usual
J(, ) avaliada em (
T
,
)
T
. A estrutura de covariancia assintotica de
pode ser
estimada por
J(
)
1
.
4.6 Exerccios
1. Nas distribuicoes normal N(,
1
), gama G(, ) e normal inversa N
(, ) do
exemplo 4.4 apresente as formas das estatsticas w, S
R
e W para os testes da media
e do parametro de precisao . Obtenha regioes de conanca baseadas nestas tres
estatsticas para ( desconhecido) e ( desconhecido).
2. Suponha que se deseja construir intervalos de conanca para na distribuicao nor-
mal N(, 1). Compare os intervalos de conanca para baseados nas estatsticas
r
w
, r
S
R
e r
W
dadas em (4.19) com o intervalo exato de 100(1 )% de conanca
para . Ilustre numericamente a comparacao.
118 Introducao `a Teoria Assintotica Gauss M. Cordeiro
3. Calcule as estatsticas w, S
R
e W para testar o parametro nas seguintes dis-
tribuicoes uniparametricas: Cauchy CA(), serie logaritmica SL() e serie de
potencias SP().
4. Suponha a distribuicao de Weibull do exemplo 1.5. Obtenha as formas das es-
tatsticas escore, razao de verossimilhanca e Wald para testar ( desconhecido) e
( desconhecido).
5. Deduza a melhor regiao crtica para testar H : =
(0)
versus A : =
(1)
supondo
que a funcao modelo e f(y; ) = c()d(y) exp{a()b(y)}.
6. Calcular a MRC para testar uma hipotese simples H : =
(0)
versus uma alter-
nativa simples A : =
(1)
nos casos de ser a media da distribuicao de Poisson
P() e ser a probabilidade de sucesso na distribuicao binomial B(m, ).
7. Suponha a famlia de locacao e escala denida por
f(y; , ) =
1
f(
y
),
onde IR, y IR e > 0. Deduza as formas das estatsticas w, W e S
R
para
testar as hipoteses H
1
: =
(0)
com desconhecido e H
2
: =
(0)
com
desconhecido.
8. Sejam f
0
() e f
1
() duas funcoes densidades com o mesmo suporte. Forma-se a
famlia de densidades
f
(y) = c()f
0
(y)
1
f
1
(y)
,
onde c() e uma funcao normalizadora. Desenvolva uma estatstica escore para
testar a hipotese H : = 0 baseada em n observacoes iid de f
(y).
9. Nas distribuicoes normal N(, ), normal inversa N
s
,
etc. Os momentos conjuntos de derivadas de () sao
r
= E(U
r
),
rs
= E(U
rs
),
r,s
=
E(U
r
U
s
),
r,st
= E(U
r
U
st
) e assim por diante. Como
r
= 0, os correspondentes cu-
mulantes conjuntos (
rs
,
rs,t
=
rs,t
,
rs,tu
=
rs,tu
rs
tu
,
r,s,t
=
r,s,t
e
r,s,t,u
=
r,s,t,u
(3)
r,s
t,u
,
onde
(k)
representa o somatorio sobre todas as k combinacoes de ndices, etc. Os mo-
mentos e cumulantes acima nao sao independentes, mas satisfazem certas equacoes que
facilitam seus calculos. Estas equacoes, que representam condicoes de regularidade, sao
denominadas de identidades de Bartlett. As mais importantes sao:
r
= 0 e
rs
+
r,s
= 0.
Os cumulantes
E{t(Y )} =
_
t(y)
f(y;)
rs
/
t
u
,
(u)
rst
=
rst
/
u
, etc. Da denicao da funcao escore tem-se U
r
= L
r
/L,
onde L
r
= L/
r
. Diferenciando
_
Ldy = 1 em relacao a
r
vem
_
L
r
dy = 0 e,
entao,
r
= E(U
r
) = 0. Diferenciando a ultima integral em relacao a
s
, encontra-se
_
(U
rs
L + U
r
U
s
L)dy = 0, ou seja,
rs
+
r,s
= 0. Diferenciando novamente a integral
em relacao a
t
obtem-se
r,s,t
+
rst
+
(3)
r,st
= 0. Outras identidades de Bartlett sao
deduzidas de forma analoga:
r,st
+
rst
(r)
st
= 0,
r,s,t
2
rst
+
(3)
(t)
rs
= 0,
(u)
rst
=
rst,u
,
r,stu
+
rstu
(r)
stu
= 0,
rstu
+
(4)
r,stu
+
(3)
rs,tu
+
(6)
r,s,tu
+
r,s,t,u
= 0,
r,s,t,u
= 3
rstu
+ 2
(4)
(u)
rst
(6)
(tu)
rs
+
(3)
rs,tu
,
r,s,tu
=
rstu
(s)
rtu
(r)
stu
+
(rs)
tu
rs,tu
, etc.
22
o
()
= 0,
,,
2
+ 3
()
1
2
2
n
i=1
(y
i
)
2
.
Os cumulantes sao facilmente obtidos como
= n/
2
,
2 = n/2
4
,
2 =
0,
,,
=
,
=
= 0,
2
,
2
,
2 =
2
,
2
2 = n/
6
,
2 = 2n/
6
,
,
2 =
2 = n/
4
,
,,
2 = 3n/
4
,
2 = 2n/
6
, etc., muitos deles atraves das
identidades de Bartlett.
5.3 Correcao do Vies da EMV
As EMV sao, em geral, viesadas para os valores verdadeiros dos parametros em modelos
nao-lineares quando o tamanho n dos dados e pequeno ou a informacao de Fisher e
reduzida. Muitas vezes o vies e ignorado na pratica, justicando-se que ele e desprezvel
quando comparado ao erro padrao da EMV. De fato, o vies e de ordem n
1
enquanto que
o desvio padrao da estimativa e de ordem n
1/2
. Entretanto, para alguns modelos nao-
lineares, o vies em pequenas amostras pode ser apreciavel e ter magnitude comparavel ao
erro padrao da EMV. Em modelos uniparametricos, Bartlett (1953) deduziu uma formula
para o vies de ordem n
1
da EMV no caso iid. Nos modelos multiparametricos, os vieses
de ordem n
1
das EMV, supondo observacoes independentes mas nao necessariamente
identicamente distribudas, foram deduzidos em generalidade por Cox e Snell (1968).
Considere um modelo estatstico f(y; ) com IR
p
. Seja
a EMV de obtida como
122 Introducao `a Teoria Assintotica Gauss M. Cordeiro
solucao do sistema de equacoes de maxima verossimilhanca
U
r
= 0 para r = 1, . . . , p.
Suponha que as condicoes (i) (v) dadas na Secao 4.2 sejam satisfeitas. Expandindo
U
r
= 0 ate primeira ordem vem U
r
+
s
U
rs
(
s
) +O
p
(1) = 0 e, em notacao matricial,
U = J(
) +O
p
(1). Como J = K +O
p
(n
1/2
) tem-se U = K(
) +O
p
(1) e, entao,
= K
1
U +O
p
(n
1
) . (5.1)
A formula (5.1) (identica a (1.14) mais o erro estocastico) desempenha um papel impor-
tante no calculo de momentos e cumulantes da EMV de ordens superiores. Expandindo
U
r
ate segunda ordem resulta
U
r
+
s
U
rs
(
s
) +
1
2
s,t
U
rst
(
s
)(
t
) +o
p
(1) = 0 (5.2)
e calculando o seu valor esperado encontra-se que
rs
E(
s
) +
s
Cov(U
rs
,
s
) +
1
2
s,t
rst
(
st
) +o(1) = 0, (5.3)
onde
rs
=
r,s
representa o elemento (r, s) da inversa K
1
da matriz de informacao.
Segue-se o calculo de Cov(U
rs
,
s
s
) ate o(1) com o uso de (5.1): Cov(U
rs
,
s
s
) =
Cov
_
U
rs
,
st
U
t
_
=
rs,t
st
. Denindo o vies de ordem n
1
de
r
por B(
r
) e
substituindo a ultima expressao em (5.3) obtem-se
rs
B(
s
) =
s,t
st
_
rs,t
+
1
2
rst
_
+o(1),
cuja inversao produz para r = 1, . . . , p ate O(n
1
)
B(
r
) =
s,t,u
ru
st
_
rs,t
+
1
2
rst
_
. (5.4)
A f ormula (5.4), devida a Cox e Snell (1968), e bastante geral para determinar o
vies de ordem O(n
1
) da EMV em modelos multiparametricos. Para calcula-lo basta
conhecer a inversa da matriz de informacao e os cumulantes
rs,t
e
rst
em relacao a
todos os parametros. A expressao (
rs,t
+
1
2
rst
) na formula (5.4) pode ser substituda
22
o
r
=
B(
r
), onde
B() e o vies B() avaliado em
. A EMV corrigida
r
tem vies
de ordem n
2
, isto e, E(
) = + O(n
2
), e pode ser preferida em relacao `a EMV usual
r
cujo vies e de ordem O(n
1
). Diz-se que
e a EMV de primeira ordem (seu vies e de
ordem n
1
) enquanto
e a EMV de segunda ordem (seu vies e de ordem n
2
).
Exemplo 5.2 Como no exemplo anterior, considere n observacoes iid de uma dis-
tribuicao normal N(,
2
). O interesse reside em calcular os vieses de ordem n
1
das EMV dos parametros (media) e (desvio padrao). Note-se que os cumulantes
aqui sao calculados em relacao a (, ) e nao, como no exemplo 5.1, em relacao a
(,
2
). Os elementos da matriz de informacao para e seguem de imediato como
,
= n/
2
,
,
= 0 e
,
= 2n/
2
. Os cumulantes de terceira ordem sao calculados
sem maiores diculdades:
=
,
=
,
=
,
=
,
=
= 0,
,
= 2n/
3
,
,
= 6n/
3
e
= 10n/
3
. Logo, usando a equacao (5.4) vem
B( ) = 0, como esperado, pois = y
i
/n nao e viesado; com alguma algebra, obtem-se
B( ) = 3/4n. Este resultado esta de acordo com o vies exato de = {(y
i
y)
2
/n}
1/2
dado por E( ) =
_
2
n
(
n1
2
)
(
n
2
)
, que e deduzido da distribuicao
2
n1
de (n 1)
2
/
2
. Com
efeito, usando a expansao de Stirling em E( ) implica E( ) = {1
3
4n
+ O(n
2
)}. A
EMV corrigida de e, entao, = (1 +
3
4n
) .
No caso de um modelo uniparametrico f(y; ) com IR, o vies de ordem n
1
segue
de (5.4) fazendo todos os ndices iguais a . Tem-se,
B(
) =
2
_
,
+
1
2
_
=
2
_
()
1
2
_
. (5.5)
Exemplo 5.3 Considere n observacoes iid de uma distribuicao exponencial de taxa cuja
funcao densidade e f(y; ) = e
y
. A informacao para e
,
= n/
2
e os cumulantes
e
,
sao 2n/
3
e 0, respectivamente. A EMV de e dada por = 1/y e seu
vies de ordem n
1
segue de (5.5) como B( ) = /n. Logo, a EMV corrigida da taxa da
124 Introducao `a Teoria Assintotica Gauss M. Cordeiro
distribuicao exponencial e simplesmente = (1
1
n
) . O vies B( ) = /n pode ser obtido
por primeiros princpios expandindo em serie de Taylor ao inves de usar a equa cao
(5.5). Entretanto, na pratica, o calculo do vies a partir de (5.5) e bem mais freq uente.
O c alculo de momentos e cumulantes da EMV
de ordem superior, como por exemplo
E(
) e Var(
) ate O(n
2
), e bastante complicado e envolve a inversao da expansao (5.2).
Esta inversao se torna bastante complexa `a medida em que se incluem na equacao (5.2)
termos de ordem inferior. A inversao da expansao (5.2) produz, ate ordem O
p
(n
3/2
),
r
=
rs
U
s
+
s,t,u
rs
tu
(U
st
st
)U
u
1
2
s,t,i,j,k
ri
sj
tk
ijk
U
s
U
t
+O
p
(n
3/2
) .
(5.6)
O primeiro termo do lado direito de (5.6) e de ordem O
p
(n
1/2
) e os outros dois sao de
ordem O
p
(n
1
), sendo o erro O
p
(n
3/2
). Para obter, por exemplo, Var(
r
) ate O(n
2
)
(
rr
e o seu termo de ordem n
1
), eleva-se (5.6) ao quadrado e calcula-se seu valor
esperado ate a ordem desejada. O calculo e complicado mesmo no caso uniparametrico.
O leitor podera consultar o livro de Shenton e Bowman (1977), que fornece em toda sua
extensao detalhes destes calculos. Em especial, estes autores apresentam formulas gerais
para E(
) e Var(
) ate ordem n
2
no caso multiparametrico, e para os quatro primeiros
momentos de
ate as ordens n
2
, n
3
, n
3
e n
4
, respectivamente, no caso uniparametrico.
Neste caso, Ferrari et al. (1996) obtiveram EMV corrigidas ate segunda e terceira ordens e
compararam seus erros padrao. A partir da formula (5.4) para o vies de ordem n
1
, pode-
se, alternativamente, calcular o vies da EMV ate ordem n
2
no caso multiparametrico
(caso realmente seja necessario) usando a tecnica jacknife (Cox e Hinkley, 1979, Secao
8.4).
Na decada de 90 varios artigos foram publicados apresentando expressoes matriciais
simples para os vieses das EMV em modelos de regressao. Estas expressoes sao faceis
de serem implementadas pois nao dependem do calculo dos cumulantes, sendo funcoes
apenas das caractersticas (de cunho estatstico) do modelo. Cordeiro e McCullagh (1991)
obtiveram uma formula matricial geral para os vieses de ordem n
1
das EMV nos modelos
lineares generalizados. Cordeiro (1993) tambem obteve, em notacao matricial, formulas
22
o
)
exp{K(
)
y} , (5.7)
onde
e determinado por K
) = y e calcular
.
A funcao geratriz de cumulantes aparece naturalmente nos modelos exponenciais uni-
parametricos dados por
f
Y
(y; ) = exp{y b() +h(y)}, (5.8)
sendo trivialmente obtida como K(t) = b( +t) b(). A log-verossimilhanca para dado
y e (; y) = y b() mais uma constante arbitraria que nao depende de . Assim, a
aproximacao ponto de sela (5.7) para o modelo exponencial (5.8) pode ser escrita como
f
Y
(y; ) =
1
_
2J(
)
exp{(; y) (
; y)}, (5.9)
onde
=
(y) e a EMV de decorrente da equacao K
) = b
) = y e J(
) =
d
2
(;y)
d
2
|
=
(; y) =
1
2
J(
)
1/2
exp{(; y) (
; y)} . (5.10)
A equacao (5.10) dene uma aproximacao para a funcao densidade da EMV
de no
modelo exponencial (5.8). O erro associado a (5.10) e multiplicativo da forma 1+O(n
3/2
).
A equacao (5.10) pode ser generalizada para o modelo exponencial (1.18) de ordem p,
substituindo
2 por (2)
p/2
e J(
)|, resultando em
f
(y; ) =(2)
p/2
|J(
)|
1/2
exp{(; y) (
; y)} . (5.11)
Esta equacao e conhecida como aproximacao de Barndor-Nielsen para a funcao den-
sidade de
. Ela tem propriedades interessantes como a invariancia segundo trans-
formacao um-a-um dos dados e, tambem, segundo reparametrizacao, isto e, se w e
sao parametrizacoes alternativas entao, em obvia notacao, as aproximacoes calculadas de
(5.11) para as funcoes densidade de w e
satisfazem
f
w
(w; y) = f
(; y)
. (5.12)
A formula (5.11) pode incluir uma constante de proporcionalidade c() visando tornar sua
integral igual a um sobre o suporte de
. Esta constante e, tambem, invariante segundo
reparametrizacao. Barndor-Nielsen (1983) examinou a validade da equacao (5.11) para
distribuicoes multiparametricas fora da famlia exponencial.
Exemplo 5.4 Suponha que n observacoes iid sejam obtidas da distribuicao exponencial
com media . A log-verossimilhanca para e dada por (; y) = nlog n /, onde
= y e J() = n/
2
e a informacao observada para . A aproximacao para a funcao
densidade de segue de (5.10) como
f
(; y) =(n)
1
_
_
n1
1
e
n /
, (5.13)
22
o
2
e
y
3/2
exp
_
1
2
_
y
+y
__
.
Considere uma amostra de n observacoes iid desta distribuicao. Demonstra-se, usando
(5.10), que a funcao densidade de
pode ser escrita como
f
(; y, ) =
n
2
1
(1 +
_
/2)
1/2
exp
_
n
2
_
n
2
_
_
(1 +
_
)
_
,
onde
= 4{( + 4n
1
y
1
i
)
1/2
}
2
.
Exemplo 5.6 Considere a funcao densidade da distribuicao gama com parametros
(media) e (ndice) desconhecidos. Tem-se
f
Y
(y; , ) =
_
y
1
e
y/
/() .
Considere n observacoes iid desta distribuicao. A EMV de = (, )
T
e deduzida de
= y e log ( ) = log(y/ y), onde y e y sao as medias aritmetica e geometrica
dos dados. Com alguma algebra, demonstra-se atraves de (5.11) que a funcao densidade
f
(, ; y) de
= ( , )
T
admite a decomposicao
f
(, ; y) = f
1
(; , y)f
2
(; y),
onde
f
1
(; , y) =
_
_
n
n1
exp(n /)
128 Introducao `a Teoria Assintotica Gauss M. Cordeiro
e
f
2
(; y) = {( )()}
n
{
( ) 1}
1/2
exp[n{( )( ) + log }] .
A decomposicao acima revela que as EMV e sao independentes ate a ordem conside-
rada pela aproximacao (5.11). Adicionalmente, a aproximacao f
1
(; , y) para a funcao
densidade de e exata apos renormalizacao.
Se a dimensao de y e maior do que p, entao f
|t
(; y) de
dada alguma estatstica t = t(y), exatamente
ou aproximadamente ancilar, isto e, a distribuicao marginal de t = t(y) nao depende
de , pelo menos aproximadamente. O leitor podera consultar as seguintes referencias
para obter maiores detalhes da equacao (5.11): Barndor-Nielsen (1983, 1986, 1988),
McCullagh (1984), Reid (1988), Fraser (1988, 1990) e Barndor-Nielsen e Cox (1994,
Secoes 6.2 e 7.4).
5.5 Calculo de Probabilidades Baseado na Verossi-
milhanca
Para uma variavel aleatoria Y com funcao geratriz de cumulantes K(t), a equacao de
Lugannani e Rice (1980) para aproximar sua funcao de distribuicao F
Y
(y) e dada por
F
Y
(y) = P(Y y) =(z) +(z)
_
1
z
1
v
_
, (5.14)
onde z = sinal(
)[2{
y K(
)}]
1/2
e v =
K
)
1/2
, sendo
obtido de K
) = y. A
equacao (5.14) e usada rotineiramente para aproximar in umeras funcoes de distribuicao
de variaveis aleatorias baseando-se nas suas funcoes geratrizes de cumulantes.
O uso direto das equacoes (5.10) e (5.11) para computar probabilidades requeridas na
inferencia atraves da verossimilhanca envolve integracao numerica. Entretanto, aproxi-
macoes bem mais simples para calcular probabilidades do tipo P(
; y) sao baseadas
na aproximacao (5.14) redenindo as quantidades z e v. No caso de ser um escalar,
Barndor-Nielsen (1990) e Fraser (1990) integraram a equacao (5.10) e deduziram uma
formula geral analoga `a equacao (5.14) para calcular a funcao de distribuicao de
dado
22
o
(; y) = P(
(; y) =
_
(r) +(r)
_
1
r
1
u
__
{1 +O(n
3/2
)} . (5.15)
As quantidades em (5.15) sao denidas por
r = sinal(
)[2{(
; y) (; y)}]
1/2
,
u =
_
(; y)
y
(; y)
y
_
k(
)
1
J(
)
1/2
(5.16)
com k() =
2
(;y)
y
.
Para modelos exponenciais verica-se de imediato que a quantidade u e igual `a es-
tatstica de Wald W = (
)J(
)
1/2
. Uma forma alternativa para (5.16) segue de
F
(; y) = (r
){1 +O(n
3/2
)}, (5.17)
onde r
= r +r
1
log(u/r). A versao (5.17) pode, algumas vezes, ser mais precisa do que
a equacao (5.15) embora a diferenca seja mnima.
Exemplo 5.7 Considere a distribuicao gama, cuja funcao densidade e denida por
p
y
p1
e
y
/(p) supondo que o parametro de forma p e conhecido. O interesse aqui
reside no parametro = log , que representa um parametro de locacao. A funcao de
distribuicao aproximada de
segue de (5.15) ou (5.17), com as quantidades r e u obtidas
de (5.16) como r = [2p{e
) 1}]
1/2
e u = p
1/2
(e
1).
Uma das maiores aplicacoes praticas das equacoes (5.15) e (5.17) reside no calculo
de probabilidades associadas `a propria funcao de distribuicao da variavel aleatoria Y
proposta para os dados. Essas probabilidades sao calculadas atraves da aproximacao
F
Y
(y; ) = P(Y y; ) =P(
; y) com P(
){2 log(1 +
2
)}
1/2
e u =
_
2
(1 +
2
)
1
, onde
e calculado
iterativamente como descrito no exemplo 1.4. A Tabela 5.1 apresenta as aproximacoes
(r), (5.15) e (5.17) para calcular a funcao de distribuicao F(y; 0). Com base nesta
tabela conclui-se que a equacao (5.15) fornece bons resultados para F(y; 0), enquanto a
aproximacao (r) nao se aplica `a distribuicao de Cauchy.
Tabela 5.1: Probabilidades exatas e aproximadas (expressas em percentagens) para a
funcao de distribuicao de Cauchy com = 0
y 100 30 5 1
exata 0,32 1,06 6,28 25,00
(r) 0,0001 0,01 0,53 11,95
(5.15) 0,28 0,94 5,58 23,22
(5.17) 0,15 0,61 4,69 22,84
Exemplo 5.9 Considere a distribuicao exponencial com media cuja funcao de dis-
tribuicao acumulada e P(Y y; ) = F
Y
(y; ) = 1 e
; y) = 1 F
1, 71
2, 14
10
2
q
de referencia e do termo de ordem n
1
em E(w). De (5.18) e facil mostrar que a
funcao densidade de w
x) = P(
2
q
x) + O(n
2
). O
erro da aproximacao
2
q
para a distribuicao de w e de ordem n
1
, enquanto o erro desta
aproximacao para a distribuicao de w
) (
(0)
,
)} 2{(
(0)
,
) (
(0)
, )},
onde (
(0)
, ) e a log-verossimilhanca avaliada no parametro verdadeiro e
como antes
e a EMV de restrita a =
(0)
. Lawley (1956) demonstrou que
2E{(
) (
(0)
, )} = p +
p
, (5.19)
onde
p
e um termo de ordem n
1
dado por
p
=
(
rstu
rstuvw
), (5.20)
sendo que
e o somatorio sobre todas as componentes do vetor , isto e, os ndices
r, s, t, u, v e w variam sobre os p parametros, e os
s tem expressoes
rstu
=
rs
tu
_
rstu
/4
(u)
rst
+
(tu)
rs
_
,
rstuvw
=
rs
tu
vw
{
rtv
(
suw
/6
(u)
sw
)
+
rtu
(
svw
/4
(v)
sw
) +
(v)
rt
(u)
sw
+
(u)
rt
(v)
sw
} ,
(5.21)
onde os cumulantes
) (
(0)
, )} segue expressao analoga `aquela de 2{(
) (
(0)
, )}, ou
seja, 2E{(
(0)
,
) (
(0)
, )} = p q +
pq
+ O(n
2
), com
pq
deduzido da equacao
(5.20) observando, agora, que o somatorio daquela formula se estende apenas sobre as
componentes em , isto e, sobre os p q parametros de perturbacao, uma vez que esta
xo em
(0)
.
22
o
pq
+ O(n
2
) e, portanto, pode-se melhorar a aproximacao da estatstica de teste pela
distribuicao
2
q
trabalhando com w
pq
q
. (5.22)
A estatstica corrigida w
tem distribuicao
2
q
ate O(n
1
) sob H. Em outras palavras,
o teste aperfeicoado compara w
com a distribuicao
2
q
de referencia. A diculdade do
aperfeicoamento reside no calculo de
p
e
pq
a partir das equacoes (5.20) e (5.21).
No caso da correcao de Bartlett depender de parametros desconhecidos, eles devem ser
substitudos pelas suas estimativas de maxima verossimilhanca segundo H, mas isto nao
afeta a ordem da aproximacao resultante. O inconveniente no uso da formula de Lawley
(5.22) na pratica e o calculo do grande n umero de produtos de cumulantes em testes
envolvendo tres ou mais parametros. Entretanto, para varios modelos estatsticos, os
cumulantes da log-verossimilhanca sao invariantes segundo permutacao de parametros,
conforme descrito por Cordeiro (1983) no contexto dos modelos lineares generalizados.
No caso uniparametrico relativo ao teste de H : =
(0)
versus A : =
(0)
, a correcao
de Bartlett para a razao de verossimilhanca w = 2{(
) (
(0)
)} e deduzida de (5.20)
(5.21), fazendo todos os ndices iguais a , implicando
1
=
2
{
/4
()
+
()
3
{
(5
/12 2
()
) + 2
()
2
} . (5.23)
A razao de verossimilhanca modicada pela correcao 1 +
1
, i.e., w
= w/(1 +
1
), tem
distribuicao nula aproximada pela distribuicao
2
1
com erro O(n
2
).
Uma metodologia para calcular as correcoes de Bartlett em modelos estatsticos con-
siste em: (i) inverter a matriz de informacao segundo H e A; (ii) calcular os cumulantes
(0)
)
2
(y
i
y)
2
_
e
w
2
= 2{( ,
2
) ( ,
(0)
2
)} = n
_
log
_
(0)
2
2
_
+
2
(0)
2
(0)
2
_
,
respectivamente, onde = = y,
2
= (y
i
y)
2
/n e
2
= (y
i
(0)
)
2
/n. Os
cumulantes
,
2
(
rstu
rstuvw
) (
2)
e
E(w
2
) = 1 +
,
2
(
rstu
rstuvw
) (
) .
Computando-se os
1
= w
1
/(1 + 3/2n) e w
2
= w
2
/(1 + 11/6n)
para melhorar os testes de H
1
e H
2
, respectivamente. Aqui, as correcoes de Bartlett nao
dependem de parametros desconhecidos. Elas podem ser obtidas por primeiros princpios
dos resultados n
2
/
2
2
n
e n
2
/
2
2
n1
aproximando E(log
2
n
) por log n n
1
.
Exemplo 5.13 Considere n observacoes iid de uma distribuicao exponencial com media
. A log-verossimilhanca para e () = n log ny/, onde y e media das ob-
servacoes. A razao de verossimilhanca para testar H : =
(0)
versus A : =
(0)
e dada
22
o
,
= 2n/
3
,
= 4n/
3
,
= 30n/
4
,
,
= 18n/
4
, etc. Substi-
tuindo estes cumulantes em (5.23) obtem-se a correcao de Bartlett c = 1 +
1
como
c = 1 + 1/(6n
(0)
).
As pesquisas em correcoes de Bartlett tiveram um grande impulso a partir de 1982 e,
nos dias atuais, constituem uma area consolidada de grande interesse da teoria assint otica.
Estas pesquisas seguem quatro direcoes principais: a primeira corresponde ao desen-
volvimento de formulas algebricas simples para as correcoes em modelos especiais; a se-
gunda pesquisa metodos alternativos gerais de calculo das correcoes de Bartlett; a terceira
restringe-se a aplicacoes numericas e a estudos de simulacao; nalmente, a quarta visa
a interpretar as correcoes `a luz da geometria diferencial e a relaciona-las com topicos de
interesse recente, como ortogonalidade de parametros, verossimilhancas nao-canonicas,
etc.
Cordeiro (1983, 1987) e Cordeiro e Paula (1989) desenvolveram formulas gerais para
as correcoes de Bartlett em notacao matricial nos modelos lineares generalizados e nos
modelos nao-lineares da famlia exponencial, respectivamente. Barndor-Nielsen e Cox
(1984a) apresentaram um metodo indireto de calculo das correcoes de Bartlett em mode-
los parametricos gerais, a partir de uma simples relacao entre a correcao e as constantes
normalizadoras da distribuicao da estimativa de maxima verossimilhanca condicional a
uma estatstica ancilar, exata ou aproximada. Tambem, Barndor-Nielsen e Cox (1984b)
investigaram a distribuicao de w com relacao a varios tipos de censura e regras de parada
nos processos Browniano e de Poisson. Porteous (1985) obteve correcoes para modelos de
selecao de covariaveis quando a razao de verossimilhanca tem forma fechada. Correcoes
de Bartlett para testes em modelos multivariados com matrizes de covariancia estru-
turais foram desenvolvidos por Mller (1986). McCullagh e Cox (1986) interpretaram
a correcao de Bartlett em termos de combinacoes invariantes de cumulantes das duas
primeiras derivadas da log-verossimilhanca. Barndor-Nielsen e Blaesild (1986) propuse-
ram um algoritmo para calcular as correcoes em situacoes onde varias hipoteses alternati-
vas sao lineares na mesma parametrizacao. Uma forma para E(w) invariante em relacao
a permutacao de parametros foi desenvolvida para modelos exponenciais por Ross (1987).
138 Introducao `a Teoria Assintotica Gauss M. Cordeiro
Atteld (1991) e Cordeiro (1993) mostraram como corrigir os testes da razao de verossimi-
lhanca em modelos heterocedasticos. Cordeiro, Paula e Botter (1994) obtiveram correcoes
de Bartlett para a classe dos modelos de dispersao proposta por Jrgensen (1987), gene-
ralizando os resultados de Cordeiro (1983, 1987) e Cordeiro e Paula (1989). Finalmente,
Cordeiro et al. (1995) apresentaram formulas gerais simples para as correcoes de Bartlett
em modelos exponenciais uniparametricos.
5.7 Estatsticas Aperfeicoadas tendo distribuicao
2
Como foi apresentado nas Secoes 4.2 e 4.3, os testes escore e de Wald sao assintoticamente
equivalentes aos testes baseados na razao de verossimilhanca. Cordeiro e Ferrari (1991)
demonstraram que, sob condicoes gerais de regularidade como aquelas descritas na Secao
4.2, qualquer estatstica S cuja distribuicao assintotica e qui-quadrado pode ser aper-
feicoada por um fator de correcao multiplicativo expresso como um polinomio de grau k,
de modo que os momentos da estatstica modicada sejam identicos aos correspondentes
da distribuicao qui-quadrado de referencia, exceto por termos de ordem n
2
. A estatstica
corrigida tem a forma S
= S(1
k
i=1
c
i
S
i1
), onde os c
i
s de ordem n
1
sao determinados
de tal maneira que a distribuicao de S
i=0
a
i
F
q+2i
(x), (5.24)
22
o
i
s sao quantidades de ordem n
1
. Na realidade, elas sao funcoes de parametros
desconhecidos. Para que a funcao F
S
(x) em (5.24) seja uma funcao de distribuicao ate
ordem O(n
1
) e necessario que a condicao
k
i=0
a
i
= 0 seja satisfeita. As estatsticas escore
e de Wald apresentam expansoes do tipo (5.24) para suas funcoes de distribuicao com
k = 3, enquanto k = 1 para a razao de verossimilhanca.
Sejam as relacoes de recorrencia
F
q+2
(x) = F
q
(x)
2x
q
f
q
(x)
e
f
q+2
(x) =
x
q
f
q
(x),
onde f
q
(x) =
dF
q
(x)
dx
e a funcao densidade da variavel
2
q
. Usando estas relacoes, a equacao
(5.24) pode ser dada por
F
S
(x) = F
q
(x) f
q
(x)
k
i=1
C
i
x
i
,
onde C
i
= 2
1
i
k
=i
a
para i = 1, . . . , k e
i
= E{(
2
q
)
i
} = 2
i
_
q
2
+i
_
/
_
q
2
_
.
A forma funcional anterior, envolvendo um polinomio de grau k, sugere a estatstica
modicada
S
= S
_
1
k
i=1
c
i
S
i1
_
. (5.25)
Os c
i
s s ao determinados em (5.25) de maneira a satisfazer F
S
(x) = F
q
(x) ate O(n
1
),
i.e., de modo que S
ate ordem n
1
como
F
S
(x) = F
S
(x) +f
S
(x)
k
i=1
c
i
x
i
,
onde f
S
(x) =
dF
S
(x)
dx
. Uma vez que S tem distribuicao
2
q
ate O(n
1
), e que os c
i
s sao
140 Introducao `a Teoria Assintotica Gauss M. Cordeiro
O(n
1
), obtem-se ate esta ordem
F
S
(x) = F
S
(x) +f
q
(x)
k
i=1
c
i
x
i
. (5.26)
Substituindo na equacao (5.26) a expansao de F
S
(x) dada anteriormente tem-se
F
S
(x) = F
q
(x) +f
q
(x)
n
i=1
(c
i
C
i
)x
i
.
A igualdade F
S
(x) = F
q
(x) ate ordem n
1
e satisfeita se, e somente se, c
i
= C
i
para
i = 1, . . . , k. Consequentemente, a estatstica aperfeicoada
S
= S
_
1 2
k
i=1
_
k
=i
a
1
i
S
i1
_
(5.27)
tem distribuicao
2
q
ate ordem n
1
sob a hipotese nula. O termo entre chaves na formula
(5.27) e denominado correcao tipo-Bartlett e objetiva melhorar a aproximacao da dis-
tribuicao da estatstica S
pela distribuicao
2
q
. O melhoramento e no sentido de que
P(S
x) = F
q
(x) +O(n
2
) enquanto P(S x) = F
q
(x) +O(n
1
), ou seja, baseando-se
o teste em S
i
s relativas aos testes escore sao dadas, em generalidade,
por Ferrari e Cordeiro (1994).
22
o
2
de Pearson sao testes escore. As aplicacoes dos testes escore aparecem em modelos
lineares generalizados (Pregibon, 1982), em modelos de series temporais (Hosking, 1980,
1981 e Poskitt e Tremayne, 1981, 1982), em modelos de sobrevivencia (Lawless, 1982) e
em in umeros modelos econometricos (Breusch e Pagan, 1980 e Engle, 1984).
Retorna-se aqui ao problema descrito na Secao 4.3 de testar a hipotese nula com-
posta H : =
(0)
versus a hipotese alternativa composta A : =
(0)
, onde
= (
T
,
T
)
T
, dim() = q e dim() = p q. A funcao escore total U() =
(U
(, )
T
, U
(, )
T
)
T
para e particionada conforme . A matriz de informacao
K = K() para e sua inversa, particionadas como , sao
K() =
_
K
_
e K()
1
=
_
K
_
,
onde todas as submatrizes acima sao, em geral, funcoes de e . Sejam
= (
T
,
T
) e
=
(
(0)T
,
T
)
T
as EMV irrestrita e restrita de , respectivamente. As funcoes avaliadas em
, onde
U
= U
). Como
foi estabelecido na Secao 4.3, satisfeitas certas condicoes de regularidade como aquelas
da Secao 4.1.3, a distribuicao de S
R
converge em grandes amostras para a distribuicao
2
q
sob a hipotese nula.
A expansao assintotica da funcao de distribuicao de S
R
segue a expansao (5.24) com
k = 3 (Harris, 1985). Para apresentar os seus coecientes a
0
, a
1
, a
2
e a
3
, necessita-se
denir as seguintes matrizes particionadas conforme :
A =
_
0 0
0 K
1
_
e M = K
1
A,
onde K
1
i,j,k
)(
rst
+ 2
rs,t
)a
js
a
kt
m
ir
6(
i,j,k,r
+
i,j,kr
)a
kr
m
ij
,
A
2
= 3
i,j,k
r,s,t
a
kr
m
ij
m
st
+6(
ijk
+ 2
i,jk
)
r,s,t
a
ij
m
kr
m
st
6
i,j,k
r,s,t
a
kt
m
ir
m
js
+3
i,j,k,r
m
ij
m
kr
,
A
3
= 3
i,j,k
r,s,t
m
ij
m
kr
m
st
+ 2
i,j,k
r,s,t
m
ir
m
js
m
kt
.
(5.28)
As somas nas equacoes (5.28) sao tomadas em relacao a todos os parametros
1
, . . . ,
p
de . Observe-se que, como esperado,
3
i0
a
i
= 0. As formulas (5.28) sao extremamente
complicadas para serem analisadas num contexto geral. Para modelos especiais, elas
podem sofrer reducao consideravel.
Determinando-se os A
i
s para o modelo em consideracao, a estatstica escore aper-
feicoada tem a representacao (5.27), ou seja,
S
R
= S
R
{1 (c +bS
R
+aS
2
R
)}, (5.29)
onde
a =
A
3
12q(q + 2)(q + 4)
,
b =
A
2
2A
3
12q(q + 2)
,
c =
A
1
A
2
+A
3
12q
.
(5.30)
22
o
R
com a distribuicao
2
q
de
referencia, sendo o erro da aproximacao qui-quadrado de ordem O(n
2
). No caso das
quantidades A
1
, A
2
e A
3
envolverem parametros em , estes devem ser substitudos pelas
suas estimativas em
mas o erro da aproximacao
2
q
para a distribuicao nula de S
R
continuara sendo de ordem O(n
2
) (Cordeiro e Ferrari, 1991).
Da expansao da funcao de distribuicao de S
R
ate O(n
1
), Harris (1985) deduziu ate
esta ordem e sob H : =
(0)
, os tres primeiros momentos de S
R
como
1
(S
R
) = q +
A
1
12
,
2
(S
R
) = q(q + 2) +
A
1
(q + 2) + 2A
2
6
,
3
(S
R
) = q(q + 2)(q + 4) +
A
1
(q + 2)(q + 4) + 4A
2
(q + 4) + 8A
3
4
.
(5.31)
As equacoes (5.31) podem ser usadas para calcular A
1
, A
2
e A
3
quando os momen-
tos
r
(S
R
) de S
R
para r = 1, 2 e 3 forem mais facilmente determinados por primeiros
princpios.
Suponha agora o caso uniparametrico de testar H : =
(0)
versus A : =
(0)
, onde
a estatstica escore tem expressao S
R
= [U()
2
/E{U()
2
}]
=
(0) sendo U() = d()/d a
funcao escore total para com o quociente em S
R
avaliado em =
(0)
. Para melhorar
o teste de H demonstra-se (Cordeiro e Ferrari, 1991) que as quantidades A
1
, A
2
e A
3
em (5.28) sao dadas por A
1
= 0, A
2
= 3
4
/
2
2
e A
3
= 5
2
3
/
3
2
, onde
2
= E{U()
2
}
e a informacao total de Fisher para e
3
= E{U()
3
} e
4
= E{U()
4
} 3
2
2
sao os
terceiro e quarto cumulantes da funcao escore total, respectivamente. Sejam
1
=
3
/
3/2
2
e
2
=
4
/
2
2
as medidas usuais de assimetria e curtose da funcao escore, isto e, os seus
terceiro e quarto cumulantes padronizados. A estatstica escore aperfeicoada (5.29) para
testar H
0
: =
(0)
tem a forma simples
S
R
= S
R
_
1
1
36
_
3(5
2
1
3
2
) + (3
2
10
2
1
)S
R
+
2
1
S
2
R
_
_
. (5.32)
144 Introducao `a Teoria Assintotica Gauss M. Cordeiro
O primeiro coeciente em (5.32), (5
2
1
3
2
)/12, e uma medida da nao-normalidade ou
nao-normalidade inversa da funcao escore, pois se anula para as distribuicoes normal e
normal inversa. O terceiro coeciente,
2
1
/36, corrige a assimetria da funcao escore e o
segundo, (3
2
10
2
1
)/36, e uma combinacao linear das medidas de assimetria e curtose
desta funcao.
Exemplo 5.14 Consideram-se aqui tres modelos biparametricos: a distribuicao normal
N(,
1
) com media e variancia
1
e as distribuicoes normal inversa N
(, ) de
media positiva e parametro de precisao positivo e gama G(, ) de media positiva
e ndice positivo. As duas ultimas distribuicoes tem as seguintes funcoes densidades:
Distribuicao Funcao Densidade
N
(, )
_
2y
3
_
1/2
exp
_
(y )
2
2
2
y
_
G(, )
_
y
1
e
y/
/()
Para estes tres modelos o interesse reside em testar a media H
1
: =
(0)
versus
A
1
: =
(0)
quando o parametro de dispersao
1
e desconhecido. O calculo dos cu-
mulantes conjuntos
s e dos A
i
s das equacoes (5.28) pode ser encontrado em Cordeiro e
Ferrari (1991). Apresentam-se, a seguir, as formas das estatsticas escore tradicional S
R
e aperfeicoada S
R
nestes tres modelos:
Modelo normal N(,
1
):
S
R
=
n
2
(y
(0)
)
2
n
i=1
(y
i
(0)
)
2
e S
R
= S
R
_
1
1
2n
(3 S
R
)
_
;
Modelo normal inverso N
(, ):
S
R
=
n
2
(y
(0)
)
2
(0)
n
i=1
(y
i
(0)
)
2
y
i
e S
R
= S
R
_
1
1
4n
_
6
_
2 +
5
(0)
_
S
R
+
(0)
S
2
R
__
,
onde
=
n
(0)
2
n
i=1
(y
i
(0)
)
2
/y
i
;
22
o
(y
(0)
)
2
/
(0)
2
e S
R
segue de (5.29) (5.30) com
A
1
= 6(1
)/{n
(1
)
2
},
A
2
= 18(n
)
1
+ 9/{n
(1
)} e A
3
= 20/(n
),
onde
) =
y
(0)
(0)
+ log
_
(0)
y
_
,
sendo y a media geometrica dos dados.
Exemplo 5.15 Trabalha-se ainda com os tres modelos descritos no exemplo 5.14, onde
o interesse agora e testar o parametro de precisao H
2
: =
(0)
versus A
2
: =
(0)
quando a media e desconhecida. Apresentam-se a seguir as formas das estatsticas S
R
e S
R
nestes modelos:
Modelo normal N(,
1
):
S
R
=
1
2n
{n
(0)
n
i=1
(y
i
y)
2
} e
S
R
= S
R
_
1
1
18n
(33 34S
R
+ 4S
2
R
)
_
;
Modelo normal inverso N
(, ):
S
R
=
1
2n
_
n
(0)
y
2
n
i=1
(y
i
y)
2
y
i
_
2
e
S
R
= S
R
_
1
1
18n
(33 34S
R
+ 4S
2
R
)
_
;
Modelo gama G(, ):
S
R
=
n
(0)
{log
(0)
0
log(y/ y)}
2
1
(0)
0
146 Introducao `a Teoria Assintotica Gauss M. Cordeiro
e S
R
segue de (5.29) (5.30) com
A
1
=
3
n
(0)
(1
(0)
0
)
, A
2
=
3
(0)
(2
0
+
(0)
0
)
n(1
(0)
0
)
2
e
A
3
=
5(1 +
(0)
2
0
)
2
n
(0)
(1
(0)
0
)
3
,
onde
0
,
0
, . . . denotam funcoes poligamas avaliadas em =
(0)
.
Exemplo 5.16 Considera-se aqui o teste escore para o parametro da distribuicao ex-
ponencial tratada no exemplo 5.3. A estatstica escore para testar H : =
(0)
versus
A : =
(0)
e S
R
= n(
(0)
y 1)
2
. A estatstica escore corrigida S
R
segue facilmente de
(5.32) como
S
R
= S
R
_
1
1
18n
(3 11S
R
+ 2S
2
R
)
_
.
Os coecientes desta estatstica podem, tambem, ser calculados das equacoes (5.31), pois
neste caso os momentos ordinarios de S
R
ate O(n
1
) sao facilmente obtidos notando
que ny tem distribuicao gama com media n/ e ndice igual a 1, a saber:
1
(S
R
) =
1,
2
(S
R
) = 3 +4/n e
3
(S
R
) = 15 +130/n. Substituindo em (5.31) obtem-se os A
i
s e a
mesma expressao de S
R
dada anteriormente.
Recentemente, varios artigos tem sido publicados apresentando as estatsticas es-
core corrigidas (5.29) em classes amplas de modelos de regressao. Cordeiro, Ferrari e
Paula (1993) e Cribari-Neto e Ferrari (1995a) obtiveram correcoes tipo-Bartlett para
testes escore em modelos lineares generalizados com parametro de dispersao conhecido e
desconhecido, respectivamente. Correcoes similares para testes escore em modelos linea-
res heterocedasticos e em modelos nao-lineares da famlia exponencial foram obtidos por
Cribari-Neto e Ferrari (1995b) e Ferrari e Cordeiro (1996), respectivamente. No calculo
dessas correcoes tem sido mostrado atraves de estudos de simulacao que as estatsticas
escore modicadas por (5.29) sao melhores aproximadas pela distribuicao
2
de referencia
do que as estatsticas escore usuais. Uma revisao da literatura dos testes escore aper-
feicoados e dada por Cribari-Neto e Cordeiro (1996).
22
o
). As estatsticas w
e S
R
para o teste de H podem ser expressas por
w = 2n(
){(
) (
(0)
)} + 2n log{(
(0)
)/(
)}
e S
R
= nd()/d (() +d)
2
/(d()/d) com =
(0)
, onde d = n
1
d(y
i
).
Seja U() =
d(y)
()
2
}.
Os v
i
s estao relacionados com os cumulantes
2
e v
(4)
= 3v
4
+ 8v
3
6v
2
+ 3v
2(2)
.
, v
3
= 2
,
v
4
= 3(
e v
2(2)
=
2
+
2
2
.
Inserindo as equacoes acima na formula (5.23) obtem-se a correcao de Bartlett para
denir a razao de verossimilhanca aperfeicoada w
no teste de H : =
(0)
. Escreve-se
esta correcao como
c
B
= 1 +
()
12n
, (5.34)
expressando a funcao () por (Cordeiro et al., 1995)
() =
4
2
+ 5
2
2
+ 3
3
2
3
. (5.35)
A formula de () em (5.35) depende apenas de e e de suas tres primeiras derivadas
em relacao a . Quando e linear em , correspondente `a famlia exponencial natural,
tem-se a reducao simples () = (5
2
3
)/
3
. Pode-se, entao, calcular a correcao
para w em qualquer distribuicao de (5.33) inserindo simplesmente as funcoes correspon-
dentes e , e suas derivadas, na equacao (5.35). Uma diculdade na interpretacao desta
equacao e que os termos individuais nao sao invariantes em relacao a reparametrizacao e,
portanto, eles nao tem interpretacao geometrica independente do sistema de coordenadas
especicado.
22
o
i
s, obtem-se, apos extensiva
algebra, os coecientes a = a(), b = b() e c = c() da estatstica escore modicada
S
R
= S
R
{1
1
n
(c +bS
R
+aS
2
R
)}, deduzidas por Ferrari et al. (1996) como
a =
(
)
2
36
3
3
e (5.36)
b =
2
2
+ 11
10
2
2
3
+ 3
2
36
3
3
.
O coeciente c segue, diretamente, de (5.35) como c = ()/12. Substituindo as equacoes
(5.36) e c na formula de S
R
, obtem-se a estatstica escore melhorada para testar H :
=
(0)
na famlia exponencial uniparametrica. Os coecientes a e b, a exemplo de (),
dependem do modelo apenas atraves das funcoes e e de suas tres primeiras derivadas.
A grande vantagem das equacoes (5.35) (5.36) e que elas nao requerem o calculo de
cumulantes mas somente das derivadas de e . Claramente, a, b e c sao avaliados em
=
(0)
para calcular numericamente as correcoes.
Da equacao (5.35) pode-se demonstrar que () = 2 se: (i) ()() = c
1
, ou (ii) ()
e linear, por exemplo () = c
1
+ c
2
, e () = c
3
/c
4
, onde c
1
, c
2
, c
3
e c
4
sao constantes
arbitrarias. Estas condicoes sao individualmente sucientes, mas nao sao necessarias,
para garantir () = 2. Tambem, demonstra-se, das equacoes (5.36) que as condicoes
(i) e (ii) sao, tambem, individualmente sucientes para que se tenha a = 1/9 e b =
11/18, implicando, entao, que a estatstica escore modicada seja da forma S
R
= S
R
{1
(3 11S
R
+ 2S
2
R
)/(18n)}. Pode-se vericar que isto ocorre para varias distribuicoes que
satisfazem uma das condicoes acima.
As equacoes (5.35) e (5.36) sao, facilmente, calculadas algebricamente com o auxlio de
programas de computacao simbolica como REDUCE, MATHEMATICA (Wolfram, 1996)
e MAPLE. Cordeiro et al. (1995) e Ferrari et al. (1996) apresentam, repectivamente,
formulas especiais para (), a(), b() e c() em 30 distribuicoes da famlia exponencial
(5.33). Seguem abaixo, oito exemplos, onde () = 12c():
150 Introducao `a Teoria Assintotica Gauss M. Cordeiro
(i) Binomial (0 < < 1, m IN, m conhecido, y = 0, 1, 2, . . . , m): () = log{/(1 )},
() = (1 )
m
, d(y) = y, v(y) = log
_
m
y
_
:
a =
(2 1)
2
36m(1 )
, b =
22( 1) + 7
36m( 1)
, c =
(1 ) 1
6m( 1)
.
(ii) Poisson ( > 0, y = 0, 1, 2, . . .): () = log , () = exp(), d(y) = y, v(y) = log y!:
a = 1/(36), b = 7/(36), c = 1/(6).
(iii) Normal ( > 0, < < , < y < ):
(a) conhecido: () = (2)
1
, () =
1/2
, d(y) = (y )
2
, v(y) = {log(2)}/2: a = 2/9,
b = 11/9, c = 1/3.
(b) conhecido: () = /, () = exp{
2
/(2)}, d(y) = y, v(y) = {y
2
+ log(2)}/2:
a = 0, b = 0, c = 0.
(iv) Normal Inversa ( > 0, > 0, y > 0):
(a) conhecido: () = , () =
1/2
, d(y) = (y )
2
/(2
2
y), v(y) = {log(2y
3
)}/2:
a = 2/9, b = 11/9, c = 1/3.
(b) conhecido: () = /(2
2
), () = exp(/), d(y) = y,
v(y) = /(2y) + [log{/(2y
3
)}]/2: a = /(4), b = 5/(4), c = 0.
(v) Gama (k > 0, > 0, y > 0):
(a) k conhecido: () = , () =
k
, d(y) = y, v(y) = (k 1) log y log{(k)}: a = 1/(9k),
b = 11/(18k), c = 1/(6k).
(b) conhecido: (k) = 1 k, (k) =
k
(k), d(y) = log y, v(y) = y:
a =
(k)
2
36
(k)
3
, b =
10
(k)
2
+ 3
(k)
(k)
36
(k)
3
, c =
5
(k)
2
3
(k)
(k)
12
(k)
3
,
onde () e a funcao digama.
(vi) Rayleigh ( > 0, y > 0): () =
2
, () =
2
, d(y) = y
2
, v(y) = log(2y): a = 1/9,
b = 11/18, c = 1/6.
(vii) Pareto ( > 0, k > 0, k conhecido, y > k): () = + 1, () = (k
)
1
, d(y) = log y,
v(y) = 0: a = 1/9, b = 11/18, c = 1/6.
(viii) Weibull ( > 0, > 0, conhecido, y > 0): () =
, () =
, d(y) = y
,
v(y) = log + ( 1) log y: a = 1/9, b = 11/18, c = 1/6.
22
o
) =
/(2n
2
), onde
() = E{d(y)} e as derivadas sao em relacao ao parametro .
3. Para as distribuicoes (i) (viii) da famlia exponencial (5.33) apresentadas na Secao
5.9 mostre que o vies B() da EMV
, obtido da equacao (5.5), e dado por:
(i) Binomial: B(
) = 0;
(ii) Poisson: B(
) = 0;
(iii) Normal: (a) conhecido, B(
) = 0; (b) conhecido, B( ) = 0;
(iv) Normal Inversa: (a) conhecido, B(
) =
(k)
2n
(k)
2
, onde ()
e a funcao digama;
(vi) Rayleigh: B(
) = /(8n);
(vii) Pareto: B(
) = /n;
(viii) Weibull: B(
) = (1 )/(2n
2
).
4. Suponha a distribuicao
2
() e a funcao de Bessel
de primeira especie e ordem . (a) Determine o vies de ordem n
1
da EMV
; (b)
Das equacoes (5.35) (5.36) encontre as correcoes de Bartlett e tipo-Bartlett para
melhorar as estatsticas da razao verossimilhanca e escore no teste de H : =
(0)
versus A : =
(0)
; (b) Deduza de (5.10) a aproximacao para a funcao densidade de
.
7. Para os modelos log-gama, gama e logstico descritos nos exemplos 5.10 e 5.11,
apresente formulas para aproximar P(Y y; ) baseadas em (5.15).
8. Caracterize as seguintes distribuicoes de um parametro: geometrica, binomial ne-
gativa, Poisson truncada, serie logaritmica, serie de potencias, Maxwell, Pareto,
Rayleigh, valor extremo, lognormal e potencia, como membros da famlia exponen-
cial (5.33). (a) Deduza das equacoes (5.35) (5.36) as correcoes para melhorar os
testes da razao de verossimilhanca e escore (Cordeiro et al., 1995; Ferrari et al.,
1996). (b) Deduza formulas para os vieses de ordem n
1
das EMV do parametro
que caracteriza estas distribuicoes.
9. Sejam n observacoes independentes y
1
, . . . , y
n
de uma distribuicao de Poisson com
a estrutura log linear log
i
= + x
i
, i = 1, . . . , n. Suponha o teste de H :
= 0 versus A : = 0. Demonstre que a estatstica escore para este teste e
S
R
= ns
2
(y s
2
)
1
e que A
1
, A
2
e A
3
sao obtidos das equacoes (5.28) como: A
1
=
0, A
2
= 3(3 s
4
/s
2
2
)(n )
2
e A
3
= 5s
2
3
/(n s
3
2
), onde s
a
=
n
i=1
(x
i
x)
a
/n e = y.
22
o