Você está na página 1de 69

Introdução à Teoria Estatı́stica

Clássica e moderna

Notas de aula
fevereiro 2009

Fernando Lucambio

Departamento de Estatı́stica
Universidade Federal do Paraná
Curitiba/PR, 81531–990, Brasil

email: lucambio@ufpr.br
2
Sumário

1 Teoria da estimação paramêtrica 5


1.1 Estimação pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Estimadores consistentes . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.3 Estimadores invariantes . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.4 Estimadores suficientes . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.5 Estimadores não viciados . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1.6 Estimadores eficientes . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Métodos de estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.1 Método dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Estimadores da função de densidade . . . . . . . . . . . . . . . . . . . . . . 25
1.3.1 Estimador kernel (núcleo) . . . . . . . . . . . . . . . . . . . . . . . 26
1.4 Estimação por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.4.1 Método da quantidade pivotal . . . . . . . . . . . . . . . . . . . . . 31
1.4.2 Intervalos de confiança aproximados . . . . . . . . . . . . . . . . . . 33

2 Função de verossimilhança 35
2.1 Estimador de máxima verossimilhança . . . . . . . . . . . . . . . . . . . . 35
2.1.1 Estimação numêrica . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.1.2 Propriedades do estimador de máxima verossimilhança . . . . . . . 38
2.1.3 Correções para o vı́cio em amostras pequenas . . . . . . . . . . . . 42
2.2 Outras funções de verossimilhança . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.1 Quase verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.2 Verossimilhança perfilada . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.3 Distribuição geral do erro . . . . . . . . . . . . . . . . . . . . . . . 50

3 Teoria do teste de hipótesis 53


3.1 Noções de teste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 Testes mais poderosos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3 Teste da razão de verossimilhanças . . . . . . . . . . . . . . . . . . . . . . 58
3.4 Outros testes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.4.1 Famı́lia simétrica de densidades . . . . . . . . . . . . . . . . . . . . 63
3.5 Famı́lia exponencial de densidades . . . . . . . . . . . . . . . . . . . . . . . 66
3.5.1 Famı́lia exponencial uni-paramêtrica . . . . . . . . . . . . . . . . . 66

3
4 SUMÁRIO

Referências Bibliográficas 68
Capı́tulo 1

Teoria da estimação paramêtrica

Neste capı́tulo estudaremos a teoria da estimação pontual. Podemos estimar paramêtros


somente considerando a estrutura do primeiro e segundo momentos das observações ou
considerar situaçoes mais gerais onde a distribuição de probabilidades das observações seja
identificada como um membro de uma famı́lia mais geral de distribuições F . Assim o
problema principal da estimação paramêtrica é como escolher essa distribuição particular,
que pertence a F , baseado nos dados. Na maioria dos problemas nosso interesse requer
unicamente conhecer determinadas caracterı́sticas (parâmetros ou funções destes) da dis-
tribuição de probabilidades e nessas situações somente é necessário estimar os parâmetros
e não necessariamente toda a função de densidade ou probabilidade.
Em qualquer caso necessitamos de funções das observações, que chamaremos de estima-
dores, cujos valores em realizações das observações forneceram as estimativas de quantida-
des desconhecidas, podendo serem estas a própia função de distribuição ou seus parâmetros.
Neste capı́tulo estaremos interessados na estimação dos parâmetros das distribuições. Ex-
celentes referências neste tópico são os livros Rao (1973) e Rohatgi (1976).

1.1 Estimação pontual


Seja X uma variável aleatória definida no espaço de estatı́stico (Ω, B, {Pθ : θ ∈ Θ}) 1
onde θ é o vetor de parâmetros dos quais depende a função de distribuição Fθ de X e
suponhamos que a forma funcional de Fθ é conhecida.

Definição 1 O conjunto dos valores admissı́veis dos parâmetros de Fθ é chamado de


espaço paramêtrico.

Considerando que θ assume valores no espaço paramêtrico Θ, o conjunto {Fθ : θ ∈ Θ}


é chamado de famı́lia de distribuições de X. Por exemplo, se X ∼ Bernoulli(p) e p é o
parâmetro desconhecido, temos que Θ = {p : 0 < p < 1} é o espaço paramêtrico e que
{P (x; θ) : 0 < p < 1}, onde P (x; θ) = px (1 − p)1−x , a famı́lia de todas as possı́veis funções
de probabilidade de X.
1
O espaço estatı́stico é difinido como uma coleção de espações de probabilidade mudando únicamente
o valor do vetor de parâmetros que define a função de distribuição.

5
6 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

Aqui investigaremos o problema de aproximarmos ao valor de θ baseados numa amos-


tra. No seguinte consideraremos a restrição Θ ⊂ R. Primeiramente definimos estatı́stica e
posteriormente estimador e estudaremos propriedades dos estimadores para melhor esco-
lherlos.

Definição 2 Qualquer função da amostra que não depende de parâmetros desconhecidos


é denominada uma estatı́stica.

Dado que o objetivo de estimação é procurar, segundo algum critério, valores que
representem adequadamente os parâmetros desconhecidos devemos escolher dentre todas as
possı́veis estatı́sticas aquelas que assumam valores no espaço paramêtrico, estas estatı́sticas
são denominadas estimadores e definidos rigorosamente a continuação.

Definição 3 Sejam X1 , . . . , Xn variáveis aleatórias independentes com a mesma distri-


buição Fθ , onde θ ∈ Θ ⊆ R. A estatı́stica T (X1 , . . . , Xn ) é dita ser um estimador pontual
de θ se T for uma função de Rn em Θ.

O problema da estimação pontual é encontrar um estimador T , para o parâmetro


desconhecido θ, que satisfaça algumas boas propriedades.

Exemplo 1 Seja X1 , . . . , Xn é uma amostra aleatória2 com função


P de probabilidade
Pn P (λ),
ou seja, Poisson de parâmetro desconhecido λ. As funções n1 ni=1 Xi e n(n+1)
1
i=1 iX i são
estimadores de λ, segundo a definição 3. Inclussive qualquer variável Xi da amostra é
estimador de λ, porque?

Exemplo 2 Seja X1 , . . . , Xn é uma amostra aleatória com função de densidade U(0, θ),
ou seja, uniforme de parâmetro desconhecido θ. As funções
(i) X(1) = min(X1 , . . . , Xn )
(ii) X(n) = max(X1 , . . . , Xn )
e = med(X1 , . . . , Xn )
(iii) X
P
(iv) X = n1 ni=1 Xi
são estimadores de θ. As funções min(·), max(·) e med(·) denotam, respectivamente, o
mı́nimo, máximo e a mediana amostral observada.
e assumem valores no espaço paramêtrico Θ = (0, θ) e
É fácil provar que X(1) , X(n) e X
portanto são estimadores de θ. Por outro lado, X(1) ≤ X ≤ X(n) , sendo também a média
amostral estimador para θ.

Destes exemplos percebemos claramente que precissamos alguns critérios para poder
decidir qual estimador escolher. Na próxima seção consideraremos algumas propriedades
desejáveis dos estimadores e posteriormente conheceremos diversos métodos para encon-
trarlos.
2
Definimos como amostra aleatória um conjunto de variáveis aleatórias independentes igualmente dis-
tribuı́das.
1.1. ESTIMAÇÃO PONTUAL 7

1.1.1 Propriedades dos estimadores


Um dos grandes problemas da estatı́stica é o de encontrar um estimador razoável para o
parâmetro desconhecido já que diversos estimadores podem estar disponı́veis para uma si-
tuação determinada, sendo então desejável investigar propriedades dos estimadores potuais
que nos permitirão decidir quais destes escolher.

1.1.2 Estimadores consistentes


A primeira exigência aos estimadores é que o limite em probabilidade seja o valor do
parâmetro, ou seja, um estimador é razoável para θ se quando n for grande o valor do
estimador estiver perto do parâmetro com uma alta probabilidade. Os estimadores que
satisfazem esta propriedade são conhecidos como consistentes.

Definição 4 Seja X1 , . . . , Xn uma seqüência de variáveis aleatórias independentes com a


mesma distribuição Fθ . A seqüência de estimadores Tn (X1 , . . . , Xn ) = Tn é dita consistente
para θ se
P
Tn −→ θ, quando n → ∞,
para cada θ ∈ Θ fixo.

P
Lembremos que Tn −→ θ se e somente se Pr{|Tn − θ| > ǫ} → 0 quando n → ∞ para
q.c.
qualquer ǫ > 0. Podemos definir consistencia forte quando Tn −→ θ e consistencia em
r
r-ésima média se Tn −→ θ. Neste contexto entenderemos estimadores consistentes àqueles
consistentes fracamente, ou seja, àqueles que satisfazem a convergência em probabilidade.

Exemplo 3 Sejam X1 , . . . , Xn variáveis independentes cada uma com a mesma função


de probabilidade Bernoulli(θ). Então E{Xi } = θ e pela lei dos grandes números
Pn
i=1 Xi P
−→ θ·
n

Desta forma provamos que a média amostral X é um estimador consistente para θ. Também
P P
( ni=1 Xi +1)/(n+2) −→ θ, portanto o estimador consistente não é necessariamente único.
P P
Mais ainda, se Tn −→ θ e cn → 0 quando n → ∞ temos que Tn + cn −→ θ e se cn → 1
P
quando n → ∞ também temos que cn Tn −→ θ.

A utilizão da definição como forma de provar se uma seqüência de estimadores é sufi-


ciente geralmente é o caminho mais difı́cil. O seguinte resultado facilita este trabalho ao
identificar condições que devem cumprir os estimadores para serem suficientes.

Teorema 1 Se Tn é uma seqüência de estimadores tal que E{Tn } → θ e var{Tn } → 0


quando n → ∞, então Tn é consistente para θ.
8 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

Prova. Pela desigualdade de Tchebychev

Pr{|Tn − θ| ≥ ǫ} ≤ ǫ−2 E{Tn − E{Tn } + E{Tn } − θ}2


= ǫ−1 {var{Tn } + (E{Tn } − θ)2 } → 0 quando n → ∞·


Observemos que a afirmação deste teorema implica calcular a esperança e variancia do
estimador que se quer provar consistente e posteriormente mostrar que limn→∞ E{Tn } = θ e
que limn→∞ var{Tn } = 0. Agora, e se a distribuição de probabilidades da variável não tiver
média finita, isso implica que não existira estimador consistente? a resposta é negativa no
sentido de que a esperança pode não existir e mesmo assim existir estimador consistente
para os parâmetros da distribuição.
Um exemplo é a distribuição Cauchy a qual, sabidamente, não tem momentos finitos.
Embora a média e momentos superiores sejam infinitos a mediana amostral é um estimador
consistente. Seja X1 , . . . , Xn uma amostra aletaória da distribuição Cauchy com densidade
A mediana amostral, definida como o ..........

Exercı́cios
1
Pn
1. Prove que o estimador n(n+1) i=1 iXi não é consistente para θ, cada Xi ∼ P oisson(θ),
i = 1, . . . , n.

2. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade N(θ, 1) e seja Tn =


an X + bn . Encontre as propriedades que devem cumprir as seqüências numéricas an
e bn para que Tn seja uma seqüência de estimadores consistentes para θ.
P
3. Os estimadores s2 = ni=1 (X1 −X)2 /(n−1) e σ e2 = (n−1)s2 /(n+ 1) são consistentes
para σ 2 se X1 , . . . , Xn é uma amostra aleatória N(µ, σ 2 )?

4. Seja Tn = X + a/ n, a fixo. Mostre que Tn é consistente para E{X}.

1.1.3 Estimadores invariantes


Considere, por exemplo, um experimento no qual medimos Descrevemos aqui uma outra
propriedade dos estimadores e estudamos alguns procedimentos para encontrar estimadores
que satiszaçam esta propriedade.

Definição 5 .... se E{T } = θ dizemos que T é não viesado.

1.1.4 Estimadores suficientes


Uma vez escolhido o modelo estatı́stico para um determinado problema, procuraremos
afastar qualquer informação irrelevante que possa estar presente nos dados e que eventual-
mente não permita termos uma melhor compreensão da situação em estudo.
Depois de colido um conjunto de dados, o trabalho do estatı́stico é interpretar os dados
obtidos e fornecer alguma conclusão estatı́stica válida acerca da população em estudo. Para
1.1. ESTIMAÇÃO PONTUAL 9

realizar esta tarefa o estatı́stico concentra a informação contida nos dados em algumas
estatı́sticas, desde que não tenha perda de informação ao realizar isso.
As estatı́sticas que ao utilizar-las não incorremos em perda de informação são chama-
das de estatı́sticas suficientes. Por exemplo, suponamos que observamos um processo de
manufatura no qual anotamos se uma peça produzida esta conforme as especificações ou
não, neste caso observamos uma amostra X1 , . . . , Xn na qual cada Xi = 1 se o i-ésimo ı́tem
observado é defeituoso
Pn e Xi = 0 caso contrário. É intuitivo que o número total de ı́tens
observados T = i=1 Xi é uma estatı́stica que se for utilizada para entender o experimento
garante que não tenhamos perda de informação.

Definição 6 Seja X = X1 , . . . , Xn uma amostra aleatória da famı́lia de distribuições


{Fθ : θ ∈ Θ}. A estatı́stica T = T (X) é dita ser suficiente para θ ou para a famı́lia
de distribuições {Fθ : θ ∈ Θ} se, e somente se, a distribuição condicional de X dado T = t
não depende de θ, a menos um conjunto de probabilidade nula.

Exemplo 4 Continuando o exemplo 3. Se X = X1 , . . . , Xn é uma amostra aleatória


Bernoulli com probabilidade de sucesso θ então
Pr{X1 = x1 , . . . , Xn = xn ; θ} = θs (1 − θ)n−s ,
P P
onde cada xi é 0 ou 1 e s = ni=1 xi . A distribuição condicional de X dado S = ni=1 Xi é
Pr{X1 = x1 , . . . , Xn = xn , S = s; θ}
Pr{X1 = x1 , . . . , Xn = xn |S = s; θ} =
Pr{X1 = x1 , . . . , Xn = xn ; θ}
θ (1 − θ)n−s
s
1
= n s n−s
= n ,
s
θ (1 − θ) s

e, desta forma, provamos que a distribuição de X|S não depende de θ, logo S é uma
estatı́stica suficiente para θ.

Se a estatı́stica T é suficiente, T pode ser utilizada em subtituição à amostra original,


isto significa que podemos utilizar a estatı́stica suficiente para reconstruir o experimento
do qual obtevemos a amostra sem a necessidade de conhecer o parâmetro θ e assim obter
um novo vetor X′ = (X1′ , . . . , Xn′ ) com a mesma distribuição de X. Podemos fazer isto
observando primeiramente o valor de T e posteriormente obtendo uma amostra X′ com
densidade X|T . Dado que a densidade condicional de X dado T não depende de θ ela é
não informativa para o parâmetro.
Provemos esta afirmação no caso discreto,
Pr{X′ = x′ ; θ} = Pr{X′ = x′ , T = t; θ} = Pr{X′ = x′ |T = t}Pr{T = t; θ}
= Pr{X = x′ ; θ}·
Nem toda estatı́stica é suficiente, podemos observar isso no seguinte exemplo. Sejam
X1 e X2 variáveis aleatórias independentes com distribuição P oisson(θ). Consideremos as
estatı́sticas X1 + X2 e X1 + 2X2 .
Pr{X1 = x1 , X2 = t − x1 ; θ}
Pr{X1 = x1 , X2 = x2 |X1 + X2 = t; θ} = ,
Pr{X1 + X2 = t; θ}
10 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

se t = x1 + x2 , xi = 0, 1, 2, , . . ., i = 1, 2. Pode-se demonstrar que X1 + X2 ∼ P oisson(2θ)


e então  t  
1 t
Pr{X1 = x1 , X2 = x2 |X1 + X2 = t; θ} = ,
2 x1
e portanto X1 + X2 é uma estatı́stica suficiente para λ.
Por outro lado, para provar que X1 + 2X2 não é uma estatı́stica suficiente para θ basta
considerar uma situação particular, assim

Pr{X1 = 0, X2 = 1; θ}
Pr{X1 = 0, X2 = 1|X1 + 2X2 = 2; θ} =
Pr{X1 + 2X2 = 2; θ}
e−θ (θe−θ )
=
Pr{X1 = 0, X2 = 1; θ} + Pr{X1 = 2, X2 = 0; θ}
θe−2θ 1
= −2θ 2 −2θ
= ,
θe + (θ /2)e 1 + (θ/2)

a qual depende de θ e, portanto, X1 + 2X2 não é uma estatı́stica suficiente.


A definição de estatı́stica suficiente não é construtiva já que requer escolher a estatı́stica
T e depois provar se é suficiente, o qual não é produtivo por requerer tempo e não garantir
resultados satisfatórios. Desta forma a definição 6 é de utilização restrita, não sendo o
seguinte resultado o qual permite identificar estatı́sticas suficientes.

Teorema 2 (Critério de Fatoração) Seja X1 , . . . , Xn uma amostra aleatória com fun-


ção de densidade ou de probabilidade f (x1 , . . . , xn ; θ), θ ∈ Θ. A estatı́stica T é suficiente
para θ se, e somente se, existirem funções g(t; θ) e h(x1 , . . . , xn ) tais que

f (x1 , . . . , xn ; θ) = h(x1 , . . . , xn )g(t; θ), (1.1)

para todo x1 , . . . , xn ∈ Rn e todo θ ∈ Θ. A estatı́stica T e o parâmetro θ podem ser vetores.

Prova Consideremos que as variáveis aleatórias são discretas. Seja T uma estatı́stica
suficiente para θ. Então, pela definição, Pr{X = x|T = t} não depende de θ e podemos
escrever

Pr{X = x; θ} = Pr{X = x, T = t; θ}
= Pr{T = t; θ}Pr{X = x|T = t},

desde que a probabilidade condicional Pr{X = x|T = t} esteja bem definida.


Para valores de x nos quais Pr{X = x; θ} = 0 para todo θ, definimos h(x) = 0 e para
os outros valores de x tais que Pr{X = x; θ} > 0 para algúm θ, definimos

h(x) = Pr{X = x|T = t},

e também definimos
g(T (x); θ) = Pr{T = t; θ},
do qual obtemos (1.1).
1.1. ESTIMAÇÃO PONTUAL 11

Provemos agora que se a relação em (1.1) se satisfaz então T é suficiente. Seja t0 um


dos possı́veis valores da estatı́stica, então para um t0 fixo
X
Pr{T = t0 ; θ} = Pr{X = x; θ}
{x:T (x)=t0 }
X
= h(x)g(T (x); θ)
{x:T (x)=t0 }
X
= g(t0; θ) h(x)·
{x:T (x)=t0 }

Suponhamos que Pr{T = t0 ; θ} > 0 para algúm valor de θ. Então



0 se T (x) 6= t0
Pr{X = x, T (x) = t0 ; θ} 
Pr{X = x|T = t0 } = = Pr{X = x; θ} ·
Pr{T = t0 ; θ}  se T (x) = t0
Pr{T = t0 ; θ}
Então, se T (x) = t0 temos
Pr{X = x; θ} g(t0 ; θ)h(x) h(x)
= P =P ,
Pr{T = t0 ; θ} g(t0 ; θ) {x:T (x)=t0 } h(x) {x:T (x)=t0 } h(x)

que não depende de θ, o qual completa a demonstração. 


Este teorema não pode ser utilizado para provar que determinada estatı́stica não é
suficiente. Para isso deve ser utilizada a definição. Este teorema serve para identificar
uma estatı́stica suficiente se existe. Também este teorema não responde a pergunta de se
uma determinada famı́lia de densidades admite estatı́sticas suficientes.
Se T é uma estatı́stica suficiente para θ, qualquer função um-a-um de T é também
suficiente. Vejamos como provar isto, seja U = q(T ) se q(·) é uma função um-a-um de T
tem inversa e podemos escrever t = q −1 (u). Então
f (x; θ) = g(t; θ)h(x) = g(q −1 (u); θ)h(x) = g ∗(u; θ)h(x)·
Se por outro lado T1 e T2 forem duas estatı́sticas suficientes para θ, temos que
f (x; θ) = g(t1 ; θ)h1 (x) = g(t2 ; θ)h2 (x),
e portanto T1 é uma função de T2 . Isto não sinifica que qualquer função de uma estatı́stica
suficiente é também suficiente. Por exemplo, numa amostra normal, X é suficiente para a
2
média µ, só que X não é suficiente para µ. Observe que X é suficiente para µ2 .
Uma propriedade importante das estatı́sticas suficientes é que se T é suficiente para
{Fθ : θ ∈ Θ} então T é suficiente para qualquer subcoleção {Fθ : θ ∈ Θ0 }, Θ0 ⊂ Θ de
densidades.

Exercı́cios
1. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade
x 2 2
f (x; θ) = 2 e−x /2θ ,
θ
12 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

onde x > 0 e θ > 0, esta é a função de densidade Rayleigh. Encontre uma estatı́stica
suficiente para θ.

2. Seja X1 , . . . , Xn uma amostra aleatória com função de probabilidade

f (x; θ) = θx(θ−1) ,

onde 0 < x < 1 e θ > 0. Encontre uma estatı́stica suficiente para θ.

3. Mostre que se T é uma estatı́stica suficiente para θ, então cT e T /c serão também


estatı́sticas suficientes para o mesmo parâmetro, c é uma constante real diferente de
0 e 1.

4. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade U(0, θ). Prove que
X(n) é uma estatı́stica suficiente para θ.

1.1.5 Estimadores não viciados


Descrevemos aqui uma outra propriedade dos estimadores e estudamos alguns procedimen-
tos para encontrar estimadores que satisfaçam esta propriedade.

Definição 7 Seja {Fθ : θ ∈ Θ} uma famı́lia de funções de distribuição . Um estimador θb


é dito não viciado para θ se
E{θ}b = θ, (1.2)
para toda θ ∈ Θ.

Mais geral ainda, seja d(θ) uma função do parâmetro, dizemos que θb é um estatimador
não viciado para d(θ) se
E{θ}b = d(θ),
b
para toda θ ∈ Θ. Um estimador que não satisfaz (1.2) é dito viciado e a função Bn (θ),
definida como
b = E{θ}
Bn (θ) b −θ

ou
b = E{θ}
Bn (θ) b − d(θ),

conforme o caso, é chamada de vı́cio do estimador θ. b


Esta é uma propriedade restrita à situação em que θb tem média finita. Notemos também
que esta propriedade é geral, no sentido do estimador ser não viciado para o estimador ou
para funções do parâmetro.

Exemplo 5 Seja X1 , . . . , Xn uma amostra aleatória de uma população com média finita.
A média amostral X é um estimador não viciado para a média populacional. Se esta mesma
população tiver variancia finita, a variancia amostral S 2 é um estimador não viciado para
a variancia populacional. Em geral, se o k-ésimo momento poulacional µk existe, o k-ésimo
momento amostral é não viciado para µk .
1.1. ESTIMAÇÃO PONTUAL 13

Se T é uma estatı́stica não viciada para θ, em geral g(T ) é uma estatı́stica viciada para
g(θ), a menos que g seja uma função linear. Vejamos isto, g é uma função linear de θ se
existirem constantes a e b tais que

g(θ) = a + bθ·

Neste caso, g(T ) = a + bT e, portanto, E{g(T )} = a + bE{T } = a + bθ. Com o exemplo


a seguir mostraremos que se g é uma função não linear, embora o estimador θb seja não
b é em geral um estimador viciado para g(θ).
viciado para θ, g(θ)

N(µ, σ 2 ). Provemos
Exemplo 6 Seja X1 , . . . , Xn uma amostra aleatória√da distribuiçãoP
que S, o desvio padrão amostral, definido como S = S 2 , onde S 2 = ni=1 (Xi − X)2 /(n −
2 2 2
√ é um estimador viciado para σ. Sabemos que (n − 1)S /σ ∼ χ (n − 1) e, assim
1)
n − 1S/σ ∼ χ(n − 1), esta última chamada de distribuição qui com n − 1 graus de
liberdade, que satisfaz (Stuart & Ord, 1987)
σµ′
E{S} = √ ,
n−1
onde
√ Γ(n/2)
µ′ = 2
Γ((n − 1)/2)
e
(n − 2)!!2
E{S} = σ √ ,
n − 1(n − 2)!
portanto S é um estimador viciado para σ.

Utilizamos neste exemplo que



(m − 2)!! π
Γ(m/2) = ,
2(m−1)/2
onde m!! é o fatorial doble, definido como o produto de todos os inteiros pares menores do
que m, se m é par e similar de m é ı́mpar. Utilizamos também a relação m! = m!!(m − 1)!!.
Veja esta e outras propriedades da função gama em Weisstein, Eric W. “Gamma Function”.
From MathWorld – A Wolfram Web Resource3 .
Vejamos o exemplo 3 na seção 1.1.2
Pnpara mostrar que nem sempre um estimador con-
sistente é não viciado. O estimador ( i=1 Xi + 1)/(n + 2) é consistente, no entanto, é fácil
provar que é viciado para E{X}. Além disso, o estimador não viciado nem sempre existe
e inclusive as vezes não faz sentido.
Interessante notar que o estimador não viciado não é necessariamente único. Numa
amostra Poisson de parâmetro θ, tanto a média amostral X quando a variancia amostral S 2
são não viciados para θ, devido a que nesta distribuição a média e a variancia populacionais
são iguais a θ. Mais do que isso, qualquer elemento da combinação linear αX + (1 − α)S 2 ,
0 < α < 1 é também não viciado para θ. Um conceito relacionado com o vı́cio do estimador
é o seguinte.
3
http://mathworld.wolfram.com/GammaFunction.html
14 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

Definição 8 O erro quadrático médio (EQM) de um estimador θb do parâmetro θ é dado


por
EQM{θ} b = E{θb − θ}2 · (1.3)

Pode-se mostrar que


b = var{θ}
EQM{θ} b + B 2 (θ),
b
n

onde Bn é o vı́cio do estimador, o qual depende do tamanho da amostra. Observemos que


b = 0, para todo θ ∈ Θ e que se limn→∞ Bn (θ)
um estimador é dito não viciado se Bn (θ) b =0
para todo θ ∈ Θ, dizemos que θb é assintoticamente não viciado para todo θ ∈ Θ. No caso
em que θb é não viciado para θ, temos que
b = var{θ}·
EQM{θ} b

O erro quadrático médio é empregado na comparação de estimadores. Dizemos então


que θb1 é melhor do que θb2 (ambos estimadores para o mesmo parâmetro) se

EQM{θb1 } ≤ EQM{θb2 },

para todo θ ∈ Θ, com EQM{θb1 } < EQM{θb2 } pelo menos para um valor de θ.

Exemplo 7 A função de densidade exponencial pode ser escrita como f (x; θ) = θe−θx ,
para x e θ estritamente positivos. Sob estas condições E{X} = 1/θ e var{X} = 1/θ2 .
Obtemos então que a média amostal X é um estimador não viciado para d(θ) = 1/θ.
2
Observemos que var{X} = E2 {X}, logo seria natural pensar que X poderia servir como
estimador não viciado da variancia. Acontece que
 
2 n+1 1
E{X } = ,
n θ2
2
e desta forma mostramos que X é somente assintoticamente não viciado para d(θ) = 1/θ2 .
2
Aqui o vı́cio é Bn (X ) = (n − 2)/n.

Definição 9 Se existir um estimador θb∗ do parâmetro θ tal que

EQM{θb∗ } ≤ EQM{θ},
b (1.4)

para todo θ ∈ Θ e todo θ, b e que para pelo menos um valor de θ a desigualdade é estrita,
então θb é dito ser ótimo em EQM para θ.

Exemplo 8 Seja X1 , . . . , XnPuma amostra aleatória da distribuição Bernoulli com parâ-


metro θ. Sabemos que Y = ni=1 Xi tem distribuição Binomial(n, θ). Consideremos os
estimadores
θb1 = X
e √
b Y + n/2
θ2 = √ ·
n+ n
1.1. ESTIMAÇÃO PONTUAL 15

Como E{X} = θ, temos que

θ(1 − θ)
EQM{θb1 } = var{X} = ·
n
Por outro lado,
√ √
b nθ + n/2 n n/2
E{θ2 } = √ = √ θ+ √ ,
n+ n n+ n n+ n

de modo que θb2 é um estimador viciado para θ. Observemos que


n
EQM{θb2 } = √ ·
4(n + n)2

Devemos notar que o EQM de θb2 independe de θ e que nenhum estimador é melhor
do que o outropem todo√o espaço √
paramêtrico, ou seja, nenhum destes é o ótimo já que
se
p |θ − 1/2| > n(1 + 2 n)/(n + n)2 /2 temos EQM{θb2 } < EQM{θb1 } e se |θ − 1/2| <
√ √ 2
n(1 + 2 n)/(n + n) /2 temos EQM{θb2 } > EQM{θb1 }.

Exercı́cios
1. Sejam X1 , . . . , Xn variáveis aleatórias tais que E{Xi } = θ. Mostre que

X n
2
θb = iXi ,
n(n + 1) i=1

é um estimador não viciado para θ.

2. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade U(0, θ). Mostre que
θb = 2X é não viciado para θ.

3. Seja X1 , . . . , Xn uma amostra aleatória com função de probabilidade Binomial(1, θ).


Encontre um estimador não viciado para d(θ) = θ2 .

4. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade N(θ, 1). Considere
os estimadores θb1 = X e θb2 = n. Encontre o EQM de θb1 e θb2 como função de θ,
algúm deles é ótimo?

Seja X1 , . . . , Xn uma amostra aleatória com função de densidade N(0, θ). Seja S 2 =
5. P
n 2
i=1 Xi . Considere os estimadores

θbc = cS 2 ·

Encontre o EQM de θbc e o valor de c que minimiza o EQM.


16 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

1.1.6 Estimadores eficientes


Dentre todos os estimadores não viciados devemos escolher àqueles de menor variancia e
é nesse objetivo que trabalharemos a continuação. Primeiro conheceremos um conceito
complexo, os estimadores não viciados de mı́nima variancia, os quais são difı́ceis de serem
encontrados na maioria das situações. Posteriormente estudaremos duas desigualdades
que nos permitem encontrar limites inferiores para a variancia de estimadores. Estas
desigualdades muitas vezes são utilizadas para provar que um estimador não viciado é de
variancia mı́nima. Por último conheceremos o conceito de estimadores eficientes.

Definição 10 Seja U o conjunto de todos os estimadores θb não viciados de θ ∈ Θ com


variança finita. Um estimador θb0 ∈ U é dito não viciado uniformemente de mı́nima
variança (ENVUMV) se
E{θb0 − θ}2 ≤ E{θb − θ}2 ,
vale para todo θb ∈ U.

Observemos que se um estimador pertence ao conjunto U e é ENVUMV ele terá também


o menor erro quadrático médio dentre todos os estimadores não viciados. Notemos que a
definição anterior equivale a afirmar que θb0 é ENVUMU para θ se

var{θb0 } ≤ var{θ},
b

para todo θb ∈ U. Estudaremos agora algumas formas de encontrar estes estimadores.

Teorema 3 Seja U o conjunto de todos os estimadores θb não viciados de θ ∈ Θ de va-


riança finita e consideremos U não vazio. Seja U0 o conjunto de todos os estimadores não
viciados do 0 de variança finita, ou seja,

U0 = {θb0 : E{θb0 } = 0, E{θb02 } < ∞ para todo θ ∈ Θ}·

Então θb0 ∈ U0 é ENVUMV se, e somente se,

E{θb0 θ}
b = 0,

para todo θ e todo θb0 ∈ U0

Este teorema é extremamente difı́cil de ser utilizado em situações práticas, por esse
motivo procuram-se alternativas. Estas alternativas objetivam encontrar de maneira indi-
reta os estimadores não viciados uniformemente de mı́nima variancia, a maneira indireta
encontrada é através de desigualdades que procuram encontrar limites inferiores para a
variancia de estimadores.

Teorema 4 (Fréchet, Cramér & Rao) Seja Θ, o espaço paramêtrico, um intervalo a-


berto na reta real e {Fθ : θ ∈ Θ} uma famı́lia de distribuições discretas ou absolutamente
1.1. ESTIMAÇÃO PONTUAL 17

contı́nuas. Assumamos que o conjunto {f (x; θ) = 0 para todo θ ∈ Θ} seja independente de


θ e que para todo θ, ∂f (x; θ)/∂θ exista. Suponhamos que
Z Z
∂ ∂
f (x; θ)dx = f (x; θ)dx = 0 no caso contı́nuo,
∂θ ∂θ
∂ X X ∂ (1.5)
f (x; θ)dx = f (x; θ)dx = 0 no caso discreto,
∂θ x x
∂θ

para todo θ ∈ Θ. Seja ψ uma função definida em Θ diferenciável e seja θb um estimador


não viciado de ψ de segundo momento finito. Assumamos que
Z Z
∂ b b ∂
θ(x)f (x; θ)dx = θ(x) f (x; θ)dx = 0 no caso contı́nuo,
∂θ ∂θ
∂ Xb X
b ∂ (1.6)
θ(x)f (x; θ)dx = θ(x) f (x; θ)dx = 0 no caso discreto,
∂θ x x
∂θ

para todo θ ∈ Θ. Seja ϕ uma outra função de Θ → R. Então


 2
2 ∂ log f (X; θ)
[ψ (θ)] ≤ E{θb − ψ(θ)}2 E

, (1.7)
∂θ

para todo θ ∈ Θ.

As condições (1.5) e (1.6) são conhecidas como condições de regularidade. Observemos


que se ψ = ϕ obtemos
b [ψ ′ (θ)]2
var{θ} ≥ ,
E{∂ log f (X; θ)/∂θ}2
esta desigualdade obtida como conseqüência de (1.7). Mais ainda, no caso particular em
que ψ seja a função identidade, ou seja, em que ψ(θ) = θ a desigualdade anterior se reduz
à  −2
b ∂ log f (X; θ)
var{θ} ≥ E ·
∂θ

É importante notar que as proprias condições de regularidade implicam que


 2  2 
∂ log f (X; θ) ∂ log f (X; θ)
E =E − ,
∂θ ∂θ2

e, portanto, o limite inferior para a variancia do estimador θb pode ser escrito como
 −1
b ≥E ∂ 2 log f (X; θ)
var{θ} ,
∂θ2

a qual é uma expressão muito mais simples de ser encontrada.


18 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

Exemplo 9 Seja X1 , . . . , Xn uma amostra aleatória da função de probabilidade Bernoulli


de parâmetro θ. Sabemos que P (X = x; θ) = θx (1 − θ)1−x , E{X} = θ e que var{X} =
θ(1 − θ). Encontremos o limite inferior de todo estimador não viciado de θ.

P (X1 = x1 , . . . , Xn = xn ; θ) = Πni=1 θxi (1 − θ)1−xi


= θnx (1 − θ)n(1−x) ,

do qual obtemos que

log P (X1 = x1 , . . . , Xn = xn ; θ) = nx log θ + n(1 − x) log(1 − θ).

Também
∂ nx n(1 − x)
{nx log θ + n(1 − x) log(1 − θ)} = − ,
∂θ θ 1−θ
e
∂2 nx n(1 − x)
2
{nx log θ + n(1 − x) log(1 − θ)} = − 2 − .
∂θ θ (1 − θ)2
Por tanto,
b ≥ θ(1 − θ)
var{θ} ,
n
sendo θb qualquer estimador não viciado de θ. Por outro lado, sabemos que

θ(1 − θ)
var{X} = ,
n

concluindo então que X é ENVUMV para θ.

Nem toda função de probabilidade ou de densidade satisfaz as condições de regulari-


dade o que não significa que não possamos encontrar o limite inferior para a variança de
estimadores não viciados. Neste sentido auxilia-nos o seguinte teorema.

Teorema 5 (Chapman, Robbins & Kiefer) Seja Θ ⊂ R e {Fθ : θ ∈ Θ} uma famı́lia


de distribuições discretas ou absolutamente contı́nuas. Seja ψ uma função definida em Θ
diferenciável e seja θb um estimador não viciado de ψ de segundo momento finito. Seja
θ 6= ϕ, consideremos que f (x; θ) 6= f (x; ϕ) e assumamos que

S(θ) = {f (x; θ) > 0} ⊃ S(ϕ) = {f (x; ϕ) > 0}·

Então
b ≥ [ψ(ϕ) − ψ(θ)]2
var{θ} sup ,
{ϕ:S(ϕ)⊂S(θ),ϕ6=θ} var{f (X; ϕ)/f (X; θ)}

para todo θ ∈ Θ.

Um exemplo clássico de função de densidade que não satisfaz as condições de regulari-


dade é a uniforme.
1.1. ESTIMAÇÃO PONTUAL 19

Exemplo 10 Seja X ∼ U(0, θ). Se ψ < θ, temos que f (x; θ) 6= f (x; ϕ) e S(ψ) ⊂ S(θ).
Então
2 2
b ≥ sup (ϕ − θ) = sup {ϕ(θ − ϕ)} = θ ·
var{θ}
ϕ:ϕ<θ (θ/ϕ) − 1 ϕ:ϕ<θ 4
Se, por exemplo, θb = 2X,
θ2 θ2
var{2X} = 4var{X} = ≥ ·
3 4
2
Pode-se demonstrar que o limite inferior θ /4 não é atingido por nenhum estimador não
viciado para θ.
Definição 11 (Estimador eficiente) Sejam θb1 e θb2 dois estimadores não viciados para
o mesmo parâmetro θ de segundo momento finito. Definimos a eficiência de θb1 em relação
a θb2 como
var{θb1 }
eff{θb1 ; θb2 } = , (1.8)
var{θb2 }
e diremos que θb1 é mais eficiênte do que θb2 se
eff{θb1 ; θb2 } < 1· (1.9)
Exemplo 11 Seja X1 , . . . , Xn uma amostra aleatória da função Pde probabilidade Bernoulli
b b n
de parâmetro θ. Consideremos os estimadores θ1 = X e θ2 = i=1 X 2 /n. Ambos são não
viciados para θ e
θ(1 − θ)
var{θb1 } = var{θb2 } = ·
n
Desta forma eff{θb1 ; θb2 } = 1. Portanto ambos tem a mesma eficiência.
Definição 12 Assumindo que as condições de regularidade sejam satisfeitas para a famı́lia
de distribuições {Fθ : θ ∈ Θ}, diremos que o estimador não viciado θb para o parâmetro θ
é o mais eficiênte para a famı́lia {Fθ } se
 2 −1
b ∂ log f (x; θ)
var{θ} = E − ·
∂θ2
Definição 13 Seja θb o estimador mais eficiente para a famı́lia de distribuições {Fθ : θ ∈
Θ}, que satisfaz as condições de regularidade. Então a eficiência de qualquer estimador
não viciado θb1 de θ é definida como
b
b = var{θ1 } ·
eff{θb1 } = eff{θb1 ; θ}
b
var{θ}
Logicamente, a eficiência do estimador mais eficiente é 1 e a eficiência de qualquer
estimador não viciado é > 1. Observemos também que o estimador mais eficiente é também
o de menor erro quadrático médio dentre os estimadores não viciados.
Definição 14 Diremos que um estimador θb1 é assintoticamente (mais) eficiente se
lim eff{θb1 } = 1,
n→∞

e θb1 é, ao menos, assintoticamente não viciado no sentido de limn→∞ E{θb1 } = θ.


20 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

Exercı́cios
Seja X1 , . . . , Xn uma amostra aleatória com função de densidade N(0, θ). Seja S 2 =
1. P
n 2
i=1 Xi . Considere os estimadores

θbc = cS 2 ·
(i) Encontre o valor da constante c de maneira que θbc seja não viciado para θ.
(ii) Qual o ENVUMV para θ?
2. Seja X1 , . . . , Xn uma amostra aleatória de uma população com média µ e variancia
σ 2 , ambos desconhecidos. Seja
Xn
µ
e= c i Xi ·
i=1
Pn
(i) Mostre que µ
e é não viciado para µ se, e somente se, i=1 ci = 1.
(ii) Mostre que X é ENVUMV dentro do conjunto de todos os estimadores desta
forma.
3. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade N(θ, 1).
2
(i) Mostre que θe = X − 1/n é não viciado para θ2 .
(ii) Encontre o limite inferior da variancia dos estimadores não viciados de θ2 e
verifique se θe é eficiente.
4. Seja X1 , . . . , Xn uma amostra aleatória com função de probabilidade Bernoulli(θ).
(i) Mostre que
n
θe = X(X − 1),
n−1
é não viciado para θ2 .
(ii) Encontre o limite inferior da variancia dos estimadores não viciados de θ2 e
verifique se θe é eficiente.
5. Seja f (x; θ) uma função de desnidade para a qual as condições de regularidade estão
satisfeitas. Mostre que
 2  2 
∂ log f (X; θ) ∂ log f (X; θ)
E = −E ·
∂θ ∂θ2

6. Seja Tn = X + a/ n uma sequência de estimadores, a fixo. Mostre que Tn é consis-
tente para E{X} se X1 , . . . , Xn é uma amostra aleatória.
7. Dizemos que X tem distribuição Geométrica se possui função de prpobabilidade
P (X = x; θ) = (1 − θ)x−1 θ,
se x = 1, 2, 3, . . .. Satisfaz que E{X} = 1/θ e var{X} = (1 − θ)/θ2 . Considere uma
amostra aleatória de tamanho n e identifique uma estatı́stica suficiente para θ.
1.2. MÉTODOS DE ESTIMAÇÃO 21

8. Sejam X1 , . . . , Xn variáveis aleatórias independentes com densidade comum Rayleigh


de parâmetro θ > 0,  
x x2
f (x; θ) = exp − 2 ,
θ 2θ
se x > 0 e zero em caso contrário. Encontre uma estatı́stica suficiente para θ.
9. Seja X1 , . . . , Xn uma amostra aleatória com densidade uniforme U(0, θ). Mostre que
θb = 2X é um estimador não viciado para θ e encontre o EQM{θ}. b

10. Seja X1 , . . . , Xn uma amostra aleatória com função de probabilidade Bernoulli(θ).


Mostre que
n
θe = X + X(X − 1),
n−1
é não viciado para θ2 .
11. Seja X1 , . . . , Xn uma amostra aleatória da função de probabilidade Bernoulli(θ).
Considere os estimadores
Xn
b b X2
θ1 = X e θ2 = ·
i=1
n
Mostrar que ambos são não viciados para θ e que tem a mesma eficiência.

1.2 Métodos de estimação


Uma vez construı́do o modelo estatı́stico a ser aplicado, devemos estimar os parâmetros
da distribuição desconhecida que gerou os dados. Em outras palavras, se a famı́lia de
distribuições que gerou os dados é {Fθ : θ ∈ Θ}, queremos encontrar estimadores para o
vetor de parâmetros θ ou funções q(θ) destes.
Nos faremos sempre a pergunta, como encontrar estimadores razoáveis da função q(θ)?
Estudaremos os dois mais importantes métodos de encontrar estimadores, o método dos
momentos e o de máxima verossimilhança.

1.2.1 Método dos momentos


Podemos afirmar que um dos métodos de estimação mais simples é o método de momentos,
o qual estudaremos aqui. Sejam X1 , . . . , Xn variáveis aleatórias independentes igualmente
distribuı́das com função de densidade ou de probabilidade f (x; θ), onde θ ∈ Θ ⊆ Rq .
Definamos as funções reais h1 (θ), . . . , hq (θ) como
E{X1k } = hk (θ)
e sejam
n
e 1X k
hk = X ,
n i=1 i
para k = 1, . . . , q. As funções h1 (θ), . . . , hq (θ) são os momentos teóricos e e
h1 , . . . , e
hq os
momentos amostrais correspondentes.
22 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

Exemplo 12 Seja X1 , . . . , Xn uma amostra aleatória da distribuição U(θ1 , θ2 ). Então

θ1 + θ2 (θ2 − θ1 )2
E{X} = e var{X} = ·
2 12
Nesta situação a dimensão do espaço paramêtrico é q = 2 e θ = (θ1 , θ2 ). Lembrando que
var{X} = E{X 2 } − E2 {X}, obtemos que os momentos teóricos são

θ1 + θ2 (θ1 + θ2 )2 − θ1 θ2
E{X1 } = h1 (θ) = e E{X12 } = h2 (θ) = ·
2 4
Os momentos amostrais sempre são (até a ordem 2)
n n
e 1X 1X 2
h1 = Xi e e
h2 = X ·
n i=1 n i=1 i

Definição 15 Dizemos que θe é o estimador de momentos de θ se for solução do sistema


de equações
e =e
hk (θ) hk
para k = 1, . . . , q.

Exemplo 13 Sejam X1 , . . . , Xn variáveis aleatórias independentes igualmente distribuı́das


com distribuição N(µ, σ 2 ). Observemos que θ = (µ, σ 2 ), ou seja, q = 2. Os momentos
teóricos, de ordens primeira e segunda são, respectivamente

E{X1 } = µ e E{X12 } = σ 2 + µ2 ·
P Pn
Os momentos amostrais correspondentes são e h1 = n1 ni=1 Xi = X e e
h2 = 1
n i=1 Xi2 .
Desta forma, as equações na definição 15 resultam em
n
1X 2
2 2
e=X
µ e σ
e +µ
e = X ·
n i=1 i

Os estimadores dos momentos são então


n
1X
2
µ
e=X e σ
e = (Xi − X)2 ·
n i=1

Exemplo 14 Sejam X1 , . . . , Xn variáveis aleatórias independentes igualmente distribuı́das


com distribuição U(0, θ). Observemos que q = 1, portanto, precissaremos somente do pri-
meiro momentos teórico e do primeiro momento amostral. Dado que
θ
E{X1 } = ,
2

h1 = X, então o estimador de momentos é θe = 2X.


e que e
1.2. MÉTODOS DE ESTIMAÇÃO 23

Podemos estender este método P à estimação de momentos conjuntos. Assim para estimar
E{XY } utilizamos a estatı́stica n ni=1 Xi Yi . Este método não é aplicável às situações em
1

que os momentos teóricos não existem, como o caso da distribuição Cauchy.


Observemos que em determinadas situações os estimadores de momentos podem não
ser únicos. Por exemplo, se X1 , . . . , Xn é uma amostra aleatória P oisson(λ), sabemos que
Pn1 } = λ e que2 var{X1 } = λ. Portanto, por este método obtemos que tanto X quanto
E{X
1
n i=1 (Xi − X) são estimadores de momentos de λ. Para resolver esta ambigüidade
definimos estes estimadores como sendo aqueles que envolvem os momentos amostrais e
teóricos de menor ordem.

Exemplo 15 Sob as mesmas condições do exemplo 13 encontremos o estimador de mo-


mentos dos coeficientes de skewness e kurtosis. O coeficiciente de skewness é definido
como
µ3
α3 = 3/2 ,
µ2
e o coeficiente de kurtosis define-se como
µ4
α4 = ·
µ22
Por este método é fácil perceber que
1
Pn
n
Xi3
i=1
α
e3 = Pn 
1 2 3/2
n i=1 X i

e que Pn
1 4
n i=1 Xi
α
e4 =
1
Pn  ·
2 2
n i=1 Xi

Teorema 6 Seja h(θ) = (h1 (θ), . . . , hq (θ))⊤ e seja H(θ) uma matriz de posto q de ele-
mentos Hij (θ) = ∂hi (θ)/∂θj , i, j = 1, . . . , q sendo estas funções contı́nuas em θ. Então
√ D
n(θe − θ) −→ Nq (0, H −1ΣH −⊤ ),

onde H −⊤ = (H −1 )⊤ e Σ é uma matriz q × q de elementos Σij = hi+j − hi hj .

Por este teorema percebemos que os estimadores de momentos são não viciados assin-
toticamente e consistentes. Notemos também que em amostras finitas
 
e 1 −1 −⊤
θ ∼ Nq θ, H ΣH ·
n

Exemplo 16 (Continuação do exemplo 13) Se X1 , . . . , Xn é uma amostra aleatória


N(µ, σ 2 ) sabemos que
n
e e 1X 2
h1 = X, h2 = X e h(θ) = h(µ, σ 2 ) = (µ, µ2 + σ 2 ),
n i=1 i
24 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

logo    
∂h(θ) ∂h(θ) 1 0
H(θ) = , =
∂µ ∂σ 2 2µ 1
e, portanto  
µ2 − µ1 µ1 µ3 − µ1 µ2
Σ= ,
µ3 − µ2 µ1 µ4 − µ2 µ2
onde µ1 = µ, µ2 = µ2 + σ 2 , µ3 = µ3 + 3µσ 2 e µ4 = µ4 + 3σ 4 + 6µ2 σ 2 .

Exercı́cios
Em cada uma das situações a seguir encontre os estimadores de momentos dos parâmetros
das distribuições e a distribuição em amostras grandes destes. Considere sempre que
X1 , . . . , Xn seja uma amostra aleatória.

1. Distribuição gama de parâmetros α e β. E{X} = αβ e var{X} = αβ 2 .


Sabemos que θ = (α, β), E{X 2 } = α(α + 1)β 2, E{X 3 } = α(α + 1)(α + 2)β 3 e
E{X 4 } = α(α + 1)(α + 2)(α + 3)β 4 . Também h(θ) = (αβ, αβ 2), logo
   
∂h(θ) ∂h(θ) β α
H(θ) = , =
∂α ∂β β 2 2αβ
Pn
eβe = X e α
Do sistema de equações α α + 1)βe =
e(e 1
n i=1 Xi2 , obtemos que

nX
α
e = Pn 2
i=1 (Xi − X)
e
nX
βe = Pn 2
·
i=1 (Xi − X)

De distribuição em amostras grandes


     
α
e α µ2 − µ1 µ1 µ3 − µ1 µ2
∼ N2 , ,
βe β µ3 − µ2 µ1 µ4 − µ2 µ2
onde
   
µ2 − µ1 µ1 µ3 − µ1 µ2 −αβ 2 2α(α + 1)β 3
=
µ3 − µ2 µ1 µ4 − µ2 µ2 2α(α + 1)β 3 2α(α + 1)(2α + 3)β 4

2. Distribuição geométrica de parâmetro θ. E{X} = 1/θ e var{X} = (1 − θ)/θ2 .


Do primeiro momento teórico e do primeiro momento amostral obtemos que
1
θe =
X
e que
1
∼ N(θ, (1 − θ)θ2 )·
X
1.3. ESTIMADORES DA FUNÇÃO DE DENSIDADE 25

3. Distribuição Pearson de parâmetros p conhecido, α e β desconhecidos. E{X} =


α + pβ e var{X} = pβ 2 .
4. A função de probabilidade Yule-Simon é definida como

P (X = x; ρ) = ρB(x, ρ + 1),

onde x = 1, 2, · · · , ρ > 0 e B(·) é a função beta. Satisfaz que E{X} = ρ/(ρ − 1) para
ρ > 1 e var{X} = ρ2 /(ρ − 1)2 (ρ − 2) para ρ > 2.
5. A função de densidade Fisher-Tippett é utilizada como a função de densidade do
mı́nimo ou máximo de amostras de diversas distribuições. Por exemplo, utiliza-se
como a distribuição do nı́vel máximo de um rio num particular ano se conhecemos
os nı́veis máximos dos últimos dez anos. Também é utilizada como a distribuição de
probabilidade da ocorrência de dessastres naturais.
A função de distribuição acumulada Fisher-Tippett é
(x−µ)/β
F (x; µ, β) = e−e ,

onde x, µ ∈ R e β > 0. A mediana é µ − β ln(− ln(0.5)), média µ + γβ, onde γ é a


constante
√ de Euler-Mascheroni de valor aproximado igual a 0.57721, desvio padrão
βπ/ 6 e moda µ.

1.3 Estimadores da função de densidade


A função de densidade é um conceito fundamental em Estatı́stica. Define-se como uma
função real mensurável e não-negativa satisfazendo
Z +∞
f (x; θ)dx = 1·
−∞

A partir de 1956 os métodos de estimação de funções de densidade não paramêtricos


tem-se consolidado como uma alternativa sofisticada ao tratamento tradicional de estudar
conjuntos de dados. Esta alternativa baseia-se na possibilidade de analisar os dados sem
assumir um comportamento distribucional especı́fico.
A necessidade de utilizar estimadores da função de densidade aparece em situações tais
como:
1. Análise Exploratória, onde descrevem-se aspectos como multimodalidade, cauda, as-
simetria. Isto devido ao gráfico da densidade estimada resumir convenientemente a
informação relativa à forma da dsitribuição da amostra.
2. Análise Confirmatória, para a tomada de decisões através de diferentes métodos,
como análise discriminante não paramêtrica, análise de clusters, testes para a moda,
etc.
Tempo de duração das erupções do geyser Old Faithful, no parque nacional Yellowstone,
Wyoming, USA.
26 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

Histograma do tempo de duração das erupções

60
Freqüência

40
20
0

2 3 4 5

1.3.1 Estimador kernel (núcleo)


Estes estimadores foram propostos por Rosenblatt em 1956, posteriormente generalizado
por Parzen em 1962 e, desde então, também conhecidos como estimadores Rosenblatt-
Parzen.
Definamos o estimador kernel de densidades como
n  
1 X x − xi
fen (x) = K ,
nh i=1 h

onde x1 , x2 , . . . , xn são os pontos amostrais.


A proposta de Parzen foi utilizar as funções K(·), chamadas de funções kernel ou
núcleo, exigindo que sejam reais, positivas, deriváveis e de integral 1. O parâmetro h
exige-se somente que seja positivo e é chamado de parâmetro de alisamento.
Considerando o parâmetro de alisamento h como dependente do tamanho da amostra
n, isto é, considerando h = hn e tal que limn→∞ hn = 0, temos que
Suponhamos que a função núcleo K satisfaz que

lim xK(x) = 0.
n→∞

A esperança do estimador fen (x) é


Z +∞  
1 y
E{fen (x)} = K f (x − y)dy,
hn −∞ hn

e portanto
lim E{fen (x)} = f (x)·
n→∞
1.3. ESTIMADORES DA FUNÇÃO DE DENSIDADE 27

0.6

0.4

0.2

0.0

−2.5 −2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0

Se a função kernel é limitada e de quadrado integrável. Neste caso o estimador kernel


da função de densidade tem variância satisfazendo

Z +∞
lim nhn var{fen (x)} = f (x) K 2 (y)dy·
n→∞ −∞

Para que o estimador de Rosenblatt-Parzen seja consistente exigiremos que nhn → ∞


quando n → ∞. Nessa situação

lim var{fen (x)} = 0·


n→∞

Observemos que para garantir boas propriedades destes estimadores a função núcleo
deve ser além de real, positiva e de intregral 1, deve ser limitada, de quadrado integrável
e tal que limn→∞ xK(x) = 0. Para o parâmetro de alisamento exigimos depender do
tamanho da maostra de maneira que limn→∞ hn = 0 e limn→∞ nhn = +∞.

Diferentes funções núcleo e estimação do parâmetro de alisamento

gaussian, epanechnikov, rectangular, triangular, biweight, cosine e optcosine


28 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

R’s density() kernels with bw = 1 R’s density() kernels with bw = 1


0.4

0.4
gaussian gaussian
epanechnikov biweight
rectangular cosine
triangular optcosine
0.3

0.3
Density

Density
0.2

0.2
0.1

0.1
0.0

0.0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

Muito é conhecido acerca da relação entre a razão de convergência de fen (x) para f e o
grau de dependência do parâmetro h como função do tamanho da amostra n. No entanto,
para n fixo, o estimador fen (x) é sensı́vel à escolha de h e não existe uma metodologia geral
para a determinação deste parâmetro.

Diversos métodos de estimação de h estão disponı́veis: nrd0, nrd, sj, bcv e ucv. Os
dois primeiros são simples e baseiam-se na idéia de que a densidade a ser estimada é muito
parecidida à gaussiana.

Os métodos sj, bcv e ucv são mais complexos e serão os recomendados.


1.3. ESTIMADORES DA FUNÇÃO DE DENSIDADE 29

Densidade do tempo de duração das erupções


0.6

ucv
sj
0.5

bcv
nrd
0.4

nrd0
Density

0.3
0.2
0.1
0.0

2 3 4 5

N = 272 Bandwidth = 0.1019

Denotemos por fen−1


i
(x) o estimador fen (x) calculado depois de eliminar a i-ésima ob-
servaçõ, isto é
Xn  
ei 1 x − xj
fn−1 (x) = K ·
(n − 1)h j6=i=1 h

Este estimador não depende de xi e fen−1


i
(x) pode ser escolhido como medida apropriada
e
da contribuição de xi ao valor de h: se fn−1 i
(x) for grande, pode ser dito que fen−1
i
(x)
ei
antecipa a observação xi e que h é apropriado. Valores pequenos de fn−1 (x) sugerem que
a observação xi pode ser esquecida e interpretá-la como evidência de que o valor de h é
imprópio.
Variando i ao longo da amostra, obtemos n de tais medidas de ajuste que então podem
ser combinadas na expressão de verossimilhança
Y n
L(h) = fen−1
i
(x),
i=1

ou utilizar as fen−1
i
(x) numa espressão aproximada ao erro quadrático integral, dada por
Z +∞ n Z +∞
e 2 1 X ei
EQIh ≈ fn (x) dx − 2 fn−1 (xi ) + f (x)2 dx.
−∞ n i=1 −∞

Escolhendo b
hn como aquele que maximiza a verossimilhança ou minimiza o erro quadrático
médio obtemos o estimador de h.
30 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

Densidade do tempo de duração das erupções

0.6
0.5
0.4
Density

0.3
0.2
0.1
0.0

2 3 4 5

N = 272 Bandwidth = 0.14


1.4. ESTIMAÇÃO POR INTERVALOS 31

1.4 Estimação por intervalos


Em diversos problemas estatı́sticos o interesse é construir conjuntos que contenham o ver-
dadeiro valor do parâmetro com determinada probabilidade. Por exemplo, se consideramos
X uma variável aleatória com determinada função de distribuição e a e b, dois números
reais, então
T
P{a < X < b} = P{{ω : a < X(ω)} T {ω : X(ω) < b}}
= P{{bX/a > b} {X < b}}
= P{X < b < bX/a}·
O intervalo I(X) = (X; bX/a) é de extremos aletórios e portanto assume o valor I(x) =
(x; bx/a), quando X assume o valor x. Se b = 1, a = 1/2 e X ∼ U(0, 1), o intervalo aletório
I(X) = (X; 2X) conterá o valor de 1 com probabilidade 1/2.
Estudemos o método mais efetivo para construir intervalos de confiança, chamado de
método da quantidade pivotal.

Definição 16 Uma função aletória Q(X; θ) é dita ser uma quantidade pivotal para o
parâmetro θ se sua distribuição de probabilidades não depende de θ.

Exemplo 17 Seja X1 , . . . , Xn uma amostra aleatória da distribuição N(µ, σ 2 ), então



n(X − µ)
∼ t(n − 1),
S
P √ Pn
onde X = n1 ni=1 Xi e S = S 2 , S 2 = n−1
1 2
i=1 (Xi − X) . Portanto,

n(X − µ)
Q(X, θ) = ,
S
é quantidade pivotal para µ.

1.4.1 Método da quantidade pivotal


Dado que a distribuição da função aleatória Q não depende do parâmetro de interesse
podemos, então, para cada probabilidade fixa 1−α encontrar números reais λ1 e λ2 apartir
da distribuição de Q, de modo que
P{λ1 < Q(X; θ) < λ2 } = 1 − α·

Além disso, se para cada X existirem t1 (X) e t2 (X) tais que


{X ∈ Rn : λ1 < Q(X; θ) < λ2 } = {X ∈ Rn : t1 (X) < θ < t2 (X)},

então
P{t1 (X) < θ < t2 (X)} = 1 − α,
e deste modo (t1 (x); t2 (x)) é um intervalo aleatório, chamado de intervalo de confiança,
que contém θ com probabilidade 1 − α, sendo 1 − α conhecido como coeficiente ou nı́vel
de confiança.
32 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA

Exemplo 18 (Continuação do exemplo√ 17) Encontremos o intervalo de confiança para


µ apartir da quantidade pivotal Q(X, θ) = n(X−µ)
S
.
 √ 
n(X − µ)
P λ1 < < λ2 = 1 − α,
S

isolando o parâmetro de interesse obtemos


n √ o n o
P λ1 < n(X−µ)
S
< λ 2 = P Sλ
√ 1
< X − µ < Sλ
√ 2

n n n
o
Sλ Sλ
= P √ 1
− X < −µ < n − X
√ 2

n n o
= P X + Sλ √ 2 < µ < X − Sλ
n
√1 ·
n

√ √
Logo (X − Sλ2 / n; +X − Sλ1 / n) é uma famı́lia de intervalos de confiança para µ,
de nı́vel de confiança 1 − α. Isto nos mostra que o intervalo de confiança para determinado
parâmetro não é único e então , sempre que possı́vel, devemos escolher λ1 e λ2 que produ-
zam o intervalo de menor comprimento médio. Outra forma de escolher estas constantes é
através dos chamados intervalos de confiança simétricos em probabilidade. Vejamos como
no seguinte exemplo.

Exemplo 19 (Continuação) Escolheremos λ1 e λ2 tais que P{Q(X; µ) < λ1 } = α/2 e


P{Q(X; µ) > λ2 } = α/2. Significa que

P{t(n − 1) < λ1 } = α/2,

logo λ1 = tα/2 (n − 1) = 1 − t1−α/2 (n − 1) e

P{t(n − 1) > λ2 } = 1 − P{t(n − 1) < λ2 } = α/2,

ou
P{t(n − 1) < λ2 } = 1 − α/2,
logo λ2 = t1−α/2 (n − 1).

Desta forma, um intervalo de confiança de nı́vel 1 − α para µ, obtido através da quan-


tidade pivotal Q é  
St1−α/2 (n − 1) Stα/2 (n − 1)
X− √ ;X − √ ,
n n
o qual escreve-se como
 
St1−α/2 (n − 1) St1−α/2 (n − 1)
X− √ ;X + √ ,
n n

pela simetria da dsitribuição t-Student.


1.4. ESTIMAÇÃO POR INTERVALOS 33

1.4.2 Intervalos de confiança aproximados


Na maioria das situações, as condiçõ es de regularidade para obter a distribuição em
amostras grandes do estimador de máxima verossimilhança, são satisfeitas. Podemos então
definir a quantidade pivotal
θb − θ
Q(X; θ) = q ,
−1
I (θ)b

a qual é, aproximadamente, normal padrão. Escolhendo as constantes λ1 e λ2 de maneira


simétrica em probabilidade, temos que λ2 = zα/2 e λ2 = z1−α/2 . O intervalo de confiança
pata θ, com nı́vel 1 − α é da forma
 q q 
b θb + z1−α/2 I −1 (θ)
θb − z1−α/2 I −1 (θ); b ·

Exemplo 20 Seja X1 , . . . , Xn uma amostra aletória da distribuiição Beta(θ, 1). Encon-


tremos o intervalo de confiança para θ em amostras grandes. Se X ∼ Beta(θ, 1), então a
função de densidade é
f (x; θ) = θxθ−1 ,
para θ > 0 e 0 < x < 1. A função escore é
n
n X
U(θ) = + log(xi ),
θ i=1

b = 0, obtemos que o estimador de máxima verossimilhança é


da equação U(θ)
n
θb = Pn ·
− i=1 log(xi )

Derivando novamente a função escore encontramos aque

b = θb2
var{θ} ·
n
Logo o intervalo de confinaça para θ, em amostras grandes e simêtrico em probabilidade, é
 √ √ 
n z1−α/2 n n z1−α/2 n
P − Pn ; Pn + Pn ·
− ni=1 log(xi ) i=1 log(xi ) − i=1 log(xi ) i=1 log(xi )
34 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA
Capı́tulo 2

Função de verossimilhança

O método de máxima verossimilhança foi proposto pela primeira vez pelo matemático
alemão C. F. Gauss em 1821, no entanto constuma creditar-se ao estatı́stico inglês R.
A. Fisher a descoberta. Certamente foi ele que investogou pela primeira vez em 1922 as
propriedades do estimador obtido por este método. Atualmente é uma das técnicas mais
utilizadas na estimação paramêtrica.

2.1 Estimador de máxima verossimilhança


Seja f (x; θ) a função de densidade ou de probabilidade da variável aleatória X, onde
θ ∈ Θ e Θ ⊂ R. Se ao invés de termos uma única variável dispomos de da amostra
aleatória X1 , . . . , Xn , definimos a função de verossimilhança como
n
Y
L(θ; x) = f (xi ; θ),
i=1

na qual considersmos a funçõ de densidade ou de probabilidade f (x; θ) como função do


parâmetro para cada x fixo.
Definição 17 O método de máxima verossimilhança consiste em encontrar o valor θ(x) b
do parâmetro que seja o mais “provável” de ter gerado os dados. Significa que para o vetor
b
x1 , . . . , xn fixo, procuramos por θ(x) que satisfaz
b
L(θ(x); b
x) = f (x, θ(x)) = max{f (x; θ) : θ ∈ Θ} = max{L(θ; x) : θ ∈ Θ}·
b
Se este estimador existe diremos que θ(x) é o estimador de máxima verossimilhança de θ.
Vejamos o seguinte exemplo ilustrativo. Seja θ ∈ {0, 21 }, ou seja, o parâmetro somente
pode assumir os valores 0 ou 1/2 e consideremos a função de probabilidade dada pela
seguinte tabela.
θ
x 0 1/2
1 0 1/10
2 1 9/10

35
36 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA

b = 1 e θ(2)
Então θ(1) b = 0. Observemos que se X = 1, o único valor razoável de θ é 1 ,
2 2
já que o valor 1 não pode ser observado se θ = 0.
O estimador de máxima verossimilhança pode não ser único e inclussive pode não
existir, embora na maioria das situações pode existir e ser único. Considerando que a
função de verossimilhanças seja derivável em relaçõ a θ para x fixo definimos o logaritmo
da função de verossimilhanças ou log-verossimilhança como
n
Y n
X
ℓ(θ; x) = log L(θ; x) = log f (xi ; θ) = log f (xi ; θ)·
i=1 i=1

b
Se θ(x) existe então satisfaz a equação

∂ b
ℓ(θ(x); x) = 0,
∂θ
b
que chamaremos de equação de verossimilhança. Isto deve-se ao fato de que se θ(x) ma-
ximiza L(θ; x) também maximiza log L(θ; x), por ser o logaritmo una função crescente.
Na continuação do texto supriremos da definição da função de log-verossimilhança a de-
pendência da amostra para simplificar a notação, ou seja, escreveremos ℓ(θ) ao invês de
ℓ(θ; x).

Exemplo 21 Seja uma população com três possı́veis tipos de indivı́duos, denotados por
1,2 e 3 acontecendo segundo as chamadas porporções de Hardy-Weinberg:

p(1; θ) = θ2 , p(2; θ) = 2θ(1 − θ), p(3; θ) = (1 − θ)2 ,

onde 0 < θ < 1. Se observamos uma amostra de três indivı́duos dessa população tal que
x1 = 1, x2 = 2 e x3 = 1, temos

L(θ) = p(1; θ)p(2; θ)p(1; θ) = 2θ5 (1 − θ)

e a função de log-verossimilhança sera

ℓ(θ) = log(2) + 5 log(θ) + log(1 − θ)·

A equação de verossimilhança é

∂ b 5 1
ℓ(θ) = − = 0,
∂θ θ 1 − θb
b

que tem como solução única θb = 5/6. Desde que

∂2 5 1
2
ℓ(θ) = − 2 − <0
∂θ θ (1 − θ)2
5
para todo θ ∈ (0, 1), podemos afirmar que 6
maximiza L(θ).
2.1. ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA 37

EXERCÍCIOS
1. Seja X1 , . . . , Xn uma amostra aleatória das seguintes funções de densidade

(a) f (x; θ) = θ(1 − x)(θ−1) se 0 ≤ x ≤ 1 e θ > 0.


(b) f (x; θ) = θe−θx , x ≥ 0, θ > 0.
√ √
(c) f (x; θ) = θx( θ−1) , se 0 ≤ x ≤ 1, θ > 0.

Encontre em cada caso o estimador de máxima verossimilhança.

2.1.1 Estimação numêrica


Em muitas situações a obtenção do estimador de máxima verossimilhança somente é
possı́vel via procedimentos numéricos, vejamos o seguinte exemplo.

Exemplo 22 Considere n observações da variável aleatória X com distribuição N(µ, 1),


mas ao invés de obter os valores da amostra somente anotou-se se a observação é negativa
ou não. Se o evento aleatório [X < 0] ocorre m vezes (< n), encontre o estimador de
máxima verossimilhança de µ.
Sabemos que P (X < 0; µ) = P (Z < −µ; µ) = Φ(−µ), onde Φ(·) representa a função de
distribuição acumulada normal padrão. A função de verossimilhança é

L(µ) = [Φ(−µ)]m [1 − Φ(−µ)]n−m ,

e a log-verossmilhança

ℓ(µ) = m log(Φ(−µ)) + (n − m) log(1 − Φ(−µ))·

Da equação de verossimilhança obtemos que o estimador de máxima verossimilhança é


solução da equação
m
Φ(−bµ) = ,
n
a qual não tem solução analitı́ca.

Podemos observar que a solução da equação no exemplo anterior somente fornece a


estimativa e não o estimador propriamente, ou seja, utilizando métodos numéricos obte-
remos somente o valor numérico do estimador de máxima verossimilhança, chamado de
estimativa. Assim, se no exemplo anterior n = 20 e m = 5, a estimativa é µ
b = 0.674489.
Estudaremos aqui o mais utilizado método numérico para obter estimativas, conhecido
como método de Newton-Raphson.
38 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA

2.1.2 Propriedades do estimador de máxima verossimilhança


Podemos considerar três situações, propriedades gerais que independem do tamanho da
amostra, propriedades assintoticas e propriedades para n finito. A estudo seguira esta
ordem.

Teorema 7 Seja T (X) uma estaı́stica suficiente para a famı́lia de densidades de proba-
bilidade f (x; θ), θ ∈ Θ. Se o estimador de máxima verossimilhança de θ existe, é uma
função T .

Prova. Se a função de densidade ou de probabilidade é drivável em relação ao vetor de


parâmetros, e se existe uma estatı́stica suficiente, então o estimador de máxima verossimi-
lhança é solução de
∂ log(g(T ; θ))
= 0, j = 1, 2, . . . , p,
∂θj
e qualquer solução não constante destas equações é função somente de T . 
Este teorema não afirma que o estimador de máxima verossimilhança seja ele próprio
uma estatı́stica suficiente, mesmo que usualmente este seja o caso. O resultado a seguir
estabelece uma condição suficiente para a unicidade do estimador de máxima verossimi-
lhança.

Teorema 8 Suponha que as condições de regularidade sejam satisfeitas e que o parâmetro


assuma valores num intevalo real aberto. Se a variancia do estimador θb de θ atinge o
limite inferior das variancias dos estimadores de θ então a equação de verossimilhança
possui como solução única θb a qual maximiza a função de verossimilhança.

Se as condições deste teorema são satisfeitas o estimador de máxima verossimilhança


é necessariamente eficiente. Isto não significa, no entanto, que todo estimador
Pn de máxima
verossimilhança seja eficiente. Por exemplo, numa amostra normal σ 2
b = i=1 (X1 − X)2 /n
2
é o estimador de máxima verossimilhança de σ , mas não é eficiente, já que var{b σ2 } =
2(n − 1)σ 4 /n2 , que não é igual ao limite inferior 2σ 4 /n. Observe que, inclussive, σ
b2 é um
estimador viciado.
A seguinte propriedade é uma caracterı́stica importante dos estimadores de máxima
verossimilhança, que não é uma caracterı́stica dos estimadores não viciados.

Teorema 9 Seja {fθ : θ ∈ Θ} uma famı́lia de funções de densidade ou de probabilidade e


seja L(θ) a função de verossimilhança e Θ ⊂ Rk , k ≥ 1. Seja h : Θ → Λ uma função de Θ
em Λ, onde Λ é um intervalo aberto em Rm , 1 ≤ m ≤ k. Se θb é o estimador de máxima
b é o estimador de máxima verossimilhança de h(θ).
verossimilhança de θ, então h(θ)

Exemplo 23 Seja X ∼ Bernoulli(θ), satisfazendo 0 < θ < 1 e seja h(θ) = θ2 uma


função do parâmetro a qual queremos estimar. Observemos que a função h não é um-
a-um, mesmo assim podemos utilizar o resultado anterior. Sabemos que o estimador de
máxima verossimilhança de θ é θb = X. Então o estimador de máxima verossimilhança de
2
h(θ) é h(X) = X .
2.1. ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA 39

Vejamos agora importantes propriedades assintoticas do estimador de máxima veros-


similhança ou também chamadas propriedades em amostras grandes. Assumiremos que
{fθ : θ ∈ Θ} é uma famı́lia de funções densidades ou de probabilidade, onde Θ é um inter-
valo aberto nos reais. As condições a seguir serão listadas no caso contı́nuo, as modicações
no caso discreto são óbvias e serão deixadas ao leitor.
(i) As derivadas ∂ log fθ /∂θ, ∂ 2 log fθ /∂ 2 θ, ∂ 3 log fθ /∂ 3 θ existem para todo θ ∈ Θ e para
todo x. Também
Z +∞  
∂fθ (x) ∂ log fθ (X)
dx = E = 0, para todo θ ∈ Θ·
−∞ ∂θ ∂θ

(ii) Z +∞
∂ 2 fθ (x)
dx = 0, para todo θ ∈ Θ·
−∞ ∂2θ
(iii) Z +∞
∂ 2 log fθ (x)
−∞ < fθ (x)dx = 0, para todo θ ∈ Θ·
−∞ ∂2θ
(iv) Existe uma função H(x) tal que, para todo θ ∈ Θ
3 Z +∞
∂ log fθ (x)
< H(x) e H(x)fθ (x)dx = M(θ) < ∞·
∂3θ
−∞

(v) Existe uma função g(θ), positiva e duas vezes diferenciável para cada θ ∈ Θ e existe
uma função H(x) tal que, para todo θ satisfaz
2   Z +∞
∂ ∂ log fθ (x)
H(x)fθ (x)dx < ∞·
∂ 2 θ g(θ) ∂θ < H(x) e
−inf ty

Observemos que a condição (v) é equivalente à condição (iv) se g(θ) = 1. Estamos


em condições de apresentar dois importantes resultados que resumem as propriedades
assintoticas dos estimadores de máxima verossimilhança.
Teorema 10 Demonstrado por Carl Harald Cramér (1893 - 1985), matemático sueco, em
1946.
(a) Se a famı́lia de densidades ou probabilidades que descreve o problema de interesse
satisfaz as condições (i), (iii) e (iv) podemos afirmar, com probabilidade tendendo a
1 quando n → ∞, que a equação de verossimilhança possui uma solução consistente.
(b) Se as condições (i) e (iv) são satisfeitas então a solução consistente θbn da equação
de verossimilhança é assintoticamente normal, ou seja,
√ D
σ −1 n(θbn − θ) −→ Z,
onde Z ∼ N(0, 1) e
"  2 #−1
∂ log fθ (X)
σ2 = E ·
∂θ
40 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA

Embora geral, existem situações nas quais as condições deste teorema não se satisfazem
e mesmo assim existem soluções da equação de verossimilhanças consistentes e assintoti-
camente normais.

Exemplo 24 Seja X ∼ N(0, θ), θ > 0. Seja X1 , · · · , Xn uma amopstra aleatória de


P
X. A solução da equação de verossimilhanças é θbn = ni=1 Xi2 /n. Também E{X 2 } = θ,
var{X 2 } = 2θ2 e
 2
∂ log fθ (X) 1
E = 2·
∂θ 2θ
q.c.
Observemos que θbn −→ θ e que
Pn
√ √ X 2 − nθ D
n(θbn − θ) = 2θ i=1
√ i −→ Z ∼ N(0, 2θ2 )·
2nθ
No entanto,
∂ 3 log fθ 1 3x2
= − + →∞ θ → 0,
∂3θ θ3 θ4
e portanto não é limitada para 0 < θ < +∞. Logo, a condição (iv) não é válida.

O seguinte teorema aplica-se nestas situaç oes.

Teorema 11 Demonstrado por Gunnar Kulldorf em 1957.

(a) As condições (i), (iii) e (v) implicam que, com pribabilidade tendendo a 1 quando
n → ∞, a equação de verossimilhanças tem solução.

(b) As condições (i), (ii), (iii) e (v) implicam que existe uma solução consistente da
equação de verossimilhanças e que é assintoticamente normal.

Devemos observar que os resultados destes teoremas estabelecem a consistencia e distri-


buição de probabilidades de alguma raiz da equaça o de verossimilhanças mas não necessa-
riamente do estimador de máxima verossimilhanças quando a equação de verossimilhanças
tiver diversas soluções. Se em determinada situação o estimador de máxima verossimi-
lhanças é a única solução da equação de verossimilhanças estes teoremas concluem que
este estimador é consistente e assintoticamente normal, cuja variancia coincide com o li-
mite inferior da variancia de qualquer estimador não viciado.
Outros autores procuraram alternativas ás condições sob as quais o estimador de
máxima verossimilhança é consistente e tem distribuição limite conhecida, por exemplo,
Abraham Wald (1902 - 1950), matemático húngaro naturalizado norteamericano provou
que estas propriedades do estimador de máxima verossimilhança podem ser obtidas sem
exigir diferenciabilidade da função de densidade.
2.1. ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA 41

EXERCÍCIOS
1. Seja X1 , · · · , Xn uma amostra aleatória da densidade exponencial fθ (x) = θe−θx ,
x ≥ 0 e θ > 0. Encontre o estimador de máxima verossimilhança de θ e mostre que
é consistente e assintoticamente normal.

2. Sejam Xij , i = 1, 2, · · · , m e j = 1, 2, · · · , n variáveis aleatórias normais tais que


Xij ∼ N(µi , σ 2 ), i = 1, 2, · · · , m. Encontre o estimador de máxima verossimilhança
de µ1 , µ2 , · · · , µm e σ 2 . Mostre que o estimador de máxima verossimilhança de σ 2
não é consistente quando n → ∞ (n fixo).

3. A função de densidade Benini é definida para x maior do que certa quantidade


conhecida x0 e assume a forma
  “ ”
2θ x −θ log2 xx
f (x; θ) = log e 0 ,
x0 x0

se x > x0 e β > 0. Considere uma amostra de tamanho n desta distribuição e


encontre o estimador de máxima verossimilhança θb de θ.

4. Considere que X1 , · · · , Xn seja uma amostra aleatória da distribuição Maxwell, com


função de densidade r
2 3/2 2 − 1 θx2
f (x; θ) = θ xe 2 ,
π
sendo x e θ reais positivos. Encontre o estimador de máxima verossimilhança de θ.

5. Considere que X1 , · · · , Xn seja uma amostra aleatória da distribuição Rayleigh, com


função de densidade r
2x −( x )2
f (x; θ) = e θ ,
θ2
sendo x e θ reais positivos. Encontre o estimador de máxima verossimilhança de θ.

6. Considere que X1 , · · · , Xn seja uma amostra aleatória da distribuição gama inversa,


com função de densidade
θ3 θ
f (x; θ) = x−(θ+1) e− x ,
6
sendo x e θ reais positivos. Encontre o estimador de máxima verossimilhança de θ.

7. Considere que X1 , · · · , Xn seja uma amostra aleatória da distribuição exponencial


dupla ou Laplace, com função de densidade
θ
f (x; θ) = e−θ|x| ,
2
sendo x um real qualquer e θ real positivo. Encontre o estimador de máxima vero-
ssimilhança de θ.
42 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA

2.1.3 Correções para o vı́cio em amostras pequenas


Podemos concluir que o estimador de máxima verossimilhança é de relativamente fácil
obtenção na maioria das situações práticas, seja obtendo-se a expressão analı́tica ou nume-
ricamente. Das propriedades dos estimadores mencionadas no Capı́tulo 1 os estimadores
de máxima verossimilhança satisfazem diversas delas, no entanto em geral são viciados em
amostras pequenas. Diversos esforços tem sido dedicados para corrigir esta deficiencia de
maneira geral, como em Bartlett (1955) e Cordeiro (1987).
Nos dedicaremos aqui a estudar os resultados gerais e algumas das aplicações dos
métodos desenvolvidos para corrigir o vı́cio do estimador de máxima verossimilhança. Pri-
meiramente conheceremos a notação utilizada. Assumiremos que o vetor de parâmetros θ
é de dimensão p, logo, podemos escrever θ = (θ1 , θ2 , · · · , θp ).
As derivadas do logaritmo da função de verossimilhança com relação às componentes
do vetor de parâmetros são denotadas por
∂ℓ(θ) ∂ 2 ℓ(θ)
ℓr (θ) = , ℓrs (θ) = r s , ···
∂θr ∂θ ∂θ
Definição 18 Os cumulantes de derivadas do logaritmo da função de verossimilhanças
são denotados pela grega λ e definidos como

λr = E{ℓr (θ)}, λrs = E{ℓrs (θ)}, λr,s = E{ℓr (θ)ℓs (θ)}, λrst = E{ℓrst(θ)}, · · · ,

e assumiremos que λr , λrs , λrst , etc. são funções de ordem O(n). Derivadas de cumulantes
são amplamente utilizadas e definidas como
∂λrs ∂λrst ∂λrs
λrs/t = , λrst/u = , λrs/tu = , ··· ,
∂θt ∂θu ∂θt ∂θu
as quais também assumiremos que sejam funções de ordem O(n).

Nesta definição assumimos que tanto os cumulantes quanto as derivadas destes são
funções de ordem O(n), a qual é uma suposição condizente com a literatura especializada
(DiCiccio & Stern, 1994; DiCiccio, Martin, Stern & Young, 1996; McCullagh & Tibshirani,
1990). O seguinte exemplo mostra como calcular os cumulantes.

Exemplo 25 Seja X1 , X2 , · · · , Xn uma amostra aletaória normal de parâmetros µ e σ 2 ,


isto é, o vetor de parâmetros é θ = (µ, σ 2 ). A função de log-verossmilhança é
Yn  
1 (x −µ)2
− i 2
ℓ(θ) = log √ e 2σ
2πσ 2
i=1
n
n n 2 1 X
= − log(2π) − log(σ ) − 2 (xi − µ)2 ·
2 2 2σ i=1

As primeiras derivadas de ℓ(θ) em relação às componentes do vetor de parâmetros são

∂ℓ(θ) ∂ℓ(θ) ∂ 2 ℓ(θ)


ℓ1 (θ) = , ℓ2 (θ) = e ℓ12 (θ) = ,
∂µ ∂σ 2 ∂µ∂σ 2
2.1. ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA 43

obténdo-se que
n
n n 1 X n
ℓ1 (θ) = 2 (x − µ), ℓ2 (θ) = − 2 + 4 (xi − µ)2 , ℓ12 (θ) = ℓ21 (θ) = − (x − µ)·
σ 2σ 2σ i=1 σ4

Os cumulantes de derivadas da função de log-verossimilhança, segundo a definição 18, são


n n
λµ = λσ2 = λµσ2 = λσ2 µ = 0, λµµ = − 2 , λσ2 σ2 = − 4 ,
σ 2σ
2n n n n
λσ2 σ2 µ = λσ2 σ2 /µ = 0, λσ2 σ2 σ2 = 6 , λσ2 σ2 /σ2 = 6 , λµµ/σ2 = 4 e λσ2 µµ = 4 ·
σ σ σ σ
Depois de numerousos trabalhos Lawley (1956) demonstrou que, para cada componente
do vetor de parâmetros, vale a seguinte expansão
1
θbr − θr = −λrs ℓs + λrs λtu ℓst ℓu − λrs λtv λuw λstu ℓu ℓw + OP (n−3/2 ), (2.1)
2
desde que a famı́lia de densidades ou de probabilidades satisfaça as condições de regulari-
dade.
Desta relação se obtém que
 
br r rs tu 1
E{θ } = θ + λ λ λst/u − λstu + O(n−1/2 ),
2
e então o estimador corrigido sera
 
1
θbcr br rs tu
= θ −λ λ λst/u − λstu + O(n−1/2 ),
2
onde θbcr representa o estimador de máxima verossmilhança corrigido para a r-ésima com-
ponente, o qual deve ser aproximadamente não viciado até um termo de ordem n−1/2 . O
segundo termo da espressão acima, quando depende de parâmetros, avalia-se no estimador
de máxima verossimilhança.
Isto significa que, embora na maioria das situações o estimador de máxima verossimi-
lhança é um estimador viciado do vetor de parâmetros de interesse, a diferença entre a
estimativa de máxima verossimilhança e o verdadeiro valor do parâmetro diminuem con-
forme a amostra cresce. Por este motivo, se amostra não pode ser aumentada e mesmo
assim necessitamos de resultados fidedignos, utilizamos estes resultados para corrigir o
vı́cio.
Exemplo 26 [Continuação do exemplo 25] O estimador de máxima verossimilhança
corrigido para a variancia é da forma
 
2 2 σ2 σ2 µµ 1
σ
bc = σ b −λ λ λσ2 µ/µ − λσ2 µµ ,
2
isto devido a que nas outras possı́veis situações os termos anulam-se. Substituindo as
espressões correspondentes aos cumulantes obtemos que
n+1 2
bc2 =
σ b ·
σ
n
44 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA

9.0
8.5
variancia

8.0

estimador corrigido
estimador não corrigido
7.5

5 10 15 20 25

Figura 2.1: Estimativas corrigida e não da estimador de máxima verossimilhança da vari-


ancia em amostras normais.

A figura 2.1 mostra claramente a vantagem de utilizar estimadores corrigidos. A linha


descontı́nua representa a estimativa do estimador da variancia corrigido e a linha continua
o valor obtido com o estimador de máxima verossimilhança sem correções. Para gerar esta
figura simulamos, para cada valor de n, hum mil amostras da distribuição N(0, 9).
Observamos nesta figura o comportamento clássico
Pn do estimador de máxima verossi-
2 1 2
milhança, ou seja, podemos observar que σ b = n i=1 (xi − x) subestima o parâmetro e
somente quando aumenta o tamanho da mostra começa aproximar-se do verdadeiro valor
de σ 2 . Por outro lado, as estimativas obtidas com o estimador corrigido tendem sempre a
ficar próximas do valor do parâmetro.
2.2. OUTRAS FUNÇÕES DE VEROSSIMILHANÇA 45

2.2 Outras funções de verossimilhança


2.2.1 Quase verossimilhança
Existem situações nas quais desconhecemos a forma da distribuição geradora dos dados,
mas temos informação do comportamento da variância como função da média. Tais situções
podem ser abordadas utilizando quase-verossmilhança, metodo proposto por Wedderburn
(1974).
Asuma que a variáver resposta Y seja tal que

E{Y } = µ e var{Y } = φ−1 ν(µ)·

2.2.2 Verossimilhança perfilada


Num determinado modelo estatı́stico podemos estar interessados somente em parte do
vetor de parâmetros e não no vetor completo ϑ. Espeficiamente, se o vetor de parâmetros
completo ϑ pode ser decomposto como ϑ = (ψ, ς) e nos interessa estimar e inferir acerca de
valores de ψ, chamaremos ψ de vetor de parâmetros de interesse e ao vetor ς de parâmetros
de perturbação. Em situações como estas é possı́vel, por diferentes metodologias, construir
uma função que dependa somente de ψ e que possamos utilizar para realizar inferências
acerca de ψ. Estas funções são conhecidas como funções de pseudo-verossimilhança.
Diversas destas funções têm sido consideradas na literatura e muitos esforços dedicados
a uma delas, a função de verossimilhança perfilada. Devemos resaltar que esta função
somente tem sentido quando parte do vetor de parâmetros que define o modelo estatı́stico
em estudo é considerada como de perturbação.

Definição 19 Define-se o logaritmo da função de verossimilhança perfilada para ψ como

ℓP (ψ) = max ℓ(ψ, ς),


ς

sendo que o máximo é obtido em todo o espaço paramêtrico Ω fixando um valor de ψ.

Observemos que o processo de maximização ao qual faz referência a definição anterior


é realizado quando obtemos ςb(ψ). Desta forma a função de verossimilhança perfilada pode
ser definida como
ℓP (ψ) = ℓ(ψ, ςb(ψ))·

Provavelmente a obtenção por William S. Gosset em 1908 da distribuição amostral


da média, num modelo normal, quando a variância é desconhecida, que ficou conhecida
como distribuição t-Student, seja um dos primeiros exemplos da função de verossimilhança
perfilada. Outros estudos famosos são, por exemplo, a obtenção por Ronald A. Fisher em
1915 da distribuição do coeficiente de correlação amostral no modelo normal bivariado,
a obtenção por John Wishart em 1928 da distribuição que detém seu nome e algumas
soluções para o problema de Behrens-Fisher (Anderson, 1958; Rao, 1973).
46 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA

Exemplo 27 Sejam X1 , . . . , Xn variáveis aleatórias independentes cada com distribuição


N(µ, σ 2 ). O logaritmo da função de verossimilhança para o vetor completo ϑ = (µ, σ 2 ) é
n
n n 2 1 X
ℓ(ϑ) = − log(2π) − log(σ ) − 2 (xi − µ)2 · (2.2)
2 2 2σ i=1

Suponhamos que somente nos interessa o parâmetro µ e que, logicamente, σ 2 é o parâmetro


de perturbação. O estimnador de máxima verossimilhança de σ 2 para um valor fixo de µ
é obtido maximizando ℓ(ϑ) em relação a σ 2 . Para isto encontramos
n
∂ℓ(ϑ) n 1 X
= − + (xi − µ)2 ,
∂σ 2 2σ 2 2σ 4 i=1

e da equação de verossimilhança (lembrando que µ é supostamente conhecido)



∂ℓ(ϑ)
= 0,
∂σ 2 σ2 =bσ2

obtemos que
n
2 1X
σ
b (µ) = (xi − µ)2 ·
n i=1
Substituindo este estimador na expressão de ℓ(ϑ), obtemos a verossimilança perfilada para
o parâmetro de interesse µ
n n n
σP2 (µ)) − ·
ℓP (µ) = − log(2π) − log(b (2.3)
2 2 2


Mostramos na Figura 2.2.2 a seguir o comportamento das funções de verossimilhança


e verossimilhança perfilada obtidas no exemplo anterior. Para obter estas funções geramos
uma amostra de tamanho 20 da distribuição normal de média 3 e variancia 4. Observe
que o ponto de máximo de ambas funções coincide e é aproximadamente igual à media po-
pulacional. Posteriormente, na expressão da função de verossimilhança (2.2), subtituimos
o parâmetro de perturbação σ 2 pelo seu estimador de máxima verossimilhança. Podemos
concluir que ℓP (µ) é uma função mais suave do que ℓ(µ) e que ambas devem fornecer as
mesmas estimativas.
Discutimos agora algumas propriedades de funções de verossimilhança perfilada. Neste
sentido, primeiramente provaremos que os máximos das funções ℓP (ψ) e ℓ(ϑ) coincidem.
Suponhamos que ψbP maximiza ℓP (ψ). Temos então

ℓP (ψbP ) ≥ ℓP (ψ) ≥ ℓ(ψ, ς),

e, dado que, ϑb = (ψ,


b ςb) é tal que

b ςb) = max ℓ(ψ, ς),


ℓ(ψ,
ψ,ς
2.2. OUTRAS FUNÇÕES DE VEROSSIMILHANÇA 47

0
−100 lP verossimilhança perfilada

função de verossimilhança
−200
−300

−5 0 5 10

Figura 2.2: Funções de verossimilhança (2.2) e verossimilhança perfilada (2.3)

então
ℓP (ψbP ) ≥ ℓ(ψ,
b ςb)·

Por outro lado, como ϑb é o máximo absoluto de ℓ(ϑ) no espaço paramêtrico Ω,

b ςb) ≥ ℓP (ψbP ),
ℓ(ψ,

já que ψbP é o máximo em um subespaço de Ω. Desta forma obtemos que os pontos ℓP (ψbP )
b ςb) coincidem.
e ℓ(ψ,
A matriz de informação observada perfilada de ψ, jP (ψ) é definida de forma análoga à
matriz de informação observada do vetor completo j(ϑ), ou seja,

∂ 2 ℓP (ψ)
jP (ψ) = − ·
∂ψ∂ψ ⊤

Supondo a matriz j(ϑ) particionada segundo a partição (ψ, ς), temos


 
jψψ jψ,ς
j(ψ, ς) = ,
jψ,ς jς,ς

onde jψψ = −∂ℓ(ψ, ς)/∂ψ∂ψ ⊤ , jψς = −∂ℓ(ψ, ς)/∂ψ∂ς ⊤ e jςς = −∂ℓ(ψ, ς)/∂ς∂ς ⊤ .
Pode-se provar que jP (ψ)b = jψψ , esta avaliada em (ψ,b ςb) e, por resultados assintóticos,
isto nos permitirá calcular a matriz de covariancia assintótica estimada de ψb como jP (ψ)
b −1 .
Salientemos a vantagem operacional deste cálculo, pois invertemos uma matriz de ordem
inferior à dimensão do vetor de parâmetros completo, enquanto o seu cálculo através da
48 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA

matriz de informação j(ς) envolve a inversão de uma matriz de ordem superior. Esta
vantagem é apreciável quando o modelo apresenta muitos parâmetros de perturbação.
Estas propriedades constituem vantagens da utilização da função ℓP (ψ), a qual poderá
ser utilizada como qualquer outra verossimilhança, desfrutando por isso de uma irrestrita
aplicabilidade, fundamentalmente em problemas com parâmetros de perturbação. Infeliz-
mente ela não usufrui de todas as propriedades de uma verossimilhança genuı́na.
A função escore perfilada

UP (ψ) = ℓP (ψ)
∂ψ
é, em geral viciada, ou seja
E{UP (ψ)} =6 0,
o fato da esperança da função escore perfilada não ser zero é chamado de vı́cio da esperança.
Pode ocorrer também um vı́cio na informação, ou seja,

E{UP (ψ)UP (ψ)⊤ } =


6 −E{∂UP (ψ)/∂ψ ⊤ }·

Por estes motivos se faz necessário ajustar a função de verossimilhança perfilada ou a função
escore perfilada considerando modelos gerais, veja detalhes em Fraser (1989), McCullagh &
Tibshirani (1990), Stern (1997), DiCiccio & Stern (1994), DiCiccio et al. (1996) e Lucambio
(2003).
Uma das formas mas simples de aperfeiçoar a função de verossimilhança perfilada é
dada a seguir.

Definição 20 Define-se a função de verossimilhança perfilada ajustada (Barndorff-Nielsen,


1986) como
1
ℓP (ψ) = ℓP (ψ) − log |jςς (ψ, ςb(ψ))|·
2
O objetivo da função de ajuste é corrigir o vı́cio da esperança, de maneira que a função
de verossimilhança perfilada corrigida satisfaz

E{U P (ψ)} = O(n−1 ),

e desta forma, se este vı́cio não é elimindo, pelo menos é reduzido até uma ordem aceitável.

Exemplo 28 Sejam X1 , . . . , Xn variáveis aleatórias independentes cada com distribuição


N(µ, σ 2 ). Consideraremos como parâmetro de interesse σ 2 e de perturbação µ. O logaritmo
da função de verossimilhança perfilada é
n
2 n n 2 1 X
ℓP (σ ) = − log(2π) − log(σ ) − 2 b)2 ,
(xi − µ
2 2 2σ i=1

sendo µ
b = X, da qual obtemos a função escore perfilada da variancia como
n
2 n 1 X
UP (σ ) = − 2 + 4 (xi − x)2 ·
2σ 2σ i=1
2.2. OUTRAS FUNÇÕES DE VEROSSIMILHANÇA 49

A esperança desta função


( n
)
n 1 X n 1
E − 2+ 4 (Xi − X)2 = − 2 + 2 E{χ2 (n − 1)}
2σ 2σ i=1 2σ 2σ
n n−1 1
= − 2
+ 2
= − 2,
2σ 2σ 2σ
P
que não
Pén nula. Utilizamos aqui o fato de que ni=1 (Xi − X)2 ∼ σ 2 χ2 (n − 1), que implica
em E{ i=1 (Xi − X)2 } = σ 2 (n − 1). A matriz de informação observada é
 n

n 1 X n
 4
− 6 (xi − µ)2 − 4 (x − µ) 
2 
j(σ , µ) =  2σ σ σ ,
n
i=1
n 
− 4 (x − µ) − 2
σ σ
obténdo-se que

n n 1 X
n
1 n
2 2
ℓP (σ ) = − log(2π) − log(σ ) − 2 (xi − x)2 − log − 2 ·
2 2 2σ i=1 2 σ

Desta expressão obtemos que


n
∂ℓP (σ 2 ) n 1 X 1
2
=− 2 + 4 (xi − x)2 + 2 ,
∂σ 2σ 2σ i=1 2σ

e o estimador de máxima verossimilhança perfilado ajustado da variancia é


n
1 X
σ 2P = (xi − x)2 ,
n − 1 i=1

o qual sabemos é não viciado.

Mencionamos que a utilização prática da função de verossimilhança perfilada somente


faz sentido quando parte do vetor de parâmetros que descreve o problema em questão
pode ser considerado como de perturbação. Mostraremos na seção a seguir um exemplo
da utilização desta função.
50 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA

2.2.3 Distribuição geral do erro


A distribuição geral do erro, também conhecida como distribuição Normalp, foi pela pri-
meira vez formulada pelo matemático ruso M.T. Subbotin em 1923, é uma distribuição
geral para o erro aleatório. Para obter esta distribuição, Subbotin estendeu os dois axiomas
utilizados por Gauss para definir a distribuição normal (gaussiana) do erro generalizando
o primeiro deles.
Desta forma os axiomas utilizados por Subbotin foram:

1. A probabilidade do erro ǫ depende somente da grandeça ...

2. O mais provável valor ...

Desta maneira Subbotin onteve a função de distribuição de probabilidades com a se-


guinte expressão
mh
f (ǫ) = exp{−hm |ǫ|m },
2Γ(1/m)
onde −∞ < ǫ < +∞, h > 0 e m ≥ 1.
Uma outra parametrização, introduzida por Vianelli (1963) e Lunetta (1963)
 
1 |x − µ|p
f (x; µ, σp , p) = exp − , (2.4)
2σp p1/p Γ(1 + 1/p) pσpp

onde µ é a média
A importância desta parametrização reside na introdução explı́cita do parâmetro σp
como o parâmetro de variabilidade de ordem p. A curva resultante é unimodal, simêtrica
e, para p > 1
O parâmetro de forma p é correlato com a kurtosis, quando existe, já que

µ4 E{|X − µ|4 } Γ(1/p)Γ(5/p)


2
= 2 = ·
µ2 E {|X − µ|2 } Γ2 (3/p)

Na Figura 2.2.3 mostramos diferentes densidades que pertencem à esta classe. Modifi-
cando os valores do parâmetro p, podemos obter algumas funções conhecidas, por exemplo,
se p = 1 temos a distribuição Laplace, se p = 2 obtemos a densidade normal e se p → +∞
obtemos a densidade uniforme.
2.2. OUTRAS FUNÇÕES DE VEROSSIMILHANÇA 51

Distribuição Normal p
0.5

p= 1
0.4

p= 2
p= 3
p= 4
p−> ∞
0.3
f(x)

0.2
0.1
0.0

−4 −2 0 2 4

Figura 2.3: Distribuição normal p


52 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA
Capı́tulo 3

Teoria do teste de hipótesis

A solução da maioria dos problemas práticos requer verificar a validade de afirmações


acerca de parâmetros ou funções destes. Problemas deste tipo são chamados de problemas
de teste de hipótesis e neste capı́tulo trataremos os principais resultados, tanto clássicos
quanto modernos, da teoria que Jerzy Neyman e Egon Pearson começaram a desenvolver
em 1933 quando definiram os tipos de erros que ocorrem quando uma hipótesis é testada.
Neyman e Pearson também desenvolveram um princı́pio intuitivo para a construção de
testes baseados na razão de verossimilhanças criando assim um extraordinario método de
construção de testes de hipótesis amplamente utilizado atualmente.

3.1 Noções de teste de hipótesis


Definamos formalmente os conceitos envolvidos. Consideremos X1 , . . . , Xn uma amostra
aleatória e seja X ∼ f (x; θ), onde f (x; θ) ∈ {f (x; θ) : θ ∈ Θ ⊆ Rp }. Consideremos também
que a forma funcional de f (x; θ) é conhecida a menos os valores dos parâmtros θ.

Definição 21 Uma hipóteses paramêtrica é uma afirmação acerca de parâmetros desco-


nhecidos θ. Às afirmações que queremos verificar nos referiremos como hipóteses nula,
H0 : θ ∈ Θ0 ⊂ Θ e a sentença H1 : θ ∈ Θ1 como a hipóteses alternativa, onde Θ1 = Θ\Θ0 .

Por exemplo, podemos estar interessados em saber se numa amostra Bernoulli(θ) a


probabilidade de sucesso θ é 1/2 ou 1/3 ou mais geral, podemos querer saber se θ = θ0 ,
sendo θ0 um ponto de espaço paramêtrico conhecido.

Definição 22 Se Θ0 ou Θ1 contêm somente um único ponto, diremos que H0 ou H1 é uma


hipóteses simples, caso contrário, composta. Assim, se a hipóteses é simples, a distribuição
de probabiilidades de X sera completamente especificada pela hipóteses.

O problema da verificação ou teste de hipóteses consiste no seguinte. Dada uma rea-


lização x = {x1 , . . . , xn } da amostra X = {X1 , . . . , Xn }, encontrar uma regra de decição
que permita dedidir se aceitamos ou não as afirmações na hipóteses nula, esta linha de pen-
samento deve-se a R. A. Fisher. Em outras palavras, segundo este raciocı́nio, o objetivo
do teste de hipóteses é dividir o espaço amostral Ω ⊂ Rn em dois subconjuntos disjuntos

53
54 CAPÍTULO 3. TEORIA DO TESTE DE HIPÓTESIS

Ω0 e Ω1 tais que, se x ∈ Ω1 rejeitamos H0 : θ ∈ Θ0 (e aceitamos H1 ) e se x ∈ Ω0 , aceitamos


H0 e portanto X ∼ f (x; θ), θ ∈ Θ0 .
A formalização matemática deve-se a Neyman e Pearson, os quais definiram os dois
tipos de erros que podem ser cometidos ao utilizar este procedimento. Podemos rejeitar
H0 sendo ela verdadeira, o qual foi chamado de erro tipo I, ou podemos aceitar H0 quando
na verdade é falsa, ao qual chamou-se de erro tipo II. A tabela a seguir resume estes erros.

Verdadeiro
H0 H1
Aceitamos H0 Correto Erro tipo II
H1 Erro tipo I Correto

Estes erros de decissão, logicamente, não são exclussivos da estatı́stica. Alias, em


muitas decissões que tomemos podemos incorrer nestes erros, sempre que tenhamos que
aceitar ou rejeitar determinada afirmação baseando-nos em um conjunto de evidências. Um
exemplo comum é o caso em que um indivı́duo esteja sendo julgado por determinado delito.
Com base nas evidências (testemunhas, fatos, etc.), o júri terá que decidir pela culpa ou
inocência do indivı́duo. Podemos então concluir que o júri formula duas hipóteses:

H0 : o indivı́duo é inocênte

e a alternativa

H1 : o indivı́duo é culpado

Com base nas evidências apresentadas, o júri terá que decidir por H0 ou H1 . Ao decidir
aceitar H1 (e então rejeitar H0 ) como verdadeira, por exemplo, o júri pode estar cometendo
um erro, pois, apesar das evidências o indivı́duo pode ser inocente. Similarmente pode
acontecer com relação à aceitação da hipótese H0 como verdadeira. Neste caso, o júri
estaria considerando como inocente um indivı́duo culpado.
Formalizando, em termos de probabilidades, definimos

α = P{Rejeitar H0 ; H0 verdadeira}

a probabilidade de cometer o erro tipo I e

β = P{Aceitar H0 ; H0 f alsa},

como a probabilidade de cometer o erro tipo II. Estas probabilidades podem ser definidas
como P{Aceitar H1 sendo H0 verdadeira} e P{Aceitar H0 sendo H1 verdadeira},
respectivamente. A probabilidade α é também chamada de erro de significância.
Se a hipóteses nula H0 é composta, ou seja, uma classe de hipóteses nula simples,
podemos definir o nı́vel de significância como

α = sup P{Rejeitar H0 ; H0 verdadeira}·


H0
3.1. NOÇÕES DE TESTE DE HIPÓTESIS 55

Definição 23 (Região Crı́tica) Seja X ∼ f (x; θ), θ ∈ Θ0 . O subconjunto Ω1 ⊂ Rn , tal


que, se x ∈ Ω1 rejeitamos H0 é chamado de região crı́tica, ou seja,

Ω1 = {x ∈ Rn : H0 é rejeitada}·

Exemplo 29 Seja X1 , · · · , Xn , uma amostra aleatória de tamanho n da distribuição da


variável aleatória X ∼ N(θ, 1). Consideremos as hipóteses H0 : θ = 0 e H1 : θ = 1 e
também consideremos como região crı́tica Ω1 = {x ∈ Rn : x ≥ c}, sendo c uma constante
a ser identificada. Suponhamos que n = 16 e que temos interesse em fixar α = 0.05.
Então, para determinar c, temos que resolver a equação

α = P{X ≥ c; θ = 0},

ou seja, √
α = P{Z ≥ c n},
√ √
onde Z = X n ∼ N(0, 1). Então, c n = 1.64, pois na distribuição normal padrão, o
valor 1.64 é o percentil 95%. Logo c = 0.41, de modo que Ω1 = {x ∈ Rn : x ≥ 0.41}.

Existem muitas teorias e histórias acerca da utilização de α = 0.05 para denotar signi-
ficância estatı́stica. Todas elas levam à influência de R.A. Fisher. Em 1914, Karl Pearson
publicou Tables for Statisticians & Biometricians. Para cada distribuição, Pearson calcu-
lou o valor de α para uma série de valores da variável aleatória. Posteriormente Fisher
publicou Statistical Methods for Research Workers em 1925, incluindo tabelas que mostra-
vam o valor da variável aleatória para especificos valores de α. Esta publicação de Fisher
teve mais influência até os anos cinquênta e inclusive ainda é reproduzida em muitos textos
de estatı́stica.
O problema formulado por Neyman e Pearson foi o de determinar a região crı́tica tal
que, para um dado nı́vel de significância a probabilidade do erro tipo II seja o menor
possı́vel. Podemos ainda formular o problema do teste de hipóteses em função de um novo
conceito, a função poder ou poder do teste.

Definição 24 (Função poder ou Poder do Teste) O poder do teste com região crı́tica
Ω1 para testar H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1 é dado por

γ(θ) = P{Rejeitar H0 }·

Notemos que se θ ∈ Θ1 , γ(θ) = 1 − β, onde β é a probabilidade de se cometer o erro


do tipo II. A função poder associa a cada valor de θ a probabilidade γ(θ) de rejeitar H0 .
É utilizada para verificar a adequação de um teste ou para comparar dois ou mais testes.
Uma função poder ideal seria tal que γ(θ) = 0 quando θ ∈ Θ0 e γ(θ) = 1 se θ ∈ Θ1 . Em
problemas práticos raramente existira um teste com estas caracteristicas.
A simplicidade matemática de aceitar ou rejeitar uma hipóteses formulada por Neyman
e Pearson é muito atrativa para a investigação em estatı́stica matemática. No entanto, para
propositos cientı́ficos mais gerais esta regra de decissão pode não dizer muito, seria mais
apropriado expressar que os dados corroboram ou não a hipóteses. Neste sentido, podemos
afirmar que é mais apropriado determinar não somente quando uma hipóteses é aceitada ou
56 CAPÍTULO 3. TEORIA DO TESTE DE HIPÓTESIS

rejeitada a determinado nı́vel de significância, como também o menor nı́vel de significância


ou p-valor ao qual a hipóteses pode ser rejeitada, dadas as observações. Podemos afirmar
também que o p-valor é um subproduto da teoria de Neyman e Pearson e que é utilizado
como medida da evidência, carregada pelos dados, em favor da hipóteses.

Exemplo 30 (Continução do exemplo 29) Se sob as mesmas condições observamos


que x = 0.68, o p-valor calcula-se como

b = P{X ≥ 0.68|θ = 0} = P{Z ≥ 2.72} = 0.003264096,


α

sendo 0.003 a estimativa do menor nı́vel de significância ao qual a hipóteses H0 pode ser
rejeitada e, portanto, rejeitamos H0 . A probabilidade de cometer o erro tipo II é calculado
como
β = P{X < 0.68; θ = 1} = P{Z < −1.28} = 0.1002726·
Além disto, podemos encontrar a função poder, como

γ(θ) = P{X ≥ 0.68} = 1 − Φ(4 ∗ (0.68 − θ))·

Podemos observar a forma desta função no seguinte gráfico.


1.0
0.8
0.6
γ(θ)

0.4
0.2
0.0

−1.0 −0.5 0.0 0.5 1.0 1.5 2.0

Definição 25 Chamamos de teste de uma hipóteses à função de decisão δ : Ω → {a0 , a1 },


onde a0 corresponde a ação de considerar a hipóteses H0 verdadeira e a1 corresponde a
ação de considerar a hipótese H1 verdadeira.

A função de decisão divide o espaço amostral Ω nos subconjuntos Ω0 e Ω1 tais que

Ω0 = {x ∈ Rn : δ(x) = a0 }

e
Ω1 = {x ∈ Rn : δ(x) = a1 }·
3.2. TESTES MAIS PODEROSOS 57

Definição 26 (Teste mais poderoso) Consideremos todos os possı́veis testes estatı́sticos


para testar as hipóteses H0 : θ ∈ Θ0 e H1 : θ ∈ Θ1 , com mesmo nı́vel de significância. Um
teste δ ∗ , com região crı́tica Ω∗ é dito ser mais poderoso se, para qualquer outro teste δ com
mesma região crı́tica, a desiguladade
βΩ0 (θ) ≥ βΩ1 (θ) (3.1)
se satisfaz para todo θ ∈ Θ1 .

3.2 Testes mais poderosos


Apresentamos agora um lema fundamental na teoria de teste de hipóteses devido a Neyman
& Pearson (1933), o qual fornece um método geral para encontrar o melhor teste quando
ambas as hipóteses são simples. Seja {fθ : θ ∈ Θ}, a famı́lia de distribuições de X, onde
Θ = {θ0 , θ1 }.
Teorema 12 (Lema de Neyman-Pearson) Consideremos as hipótese H0 : θ = θ0 vs
H1 : θ = θ1 e o teste com região crı́tica
Ω∗1 = {x ∈ Rn : L(x; θ1 ) ≥ kL(x; θ0 )}·
Estão Ω∗1 é a melhor região crı́tica de nı́vel de significância α, isto significa que a função
poder deste teste βΩ∗1 é menor do que a função poder βΩ1 para qualquer outra região crı́tica
Ω1 com mesmo nı́vel de significância.
Observemos que podemos escrever a região crı́tica mais poderosa, obtida pelo lema de
Neyman-Pearson, em termos do logaritmo da função de verossimilhanças como
Ω∗1 = {x ∈ Rn : ℓ(x; θ1 ) ≥ γℓ(x; θ0 )},
onde γ = log k.
Exemplo 31 Seja X1 , . . . , Xn uma amostra aleatória da distribuição N(θ, 1). Encontre-
mos a região crı́tica mais poderosa para verificar se H0 : θ = 0 vs H1 : θ = 1.
A função de log-verossimilhança é
n
n 1X
ℓ(x; θ) = − log(2π) − (xi − θ)2 ·
2 2 i=1
Então  
γ−1 1
Ω∗1 = n
x∈R :x≥− log(2π) + ·
2 2

Se α = 0.05, da equação P{X ≥ c; θ = 0} = 0.05 obtemos c = 1.64 n, onde c =
− γ−1
2
log(2π) + 21 e X ∼ N(0, 1/n).
Este lema tem importância somente histórica. Atualmente esta forma de trabalhar
o teste de hipóteses esta ultrapassada, ou seja, não se utiliza mais a noção de nı́vel de
significância e de região crı́tica para tomar decissões. A importancia deste lema esta na
sugestão da forma de construir testes de hipóteses o que permitiu o desenvolvimento do
chamado teste da razão de verossmilhanças.
58 CAPÍTULO 3. TEORIA DO TESTE DE HIPÓTESIS

3.3 Teste da razão de verossimilhanças


Testes mais poderosos não existem para uma grande quantidade de testes de hipóteses
e que, em situações onde existem, pode ser aplicado somente em daterminadas famı́lias
de distribuições. Também, quando a hipóteses é composta ao invês de simples o lema de
Neyman-Pearson deixa de fornecer o melhor teste.
Veremos um novo método para construir um bom teste e ele inclui como caso especial
aqueles para hipóteses simples. Suponhamos que X1 , . . . , Xn sejam variáveis aleatórias
com função de densidade ou de probabilidade f (x; θ) e queremos testar

H 0 : θ ∈ Θ0 vs H 1 : θ ∈ Θ1 ,

com Θ0 ∪ Θ1 = Θ e Θ0 ∩ Θ1 = ∅.
Denotemos por θb o estimador de máxima verossimilhança para θ e por L(x; θ) a função
b é o valor máximo desta função. Se θb0 é o ponto de
de verossimilhança, então L(x; θ)
máximo de L restrito à hipóteses nula, ou seja, se

L(x; θb0 ) = max L(x; θ),


θ∈Θ0

temos que
L(x; θb0 ) ≤ L(x; θ)·
b

Construamos a razão
L(x; θb0 )
λ(x) = · (3.2)
b
L(x; θ)
Esta é uma razão de duas funções de verossimilhança quando seus parâmetros são subs-
tituidos pelos estimadores de máxima verossimilhanç restrito à hipótese nula e irrestrito.
Observemos também que λ(x) é um quaciente de duas funções da amostra, logo λ(x) é
uma variável aleatória restrita ao intervalo (0, 1).

- Se λ é próximo de 1 intuitivamente vemos que podemos considerar razoável aceitar a


hipótese nula,

- Se λ é próximo de 0 podemos considerar não confiável a hipótese nula.

Isto significa que, pequenos valores de λ(x) levam à rejeição de H0 e viceversa. Supo-
nhamos agora H0 verdadeira e que a função de densidade de λ(x) seja g(λ). Suponhamos
também que g(·) não depende de parâmetros desconhecidos, então podemos encontrar o
p-valor do teste através expressão
Z λ(x)
g(λ)dλ = α
b (3.3)
0

Isto significa que a região crı́tica Ω∗1 de nı́vel α


b para testar H0 por meio da estatı́stica
λ(x) é
Ω∗1 = {x ∈ Rn : 0 ≤ λ ≤ λ(x)}·
3.3. TESTE DA RAZÃO DE VEROSSIMILHANÇAS 59

Teorema 13 (Teste da razão de verossimilhanças) Para testar H0 simples ou com-


posta, utiliza-se a estatı́stica da razão de verossimilhanças λ(x), definida em (3.2), rejei-
tando-se H0 se, e somente se, o p-valor obtido em (3.3) é pequeno.

Exemplo 32 Seja X1 , · · · , Xn uma amostra aleatória da densidade exponencial fθ (x) =


θe−θx , x ≥ 0 e θ > 0. Construamos o teste da razão de verossimilhanças para testar
H0 : θ = 1 vs H1 : θ 6= 1.
A função de verossimilhança é
n
Y Pn
L(θ) = θe−θxi = θn e−θ i=1 xi
,
i=1

que pode ser escrita como


L(θ) = θn e−nθx ·
O logaritmo desta função é ℓ(θ) = n log(θ) − nθx, do qual obtemos que o estimador de
máxima verossimilhança é θb = 1/x. A região crı́tica do teste da razão de verossimilhança

λ(x) = xn e−n(x−1) ·

EXERCÍCIOS
Nos seguintes exercı́cios, obter a região crı́tica do teste da razão de verossmilhanças para
testar
H0 : θ = 1 vs H1 : θ 6= 1,
considerando sempre uma amostra aleatória de tamanho n.

1. A função de densidade Benini é definida para x maior do que certa quantidade


conhecida x0 e assume a forma
  “ ”
2θ x −θ log2 xx
f (x; θ) = log e 0 ,
x0 x0
se x > x0 e β > 0.

2. Distribuição Maxwell, com função de densidade


r
2 3/2 2 − 1 θx2
f (x; θ) = θ xe 2 ,
π
sendo x e θ reais positivos.

3. Distribuição Rayleigh, com função de densidade


r
2x −( x )2
f (x; θ) = e θ ,
θ2
sendo x e θ reais positivos.
60 CAPÍTULO 3. TEORIA DO TESTE DE HIPÓTESIS

4. Distribuição gama inversa, com função de densidade

θ3 −(θ+1) − θ
f (x; θ) = x e x,
6
sendo x e θ reais positivos.

5. Distribuição exponencial dupla ou Laplace, com função de densidade


θ
f (x; θ) = e−θ|x| ,
2
sendo x um real qualquer e θ real positivo.

O grande probalema em todas estas situações é saber qual a função de densidade da


razão de verossimilhanças λ(x). Para grandes amostras existe uma boa aproximação para
esta distribuição, o que elimina a necessidade de encontrar sua distribuição exata.

Teorema 14 Se as condição de regularidade são válidas, a variável aleatória −2 log λ(x)


tem distribuição aproximada χ2 , quando n tende ao infinito, com graus de liberdade iguais a
diferença entre o número de parâmetros sob hipótesis alternativa e o número de parâmetros
sob a hipóteses nula.

Assim, como pequenos valores de λ(x) correspondem a grandes valores de −2 log λ(x),
segue-se qu a região crı́tica para este teste consiste em grandes valores desta variável. Logo,
pelo teorema anterior
Ω∗1 = {x ∈ Rn : −2 log λ(x) > χ2 (p)},
onde p = dim Θ − dim Θ0 .
Em sitauções práticas trabalha-se de maneira diferente. Para um valor observado da
estatı́stica de teste, calcula-se o nı́vel de significância mı́nimo para o qual a hipóteses nula
seria rejeitada. Esse valor é chamado de nı́vel de significância observado ou p-valor. No caso
da estatı́stica da razão de verossimilhanças decidimos a aceitação ou rejeição da hipótese
nula calculando
p-value = P{χ2 (p) ≥ −2 log λ(x)},
e esta probabilidade é calculada considerando a hipóteses nula como certa.

Exemplo 33 (Continuação do exemplo 32) Observemos que

−2 log λ(x) = 2n(x − 1) − 2n log(x)

e que o p-valor é calculado como

P{χ2 (1) ≥ 2n(x − 1) − 2n log(x)}·


3.4. OUTROS TESTES DE HIPÓTESIS 61

3.4 Outros testes de hipótesis


Sabemos que a função de log-verossimilhança define-se como
n
X
ℓ(θ) = log f (xi ; θ),
i=1

b Este ponto satisfaz que


a qual é maximizada em θ.

∂ℓ(θ
= 0·
∂θ θ=θb

Definamos
∂ℓ(θ
U(θ) = , (3.4)
∂θ
a que chamaremos de função escore. Observemos que o estimador de máxima verossimi-
b = 0.
lhança é aquele valor do vetor de parâmetros que anula a função escore, ou seja, U(θ)
A variancia de θb pode ser calculada como a inversa da matriz de informação de Fisher

b = I −1 (θ)
var{θ}

onde  
∂ 2 ℓ(θ)
I(θ) = −E ·
∂θ∂θ⊤

Se θb tem como distribuição limite a normal e se I(θ) foi estimada pelo estimador
b então
consistente I(θ),
ǫW = (θb − θ0 )⊤ I(θ)(
b θb − θ0 ),

tem como distribuição limite χ2 com p graus de liberdade quando a hipóteses nula é
verdadeira. Esta é a chamada estatı́stica de teste Wald, proposta pelo matemático húngaro
Abraham Wald em 1943.
O teste de Multiplicadores de Lagrande é obtido pelo princı́pio de maximização res-
trita quando maximizamos a função de log-verossimilhança restrita à θ = θ0 . Este teste
é idêntico ao teste escore, originalmente proposto pelo estatı́stico indiano Calyampudi
Radhakrishna Rao em 1948, definido como

ǫR = U ⊤ (θ0 )I −1 (θ0 )U(θ0 ),

cuja distribuição limite é também χ2 com mesmos graus de liberdade.


As três principais estatı́sticas de teste: razão de verossimilhanças, teste Wald e teste
escore ou Rao são baseados em estatı́stica diferentes que tentam medir a distância entre
H0 e H1 . O teste Wald é construı́do em termos de θb − θ0 , o da razão de verossimilhanças
em termos da diferença ℓ(θ0 ) − ℓ(θ)b e o escore em termos de U(θ0 ).
62 CAPÍTULO 3. TEORIA DO TESTE DE HIPÓTESIS

TRABALHO No.2 - ENTREGAR ATÉ 28 de novembro de 2007

1. Sejam X1 , . . . , Xn variáveis aleatórias independentes com densidade comum Rayleigh


de parâmetro θ > 0,  2
2x x
f (x; θ) = 2 exp − 2 ,
θ θ
se x > 0 e zero em caso contrário. Encontre as estatı́sticas de teste escore e Wald
para testar H0 : θ = 1 vs H1 : θ 6= 1.
Observação: E{X 2 } = θ2 .

2. Seja X1 , . . . , Xn uma amostra aleatória com densidade logı́stica de parâmetro θ na


reta real e função de densidade,

ex−θ
f (x; θ) = 2,
(1 + e(x−θ) )

para x ∈ R. Encontre as estatı́sticas de teste escore e Wald para testar H0 : θ = 0


vs H1 : θ 6= 0.
b = 3.
Observação: var{θ} n

3. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade Gama(2, θ) e função


de densidade
xe−x/θ
f (x; θ) = ,
Γ(2)θx
para x > 0 e zero caso contrário. Encontre as estatı́sticas de teste escore e Wald para
testar H0 : θ = 1 vs H1 : θ 6= 1.
Observação: E{X} = 2θ.

4. Seja X1 , . . . , Xn uma amostra aleatória da função de probabilidade logaritmica de


parâmetro θ, isto é, com função de probabilidade

1 θx
P{X = x; θ} = − ,
log(1 − θ) x

se x = 0, 1, 2, 3, . . . e 0 < θ < 1. Encontre a estatı́stica de teste escore para testar


H0 : θ = 0.1 vs H1 : θ 6= 0.1. O estimador de máxima verossimilhança de θ não é
possı́vel de ser obtido de maneira explı́cita.
θ θ[θ + log(1 − θ)]
Observação: E{X} = − e var{X} = − .
(1 − θ) log(1 − θ) (1 − θ)2 log2 (1 − θ)
3.4. OUTROS TESTES DE HIPÓTESIS 63

3.4.1 Famı́lia simétrica de densidades


Seja X1 , . . . , Xn uma amostra aleatória da variável aleatória X com densidade simétrica
de parâmetro de locação µ ∈ R e parâmetro de escala φ > 0. Funções de densidade satis-
fazendo estas exigências tem sido amplamente aplicadas em engenharia, bilogia, medicina
e economia dentre outros, veja diversos exemplos de aplicações em Chmielewski (1981).
As funções de densidade simêtricas podem ser definidas como
1
f (x; µ, φ) = h(z 2 ),
φ
sendo h(·)
R ∞uma função real positiva apropriada, chamada de função geradora de densidade
tal que 0 z −1/2 h(z)dz = 1 e
x−µ
z= ·
φ
Nem todas as funções de densidade simétricas que podem ser escritas desta forma tem
momentos finitos. No caso de existirem, temos que E{X} = µ e Var{X} = kφ2 , onde k é
uma constante definida como k = −2ϕ′ (0), ϕ′ (0) = dϕ(z)/dz|z=0 e ϕ(·) uma função real
definida pela função caracterı́stica ψ(t) = E(eitz ), dada por ψ(t) = eitµ ϕ(t2 φ2 ), t ∈ R.
Diversas funções de densidade pertencem a esta classe, podemos mencionar:
(i) normal: h(z) = (2π)−1/2 exp(−z/2),
(ii) Cauchy: h(z) = {π(1 + z)}−1 ,
(iii) tν -student: h(z) = ν τ /2 B(1/2, τ /2)−1 (ν + z)−(τ +1)/2 , onde ν, τ > 0 e B(·, ·) é a função
beta. Inclui como casos particulares a distribuição t-Student quando ν = τ e a
distribuição Cauchy se ν = τ = 1,
(iv) logı́stica, h(z) = ce−z (1 + e−z )−2 , sendo c a constante normalizadora, aproximada-
mente igual a 1.484300029,
(v) Kotz:
τ (2ν−1)/2
h(z) = z ν−1 exp(−τ z), ν > 0, τ ≥ 1,
Γ((2ν − 1)/2)
onde Γ(·) é a função gama. Se ν = 1 obtemos a distribuição normal de média µ e
variancia φ2 /(2τ ),
(vi) potência exponencial: h(z) = c(ν) exp(−z 1/(1+ν) /2), se −1 < ν ≤ 1, onde c(ν)−1 =
Γ(1 + (1 + ν)/2)21+(1+ν)/2 , quando ν = 0 obtemos a densidade normal de média µ e
variancia φ2 ,
Uma relação mais detalhada das densidade que pertencem a esta classe pode ser encon-
trada em Cordeiro, Ferrari, Uribe-Opazo & Vasconcellos (2000). Na figura 3.1 mostramos
a forma funcional das densidades (i) - (vi).
Podemos observar que o logaritmo da função de verossimilhanças assume a forma
n
X
ℓ(θ) = −n log(φ) + log(h(zi2 )),
i=1
64 CAPÍTULO 3. TEORIA DO TESTE DE HIPÓTESIS

Distribuições simêtricas

0.5
normal
Cauchy
logística
t−Student
0.4
0.3 Exp. potência
f(x)

0.2
0.1
0.0

−4 −2 0 2 4

Figura 3.1: Diferentes funções de densidade simêtricas.

da qual obtemos que a função escore é da forma


 n 
2 X zi dh(zi2 )
   − 
U(µ)  φ i=1 h(zi2 ) dzi2 
U(ϑ) = = n .
U(φ)  n 2 X zi2 dh(zi2 ) 
− −
φ φ i=1 h(zi2 ) dzi2

A expressão obtida acima depende da forma particular da função de densidade através


de h(·) e da derivada dh(z 2 )/dz 2 , por exemplo, no caso particular da densidade normal
dh(z 2 ) 1
2
= − √ exp{−z 2 /2},
dz 2 2π
e no caso da densidade logı́stica
2 2
dh(z 2 ) e−z (e−z − 1)
= c ·
dz 2 (1 + e−z 2 )3
Podemos então definir as diferentes funções de teste, obténdo-se que, para testar H0 :
φ = φ0 de alternativa HA : φ 6= φ0

λ(φ) = 2{ℓ(φ, b) − ℓ(φ0 , µ
b0 )},
e se, por outro lado, o interesse é testar H0 : µ = µ0 , de alternativa HA : µ 6= µ0 , obtemos

λ(φ) = 2{ℓ(φ, b) − ℓ(φb0 , µ0 )}·
3.4. OUTROS TESTES DE HIPÓTESIS 65

Em muitas situações os estimadores φ, b chamado de irrestrito e φb0 , o estimador restrito


ao valor fixado pela hipótesis nula µ0 , diferem. Por exemplo, no caso normal de parâmetros
µ e φ2 , v v
u n u n
u1 X u1 X
φb0 = t (xi − µ0 )2 e φb = t (xi − x)2 ·
n i=1 n i=1

Para definir as outras funções ou estatı́sticas de teste precissamos da matriz de in-


formação, para encontrar a expressão correspondente utilizaremos o seguinte artificio.
Definamos
(r) dr
t (z) = r t(z)
dz
e
t(z) = log h(z 2 )·
Podemos escrever o logaritmo da função de verossimilhanças como
n
X
ℓ(ϑ) = −n log(φ) + t(zi ),
i=1

e por simples derivação a função escore pode ser escrita como


 n 
1 X (1)
 − t (zi ) 
 φ i=1 
U(ϑ) =  X n ,
 n 1 (1) 
− − zi t (zi )
φ φ i=1

Esta expressão não oferece vantagens em relação àquela já obtida se o objetivo é encon-
trar os estimadores ou escrever as estatı́sticas de teste que dela dependem, o interesse
em escrever desta maneira a função escore esta na facilidade de encontrar a matriz de
informação.
Novamente, por simples derivação, obtemos que
n n
∂U(φ) 1 1 X (1) 1 X 2 (2)
= − U(φ) + zi t (zi ) + 2 z t (zi ),
∂φ φ φ i=1 φ i=1 i
n n
∂U(φ) 1 X (1) 1 X (2)
= t (zi ) + 2 zi t (zi ),
∂µ φ2 i=1 φ i=1
n
∂U(µ) 1 X (2)
= t (zi ),
∂µ φ2 i=1

também por simples derivação pode ser obtido que ∂U(µ)/∂φ = ∂U(φ)/∂µ.
A matriz de informação observada será então
 
∂U(µ) ∂U(µ)
 ∂µ ∂φ 
i(ϑ) =  ∂U(φ) ∂U(φ)  ,
∂µ ∂φ
66 CAPÍTULO 3. TEORIA DO TESTE DE HIPÓTESIS

Distribuição δ01000 δ20002


(i) normal -1 3
(ii) Cauchy -1/2 3/2
ν+1
(iii) tν -student − ν+3 3 ν+1
ν+3
(iv) logı́stica -1.4772440176 4.013783934
(v) Kotz
(vi) potência exponencial

Tabela 3.1: Valores do coeficientes δ01000 e δ20002 em diferentes distribuições

e lembremos que que a matriz de informação esperada de Fisher é I(ϑ) = −E{i(ϑ)}.


Definamos
a b c d
δabcde = E{t(1) t(2) t(3) t(4) z e },
para a, b, c, d, e = 0, 1, 2, 3, 4. Em trabalhos como Cordeiro et al. (2000) e Ferrari & Uribe-
Opazo (2001), os autores encontraram os valores destas constantes nas diferentes situações
particulares, veja-os na tabela 3.1.
Utilizando estes coeficientes obtemos que a matriz de informação de Fisher é
 
n δ20002 − 1 0
I(ϑ) = 2 ,
φ 0 δ01000

e, por sua vez, a estatı́stica de teste escore assume a forma

U(φ0 )2 I(ϑ)−1 ,

e a estatı́stica Wald é
(φ − φ0 )2 I(ϑ),
para as hipóteses acerca de φ. Quando o interesse é a hipóteses acerca so parâmetro de
locação as estatı́sticas de teste escore e Wald assumem a forma,
Exemplo 4: Se

3.5 Famı́lia exponencial de densidades


Talves o leitor tenha percebido que na definição de muitas funções de densidade e de
probabilidades a função exponencial esta presente de alguma maneira. Estudaremos diver-
sas maneira de definir a chamada famı́lia exponencial segundo o interesse, seja este obter
somente distribuições simétricas ou não.

3.5.1 Famı́lia exponencial uni-paramêtrica


Esta famı́lia de densidades aplica-se em diferentes situações ....
3.5. FAMÍLIA EXPONENCIAL DE DENSIDADES 67

Consideremos que a função de densidades ou de probabilidades da variável aleatória X


possa ser escrita da seguinte form
1
f (x; θ) = exp{−α(θ)d(x) + ν(x)}, (3.5)
ς(θ)

onde θ é o parâmetro escalar e ς(·), α(·), d(·) e ν(·) são funções conhecidas.
Para poder ser considerada parte da famı́lia exponencial de densidade, o suporte de
f (x; θ), ou seja, o conjunto {x : f (x; θ) > 0} não depende de θ. Assim, se X ∼ U(0, θ)
não pertence à famı́lia exponencial. Sabemos também que na famı́lia exponencial d(x) é
uma estatı́stica suficiente pelo teorema de fatoração. Um outro detalhe importante é que
as funções α(·), d(·) e ν(·) não são únicas, por exemplo, podemos multiplicar α(·) por uma
constante e dividir d(·) pela mesma constante.
Uma outra forma de escrever as densidade na forma definida em (3.5) é

f (x; θ) = exp{t(x; θ)},

onde t(x; θ) = − log(ς(θ)) − α(θ)d(x) + ν(x). Definamos

ς ′ (θ)
β(θ) = ·
ς(θ)α′ (θ)
P
A função escore é U(θ) = −α′ (θ){nβ(θ) + ni=1 d(xi )},
o estimador de máxima verossimilhança θb é a solução da equação
n
1X b
− d(xi ) = β(θ)
n i=1
Pn b
e a estatı́stica da razão de verossimilahnças para testar H0 : θ = θ0 é ω = 2 i=1 {t(xi ; θ) −
t(xi ; θ0 )}, que pode ser escrito como

b
ω = 2nβ(θ){α( b − α(θ0 )} + 2n log{ς(θ0 )/ς(θ)}·
θ) b

Algumas outras situações particulares podem ser encontradas em Cordeiro, Cribari-


Neto, Aubin & Ferrari (1995).
68 CAPÍTULO 3. TEORIA DO TESTE DE HIPÓTESIS

Referências Bibliográficas
Anderson, T.W. (1958). An Introduction to Multivariate Statistical Analysis. Wiley, New
York.
Barndorff-Nielsen, O.E. (1986). Inference on full or partial parameters, based on the
standardized log likelihood ratio. Biometrika, 73, 307–322.
Bartlett, M.S. (1955). Approximate confidence intervals, III. A bias correction. Biometrika,
40, 306–317.
Chmielewski, M.A. (1981). Elliptically symmetric distributions: a review and bibliography.
International Statistical Review , 49, 67–74.
Cordeiro, G.M. (1987). On the corrections to the likelihood ratio statistics. Biometrika,
74(2), 265–274.
Cordeiro, G.M., Cribari-Neto, F., Aubin, E.C.Q. & Ferrari, S.L.P. (1995). Bartlett cor-
rections for one-parameter exponential family models. Journal of Statistical Computing
and Simulation, 53, 211–231.
Cordeiro, G.M., Ferrari, S.L.P., Uribe-Opazo, M.A. & Vasconcellos, K.L.P. (2000). Correc-
ted maximum likelihood estimation in a class of simmetric nonlinear regression models.
Statistics and Probability Letters, 46, 317–328.
DiCiccio, T.J. & Stern, E.E. (1994). Frequentist and bayesian Bartlett correction of test
statistics based on adjusted profile likelihoods. Journal of the Royal Statistical Society,
56(2), 397–408.
DiCiccio, T.J., Martin, M.A., Stern, E.E. & Young, G.A. (1996). Information bias and
adjusted profile likelihoods. Journal of the Royal Statistical Society, 58(1), 189–203.
Ferrari, S.L.P. & Uribe-Opazo, M.A. (2001). Corrected likelihood ratio test in a class of
symmetric linear regression models. Brazilian Journal of Probability and Statistics, 15,
49–67.
Fraser, D. (1989). Adjustments to profile likelihood. Biometrika, 76(3), 477–488.
Lawley, D.N. (1956). A general method for approximating to the distribution of likelihood
ratio criteria. Biometrika, 43, 295–303.
Lucambio, F. (2003). Ajustes para a varossimilhança perfilada em modelos lineares genera-
lizados. Ph.D. thesis, Instituto de Matemárica e Estatı́stica, Universiade de São Paulo,
Brasil.
Lunetta, G. (1963). Di una generalizzazione dello schema della curva normale. Annali
della Facoltá di Economia e Commercio di Palermo, 17(2), 235–244.
McCullagh, P. & Tibshirani, R. (1990). A simple method for the adjustment of profile
likelihoods. Journal of the Royal Statistical Society, 52(2), 325–344.
REFERÊNCIAS BIBLIOGRÁFICAS 69

Neyman, J. & Pearson, E.S. (1933). On the problem of the most efficient tests of statistical
hypotheses. Philosophical Transactions of the Royal Society of London, A231, 289–337.

Rao, C.R. (1973). Linear Statistical Inference and its Applications. John Wiley and Sons,
second edition.

Rohatgi, V. K. (1976). An Introduction to Probability Theory and Mathematical Statistics.


John Wiley & Sons.

Stern, S.E. (1997). A second-order adjustment to the profile likelihood in the case of a
multidimensional parameter of interest. Journal of the Royal Statistical Society, 59(3),
653–665.

Stuart, A. & Ord, J. (1987). Kendall’s Advanced Theory of Statistics. London: Charles
Griffin.

Vianelli, S. (1963). La mistura della variabilitàcondizionata in uno schema generali delle


curve normali di frequenza. Statistica, 33, 447–474.

Wedderburn, R.W.M. (1974). Quasi-likelihood functions, generalized linear models, and


the Gauss-Newton method. Biometrika, 61, 439–447.

Você também pode gostar