Escolar Documentos
Profissional Documentos
Cultura Documentos
Métodos de estimação
E(X1k ) = mk (θ)
189
190 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO
para k = 1, · · · , r.
n
1∑ 2
2 2
e=X
µ e e +µ
σ e = X ·
n i=1 i
m1 (θe1 , · · · , θer ) = m
e 1, ··· mr (θe1 , · · · , θer ) = m
e r,
θe1 = g1 (m
e 1, · · · , m
e r ), ··· θer = gr (θe1 , · · · , m
e r )·
θ
E(X1 ) = ,
2
Teorema 4.1. Seja m(θ) = (m1 (θ), . . . , mr (θ)) e seja M (θ) uma matriz de
posto r de elementos Mij (θ) = ∂mi (θ)/∂θj , i, j = 1, . . . , r sendo estas funções
contı́nuas em θ. Então
√ D
n(θe − θ) −→ Nr (0, M −⊤ ΣM −1 ),
D D
Teorema 4.2 (Teorema Cramér-Wold). Xn −→ X se, e somente se, a⊤ Xn −→ a⊤ X,
∀ ∈ Rk .
4.1. MÉTODO DOS MOMENTOS 195
n
1∑ 2
e 1 = X,
m e2 =
m X e m(θ) = m(µ, σ 2 ) = (µ, µ2 + σ 2 ),
n i=1 i
logo
∂m1 (θ) ∂m2 (θ) ( )
∂µ ∂µ 1 0
M (θ) = =
∂m1 (θ) ∂m2 (θ) 2µ 1
∂σ 2 ∂σ 2
e, portanto
( )
σ2 2µσ 2
Σ= ·
2µσ 2 4µ2 σ 2 + 2σ 4
Teorema 4.3 (Método Delta). Suponhamos que {Tn } seja uma sequência de
variáveis aleatórias, θ ∈ R e g uma função real derivável numa vizinhança
do ponto µ, com g ′ (µ) ̸= 0. Se
D
an (Tn − µ) −→ Z ∼ N (0, σ 2 )
P
em µ. Primeiro observemos que Tn −→ µ, pelo Teorema de Slutsky2 . Pela
expansão em série de Taylor de g(x) em torno de x = µ, temos que
pelo Teorema de Slutsky. Para o caso mais geral, onde g não é necessaria-
mente continuamente diferenciável em µ, note que
Rn P
an Rn = an (Tn − µ) −→ 0
an (Tn − µ)
D P
Teorema 4.4 (Teorema de Slutsky). Suponhamos que Xn −→ X e que Yn −→ θ. Então
D
(a) Xn + Yn −→ X + θ,
D
(b) Xn −→ θX.
4.1. MÉTODO DOS MOMENTOS 197
θ
µ= , se θ>1
θ−1
e
θ
σ2 = , se θ>2
(θ − 1)2 (θ − 2)
respectivamente. Nesta situação temos somente um parâmetro então, no
Passo No.1, somente precisamos determinar o primeiro momento
θe
= X,
θe − 1
σ2 θ θ(θ − 1)2
[g ′ (µ)]2 = (θ − 1)4 = ·
n n(θ − 1)2 (θ − 2) n(θ − 2)
198 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO
Binomial(10,0.2) Binomial(10,0.8)
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
provável de ocorrer do que x = 5, 0,302 versus 0,026. Isto pode ser apreci-
ado na Figura 4.1 a esquerda. Na realidade, porém, nós já observamos os
dados. Assim, somos confrontados com um problema inverso: considerando
os dados observados e um modelo de interesse, encontrar a função de pro-
babilidade, entre todas as diferentes funções de probabilidade que o modelo
prescreve, que é mais provável ter produzido os dados.
Para resolver este problema inverso, definimos a função de verossimi-
lhança, invertendo os papéis do vetor de dados x e o vetor de parâmetros θ.
˜
Assim L(θ) representa a probabilidade do parâmetro θ de acordo com os da-
dos observados x e, como tal, é uma função de θ. Para o exemplo Binomial,
˜
a função de verossimilhança para x = 7 e n = 10 é dada por
10! 7
L(θ) = θ (1 − θ)3 , 0 < θ < 1·
7!3!
A forma desta função é mostrada na Figura 4.2.
0.8
Verossimilhança
0.6
0.4
0.2
0.0
∂2 n
2
ℓ(θ) = − 2 x < 0,
∂θ θ
que é sempre negativo. Então x maximiza a função de verossimilhança, dada
uma amostra x∑ 1 , · · · , xn . e o estimador
∑n de máxima verossimilhança de θ é
n
X, desde que i=1 Xi > 0. Caso i=1 Xi = 0, estritamente falando, não
existe o estimador de máxima verossimilhança dado que ℓ(θ) = −nθ não têm
ponto de máximo no intervalo (0, ∞).
204 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO
Teorema 4.6. Seja U a função escore para algum modelo estatı́stico satis-
fazendo as condições de regularidade do Teorema 3.11. Então,
E[ U (θ)] = 0·
Método de Newton-Raphson
Lamentavelmente, nem todo modelo estatı́stico permite obtermos de ma-
neira analı́tica o estimador de máxima verossimilhança, em situações que
nem estas aparece uma utilidade muito importante da função escore: ser-
vir de inspiração para os métodos numéricos de obtenção de estimativas do
estimador de máxima verossimilhança.
Com este objetivo consideramos a expansão em série de Taylor de primeira
ordem da função escore, avaliada no estimador de máxima verossimilhança,
ao redor do ponto θ0 assumindo que θ0 esteja próximo do valor do parâmetro
que gerou a amostra. Então
b ≈ U(θ0 ) + ∂
U(θ) U (θ)(θb − θ0 )· (4.8)
∂θ
Denotemos por H a matriz Hessiana ou matriz de segundas derivadas da
log-verossimilhança, ou seja,
∂2 ∂ U (θ)
H(θ) = ⊤
log L(θ) = ·
∂θ∂θ ∂θ
Fazendo então a parte esquerda da equação em (4.8) igual a zero e resolvendo
para θ, obtemos a aproximação de primeira ordem
θb = θ0 − H −1 (θ0 ) U (θ0 )·
Este resultado fornece a base para uma abordagem iterativa para cal-
cular o estimador de máxima verossimilhança conhecida como a método de
Newton-Raphson. Dado um valor inicial, usamos a expressão em (4.8) para
obter uma estimativa melhorada e repetimos o processo até que as dife-
renças entre as estimativas sucessivas sejam suficientemente perto de zero
ou até que os elementos do vetor de primeiras derivados sejam suficiente-
mente perto de zero. Este procedimento tende a convergir rapidamente se
o log-verossimilhança é bem comportado, perto de função quadrática, em
uma vizinhança do máximo e se o valor de partida é razoavelmente perto da
estimativa de máxima verossimilhança.
206 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO
θb = θ0 + I −1 (θ0 ) U (θ0 )
A função de verossimilhança é
{ n
}
1 ∑ (xi − µ)2
L(µ, σ 2 ; x) = n exp − ,
˜ σ (2π)n/2 i=1
2σ 2
e n
n n ∑ (xi − µ)2
ℓ(µ, σ ) = ln L(µ, σ ; x) = ln(σ 2 ) − ln(2π) −
2 2
·
˜ 2 2 i=1
2σ 2
As equações de verossimilhança são
n
1 ∑
(xi − µ) = 0
σ 2 i=1
e n
n 1 1 ∑
− 2+ 4 (xi − µ)2 = 0·
2σ 2σ i=1
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 207
Assim,
n
∂ℓ(α, β) nα ∑
= − xi ,
∂β β i=1
n
∂ℓ(α, β) Γ′ (α) ∑
= n log(β) − n + log(xi )·
∂α Γ(α) i=1
Da primeira derivada formamos uma primeira equação de verossimilhança
b )=α
da qual obtemos que β(x b/x, enquanto da segunda derivada temos que
˜
(α) ∑ Γ′ (α)
n
n log + log(xi ) − n = 0,
x i=1
Γ(α)
α=b
α
ou n
Γ′ (b
α) 1∑
α) −
log(b = log(x) − log(xi ),
Γ(b α) n i=1
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 209
que deve ser resolvido para α b. Neste caso, a equação de verossimilhança não
é de fácil solução e é necessário recorrer a métodos numéricos.
∂ 2 log fX (X ; θ)
˜ = A′ (θ)(θb − θ) − A(θ),
∂ 2
210 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO
de maneira que
∂ 2 log fX (X ; θ)
˜ = −A(θ)·
∂ 2
θ=θb
b (X1 , · · · , Xn ) = X(n) ,
N
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 211
b = 1 < 1 = P (x; N
P (x; β) b )·
˜ βbn bn
N ˜
Θλ = {θ : θ ∈ Θ, h(θ) = λ}
e
M (λ; x) = sup L(θ; x)·
˜ θ∈Θλ ˜
Então, M definido em Λ é chamado de função de verossimilhança induzida
por h. Se θb é algum estimador de máxima verossimilhança de θ, então θb
pertence a um, e somente um conjunto, digamos Θ1 .
b = h(θ).
Devido a que θb ∈ Θλ , λ b Agora
(i) ∂ log fθ /∂θ, ∂ 2 log fθ /∂θ2 , ∂ 3 log fθ /∂θ3 existem para todo θ ∈ Θ e
todo x. Também,
∫ +∞ [ ]
∂fθ (x) ∂ log fθ (X)
dx = Eθ = 0, ∀θ ∈ Θ·
−∞ ∂θ ∂θ
(ii)
∫ +∞
∂ 2 fθ (x)
dx = 0, ∀θ ∈ Θ·
−∞ ∂θ2
(iii)
∫ +∞
∂ 2 log fθ (x)
fθ (x) dx < 0, ∀θ ∈ Θ·
−∞ ∂θ2
(v) Existe uma função g(θ) que seja positiva e duas vezes diferenciável
para todo θ ∈ Θ e a função H(x) seja tal que, para todo θ ∈ Θ
2 [ ] ∫
∂ ∂fθ (x) +∞
H(x)fθ (x) dx < ∞·
∂θ2 g(θ) ∂θ < H(x) e
−∞
(b) As condições (i) até (iv) implicam que a solução consistente θbn da
equação de verossimilhança é assintoticamente normal, isto é,
1√ b D
n(θn − θ) −→ Z,
σ
onde Z ∼ N ormal(0, 1) e
1
σ2 = [ ]2 ·
∂ log fθ (X)
Eθ
∂θ
(b) As condições (i), (ii), (iii) e (v) implicam que a solução consistente da
equação de verossimilhança é assintoticamente normal.
∑ n
b f0 ) = 1
L(f, ln f (Xi )
n i=1
b f0 ) é simplesmente a função de
Se F = {f (x; θ) : θ ∈ Θ}, então nL(f,
log-verossimilhança. Assim o estimador de máxima verossimilhança pode
ser interpretado como aquele cuja densidade mais se aproxima da verdadeira
densidade que gerou a amostra.
∂ℓ(ϑ) ∂ 2 ℓ(ϑ)
ℓr (ϑ) = , ℓrs (ϑ) = ,···
∂ϑr ∂ϑr ϑs
218 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO
λr = E[ℓr (ϑ)], λrs = E[ℓrs (ϑ)], λrst = E[ℓrst (ϑ)], · · · , λr,s = E[ℓr (ϑ)ℓs (ϑ)],
e assumiremos que λr , λrs , λrst , etc. são funções de ordem O(n). Derivadas
de cumulantes são amplamente utilizadas e definidas como
e
n
ℓ12 (ϑ) = ℓ21 (ϑ) = − (x − µ)·
σ2
Depois de numerosos trabalhos Lawley (1956) demonstrou que, para cada
componente do vetor de parâmetros, vale a seguinte expansão
1
ϑbr − ϑr = −λrs ℓs + λrs λtu ℓst ℓu − λrs λtv λuw λstu ℓu ℓw + OP (n−3/2 ),
2
desde que a famı́lia de densidades ou de probabilidades satisfaça as condições
de regularidade. Nesta expressão ...
Isto significa que, embora na maioria das situações o estimador de máxima
verossimilhança é um estimador viciado do vetor de parâmetros de interesse,
a diferença entre a estimativa de máxima verossimilhança e o verdadeiro valor
do parâmetro diminuem conforme a amostra cresce. Por este motivo, se a
amostra não pode ser aumentada e, mesmo assim, necessitamos de resultados
fidedignos, utilizamos estes resultados para corrigir o vı́cio.
Exemplo 4.23 (Continuação do Exemplo 4.22). O estimador de máxima
verossimilhança corrigido para a variância é da forma
( )
2 2 2 2 1
bc = σ
σ b − λσ σ λµµ λσ2 µ/µ − λσ2 µµ ,
2
isto devido a que nas outras possı́veis situações os termos anulam-se. Subs-
tituindo as expressões correspondentes aos cumulantes obtemos que
n+1 2
bc2 =
σ b ·
σ (4.11)
n
A Figura 4.3 mostra claramente a vantagem de utilizar estimadores cor-
rigidos. A linha contı́nua preta representa as médias das estimativas do
estimador da variância, ou seja, o estimador sem correções. Por outro lado,
a linha descontı́nua vermelha representa o valor médio obtido com o estima-
dor de máxima verossimilhança corrigido. Para gerar esta figura simulamos,
para cada valor de n, hum mil amostras da distribuição N (0, 9), calculamos
b2 e σ
as estimativas σ bc2 (expressão em (4.11))e as médias das estimativas para
cada tamanho de amostra foram representadas.
Observamos nesta figura o comportamento clássico do estimador
∑ de má-
xima verossimilhança, ou seja, podemos observar que σ b2 = n1 ni=1 (xi − x)2
subestima o parâmetro e somente quando aumenta o tamanho da mostra
220 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO
9.5
9.0
8.5
σ2
8.0
7.5
7.0
5 10 15 20 25
n
obtemos que
n
2 1∑
b (µ) =
σ (xi − µ)2 ·
n i=1
−40
−60
−200
−80
−300
−100
−5 0 5 10 −5 0 5 10
µ µ
b ζ)
ℓ(ψ, b = max ℓ(ψ, ζ),
ψ,ζ
então
ℓP (ψbP ) ≥ ℓ(ψ,
b ζ)·
b
E [UP (ψ)] ̸= 0·
e desta forma, se este vı́cio não é eliminado, pelo menos é reduzido até uma
ordem aceitável.
Exemplo 4.25. No exemplo 4.22 foi obtida a forma do logaritmo da função
de verossimilhança no caso de X1 , X2 , · · · , Xn variáveis aleatórias N (µ, σ 2 ).
Consideraremos como parâmetro de interesse σ 2 e de perturbação µ. O loga-
ritmo da função de verossimilhança perfilada ?e
n
2 n n 2 1 ∑
ℓP (σ ) = − log(2π) − log(σ ) − 2 b)2 ,
(xi − µ
2 2 2σ i=1
n n 1 ∑
n
1 n
2 2
ℓP (σ ) = − log(2π) − log(σ ) − 2 (xi − x)2 − log − 2 ·
2 2 2σ i=1 2 σ
Histogram of x
60
Frequency
40
20
0
2 3 4 5
lim xK(x) = 0.
n→∞
a ser estimada é muito parecidida à gaussiana. Os métodos sj, bcv e ucv são
mais complexos e serão os recomendados.
Denotemos por fen−1 i
(x) o estimador fen (x) calculado depois de eliminar a
i-ésima observação, isto é
∑ n ( )
1 x − x
fen−1 (x) =
i j
K ·
(n − 1)h j̸=i=1 h
ou utilizar as fen−1
i
(x) numa espressão aproximada ao erro quadrático integral,
dada por
∫ +∞ n ∫ +∞
e 2 1 ∑ ei
EQIh ≈ fn (x) dx − 2 fn−1 (xi ) + f (x)2 dx.
−∞ n i=1 −∞
density.default(x = x, bw = "sj")
0.6
0.5
0.4
Density
0.3
0.2
0.1
0.0
2 3 4 5
4.4 Exercı́cios
Exercı́cios da Seção 4.1
1. Suponha que o vetor X = (X1 , · · · , Xn ) tenha por distribuição a famı́lia exponencial
˜
k-paramétrica com função de densidade ou de probabilidade escrita da forma
∑ k
fX (x; θ) = exp θj Tj (x) − D(θ) + S(x) ,
˜ ˜ ˜ ˜ ˜ ˜
j=1
nX
e = ∑n
α 2
i=1 (X i − X)
e
nX
βe = ∑n 2
·
i=1 (X i − X)
onde
( ) ( )
µ2 − µ1 µ1 µ3 − µ1 µ2 −αβ 2 2α(α + 1)β 3
=
µ3 − µ2 µ1 µ4 − µ2 µ2 2α(α + 1)β 3 2α(α + 1)(2α + 3)β 4
P (X = x; ρ) = ρB(x, ρ + 1),
os nı́veis máximos dos últimos dez anos. Também é utilizada como a distribuição
de probabilidade da ocorrência de desastres naturais.
A função de distribuição acumulada Fisher-Tippett é
(x−µ)/β
F (x; µ, β) = e−e ,
10. Seja (X, Y ) um vetor de variáveis aleatórias com distribuição normal bivariada de
2
parâmetros µX , µY , σX , σY2 e ρ, o coeficiente de correlação entre X e Y . Suponha
que temos n observações do par (X, Y ) e ainda que dispomos de N − n observações
de X, ou seja, N − n observações de Y foram perdidas. Encontre os estimadores
2
de máxima verossimilhança de µX , µY , σX , σY2 e ρ.