Você está na página 1de 46

Capı́tulo 4

Métodos de estimação

Uma vez construı́do o modelo estatı́stico a ser aplicado, devemos estimar


os parâmetros da distribuição desconhecida que gerou os dados. Em outras
palavras, se a famı́lia de distribuições que gerou os dados é {Fθ : θ ∈ Θ},
queremos encontrar estimadores para o vetor de parâmetros θ ou funções
q(θ) deste.
Sabemos acerca de propriedades que gostarı́amos exigir dos estimadores,
mas ainda não sabemos como encontrar essas funções da amostra. É esse o
objetivo deste Capı́tulo. Nos faremos sempre a pergunta: como encontrar
estimadores razoáveis da função q(θ)? Estudaremos os dois mais importantes
métodos de encontrar estimadores: o método dos momentos e o de máxima
verossimilhança.

4.1 Método dos momentos


Podemos afirmar que um dos métodos de estimação mais simples é o método
de momentos, o qual estudaremos aqui. Sejam X1 , · · · , Xn variáveis aleatórias
independentes igualmente distribuı́das com função de densidade ou de pro-
babilidade f (x; θ), onde θ ∈ Θ ⊆ Rr .
Definamos as funções reais m1 (θ), · · · , mr (θ), segundo tı́nhamos visto na
Seção 2.4, como

E(X1k ) = mk (θ)

189
190 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

as quais representam os primeiros r momentos populacionais e sejam


n
1∑ k
ek =
m X ,
n i=1 i

para k = 1, . . . , r. Observemos que as funções m1 (θ), · · · , mr (θ) são os mo-


mentos teóricos obtidos da distribuição atribuı́da às variáveis aleatórias e que
e 1, · · · , m
m e r são os momentos amostrais correspondentes.
Exemplo 4.1. Seja X1 , . . . , Xn uma amostra aleatória da distribuição uni-
forme U (θ1 , θ2 ). Então
θ1 + θ2 (θ2 − θ1 )2
E(X) = e Var(X) = ·
2 12
Nesta situação a dimensão do espaço paramétrico é r = 2 e θ = (θ1 , θ2 ). Lem-
brando que Var(X) = E(X 2 ) − E2 (X), obtemos que os momentos teóricos
são
θ1 + θ2 (θ1 + θ2 )2 − θ1 θ2
E(X1 ) = m1 (θ) = e E(X12 ) = m2 (θ) = ·
2 4
Os momentos amostrais sempre são (até a ordem 2)
n n
1∑ 1∑ 2
e1 =
m Xi e e2 =
m X ·
n i=1 n i=1 i

Definição 4.1. Dizemos que θe é o estimador de momentos de θ ∈ Θ ⊆ Rr


se for solução do sistema de equações
e =m
mk (θ) ek (4.1)

para k = 1, · · · , r.

Exemplo 4.2. Sejam X1 , . . . , Xn variáveis aleatórias independentes igual-


mente distribuı́das com distribuição N (µ, σ 2 ). Observemos que θ = (µ, σ 2 ),
ou seja, r = 2. Os momentos teóricos, de ordens primeira e segunda são,
respectivamente
E(X1 ) = µ e E(X12 ) = σ 2 + µ2 ·
4.1. MÉTODO DOS MOMENTOS 191

Os∑momentos amostrais correspondentes são m e 1 = n1 ni=1 Xi = X e m
e2 =
1 n 2
n i=1 Xi . Desta forma, as equações na definição 4.1 resultam em

n
1∑ 2
2 2
e=X
µ e e +µ
σ e = X ·
n i=1 i

Os estimadores dos momentos são então


n
1∑
2
e=X
µ e e =
σ (Xi − X)2 ·
n i=1

Podemos resumir este procedimento de estimação em dois passos, relaci-


onando os momentos amostrais aos momentos populacionais:

• Passo No.1 Se o modelo estatı́stico tem r parâmetros, calculamos as


equações em (4.1) para os primeiros r momentos,

m1 (θe1 , · · · , θer ) = m
e 1, ··· mr (θe1 , · · · , θer ) = m
e r,

obtendo-se r equações com r incógnitas.

• Passo No.2 Resolvemos o sistema acima para os r parâmetros como


funções dos momentos,

θe1 = g1 (m
e 1, · · · , m
e r ), ··· θer = gr (θe1 , · · · , m
e r )·

A forma de como esta descrição abstrata funciona na prática pode ser


melhor visto através de exemplos.

Exemplo 4.3. Sejam X1 , · · · , Xn variáveis aleatórias independentes igual-


mente distribuı́das com distribuição U (0, θ). Observemos que r = 1, por-
tanto, precisaremos somente do primeiro momentos teórico e do primeiro
momento amostral. Dado que

θ
E(X1 ) = ,
2

e 1 = X, então o estimador de momentos é θe = 2X.


e que m
192 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

Podemos estender este método à estimação de momentos


∑n conjuntos. As-
1
sim para estimar E(XY ) utilizamos a estatı́stica n i=1 Xi Yi . Este método
não é aplicável às situações em que os momentos teóricos não existem, como
o caso da distribuição Cauchy.
Observemos que em determinadas situações os estimadores de momentos
podem não ser únicos. Por exemplo, se X1 , · · · , Xn é uma amostra aleatória
P oisson(λ), sabemos que E(X1 ) = λ e que ∑nVar(X1 ) = λ. Portanto, por este
1 2
método obtemos que tanto X quanto n i=1 (Xi − X) são estimadores de
momentos de λ. Para resolver esta ambiguidade definimos estes estimadores
como sendo aqueles que envolvem os momentos amostrais e teóricos de menor
ordem.
Exemplo 4.4. Sob as mesmas condições do exemplo 4.2 encontremos o es-
timador de momentos dos coeficientes de skewness e kurtosis. O coeficiente
de skewness é definido como
µ3
α3 = 3/2 ,
µ2
e o coeficiente de kurtosis define-se como
µ4
α4 = 2 ·
µ2
Pelo método de momentos é fácil perceber que
1
∑n 3
n i=1 Xi
e 3 = ( ∑n
α )
1 2 3/2
n i=1 X i
e que ∑n
1 4
n i=1 Xi
e4 = ( ∑n
α
1
) ·
2 2
n i=1 Xi

Teorema 4.1. Seja m(θ) = (m1 (θ), . . . , mr (θ)) e seja M (θ) uma matriz de
posto r de elementos Mij (θ) = ∂mi (θ)/∂θj , i, j = 1, . . . , r sendo estas funções
contı́nuas em θ. Então
√ D
n(θe − θ) −→ Nr (0, M −⊤ ΣM −1 ),

onde M −⊤ = (M −1 )⊤ e Σ é uma matriz r×r de elementos Σij = mi+j −mi mj .


4.1. MÉTODO DOS MOMENTOS 193

Demonstração. Seguimos as ideias em Sen & Singer (1993). Consideremos a


seguinte expansão em série de Taylor

m(θ + n−1/2 u) = m(θ) + n−1/2 M (θ)u + n−1/2 [M (θ8 ) − M (θ)]u, (4.2)

onde θ∗ = θ + n−1/2 γu, 0 ≤ γ ≤ 1. Pela continuidade dos elementos da


matriz M (θ), a expressão em (4.2) pode ser escrita como
√ [ ]
n m(θ + n−1/2 u) − m(θ) = M (θ)u + o(1)· (4.3)

Fazendo u = n(θe− θ), temos que m(θ + n−1/2 u) = m(θ).
e Então, (4.3) pode
ser escrita como
√ [ ] √
e − m(θ) = M (θ) n(θe − θ) + oP (1)·
n m(θ) (4.4)

Agora, seja λ ∈ Rr , λ ̸= 0, um vetor real arbitrário fixo e seja



e − m(θ)] =
nλ[m(θ)
√ { }
e + · · · + λr mr (θ)]
= n [λ1 m1 (θ) e − [λ1 m1 (θ) + · · · + λr mr (θ)]
n
{ r } n
1 ∑ ∑ 1 ∑
k k
= √ λk [Xi − E(Xi )] = √ Ui ,
n i=1 k=1 n i=1
∑r
onde Ui = k=1 λk [Xik − E(Xik )] é tal que E(Ui ) = 0 e
r ∑
∑ r
E(Ui2 ) = λi λk E(X+ ij − µj )(Xik − µk )
j=1 k=1
r ∑
∑ r
= λi λk [µj+k − µj µk ] = λΣλ⊤ < ∞·
j=1 k=1

Dado que U1 , · · · , Un são variáveis aleatórias independentes e identicamente


distribuı́das, segue pelo Teorema Central do Limite que
n
1 ∑ √ D
e − m(θ)] −→
√ Ui = nλ[m(θ) Nr (0, λΣλ⊤ )
n i=1
194 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

e utilizando o Teorema de Cramér-Wold1 concluı́mos que


√ D
e − m(θ)] −→
nλ[m(θ) Nr (0, Σ)·
Por último, de (4.4), temos que
√ D
n(θe − θ) −→ Nr (0, M −⊤ ΣM −1 )·

Por este teorema percebemos que os estimadores de momentos são consis-


tentes e não viciados assintoticamente. Notemos também que em amostras
finitas ( )
e 1 −⊤ −1
θ ∼ Nr θ, M ΣM ·
n
Devemos fazer algumas observações. Primeiro o estimador de momen-
tos pode não ser único, como foi observado no caso Poisson. Em geral,
o número mı́nimo de igualdades de momentos que precisamos é igual ao
número de parâmetros. Estes estimadores são fáceis de calcular e sempre
este método funciona: O método frequentemente fornece estimadores quando
outros métodos falham a fazê-lo ou quando estimadores são difı́ceis de obter
(como no caso da distribuição gama). Ainda mencionamos novamente que
os estimadores obtidos são consistentes.
Como observação contrária à utilização deste métodos mencionamos que
estes estimadores geralmente não são os melhores disponı́veis. Com isto que-
remos dizer que geralmente não são os mais eficientes, ou seja, não alcançam
os valores mı́nimos do erro quadrático médio e, as vezes, podem não fazer
sentido. Vejamos isto no seguinte exemplo.
Exemplo 4.5. Suponhamos observamos os valores 3,5,6,18 de uma amostra
da distribuição U (0, θ). Dado que E(X) = θ/2, temos que o estimador de
momentos de θ é θe = 2X, de estimativa
3 + 5 + 6 + 18
2X = 2 = 16,
4
1

D D
Teorema 4.2 (Teorema Cramér-Wold). Xn −→ X se, e somente se, a⊤ Xn −→ a⊤ X,
∀ ∈ Rk .
4.1. MÉTODO DOS MOMENTOS 195

o que não é aceitável, porque observamos o valor 18.

Exemplo 4.6 (Continuação do exemplo 4.2). Se X1 , · · · , Xn é uma amostra


aleatória N (µ, σ 2 ) sabemos que

n
1∑ 2
e 1 = X,
m e2 =
m X e m(θ) = m(µ, σ 2 ) = (µ, µ2 + σ 2 ),
n i=1 i

logo
 
∂m1 (θ) ∂m2 (θ) ( )
 ∂µ ∂µ  1 0
M (θ) =  =
∂m1 (θ) ∂m2 (θ) 2µ 1
∂σ 2 ∂σ 2

e, portanto
( )
σ2 2µσ 2
Σ= ·
2µσ 2 4µ2 σ 2 + 2σ 4

Uma forma de aproximarmos à variância de qualquer estimador ou de


funções de estimadores é utilizar o chamado método delta, resumido no se-
guinte teorema.

Teorema 4.3 (Método Delta). Suponhamos que {Tn } seja uma sequência de
variáveis aleatórias, θ ∈ R e g uma função real derivável numa vizinhança
do ponto µ, com g ′ (µ) ̸= 0. Se
D
an (Tn − µ) −→ Z ∼ N (0, σ 2 )

onde E(Tn ) = µ e {an } uma sequência de constantes tal que limn→∞ an = ∞.


Então
D
an [g(Tn ) − g(µ)] −→ Z ∼ N (0, [g ′ (µ)]2 σ 2 )·

Demonstração. Vamos começar assumindo que g é continuamente diferenciável


196 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

P
em µ. Primeiro observemos que Tn −→ µ, pelo Teorema de Slutsky2 . Pela
expansão em série de Taylor de g(x) em torno de x = µ, temos que

g(Tn ) = g(µ) + g ′ (µ∗n )(Tn − µ)


P
onde µ∗n encontra-se entre Tn e µ. Logo |µ∗n − µ| ≤ |Tn − µ| e então µ∗n −→ µ.
P
Dado que g(x) é contı́nua em x = µ, segue que g(µ∗n ) −→ g(µ). Agora
D
an [g(Tn ) − g(µ)] = g ′ (µ∗n )an (Tn − µ) −→ g(µ)Z

pelo Teorema de Slutsky. Para o caso mais geral, onde g não é necessaria-
mente continuamente diferenciável em µ, note que

g(Tn ) − g(µ) = g ′ (µ)(Tn − µ) + Rn


P
onde Rn /(Tn − µ) −→ 0. Por conseguinte

Rn P
an Rn = an (Tn − µ) −→ 0
an (Tn − µ)

e a conclusão segue pelo Teorema de Slutsky.

Observemos que o teorema demonstrado anteriormente é geral no sentido


de que a sequência de números {an } pode √ser qualquer. Na maioria dos
exemplos a sequência é escolhida como an = n, como no exemplo a seguir.

Exemplo 4.7. Seja X1 , · · · , Xn uma amostra aleatória da distribuição Pa-


reto com densidade
θ
fX (x; θ) = θ+1 , x ≥ 1·
x
2

D P
Teorema 4.4 (Teorema de Slutsky). Suponhamos que Xn −→ X e que Yn −→ θ. Então
D
(a) Xn + Yn −→ X + θ,
D
(b) Xn −→ θX.
4.1. MÉTODO DOS MOMENTOS 197

A média e variância nesta situação são

θ
µ= , se θ>1
θ−1
e
θ
σ2 = , se θ>2
(θ − 1)2 (θ − 2)
respectivamente. Nesta situação temos somente um parâmetro então, no
Passo No.1, somente precisamos determinar o primeiro momento

θe
= X,
θe − 1

para encontrar o estimador θe pelo método dos momentos.


Pelo Passo No.2, resolvemos a equação acima para θe como função de X
e obtemos
X
θe = g1 (X) = ·
X −1
Um procedimento aproximado de encontrarmos a distribuição assintótica
do estimador θe é utilizar o chamado método delta, apresentado no Teorema
4.3. Segundo este procedimento, E(θ) e ≈ θ, em amostras grandes e Var(θ) e =
[g ′ (θ)]2 σ 2 /n, também em amostras grandes. Qual é a expressão da função g
nesta situação?
√ D
Sabemos que n[X − E(X)] −→ Z ∼ N (0, σ 2 ), quando n é suficiente-
mente grande. Então g(µ) = µ/(µ − 1), ou seja, a função g1 avaliada na
esperança µ no Passo No.2 satisfaz as condições do Teorema 4.3, já que é
contı́nua e g ′ (µ) = −1/(µ − 1)2 é diferente de zero se θ > 1.
Assim ( )
′ θ 1 2
g = −( )2 = −(θ − 1) ,
θ−1 θ
−1
θ−1

do qual encontramos que θe tem média aproximadamente igual a θ e variância


dada por

σ2 θ θ(θ − 1)2
[g ′ (µ)]2 = (θ − 1)4 = ·
n n(θ − 1)2 (θ − 2) n(θ − 2)
198 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

4.2 Método de máxima verossimilhança


Vimos na seção anterior que o método de momentos fornece uma abordagem
para encontrar estimadores razoáveis de parâmetros em modelos estatı́sticos.
No entanto, esta metodologia não prescreve qualquer estimador particular
e, de fato, a qualidade dos diferentes estimadores pode variar muito. Além
disso, o método dos momentos é adaptado para dados independentes e igual-
mente distribuı́dos e pode ser difı́cil de aplicar para dados que não sejam
independentes e igualmente distribuı́dos. Estes problemas são um pouco in-
quietantes, uma vez que gostarı́amos de encontrar um algoritmo de propósito
geral para gerar bons estimadores.
O método de máxima verossimilhança atende este propósito. Foi pro-
posto pela primeira vez pelo matemático alemão C.F. Gauss em 1821, no
entanto costuma creditar-se ao estatı́stico inglês R.A. Fisher a descoberta.
Certamente foi ele quem investigou pela primeira vez, em 1922, as proprie-
dades do estimador obtido por este método. Atualmente é uma das técnicas
mais utilizadas na estimação paramétrica.
O objetivo aqui é definir e estudar propriedades da chamada função de
verossimilhança assim como do método de estimação de máxima verossi-
milhança. Depois vamos apresentar as chamadas correções para o vı́cio do
estimador obtido por este procedimento na Seção 4.2.3. No final comentamos
acerca de uma das diversas funções alternativas à verossimilhança, chamada
de função de verossimilhança perfilada na Seção 4.2.4.

Definição 4.2 (Função de verossimilhança). Suponha que X = (X1 , · · · , Xn )


˜
sejam variáveis aleatórias com função de densidade ou de probabilidade con-
junta fX (x; θ), onde θ ∈ Θ um subconjunto de Rq . Dado o vetor de ob-
˜ ˜
servações x = (x1 , · · · , xn ), definimos a função de verossimilhança como
˜
L(θ) = fX (x; θ),
˜ ˜
para cada possı́vel amostra x = (x1 , · · · , xn ).
˜

A função de verossimilhança L(θ) é uma função real definida no espaço


4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 199

de parâmetros Θ. Note que não precisamos supor que X1 , · · · , Xn sejam


variáveis aleatórias independentes e igualmente distribuı́das. Caso seja esta
a situação, a função de verossimilhança assume a forma
n

L(θ) = fX (xi ; θ), (4.5)
i=1

na qual consideramos a função de densidade ou de probabilidade fX (x; θ)


como função do vetor de parâmetros θ, para cada x fixo.
˜
Vamos entender melhor a diferença entre a densidade conjunta e a função
de verossimilhança no seguinte exemplo.

Exemplo 4.8. Suponha que os dados representam o número de sucessos


em uma sequência de 10 ensaios Bernoulli e que a probabilidade de sucesso
em cada tentativa, representada pelo parâmetro θ, seja 0.2. A função de
probabilidade nesta situação é dada por
10!
P (X = x; n = 10, θ = 0.2) = 0.2x 0.810−x , x = 0, 1, · · · , 10,
x!(10 − x)!
conhecida como distribuição Bernoulli e representada sucintamente como
X ∼ Binomial(n, θ).

Binomial(10,0.2) Binomial(10,0.8)
0.4

0.4
0.3

0.3
0.2

0.2
0.1

0.1
0.0

0.0

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Figura 4.1: Representação da função de probabilidade Binomial(10, θ = 0.2)


a esquerda e Binomial(10, θ = 0.8) a direita.

Dado um conjunto de valores de parâmetros, a função de probabilidade


correspondente irá mostrar que alguns dados são mais prováveis do que ou-
tros. Neste exemplo, na função de probabilidade com θ = 0.2, x = 2 é mais
200 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

provável de ocorrer do que x = 5, 0,302 versus 0,026. Isto pode ser apreci-
ado na Figura 4.1 a esquerda. Na realidade, porém, nós já observamos os
dados. Assim, somos confrontados com um problema inverso: considerando
os dados observados e um modelo de interesse, encontrar a função de pro-
babilidade, entre todas as diferentes funções de probabilidade que o modelo
prescreve, que é mais provável ter produzido os dados.
Para resolver este problema inverso, definimos a função de verossimi-
lhança, invertendo os papéis do vetor de dados x e o vetor de parâmetros θ.
˜
Assim L(θ) representa a probabilidade do parâmetro θ de acordo com os da-
dos observados x e, como tal, é uma função de θ. Para o exemplo Binomial,
˜
a função de verossimilhança para x = 7 e n = 10 é dada por

10! 7
L(θ) = θ (1 − θ)3 , 0 < θ < 1·
7!3!
A forma desta função é mostrada na Figura 4.2.
0.8
Verossimilhança
0.6
0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0


θ

Figura 4.2: Representação da função de verossimilhança Binomial(x, 10, θ)


para θ ∈ (0, 1) e x = 0, 1, · · · , 10.

Existe uma diferença importante entre a função de probabilidade e a


função de verossimilhança: como ilustrado nas Figuras 4.1 e 4.2, as duas
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 201

funções são definidas em diferentes eixos e, portanto, não são diretamente


comparáveis uns com os outros. Especificamente, a função de probabilidade
na Figura 4.1 é uma função dos dados dado um determinado conjunto de
valores do parâmetro, é uma função definida na escala de dados. Por ou-
tro lado, a função de verossimilhança é uma função do parâmetro dado um
conjunto particular de dados observados, definida na escala do parâmetro.
Em resumo, a Figura 4.1 nos diz a probabilidade de um valor particular nos
dados para um parâmetro fixo, enquanto a Figura 4.2 nos diz a probabilidade
de um valor em particular do parâmetro para dados fixos estabelecidos.
Note-se que a função de verossimilhança nesta última figura (Figura 4.2)
é uma curva porque existe apenas um parâmetro; o qual é assumido a ser
conhecido. Se o modelo tiver dois parâmetros, a função de verossimilhança
será uma superfı́cie no espaço de parâmetros bidimensional. Em geral, para
um modelo com k parâmetros, a função de verossimilhança L(θ) leva a
forma de um geométrica de um hiperplano gerado pelo vetor de parâmetros
θ = (θ1 , · · · , θk ). Ainda devemos observar que, na Figura 4.2, o máximo de
cada curva L(θ) coincide com o valor da amostra escolhido para fazer a repre-
sentação gráfica, o qual oscila no espaço paramétrico Ω = {0, 1, 2, · · · , 10}.

4.2.1 Estimador de máxima verossimilhança


A função de verossimilhança é a base para o obtenção do estimador de
máxima verossimilhança, tem um significado muito mais amplo na teoria
estatı́stica. Um princı́pio importante na estatı́stica. o chamado princı́pio
da verossimilhança afirma, essencialmente, que a função de verossimilhança
contém todas as informações sobre um parâmetro desconhecido nos dados.

Definição 4.3. O método de máxima verossimilhança consiste em encontrar


b ), do espaço paramétrico Θ, que seja o mais provável de ter gerado
o valor θ(x
˜
os dados. Significa que para o vetor x = (x1 , · · · , xn ) fixo, procuramos por
˜
b ) que satisfaz
θ(x
˜
b )) = sup L(θ)·
L(θ(x
˜ θ∈Θ
b ) é o estimador de máxima verossi-
Se este estimador existe diremos que θ(x
˜
milhança de θ.
202 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

Para variáveis aleatórias contı́nuas, a função de verossimilhança não é


definida univocamente desde que a densidade conjunta não está definida de
forma única. Na prática, geralmente escolhemos uma forma para a função
de verossimilhança que garanta, se possı́vel, a existência do estimador de
máxima verossimilhança para todos os possı́veis valores de X1 , · · · , Xn . Para
as variáveis aleatórias discretas, tais dificuldades não ocorrem uma vez que
a função de probabilidade comum e, consequentemente, a função de verossi-
milhança é univocamente definida.
Exemplo 4.9. Suponhamos que X1 , · · · , Xn seja uma amostra aleatória da
variável aleatória X ∼ U (0, θ), para algum θ > 0. A função de verossimi-
lhança é
1 1
L(θ) = n 1[0≤X1 ,··· ,Xn ≤θ] = n 1[X(n) ≤θ] ·
θ θ
Então, se θ < X(n) , L(θ) = 0 enquanto L(θ) é uma função decrescente de θ
quando θ ≥ X(n) . Consequentemente, L(θ) atinge seu máximo em θ = X(n)
e, portanto, θb = X(n) é o estimador de máxima verossimilhança de θ.

Definição 4.4. Seja L(θ) a função de verossimilhança para algum modelo


estatı́stico. O logaritmo da função de verossimilhança é definida como

ℓ(θ) = log L(θ)· (4.6)

A função definida em (4.6) é também conhecida como função de log-


verossimilhança. Observemos que escrevemos na definição log mas, como na
maioria das situações práticas utiliza-se ln, ou seja, utiliza-se o logaritmo
neperiano é este que será utilizado a seguir.

Teorema 4.5. Seja L(θ) a função de verossimilhança de alguma variável


aleatória e θb o estimador de máxima verossimilhança. O logaritmo da função
de verossimilhança satisfaz que
b = ℓ(θ)·
L(θ) b
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 203

Demonstração. A função logaritmo é contı́nua e crescente logo, se θ1 < θ2 e


L(θ1 ) ≤ L(θ2 ) temos que ℓ(θ1 ) ≤ ℓ(θ2 ) e vice-versa. Então, se θb maximiza a
função L, para qualquer outro valor de θ ̸= θb temos que L(θ) ≤ L(θ).b Então,
também acontece que ℓ(θ) b ≥ ℓ(θ).

Exemplo 4.10. Seja X1 , · · · , Xn uma amostra aleatória da função de pro-


babilidade P oisson(θ), com média θ > 0. Como visto em (4.5), a função de
verossimilhança é da forma
n
∏ e−θ θxi
L(θ) =
i=1
xi !

e o logaritmo da função de verossimilhança ou log-verossimilhança é


n
∑ n

ℓ(θ) = −nθ + ln(θ) xi − ln(xi !)·
i=1 i=1
∑n
Assumindo que i=1 xi > 0 e tomando derivada com relação a θ, encon-
tramos que
n
∂ 1∑
ℓ(θ) = −n + xi
∂θ θ i=1

e, avaliando em θb quando a derivada é zero, temos


n

1∑
ℓ(θ) = −n + xi = 0,
∂θ θ=θb θb i=1

do qual sugere-se que x seja o valor de θb na amostra x1 , · · · , xn . Para veri-


ficar se este é realmente um máximo, note que

∂2 n
2
ℓ(θ) = − 2 x < 0,
∂θ θ
que é sempre negativo. Então x maximiza a função de verossimilhança, dada
uma amostra x∑ 1 , · · · , xn . e o estimador
∑n de máxima verossimilhança de θ é
n
X, desde que i=1 Xi > 0. Caso i=1 Xi = 0, estritamente falando, não
existe o estimador de máxima verossimilhança dado que ℓ(θ) = −nθ não têm
ponto de máximo no intervalo (0, ∞).
204 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

Devemos esclarecer que o estimador de máxima verossimilhança pode


não ser único e inclusive pode não existir, embora na maioria das situações
exista e é único. Uma função auxiliar que aparece naturalmente no processo
de obtenção do estimador de máxima verossimilhança é a chamada função
escoe, definida a seguir.

Definição 4.5. Seja ℓ(θ) a função de log-verossimilhança para algum modelo


estatı́stico. A função escore é definida por

U (θ) = ℓ(θ)· (4.7)
∂θ

Observemos que esta é uma função vetorial, com a mesma dimensão do


vetor de parâmetros Θ.
Exemplo 4.11. No Exemplo 4.10 a função escore é
n
1∑
U (θ) = −n + xi ·
θ i=1

Teorema 4.6. Seja U a função escore para algum modelo estatı́stico satis-
fazendo as condições de regularidade do Teorema 3.11. Então,

E[ U (θ)] = 0·

Demonstração. Consideraremos o caso contı́nuo.


∫ [ ] ∫ [ ]
∂ ∂
E[ U(θ)] = ℓ(θ) fX (x; θ) dx = log fX (x; θ) fX (x; θ) dx
Ω ∂θ ˜ ˜ ∂θ ˜ ˜ ˜ ˜ ˜


∫ ]
1 ∂
= fX (x; θ) fX (x; θ) dx
Ω fX (x; θ) ∂θ ˜ ˜ ˜ ˜ ˜
∫ ˜ ˜ ∫
∂ ∂
= fX (x; θ) dx = f (x; θ) dx = 0·
Ω ∂θ ˜ ˜ ˜ ∂θ Ω X ˜ ˜ ˜
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 205

Exemplo 4.12. Continuando no Exemplo 4.10 a esperança da função escore


é [ n ]
1 ∑ 1
E[ U(θ)] = −n + E Xi = −n + nθ = 0·
θ i=1
θ

Método de Newton-Raphson
Lamentavelmente, nem todo modelo estatı́stico permite obtermos de ma-
neira analı́tica o estimador de máxima verossimilhança, em situações que
nem estas aparece uma utilidade muito importante da função escore: ser-
vir de inspiração para os métodos numéricos de obtenção de estimativas do
estimador de máxima verossimilhança.
Com este objetivo consideramos a expansão em série de Taylor de primeira
ordem da função escore, avaliada no estimador de máxima verossimilhança,
ao redor do ponto θ0 assumindo que θ0 esteja próximo do valor do parâmetro
que gerou a amostra. Então

b ≈ U(θ0 ) + ∂
U(θ) U (θ)(θb − θ0 )· (4.8)
∂θ
Denotemos por H a matriz Hessiana ou matriz de segundas derivadas da
log-verossimilhança, ou seja,
∂2 ∂ U (θ)
H(θ) = ⊤
log L(θ) = ·
∂θ∂θ ∂θ
Fazendo então a parte esquerda da equação em (4.8) igual a zero e resolvendo
para θ, obtemos a aproximação de primeira ordem
θb = θ0 − H −1 (θ0 ) U (θ0 )·
Este resultado fornece a base para uma abordagem iterativa para cal-
cular o estimador de máxima verossimilhança conhecida como a método de
Newton-Raphson. Dado um valor inicial, usamos a expressão em (4.8) para
obter uma estimativa melhorada e repetimos o processo até que as dife-
renças entre as estimativas sucessivas sejam suficientemente perto de zero
ou até que os elementos do vetor de primeiras derivados sejam suficiente-
mente perto de zero. Este procedimento tende a convergir rapidamente se
o log-verossimilhança é bem comportado, perto de função quadrática, em
uma vizinhança do máximo e se o valor de partida é razoavelmente perto da
estimativa de máxima verossimilhança.
206 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

Um procedimento alternativo, primeiro sugerido por Fisher, é substituir


menos o Hessiano por seu valor esperado, a matriz de informação. O processo
resultante toma como nossa estimativa melhorada

θb = θ0 + I −1 (θ0 ) U (θ0 )

e é conhecido como método Newton-Raphson-Fisher.

4.2.2 Propriedades do estimador


Devemos observar que, muitas vezes, a equação de verossimilhança ∂ℓ/∂θ = 0
pode ter mais do que uma raiz. Pode acontecer também que a função de ve-
rossimilhança não seja diferenciável em todo Θ ou ainda θb pode ser um valor
no extremo de Θ. Por vezes, a equação de verossimilhança pode ser bastante
complicada e difı́cil de resolver explicitamente. Nesse caso, podemos recor-
rer a algum procedimento numérico para obter a estimativa. Observações
semelhantes aplicam-se ao caso multiparâmetro.

Exemplo 4.13. Seja X1 , · · · , Xn uma amostra aleatória de tamanho n da


distribuição N (µ, σ 2 ), onde ambos parâmetros µ e σ 2 são desconhecidos. Aqui

Θ = {(µ, σ 2 ) : −∞ < µ∞, σ 2 > 0}·

A função de verossimilhança é
{ n
}
1 ∑ (xi − µ)2
L(µ, σ 2 ; x) = n exp − ,
˜ σ (2π)n/2 i=1
2σ 2

e n
n n ∑ (xi − µ)2
ℓ(µ, σ ) = ln L(µ, σ ; x) = ln(σ 2 ) − ln(2π) −
2 2
·
˜ 2 2 i=1
2σ 2
As equações de verossimilhança são
n
1 ∑
(xi − µ) = 0
σ 2 i=1

e n
n 1 1 ∑
− 2+ 4 (xi − µ)2 = 0·
2σ 2σ i=1
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 207

Resolvendo a primeira destas equações para µ temos ∑que b = X e, substi-


µ
n
tuindo na segunda equação obtemos que σ b = (1/n) i=1 (Xi − X)2 . Vemos
2

que (b b2 ) ∈ Θ com probabilidade 1.


µ, σ
Devemos mostrar agora que (b b2 ) maximiza a função de verossimi-
µ, σ
lhança. Primeiro notemos que x maximiza L(µ, σ 2 ; x) seja o que for σ 2 ,
˜
dado que L(µ, σ 2 ; x) → 0 quando |µ| → ∞ e nesse caso L(b µ, σ 2 ; x) → 0
˜ ˜
quando σ 2 → 0 ou ∞, sempre que (b b2 ) ∈ Θ.
µ, σ

Podemos considerar três situações para estudar as propriedades do es-


timar de máxima verossimilhança: propriedades gerais que independem do
tamanho da amostra, propriedades assintóticas e propriedades para n finito.
A estudo seguirá esta ordem.

Teorema 4.7. Seja T (X ) uma estatı́stica suficiente para a famı́lia de dis-


˜
tribuições {Fθ : θ ∈ Θ}. Se o estimador de máxima verossimilhança θb de θ
existe, então é uma função de T .

Demonstração. Dado que T é suficiente, então

fX (x; θ) = h(x)g(t; θ)·


˜ ˜
Se a função de densidade ou de probabilidade acima é derivável em relação ao
vetor de parâmetros, então o estimador de máxima verossimilhança é solução
de
∂ log[g(t; θ)]
= 0, j = 1, 2, · · · , p· (4.9)
∂θj
e qualquer solução não constante destas equações é função somente de t.

Observemos que se existirem as equações de verossimilhança e T é sufici-


ente, os estimadores de máxima verossimilhança são dados pela equação em
(4.9) e que cada solução não constante dessas equações é uma função que
depende de T .
Este teorema não afirma que o estimador de máxima verossimilhança seja
ele próprio uma estatı́stica suficiente, mesmo que usualmente este seja o caso.
208 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

Exemplo 4.14. Considere uma amostra aleatória X1 , · · · , Xn da distri-


buição U (θ, θ + 1), θ ∈ R. Então
{
1, se θ ≤ X(1) ≤ X(n) ≤ θ + 1
fX (x; θ) =
0, caso contrário
e segue que (X(1) , X(n) ) é uma estatı́stica conjuntamente suficiente para θ.
Qualquer valor de θ satisfazendo
X(n) − 1 ≤ θ ≤ X(1) ,

é um estimador de máxima verossimilhança para θ. Em particular, θb = X(1)


é um estimador de máxima verossimilhança para θ que não é suficiente.
Exemplo 4.15. Seja X1 , · · · , Xn uma amostra aleatória da variável aleatória
X ∼ Gama(α, 1/β), α > 0 e β > 0 ambos desconhecidos. A função de
verossimilhança é
n
( n
)
β nα ∏ α−1 ∑
L(α, β; x) = x exp −β xi
˜ [Γ(α)]n i=1 i i=1

caso todos os xi ≥ 0 e zero em caso contrário. Então


n
∑ n

ℓ(α, β) = nα log(β) − n log[Γ(α)] + (α − 1) log(xi ) − β xi ,
i=1 i=1

Assim,
n
∂ℓ(α, β) nα ∑
= − xi ,
∂β β i=1
n
∂ℓ(α, β) Γ′ (α) ∑
= n log(β) − n + log(xi )·
∂α Γ(α) i=1
Da primeira derivada formamos uma primeira equação de verossimilhança
b )=α
da qual obtemos que β(x b/x, enquanto da segunda derivada temos que
˜

(α) ∑ Γ′ (α)
n
n log + log(xi ) − n = 0,
x i=1
Γ(α)
α=b
α
ou n
Γ′ (b
α) 1∑
α) −
log(b = log(x) − log(xi ),
Γ(b α) n i=1
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 209

que deve ser resolvido para α b. Neste caso, a equação de verossimilhança não
é de fácil solução e é necessário recorrer a métodos numéricos.

Vimos que o estimador de máxima verossimilhança pode não ser único,


embora frequentemente eles são. Além disso, eles não são necessariamente
não viciados mesmo se existir um único estimador de máxima verossimi-
lhança. Em termos de erro quadrático médio, um estimador de máxima
verossimilhança pode ser inútil. Além disso, o estimador de máxima verossi-
milhança pode mesmo não existir.

Exemplo 4.16. Seja X1 , · · · , Xn uma amostra aleatória Bernoulli(θ), com


θ ∈ (0, 1). Caso o vetor (0, · · · , 0) seja observado, x = 0 é o estimador
de máxima verossimilhança, o qual assume um valor não admissı́vel para θ.
O mesmo acontece se o vetor de observações fosse (1, · · · , 1). Consequente-
mente, o estimador de máxima verossimilhança não existe.

O resultado a seguir estabelece uma condição suficiente para a unicidade


do estimador de máxima verossimilhança.

Teorema 4.8. Suponha que as condições de regularidade do Teorema 3.11


sejam satisfeitas e que o parâmetro assuma valores num intervalo real aberto.
Se a variância do estimador θb de θ atinge o limite inferior das variâncias dos
estimadores de θ, então a equação de verossimilhança possui como solução
única θb a qual maximiza a função de verossimilhança.

Demonstração. Se θb atinge a limite inferior da desigualdade do Teorema 3.11,


temos que
∂ log fX (X ; θ)
˜ 1 b
= [θ − θ]
∂θ K(θ)
b
com probabilidade 1 e a equação de verossimilhança tem solução única θ = θ.
Vamos escrever A(θ) = [K(θ)]−1 . Então

∂ 2 log fX (X ; θ)
˜ = A′ (θ)(θb − θ) − A(θ),
∂ 2
210 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

de maneira que
∂ 2 log fX (X ; θ)
˜ = −A(θ)·
∂ 2

θ=θb

Somente precisamos provar que A(θ) > 0. Mas


 2
∂ log fX (X ; θ)
A(θ) = Eθ  ˜  ,
∂θ

o qual completa a demonstração.

Se as condições deste teorema são satisfeitas o estimador de máxima ve-


rossimilhança é necessariamente eficiente. Isto não significa, no entanto, que
todo estimador de máxima verossimilhança seja eficiente. Por exemplo, numa
amostra normal
n
2 1∑
b =
σ (Xi − X)2
n i=1

é o estimador de máxima verossimilhança de σ b2 , mas não é eficiente, já que


Var(b σ 2 ) = 2(n − 1)σ 2 /n2 , que não é igual ao limite inferior 2σ 4 /n. Observe
que, inclusive, σ b2 é um estimador viciado.

Exemplo 4.17. Vamos considerar uma amostra aleatória X1 , · · · , Xn com


função de probabilidade

 1, k = 1, 2, · · · , N
P (x; N ) = N ·

0, caso contrário

A função de verossimilhança é então



 1 , 1 ≤ x(n) ≤ N
L(N ; x) = Nn ·
˜ 
0, caso contrário

É claro que o estimador de máxima verossimilhança de N é dado por

b (X1 , · · · , Xn ) = X(n) ,
N
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 211

isto devido a que se escolhermos qualquer α b<N b como estimador de máxima


b) = 0 e caso escolhermos qualquer βb > N
verossimilhança, então P (x; α b como
˜
estimador de máxima verossimilhança, então

b = 1 < 1 = P (x; N
P (x; β) b )·
˜ βbn bn
N ˜

Vemos que o estimador de máxima verossimilhança de N é consistente,


suficiente e completo, mas não não viciado.

A seguinte propriedade é uma caracterı́stica importante dos estimadores


de máxima verossimilhança, que não é uma caracterı́stica dos estimadores não
viciados. A propriedade aludida é conhecida como o princı́pio da invariância
do estimador de máxima verossimilhança, está enunciada no seguinte Teo-
rema e a demonstração aqui apresentada deve-se a Zehna (1966).

Teorema 4.9. Seja {Fθ : θ ∈ Θ} uma famı́lia de funções de distribuição e


L(θ) a função de verossimilhança. Suponhamos que Θ ∈ Rk , k ≥ 1. Seja
h : Θ → Λ uma função de Θ em Λ, onde Λ é um intervalo em Rp , 1 ≤ p ≤ k.
Se θb é o estimador de máxima verossimilhança de θ, então h(θ)
b é o estimador
de máxima verossimilhança de h(θ).

Demonstração. Para cada λ ∈ Λ, definamos

Θλ = {θ : θ ∈ Θ, h(θ) = λ}

e
M (λ; x) = sup L(θ; x)·
˜ θ∈Θλ ˜
Então, M definido em Λ é chamado de função de verossimilhança induzida
por h. Se θb é algum estimador de máxima verossimilhança de θ, então θb
pertence a um, e somente um conjunto, digamos Θ1 .
b = h(θ).
Devido a que θb ∈ Θλ , λ b Agora

b x) = sup L(θ; x) ≥ L(θ;


M (λ; b x)
˜ θ∈Θλ ˜ ˜
212 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

b maximiza M , dado que



b x) ≤ sup M (λ; x) = sup L(θ; x) = L(θ;
M (λ; b x),
˜ λ∈Λ ˜ θ∈Θ ˜ ˜
temos que
b x) = sup M (λ; x)·
M (λ;
˜ λ∈Λ ˜
b é o estimador de máxima verossimilhança de h(θ), onde
Segue então que λ
b = h(θ).
λ b
Exemplo 4.18. Seja X ∼ Bernoulli(p), 0 ≤ p ≤ 1 e h(p) = p(1 − p).
Queremos encontrar o estimador de máxima verossimilhança de h(p). Ob-
servemos que Λ = [0, 1/4] e que a função h não é biunı́voca. O estimador de
máxima verossimilhança de p com base numa amostra aleatória de tamanho
n é pb(X ) = X. Então, o estimador de máxima verossimilhança de h(p) é
˜
h(X) = X(1 − X).
Exemplo 4.19. Consideremos X ∼ Exponencial(λ) e queremos encontrar o
estimador de máxima verossimilhança de λ da seguinte maneira: uma amos-
tra de tamanho n é colhida e da qual somente é conhecido que k, 0 ≤ k ≤ n
destas observações são ≤ M , onde M é um número real positivo fixo.
Seja p = P (X1 ≤ M ) = 1−e−M/λ , de forma que −M/λ = log(1−p) e λ =
M/ log[1/(1 − p)]. Por isso, o estimador de máxima verossimilhança de λ é
M/ log[1/(1−b p)], sendo que pb é o estimador de máxima verossimilhança de p.
Calculemos agora pb. Para encontrar o estimador de máxima verossimilhança
de p escrevemos a função de verossimilhança como
L(p; x) = pp (1 − p)n−k ,
˜
de maneira que o estimador de máxima verossimilhança de p é pb = k/n.
Então o estimador de máxima verossimilhança de λ é
b= M
λ ·
log[n/(n − k)]
Consideremos agora importante propriedades dos estimadores de máxima
verossimilhança em amostras grandes. Nos seguintes resultados assumimos
que {fθ : θ ∈ Θ} é uma famı́lia de funções de probabilidade ou de densidade,
definidas num intervalo aberto Θ em R. As condições listadas abaixo foram
escritas no caso em que fθ é de funções de densidade. Modificações para o
caso em que fθ é de funções de probabilidade são óbvias.
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 213

(i) ∂ log fθ /∂θ, ∂ 2 log fθ /∂θ2 , ∂ 3 log fθ /∂θ3 existem para todo θ ∈ Θ e
todo x. Também,
∫ +∞ [ ]
∂fθ (x) ∂ log fθ (X)
dx = Eθ = 0, ∀θ ∈ Θ·
−∞ ∂θ ∂θ

(ii)
∫ +∞
∂ 2 fθ (x)
dx = 0, ∀θ ∈ Θ·
−∞ ∂θ2

(iii)
∫ +∞
∂ 2 log fθ (x)
fθ (x) dx < 0, ∀θ ∈ Θ·
−∞ ∂θ2

(iv) Existe uma função H(x) tal que, para todo θ ∈ Θ


3 ∫
∂ fθ (x) +∞
H(x)fθ (x) dx = M (θ) < ∞·
∂θ3 < H(x) e
−∞

(v) Existe uma função g(θ) que seja positiva e duas vezes diferenciável
para todo θ ∈ Θ e a função H(x) seja tal que, para todo θ ∈ Θ
2 [ ] ∫
∂ ∂fθ (x) +∞
H(x)fθ (x) dx < ∞·
∂θ2 g(θ) ∂θ < H(x) e
−∞

Observemos que a condição (v) é equivalente a condição (iv) no caso


g(θ) = 1.

Teorema 4.10. Seja θbn o estimador de máxima verossimilhança do


parâmetro θ. Então,

(a) As condições (i), (ii) e (iv) implicam que, com probabilidade


aproximando-se de 1, quando n → ∞, a equação de verossimilhança
tem solução consistente.
214 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

(b) As condições (i) até (iv) implicam que a solução consistente θbn da
equação de verossimilhança é assintoticamente normal, isto é,
1√ b D
n(θn − θ) −→ Z,
σ
onde Z ∼ N ormal(0, 1) e
1
σ2 = [ ]2 ·
∂ log fθ (X)

∂θ

Demonstração. Ver em Cramér (1946a).


Em ocasiões encontramos exemplos nos quais as condições do Teorema
4.10 não são satisfeitas e, mesmo assim, a solução da equação de verossimi-
lhança é consistente e assintoticamente normal.
Exemplo 4.20. Seja X ∼ N (0, θ), θ > 0. Seja X1 , · · · , Xn uma amostra
aleatória
∑ de X de tamanho n. A solução da equação de verossimilhança é
θbn = ni=1 Xi2 /n. Também temos que E(X) = 0, Var(X 2 ) = 2θ2 e
[ ]2
∂ log fθ (X) 1
Eθ = 2·
∂θ 2θ
q.c.
Observamos que θbn −→ θ e que
∑n
√ √ X 2 − nθ D
n(θbn − θ) = 2θ i=1
√ i −→ N (0, 2θ2 )·
2nθ
No entanto,
∂ 3 log fθ (X) 1 3x2
= − + −→ ∞, quando θ → 0,
∂θ3 θ3 θ4
a qual não é limitada em 0 < θ < ∞. Então, a condição (iv) não se satisfaz.
O seguinte teorema cobre também tais casos.
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 215

Teorema 4.11. Seja θbn o estimador de máxima verossimilhança do


parâmetro θ. Então,

(a) As condições (i), (iii) e (iv) implicam que, com probabilidade


aproximando-se de 1, quando n → ∞, a equação de verossimilhança
tem solução.

(b) As condições (i), (ii), (iii) e (v) implicam que a solução consistente da
equação de verossimilhança é assintoticamente normal.

Demonstração. Ver em Kulldorf (1957).


É importante notar que os resultados nos Teoremas 4.10 e 4.11 estabe-
lecem a consistência de alguma raiz da equação verossimilhança, mas não
necessariamente do estimador de máxima verossimilhança quando a equação
verossimilhança tem várias raı́zes. Huzurbazar (1948) mostrou que, sob cer-
tas condições, a função de verossimilhança tem pelo menos uma solução con-
sistente e que a função de verossimilhança tem um máximo relativo para tal
solução.
Desde que podem haver várias soluções para o qual a função de veros-
similhança tem máximos relativos, os resultados de Cramér e Huzurbazar
não implica que uma solução da equação de verossimilhança de que faz ter
a função de verossimilhança um máximo absoluto é necessariamente consis-
tente.
Em qualquer caso, se o estimador de máxima verossimilhança é a única
solução da equação a verossimilhança, podemos usar os Teoremas 4.10 e
4.11 para concluir que é consistente e assintoticamente normal. Note-se que
a variância assintótica é a mesma que o limite inferior da desigualdade de
Fréchet-Cramér-Rao.

Exemplo 4.21. Seja X1 , · · · , Xn uma amostra aleatória P oisson(λ), λ ∈


Θ = (0, ∞). A equação de verossimilhança tem solução única dada por
b ) = x, a qual maximiza a função de verossimilhança. Pode ser verifi-
λ(x
˜
cado que as condições do Teorema 4.10 são satisfeitas e que o estimador
de máxima verossimilhança X é consistente e assintoticamente normal com
média λ e variância λ/n.
216 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

Por que o estimador de máxima verossimilhança faz sentido? Por sim-


plicidade, suponha que X1 , · · · , Xn sejam variáveis aleatórias independentes
e igualmente distribuı́das com densidade ou função de probabilidade f0 (x) e
função de distribuição F0 (x). Para qualquer outra função de densidade ou de
probabilidade f (x), podemos definir a informação de Kullback-Leibler como
 
ln f0 (X )
K(f, f0 ) = E0  ˜ , (4.10)
ln f (X )
˜
em que o valor esperado é calculada assumindo que f0 (x) é a verdadeira
função de densidade ou de probabilidade de X = (X1 , · · · , Xn ). K(f, f0 )
˜
pode ser interpretado como a medida da distância para a verdadeira função
de densidade f0 de alguma outra função de densidade f ; é fácil ver que
K(f0 , f0 ) = 0
e que, dado que − ln(x) é uma função convexa, segue da desigualdade de
Jensen que  
ln f (X )
K(f ; f0 ) = − E0  ˜ 
ln f0 (X )
 ˜ 
f (X )
≥ − ln E0  ˜ 
f0 (X )
˜
= 0·
Assim, ao longo de todas as funções de densidade f , K(f, f0 ) é minimi-
zada, para um dado f0 , em f = f0 . Além disso, a menos que f (x) = f0 (x)
para todos os x, K(f, f0 ) > 0. K(f, f0 ) também pode ser interpretado como
o ineficiência em assumir que a função de densidade é f quando a função
densidade real é f0 . Vamos agora usar esses fatos para racionalizar acerca do
estimador de máxima verossimilhança no caso de observações independentes
e igualmente distribuı́das.
Desde que
K(f, f0 ) = − E0 (ln f (X )) + E0 (ln f0 (X ))
˜ ˜
podemos ver que, para f0 fixo,
L(f, f0 ) = E0 (ln f (X ))
˜
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 217

é maximizado sobre todos f quando em f = f0 . Isto sugere o seguinte método


para estimar a função de densidade f0 a partir das observações:

(a) Para cada f em uma determinada famı́lia de densidades F , estimar


L(f, f0 ) utilizando o estimador de momentos

∑ n
b f0 ) = 1
L(f, ln f (Xi )
n i=1

(b) Encontrar f que maximize L(f, f0 ).

b f0 ) é simplesmente a função de
Se F = {f (x; θ) : θ ∈ Θ}, então nL(f,
log-verossimilhança. Assim o estimador de máxima verossimilhança pode
ser interpretado como aquele cuja densidade mais se aproxima da verdadeira
densidade que gerou a amostra.

4.2.3 Correções para o vı́cio em amostra pequenas


Podemos concluir que o estimador de máxima verossimilhança é de relati-
vamente fácil obtenção na maioria das situações práticas, seja obtendo-se
a expressão analı́tica ou numericamente. Das propriedades dos estimadores
mencionadas no Capı́tulo 3 os estimadores de máxima verossimilhança satis-
fazem diversas delas, no entanto em geral são viciados em amostras pequenas.
Diversos esforços tem sido dedicados para corrigir esta deficiência de maneira
geral, como em Bartlett (1955) e Cordeiro (1987).
Nos dedicaremos aqui a estudar os resultados gerais e algumas das aplica-
ções dos métodos desenvolvidos para corrigir o vı́cio do estimador de máxima
verossimilhança. Primeiramente conheceremos a notação utilizada. Assumi-
remos que o vetor de parâmetros ϑ é de dimensão p, logo, podemos escrever
ϑ = (ϑ1 , ϑ2 , · · · , ϑp ).
As derivadas do logaritmo da função de verossimilhança com relação às
componentes do vetor de parâmetros são denotadas por

∂ℓ(ϑ) ∂ 2 ℓ(ϑ)
ℓr (ϑ) = , ℓrs (ϑ) = ,···
∂ϑr ∂ϑr ϑs
218 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

Definição 4.6. Os cumulantes de derivadas do logaritmo da função de ve-


rossimilhança são denotados pela grega λ e definidos como

λr = E[ℓr (ϑ)], λrs = E[ℓrs (ϑ)], λrst = E[ℓrst (ϑ)], · · · , λr,s = E[ℓr (ϑ)ℓs (ϑ)],

e assumiremos que λr , λrs , λrst , etc. são funções de ordem O(n). Derivadas
de cumulantes são amplamente utilizadas e definidas como

∂λrs ∂λrst ∂ 2 λrs


λrs/t = , λrst/u = , λrs/tu = ,···
∂ϑt ∂ϑu ∂ϑt ∂ϑu
as quais também assumiremos que sejam funções de ordem O(n).

Nesta definição assumimos que tanto os cumulantes quanto as derivadas


destes são funções de ordem O(n), a qual é uma suposição condizente com a
literatura especializada DiCiccio & Stern (1994); DiCiccio, Martin, Stern &
Young (1996); McCullagh & Tibshirani (1990). O seguinte exemplo mostra
como calcular os cumulantes.
Exemplo 4.22. Seja X1 , · · · , Xn uma amostra aleatória normal de parâmetros
µ e σ 2 , isto é, o vetor de parâmetros é ϑ = (µ, σ 2 ). O logaritmo da função
de verossimilhança é da forma
∏n { [ ]}
1 (xi − µ)2
ℓ(ϑ) = log √ exp −
i=1 2πσ 2 2σ 2
n
n n 1 ∑
= − log(2π) − log(σ 2 ) − 2 (xi − µ)2 ·
2 2 2σ i=1

As primeiras derivadas de ℓ(ϑ) em relação às componentes do vetor de parâ-


metros são
∂ℓ(ϑ) ∂ℓ(ϑ) ∂ 2 ℓ(ϑ)
ℓ1 (ϑ) = , ℓ2 (ϑ) = e ℓ12 (ϑ) =
∂µ ∂σ 2 ∂µ∂σ 2
obtendo-se que
n
n n 1 ∑
ℓ1 (ϑ) = 2 (x − µ), ℓ2 (ϑ) = − 2 + 4 (xi − µ)2
σ 2σ 2σ i=1
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 219

e
n
ℓ12 (ϑ) = ℓ21 (ϑ) = − (x − µ)·
σ2
Depois de numerosos trabalhos Lawley (1956) demonstrou que, para cada
componente do vetor de parâmetros, vale a seguinte expansão
1
ϑbr − ϑr = −λrs ℓs + λrs λtu ℓst ℓu − λrs λtv λuw λstu ℓu ℓw + OP (n−3/2 ),
2
desde que a famı́lia de densidades ou de probabilidades satisfaça as condições
de regularidade. Nesta expressão ...
Isto significa que, embora na maioria das situações o estimador de máxima
verossimilhança é um estimador viciado do vetor de parâmetros de interesse,
a diferença entre a estimativa de máxima verossimilhança e o verdadeiro valor
do parâmetro diminuem conforme a amostra cresce. Por este motivo, se a
amostra não pode ser aumentada e, mesmo assim, necessitamos de resultados
fidedignos, utilizamos estes resultados para corrigir o vı́cio.
Exemplo 4.23 (Continuação do Exemplo 4.22). O estimador de máxima
verossimilhança corrigido para a variância é da forma
( )
2 2 2 2 1
bc = σ
σ b − λσ σ λµµ λσ2 µ/µ − λσ2 µµ ,
2
isto devido a que nas outras possı́veis situações os termos anulam-se. Subs-
tituindo as expressões correspondentes aos cumulantes obtemos que
n+1 2
bc2 =
σ b ·
σ (4.11)
n
A Figura 4.3 mostra claramente a vantagem de utilizar estimadores cor-
rigidos. A linha contı́nua preta representa as médias das estimativas do
estimador da variância, ou seja, o estimador sem correções. Por outro lado,
a linha descontı́nua vermelha representa o valor médio obtido com o estima-
dor de máxima verossimilhança corrigido. Para gerar esta figura simulamos,
para cada valor de n, hum mil amostras da distribuição N (0, 9), calculamos
b2 e σ
as estimativas σ bc2 (expressão em (4.11))e as médias das estimativas para
cada tamanho de amostra foram representadas.
Observamos nesta figura o comportamento clássico do estimador
∑ de má-
xima verossimilhança, ou seja, podemos observar que σ b2 = n1 ni=1 (xi − x)2
subestima o parâmetro e somente quando aumenta o tamanho da mostra
220 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

9.5
9.0
8.5
σ2
8.0
7.5
7.0

5 10 15 20 25
n

Figura 4.3: Estimativas corrigida e não corrigidas do estimador de máxima


verossimilhança da variância em amostras normais.

começa aproximar-se do verdadeiro valor de σ 2 . Por outro lado, as estima-


tivas obtidas com o estimador corrigido tendem sempre a ficar próximas do
valor do parâmetro.
O gráfico na Figura 4.3 foi gerados utilizando as linhas de comandos

n = seq(5, 25, by=1)


set.seed(7420)
sigma1 = rep(0, 21);sigma2 = rep(0, 21)
sigmas1 = sigmas2 = rep(0, 1000)
for(i in 1:21){
for(j in 1:1000) {amostras = rnorm(n[i], mean=0, sd=3);
sigmas1[j] = (n[i]-1)*var(amostras)/n[i];
sigmas2[j] = (n[i]+1)*sigmas1[j]/n[i]}
sigma1[i] = mean(sigmas1); sigma2[i] = mean(sigmas2)
}

para gerar as diferentes amostras e estimativas da variância e para gerar o


gráfico utilizamos os comandos R

par(mar=c(5,5,3,3), cex=0.7, pch=19)


plot(n, sigma2, type=’b’, col="black", ylim=c(7,9.5), lwd=2,
ylab=expression(paste(widehat(sigma)^2)))
lines(n, sigma1, type="b", col="red", lty=2, lwd=2)
abline(h=9)
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 221

4.2.4 Verossimilhança perfilada


Num determinado modelo estatı́stico podemos estar interessados somente em
parte do vetor de parâmetros e não no vetor completo ϑ. Especificamente,
se o vetor de parâmetros completo ϑ pode ser decomposto como ϑ = (ψ, ζ)
e nos interessa estimar e inferir acerca de valores de ψ, chamaremos ψ de
vetor de parâmetros de interesse e ao vetor ζ de parâmetros de perturbação.
Em situações como estas é possı́vel, por diferentes metodologias, construir
uma função que dependa somente de ψ e que possamos utilizar para reali-
zar inferências acerca de ψ. Estas funções são conhecidas como funções de
pseudo-verossimilhança.
Diversas destas funções têm sido consideradas na literatura e muitos es-
forços dedicados a uma delas, a função de verossimilhança perfilada. Deve-
mos ressaltar que esta função somente tem sentido quando parte do vetor de
parâmetros que define o modelo estatı́stico em estudo é considerado como de
perturbação.

Definição 4.7. Define-se o logaritmo da função de verossimilhança perfilada


para ψ como
ℓP (ψ) = max ℓ(ϑ),
ζ

sendo que o máximo é obtido em todo o espaço paramétrico Ω fixando um


valor de ψ.

Observemos que o processo de maximização ao qual faz referência a de-


b
finição anterior é realizado quando obtemos ζ(ψ). Desta forma a função de
verossimilhança perfilada pode ser definida como
b
ℓP (ψ) = ℓ(ψ, ζ(ψ))·
Provavelmente a obtenção por William S. Gosset em 1908 da distribuição
amostral da média, num modelo normal, quando a variância é desconhe-
cida, que ficou conhecida como distribuição t-Student, seja um dos primeiros
exemplos da função de verossimilhança perfilada. Outros estudos famosos
são, por exemplo, a obtenção por Ronald A. Fisher em 1915 da distribuição
do coeficiente de correlação amostral no modelo normal bivariado, a obtenção
por John Wishart em 1928 da distribuição que detém seu nome e algumas
soluções para o problema de Behrens-Fisher (Anderson, 1958; Rao, 1973).
222 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

Exemplo 4.24. Sejam X1 , X2 , · · · , Xn variáveis aleatórias independentes


cada com distribuição N (µ, σ 2 ). O logaritmo da função de verossimilhança
para o vetor completo ϑ = (µ, σ 2 ) é
n
n n 2 1 ∑
ℓ(ϑ) = − log(2π) − log(σ ) − 2 (xi − µ)2 · (4.12)
2 2 2σ i=1

Suponhamos que somente nos interessa o parâmetro µ e que, logicamente,


2
σ é o parâmetro de perturbação. O estimador de máxima verossimilhança
de σ 2 para um valor fixo de µ é obtido maximizando ℓ(ϑ) em relação a σ 2 .
Para isto encontramos
n
∂ℓ(ϑ) n 1 ∑
2
= − 2
+ 4
(xi − µ)2 ,
∂σ 2σ 2σ i=1

e da equação de verossimilhança (lembrando que µ é supostamente conhecido)



∂ℓ(ϑ)
= 0,
∂σ 2 σ2 =bσ2

obtemos que
n
2 1∑
b (µ) =
σ (xi − µ)2 ·
n i=1

Substituindo este estimador na expressão de ℓ(ϑ), obtemos a verossimilhança


perfilada para o parâmetro de interesse µ
n n [ 2 ] n
ℓP (µ) = − log(2π) − log σ
b (µ) − · (4.13)
2 2 2
Mostramos na Figura 4.4 o comportamento das funções de verossimi-
lhança (4.12) e verossimilhança perfilada (4.13) obtidas no Exemplo 4.24.
Para obter estas funções geramos uma amostra de tamanho 20 da distri-
buição normal de média 3 e variância 4. Observe que o ponto de máximo
de ambas funções coincide e é aproximadamente igual à média populaci-
onal. Posteriormente, na expressão da função de verossimilhança (4.12),
substituı́mos o parâmetro de perturbação σ 2 pelo seu estimador de máxima
verossimilhança. Podemos concluir que ℓP (µ) é uma função mais suave do
que ℓ(µ) e que ambas devem fornecer as mesmas estimativas.
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 223

(a) Visão global (b) Visão reduzida


−100 −50

−40
−60
−200

−80
−300

−100
−5 0 5 10 −5 0 5 10
µ µ

Figura 4.4: Funções de verossimilhança e verossimilhança perfilada.

Propriedade da verossimilhança perfilada


Discutimos agora algumas propriedades da função de verossimilhança perfi-
lada. Neste sentido, primeiramente provaremos que os máximos das funções
ℓP (ψ) e ℓ(ϑ) coincidem.
Suponhamos que ψbP maximiza ℓP (ψ). Temos então

ℓP (ψbP ) ≥ ℓP (ψ) ≥ ℓ(ψ, ζ),

e, dado que, ϑb = (ψ,


b ζ)
b é tal que

b ζ)
ℓ(ψ, b = max ℓ(ψ, ζ),
ψ,ζ

então
ℓP (ψbP ) ≥ ℓ(ψ,
b ζ)·
b

Por outro lado, como ϑb é o máximo absoluto de ℓ(ϑ) no espaço pa-


ramétrico Ω,
b ζ)
ℓ(ψ, b ≥ ℓP (ψbP ),

já que ψbP é o máximo em um subespaço de Ω. Desta forma obtemos que os


pontos ℓP (ψ) e ℓ(ϑ) coincidem.
A matriz de informação observada perfilada de ψ, jP (ψ) é definida de
forma análoga à matriz de informação observada do vetor completo j(ϑ), ou
seja,
∂ 2 ℓP (ψ)
jP (ψ) = − ·
∂ψ∂ψ⊤
224 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

Supondo a matriz j(ϑ) particionada segundo a partição (ψ, ζ), temos


( )
jψψ jψζ
j(ψ, ζ) =
jψζ jζζ

onde jψψ = −∂ℓ(ϑ)/∂ψ∂ψ ⊤ , jψζ = −∂ℓ(ϑ)/∂ψ∂ζ ⊤ e jζζ = −∂ℓ(ϑ)/∂ζ∂ζ ⊤ .


b ζ)
Pode-se provar que jP (ψ) = jψψ , esta avaliada em (ψ, b e, por resultados
assintóticos, isto nos permitirá calcular a matriz de covariância assintótica
estimada de ψ como jP (ψ)−1 . Salientemos a vantagem operacional deste
cálculo, pois invertemos uma matriz de ordem inferior à dimensão do vetor de
parâmetros completo, enquanto o seu cálculo através da matriz de informação
j(ϑ) envolve a inversão de uma matriz de ordem superior. Esta vantagem
?e apreciável quando o modelo apresenta muitos parâmetros de perturbação.
Estas propriedades constituem vantagens da utilização da função ℓP (ψ), a
qual poderá ser utilizada como qualquer outra verossimilhança, desfrutando
por isso de uma irrestrita aplicabilidade, fundamentalmente em problemas
com parâmetros de perturbação.
Infelizmente ela não usufrui de todas as propriedades de uma verossimi-
lhança genuı́na. A função escore perfilada

UP (ψ) = − ℓP (ψ),
∂ψ
é, em geral viciada, ou seja

E [UP (ψ)] ̸= 0·

O fato da esperança da função escore perfilada não ser zero é chamado de


vı́cio da esperança.
Pode ocorrer também um vı́cio na informação, ou seja,
[ ] [ ]
E UP (ψ)UP⊤ (ψ) ̸= − E ∂UP (ψ)/∂ψ t op ·

Por estes motivos se faz necessário ajustar a função de verossimilhança


perfilada ou a função escore perfilada considerando modelos gerais, veja deta-
lhes em Fraser (1989); McCullagh & Tibshirani (1990); Stern (1997); DiCiccio
& Stern (1994); DiCiccio et al. (1996); Lucambio (2003).
Uma das formas mas simples de aperfeiçoar a função de verossimilhança
perfilada é dada a seguir.
4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 225

Definição 4.8. Define-se o logaritmo da função de verossimilhança perfilada


ajustada Barndorff-Nielsen (1986) como
1
b
ℓP (ψ) = ℓP (ψ) − log jζζ (ψ, ζ(ψ)) ·
2

O objetivo da função de ajuste é corrigir o vı́cio da esperança, de maneira


que a função de verossimilhança perfilada ajustada satisfaz

E[U P (ψ)] = O(n−1 ),

e desta forma, se este vı́cio não é eliminado, pelo menos é reduzido até uma
ordem aceitável.
Exemplo 4.25. No exemplo 4.22 foi obtida a forma do logaritmo da função
de verossimilhança no caso de X1 , X2 , · · · , Xn variáveis aleatórias N (µ, σ 2 ).
Consideraremos como parâmetro de interesse σ 2 e de perturbação µ. O loga-
ritmo da função de verossimilhança perfilada ?e
n
2 n n 2 1 ∑
ℓP (σ ) = − log(2π) − log(σ ) − 2 b)2 ,
(xi − µ
2 2 2σ i=1

b = X, da qual obtemos a função escore perfilada da variância como


sendo µ
n
2 n 1 ∑
UP (σ ) = − 2 + 4 (xi − x)2 ·
2σ 2σ i=1

A esperança desta função é


[ n
]
n 1 ∑
E[U P (ψ)] = E − 2 + 4 (Xi − X)2
2σ 2σ i=1
n 1
= − 2 + 2 E[χ2 (n − 1)]
2σ 2σ
n n−1 n
= − 2+ 2
= − 2,
2σ σ 2σ
∑n
é nula. Utilizamos aqui que i=1 (Xi − X)2 ∼ σ 2 χ2 (n − 1), o qual
a qual não ∑
implica E[ ni=1 (Xi − X)2 ] = σ 2 (n − 1).
226 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

A matriz de informação observada é


 n

n 1 ∑ n
 4− 6 (xi − µ)2 − 4 (x − µ)
2 
j(σ , µ) =  2σ σ σ 
n
i=1
n 
− 4 (x − µ) − 2
σ σ
obtendo-se que

n n 1 ∑
n
1 n
2 2
ℓP (σ ) = − log(2π) − log(σ ) − 2 (xi − x)2 − log − 2 ·
2 2 2σ i=1 2 σ

Desta expressão temos que


n
∂ 2 n 2 1 ∑ 1
2
ℓP (σ ) = − log(σ ) + 4 (xi − x)2 + 2 ,
∂σ 2 2σ i=1 2σ

e o estimador de máxima verossimilhança perfilado ajustado da variância é


n
1 ∑
bP2
σ = (xi − x)2
n − 1 i=1

o qual sabemos é não viciado.

4.3 Estimadores da função de densidade


A função de densidade é um conceito fundamental em Estatı́stica. Define-se
como uma função real mensurável e não-negativa satisfazendo
∫ +∞
f (x; θ)dx = 1·
−∞

A partir de 1956 os métodos de estimação de funções de densidade não pa-


ramétricos tem-se consolidado como uma alternativa sofisticada ao trata-
mento tradicional de estudar conjuntos de dados. Esta alternativa baseia-se
na possibilidade de analisar os dados sem assumir um comportamento dis-
tribucional especı́fico.
A necessidade de utilizar estimadores da função de densidade aparece em
situações tais como:
4.3. ESTIMADORES DA FUNÇÃO DE DENSIDADE 227

1. Análise Exploratória, onde descrevem-se aspectos como multimodali-


dade, cauda, assimetria. Isto devido ao gráfico da densidade estimada
resumir convenientemente a informação relativa à forma da distribuição
da amostra.
2. Análise Confirmatória, para a tomada de decisões através de diferen-
tes métodos, como análise discriminante não paramétrica, análise de
clusters, testes para a moda, etc.
Tempo de duração das erupções do geyser Old Faithful, no parque naci-
onal Yellowstone, Wyoming, USA.

Histogram of x
60
Frequency

40
20
0

2 3 4 5

4.3.1 Estimador kernel (núcleo)


Estes estimadores foram propostos por Rosenblatt em 1956, posteriormente
generalizado por Parzen em 1962 e, desde então, também conhecidos como
estimadores Rosenblatt-Parzen.
Definamos o estimador kernel de densidades como
∑n ( )
1 x − x
fen (x) =
i
K ,
nh i=1 h
onde x1 , x2 , . . . , xn são os pontos amostrais.
A proposta de Parzen foi utilizar as funções K(·), chamadas de funções
kernel ou núcleo, exigindo que sejam reais, positivas, deriváveis e de inte-
gral 1. O parâmetro h exige-se somente que seja positivo e é chamado de
parâmetro de alisamento.
228 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

Considerando o parâmetro de alisamento h como dependente do tamanho


da amostra n, isto é, considerando h = hn e tal que limn→∞ hn = 0, temos
que
Suponhamos que a função núcleo K satisfaz que

lim xK(x) = 0.
n→∞

A esperança do estimador fen (x) é


∫ +∞ ( )
e 1 y
E(fn (x)) = K f (x − y)dy,
hn −∞ hn
e portanto
lim E(fen (x)) = f (x)·
n→∞

Se a função kernel é limitada e de quadrado integrável. Neste caso o


estimador kernel da função de densidade tem variância satisfazendo
∫ +∞
e
lim nhn Var(fn (x)) = f (x) K 2 (y) dy·
n→∞ −∞

Para que o estimador de Rosenblatt-Parzen seja consistente exigiremos


que nhn → ∞ quando n → ∞. Nessa situação

lim Var(fen (x)) = 0·


n→∞

Observemos que para garantir boas propriedades destes estimadores a


função núcleo deve ser além de real, positiva e de integral 1, deve ser limitada,
de quadrado integrável e tal que limn→∞ xK(x) = 0. Para o parâmetro
de alisamento exigimos depender do tamanho da amostra de maneira que
limn→∞ hn = 0 e limn→∞ nhn = +∞.

Diferentes funções núcleo e estimação do parâmetro de alisamento


Muito é conhecido acerca da relação entre a razão de convergência de fen (x)
para f e o grau de dependência do parâmetro h como função do tamanho da
amostra n. No entanto, para n fixo, o estimador fen (x) é sensı́vel à escolha de
h e não existe uma metodologia geral para a determinação deste parâmetro.
Diversos métodos de estimação de h estão disponı́veis: nrd0, nrd, sj, bcv
e ucv. Os dois primeiros são simples e baseiam-se na idéia de que a densidade
4.3. ESTIMADORES DA FUNÇÃO DE DENSIDADE 229

a ser estimada é muito parecidida à gaussiana. Os métodos sj, bcv e ucv são
mais complexos e serão os recomendados.
Denotemos por fen−1 i
(x) o estimador fen (x) calculado depois de eliminar a
i-ésima observação, isto é
∑ n ( )
1 x − x
fen−1 (x) =
i j
K ·
(n − 1)h j̸=i=1 h

Este estimador não depende de xi e fen−1 i


(x) pode ser escolhido como
medida apropriada da contribuição de xi ao valor de h: se fen−1
i
(x) for grande,
pode ser dito que fen−1 (x) antecipa a observação xi e que h é apropriado.
i

Valores pequenos de fen−1


i
(x) sugerem que a observação xi pode ser esquecida
e interpretá-la como evidência de que o valor de h é imprópio.
Variando i ao longo da amostra, obtemos n de tais medidas de ajuste que
então podem ser combinadas na expressão de verossimilhança
∏n
L(h) = fen−1
i
(x),
i=1

ou utilizar as fen−1
i
(x) numa espressão aproximada ao erro quadrático integral,
dada por
∫ +∞ n ∫ +∞
e 2 1 ∑ ei
EQIh ≈ fn (x) dx − 2 fn−1 (xi ) + f (x)2 dx.
−∞ n i=1 −∞

Escolhendo bhn como aquele que maximiza a verossimilhança ou minimiza


o erro quadrático médio obtemos o estimador de h.

density.default(x = x, bw = "sj")
0.6
0.5
0.4
Density

0.3
0.2
0.1
0.0

2 3 4 5

N = 272 Bandwidth = 0.14


230 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

4.4 Exercı́cios
Exercı́cios da Seção 4.1
1. Suponha que o vetor X = (X1 , · · · , Xn ) tenha por distribuição a famı́lia exponencial
˜
k-paramétrica com função de densidade ou de probabilidade escrita da forma
 
∑ k 
fX (x; θ) = exp θj Tj (x) − D(θ) + S(x) ,
˜ ˜ ˜  ˜ ˜ ˜ 
j=1

onde o espaço paramétrico Θ é um subconjunto aberto de Rk .


(a) Prove que

E[Tj (X )] = D(θ),
˜ ∂θj ˜
para j = 1, · · · , k.
(b) Prove que
∂2
Cov[Ti (X ), Tj (X )] = D(θ),
˜ ˜ ∂θi ∂θj ˜
para i, j = 1, · · · , k.
2. Seja X1 , · · · , Xn uma amostra aleatória da distribuição Gama(α, β). Encontre os
estimadores dos momentos dos parâmetros α e β. Encontre a distribuição assin-
tótica, exata ou aproximada, do vetor de estimadores.
3. Seja X1 , · · · , Xn uma amostra aleatória da distribuição N (µ, σ 2 ). Encontre os esti-
madores dos momentos dos parâmetros µ e σ 2 . Encontre a distribuição assintótica,
exata ou aproximada, do vetor de estimadores.
4. Considere que seja obtida uma mostra aleatória da distribuição log-Normal, com
função de densidade
{ }
1 1
fX (x; µ, σ) = √ exp − 2 [log(x) − µ]2 ,
xσ 2π 2σ
para x > 0. Encontre os estimadores dos momentos dos parâmetros µ e σ 2 . Encon-
tre a distribuição assintótica, exata ou aproximada, do vetor de estimadores.
5. Uma variável aleatória diz-se ter distribuição Poisson truncada em zero com parâ-
metro λ, se sua função de probabilidade é da forma
λy
P (Y = y; λ) = , caso y = 1, 2, 3, · · ·
y!(eλ − 1)
e λ > 0. Pode-se demonstrar que
λ
E(Y ) = µ = e Var(Y ) = µ(1 + λ − µ)·
1 − e−λ
Encontre o estimador dos momentos de λ. Encontre a distribuição assintótica, exata
e
ou aproximada, de λ.
4.4. EXERCÍCIOS 231

6. Distribuição gama de parâmetros α e β. E(X) = αβ e Var(X) = αβ 2 .


Sabemos que θ = (α, β), E(X 2 ) = α(α + 1)β 2 , E(X 3 ) = α(α + 1)(α + 2)β 3 e
E(X 4 ) = α(α + 1)(α + 2)(α + 3)β 4 . Também h(θ) = (αβ, αβ 2 ), logo
( ) ( )
∂h(θ) ∂h(θ) β α
H(θ) = , =
∂α ∂β β 2 2αβ
∑n
eβe = X e α
Do sistema de equações α α + 1)βe =
e(e 1
n i=1 Xi2 , obtemos que

nX
e = ∑n
α 2
i=1 (X i − X)

e
nX
βe = ∑n 2
·
i=1 (X i − X)

De distribuição em amostras grandes


( ) (( ) ( ))
αe α µ2 − µ1 µ1 µ3 − µ1 µ2
∼ N 2 , ,
βe β µ3 − µ2 µ1 µ4 − µ2 µ2

onde
( ) ( )
µ2 − µ1 µ1 µ3 − µ1 µ2 −αβ 2 2α(α + 1)β 3
=
µ3 − µ2 µ1 µ4 − µ2 µ2 2α(α + 1)β 3 2α(α + 1)(2α + 3)β 4

7. Distribuição geométrica de parâmetro θ. E(X) = 1/θ e Var(X) = (1 − θ)/θ2 . Do


primeiro momento teórico e do primeiro momento amostral obtemos que
1
θe =
X
e que
1
∼ N (θ, (1 − θ)θ2 )·
X
8. Distribuição Pearson de parâmetros p conhecido, α e β desconhecidos. E(X) =
α + pβ e Var(X) = pβ 2 .
9. A função de probabilidade Yule-Simon é definida como

P (X = x; ρ) = ρB(x, ρ + 1),

onde x = 1, 2, · · · , ρ > 0 e B(·) é a função beta. Satisfaz que E(X) = ρ/(ρ − 1)


para ρ > 1 e Var(X) = ρ2 /(ρ − 1)2 (ρ − 2) para ρ > 2.
10. A função de densidade Fisher-Tippett é utilizada como a função de densidade do
mı́nimo ou máximo de amostras de diversas distribuições. Por exemplo, utiliza-se
como a distribuição do nı́vel máximo de um rio num particular ano se conhecemos
232 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

os nı́veis máximos dos últimos dez anos. Também é utilizada como a distribuição
de probabilidade da ocorrência de desastres naturais.
A função de distribuição acumulada Fisher-Tippett é
(x−µ)/β
F (x; µ, β) = e−e ,

onde x, µ ∈ R e β > 0. A mediana é µ − β ln(− ln(0.5)), média µ + γβ, onde γ é a


constante
√ de Euler-Mascheroni de valor aproximado igual a 0.57721, desvio padrão
βπ/ 6 e moda µ.

Exercı́cios da Seção 4.2


1. Encontre em cada caso o estimador de máxima verossimilhança de ϑ, considerando
X1 , · · · , Xn uma amostra aleatória das seguintes funções de densidade ou de pro-
babilidade:
a) f (x; ϑ) = ϑ(1 − x)(ϑ−1) , se 0 ≤ x ≤ 1 e ϑ > 0.
b) f (x; ϑ) = ϑe−ϑx , x ≥ 0 e ϑ > 0.
√ √
c) f (x; ϑ) = ϑx( ϑ−1) , se 0 ≤ x ≤ 1, ϑ > 0.
d) f (x; ϑ) = 1/ϑ, para x = 1, 2, · · · , ϑ, 1 ≤ ϑ ≤ ϑ0 , um inteiro conhecido.
e) f (x; ϑ) = 12 e−|x−ϑ| , para x ∈ R.
f) f (x; ϑ) = e−x+ϑ , para ϑ ≤ x < ∞.
α
g) f (x; ϑ) = (ϑα)xα−1 eϑx , para x > 0 e α conhecido.
ϑ (2ϑ−1)/(1−ϑ) 1
h) f (x; ϑ) = 1−ϑ x , 0<x≤1e 2 < ϑ < 1.
2. Considere uma amostra aleatória da variável X com função de densidade ou de
probabilidade como as seguintes:
a) X ∼ Binomial(n, θ), onde ambos n e θ são desconhecidos.
b) X ∼ P (X = x; θ), onde 0 < θ < 1 e P (·) uma função de probabilidade da
seguinte forma:
1−θ 1 θ
P (X = y1 ) = , P (X = y2 ) = e P (X = y3 ) = ·
2 2 2
c) X ∼ Cauchy(θ, 0).
d) X ∼ N (θ, θ), para θ > 0.
e) X ∼ Bernoulli(θ), para θ ∈ [ 12 , 34 ].
3. Seja X1 , · · · , Xn uma amostra aleatória da função de densidade
1 − β1 (x−α)
f (x; α, β) = e
β
para α < x < ∞, α ∈ R e β > 0.
4.4. EXERCÍCIOS 233

a) Encontre os estimadores de máxima verossimilhança do vetor de parâmetros


(α, β).
b) Encontre o estimador de máxima verossimilhança de P (X1 ≥ 1).
4. Seja X1 , · · · , Xn uma amostra aleatória da distribuição exponencial f (x; θ) = θ exp −θx,
x ≥ 0 e θ > 0. Encontre o estimador de máxima verossimilhança de θ e mostre que
é consistente e assintoticamente normal.
5. Para uma amostra aleatória de tamanho 1 da distribuição N (µ, σ 2 ), prove que não
existe estimador de máxima verossimilhança do vetor (µ, σ 2 ).
6. Suponha que n observações foram obtidas da variável aleatória X com distribuição
N (µ, 1), mas ao invés de serem registradas todas as observações somente foi anotado
se cada observação é menor do que zero. Se o evento {X < 0} ocorre m vezes
(m < n), encontre o estimador de máxima verossimilhança de µ.
7. Sejam Xij , i = 1, · · · , s e j = 1, · · · , n variáveis aleatórias independentes onde Xij ∼
N (µi , σ 2 ). Encontre os estimadores de máxima verossimilhança para µ1 , · · · , µs e
σ 2 . Mostre que σ b2 não é consistente quando n → ∞, n fixo. Será que esse resultado
contradiz a teoria que nós estabelecemos a respeito da consistência dos estimadores
de máxima verossimilhança? Por que ou por que não?
8. Suponha que X1 , · · · , Xn seja uma amostra aleatória discreta com função de pro-
babilidade {
θ para x = −1,
f (x; θ) =
(1 − θ)2 θx para x = 0, 1, 2, · · ·
0 < θ < 1.
a) Mostre que o estimador de máxima verossimilhança de θ com base nesta
amostra é da forma
∑n ∑n
2 i=1 1 + i=1 Xi
˜[X=−1]
θbn = ∑n
2n + i=1 Xi

e prove que θbn é consistente para θ.


√ D
b) Mostre que n(θbn − θ) −→ Z, onde Z ∼ N (0, σ 2 (θ)) e encontre a expressão
2
de σ (θ).
9. Considere a função de densidade em forma de U, dada por
[ ]
f (x; θ) = c(θ) 1 − e−|x| 1 ,
˜[|x|≤θ]

onde c(θ) é uma constante normalizadora. Mostre que o estimador de máxima


verossimilhança de θ é dado por
X(n) − X(1)
θb = ·
2
234 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO

10. Seja (X, Y ) um vetor de variáveis aleatórias com distribuição normal bivariada de
2
parâmetros µX , µY , σX , σY2 e ρ, o coeficiente de correlação entre X e Y . Suponha
que temos n observações do par (X, Y ) e ainda que dispomos de N − n observações
de X, ou seja, N − n observações de Y foram perdidas. Encontre os estimadores
2
de máxima verossimilhança de µX , µY , σX , σY2 e ρ.

Você também pode gostar