Cap 04

Capı́tulo 4
Métodos de estimação
Uma vez construı́do o modelo estatı́stico a ser aplicado, devemos estimar

os parâmetros da distribuição desconhecida que gerou os dados. Em outras
palavras, se a famı́lia de distribuições que gerou os dados é {Fθ : θ ∈ Θ},
queremos encontrar estimadores para o vetor de parâmetros θ ou funções
q(θ) deste.
Sabemos acerca de propriedades que gostarı́amos exigir dos estimadores,
mas ainda não sabemos como encontrar essas funções da amostra. É esse o
objetivo deste Capı́tulo. Nos faremos sempre a pergunta: como encontrar
estimadores razoáveis da função q(θ)? Estudaremos os dois mais importantes
métodos de encontrar estimadores: o método dos momentos e o de máxima
verossimilhança.
4.1 Método dos momentos

Podemos afirmar que um dos métodos de estimação mais simples é o método
de momentos, o qual estudaremos aqui. Sejam X1 , · · · , Xn variáveis aleatórias
independentes igualmente distribuı́das com função de densidade ou de pro-
babilidade f (x; θ), onde θ ∈ Θ ⊆ Rr .
Definamos as funções reais m1 (θ), · · · , mr (θ), segundo tı́nhamos visto na
Seção 2.4, como
E(X1k ) = mk (θ)
189
190 CAPÍTULO 4. MÉTODOS DE ESTIMAÇÃO
as quais representam os primeiros r momentos populacionais e sejam

n
1∑ k
ek =
m X ,
n i=1 i
para k = 1, . . . , r. Observemos que as funções m1 (θ), · · · , mr (θ) são os mo-

mentos teóricos obtidos da distribuição atribuı́da às variáveis aleatórias e que
e 1, · · · , m
m e r são os momentos amostrais correspondentes.
Exemplo 4.1. Seja X1 , . . . , Xn uma amostra aleatória da distribuição uni-
forme U (θ1 , θ2 ). Então
θ1 + θ2 (θ2 − θ1 )2
E(X) = e Var(X) = ·
2 12
Nesta situação a dimensão do espaço paramétrico é r = 2 e θ = (θ1 , θ2 ). Lem-
brando que Var(X) = E(X 2 ) − E2 (X), obtemos que os momentos teóricos
são
θ1 + θ2 (θ1 + θ2 )2 − θ1 θ2
E(X1 ) = m1 (θ) = e E(X12 ) = m2 (θ) = ·
2 4
Os momentos amostrais sempre são (até a ordem 2)
n n
1∑ 1∑ 2
e1 =
m Xi e e2 =
m X ·
n i=1 n i=1 i
Definição 4.1. Dizemos que θe é o estimador de momentos de θ ∈ Θ ⊆ Rr

se for solução do sistema de equações
e =m
mk (θ) ek (4.1)
para k = 1, · · · , r.
Exemplo 4.2. Sejam X1 , . . . , Xn variáveis aleatórias independentes igual-

mente distribuı́das com distribuição N (µ, σ 2 ). Observemos que θ = (µ, σ 2 ),
ou seja, r = 2. Os momentos teóricos, de ordens primeira e segunda são,
respectivamente
E(X1 ) = µ e E(X12 ) = σ 2 + µ2 ·
4.1. MÉTODO DOS MOMENTOS 191
∑
Os∑momentos amostrais correspondentes são m e 1 = n1 ni=1 Xi = X e m
e2 =
1 n 2
n i=1 Xi . Desta forma, as equações na definição 4.1 resultam em
n
1∑ 2
2 2
e=X
µ e e +µ
σ e = X ·
n i=1 i
Os estimadores dos momentos são então

n
1∑
2
e=X
µ e e =
σ (Xi − X)2 ·
n i=1
Podemos resumir este procedimento de estimação em dois passos, relaci-

onando os momentos amostrais aos momentos populacionais:
• Passo No.1 Se o modelo estatı́stico tem r parâmetros, calculamos as

equações em (4.1) para os primeiros r momentos,
m1 (θe1 , · · · , θer ) = m
e 1, ··· mr (θe1 , · · · , θer ) = m
e r,
obtendo-se r equações com r incógnitas.
• Passo No.2 Resolvemos o sistema acima para os r parâmetros como

funções dos momentos,
θe1 = g1 (m
e 1, · · · , m
e r ), ··· θer = gr (θe1 , · · · , m
e r )·
A forma de como esta descrição abstrata funciona na prática pode ser

melhor visto através de exemplos.
Exemplo 4.3. Sejam X1 , · · · , Xn variáveis aleatórias independentes igual-

mente distribuı́das com distribuição U (0, θ). Observemos que r = 1, por-
tanto, precisaremos somente do primeiro momentos teórico e do primeiro
momento amostral. Dado que
θ
E(X1 ) = ,
2
e 1 = X, então o estimador de momentos é θe = 2X.

e que m
Podemos estender este método à estimação de momentos

∑n conjuntos. As-
1
sim para estimar E(XY ) utilizamos a estatı́stica n i=1 Xi Yi . Este método
não é aplicável às situações em que os momentos teóricos não existem, como
o caso da distribuição Cauchy.
Observemos que em determinadas situações os estimadores de momentos
podem não ser únicos. Por exemplo, se X1 , · · · , Xn é uma amostra aleatória
P oisson(λ), sabemos que E(X1 ) = λ e que ∑nVar(X1 ) = λ. Portanto, por este
1 2
método obtemos que tanto X quanto n i=1 (Xi − X) são estimadores de
momentos de λ. Para resolver esta ambiguidade definimos estes estimadores
como sendo aqueles que envolvem os momentos amostrais e teóricos de menor
ordem.
Exemplo 4.4. Sob as mesmas condições do exemplo 4.2 encontremos o es-
timador de momentos dos coeficientes de skewness e kurtosis. O coeficiente
de skewness é definido como
µ3
α3 = 3/2 ,
µ2
e o coeficiente de kurtosis define-se como
µ4
α4 = 2 ·
µ2
Pelo método de momentos é fácil perceber que
1
∑n 3
n i=1 Xi
e 3 = ( ∑n
α )
1 2 3/2
n i=1 X i
e que ∑n
1 4
n i=1 Xi
e4 = ( ∑n
α
1
) ·
2 2
n i=1 Xi
Teorema 4.1. Seja m(θ) = (m1 (θ), . . . , mr (θ)) e seja M (θ) uma matriz de
posto r de elementos Mij (θ) = ∂mi (θ)/∂θj , i, j = 1, . . . , r sendo estas funções
contı́nuas em θ. Então
√ D
n(θe − θ) −→ Nr (0, M −⊤ ΣM −1 ),
onde M −⊤ = (M −1 )⊤ e Σ é uma matriz r×r de elementos Σij = mi+j −mi mj .

Demonstração. Seguimos as ideias em Sen & Singer (1993). Consideremos a

seguinte expansão em série de Taylor
m(θ + n−1/2 u) = m(θ) + n−1/2 M (θ)u + n−1/2 [M (θ8 ) − M (θ)]u, (4.2)
onde θ∗ = θ + n−1/2 γu, 0 ≤ γ ≤ 1. Pela continuidade dos elementos da

matriz M (θ), a expressão em (4.2) pode ser escrita como
√ [ ]
n m(θ + n−1/2 u) − m(θ) = M (θ)u + o(1)· (4.3)
√
Fazendo u = n(θe− θ), temos que m(θ + n−1/2 u) = m(θ).
e Então, (4.3) pode
ser escrita como
√ [ ] √
e − m(θ) = M (θ) n(θe − θ) + oP (1)·
n m(θ) (4.4)
Agora, seja λ ∈ Rr , λ ̸= 0, um vetor real arbitrário fixo e seja

√
e − m(θ)] =
nλ[m(θ)
√ { }
e + · · · + λr mr (θ)]
= n [λ1 m1 (θ) e − [λ1 m1 (θ) + · · · + λr mr (θ)]
n
{ r } n
1 ∑ ∑ 1 ∑
k k
= √ λk [Xi − E(Xi )] = √ Ui ,
n i=1 k=1 n i=1
∑r
onde Ui = k=1 λk [Xik − E(Xik )] é tal que E(Ui ) = 0 e
r ∑
∑ r
E(Ui2 ) = λi λk E(X+ ij − µj )(Xik − µk )
j=1 k=1
r ∑
∑ r
= λi λk [µj+k − µj µk ] = λΣλ⊤ < ∞·
j=1 k=1
Dado que U1 , · · · , Un são variáveis aleatórias independentes e identicamente

distribuı́das, segue pelo Teorema Central do Limite que
n
1 ∑ √ D
e − m(θ)] −→
√ Ui = nλ[m(θ) Nr (0, λΣλ⊤ )
n i=1
e utilizando o Teorema de Cramér-Wold1 concluı́mos que

√ D
e − m(θ)] −→
nλ[m(θ) Nr (0, Σ)·
Por último, de (4.4), temos que
√ D
n(θe − θ) −→ Nr (0, M −⊤ ΣM −1 )·
Por este teorema percebemos que os estimadores de momentos são consis-

tentes e não viciados assintoticamente. Notemos também que em amostras
finitas ( )
e 1 −⊤ −1
θ ∼ Nr θ, M ΣM ·
n
Devemos fazer algumas observações. Primeiro o estimador de momen-
tos pode não ser único, como foi observado no caso Poisson. Em geral,
o número mı́nimo de igualdades de momentos que precisamos é igual ao
número de parâmetros. Estes estimadores são fáceis de calcular e sempre
este método funciona: O método frequentemente fornece estimadores quando
outros métodos falham a fazê-lo ou quando estimadores são difı́ceis de obter
(como no caso da distribuição gama). Ainda mencionamos novamente que
os estimadores obtidos são consistentes.
Como observação contrária à utilização deste métodos mencionamos que
estes estimadores geralmente não são os melhores disponı́veis. Com isto que-
remos dizer que geralmente não são os mais eficientes, ou seja, não alcançam
os valores mı́nimos do erro quadrático médio e, as vezes, podem não fazer
sentido. Vejamos isto no seguinte exemplo.
Exemplo 4.5. Suponhamos observamos os valores 3,5,6,18 de uma amostra
da distribuição U (0, θ). Dado que E(X) = θ/2, temos que o estimador de
momentos de θ é θe = 2X, de estimativa
3 + 5 + 6 + 18
2X = 2 = 16,
4
1
D D
Teorema 4.2 (Teorema Cramér-Wold). Xn −→ X se, e somente se, a⊤ Xn −→ a⊤ X,
∀ ∈ Rk .
o que não é aceitável, porque observamos o valor 18.
Exemplo 4.6 (Continuação do exemplo 4.2). Se X1 , · · · , Xn é uma amostra

aleatória N (µ, σ 2 ) sabemos que
n
1∑ 2
e 1 = X,
m e2 =
m X e m(θ) = m(µ, σ 2 ) = (µ, µ2 + σ 2 ),
n i=1 i
logo
 
∂m1 (θ) ∂m2 (θ) ( )
 ∂µ ∂µ  1 0
M (θ) =  =
∂m1 (θ) ∂m2 (θ) 2µ 1
∂σ 2 ∂σ 2
e, portanto
( )
σ2 2µσ 2
Σ= ·
2µσ 2 4µ2 σ 2 + 2σ 4
Uma forma de aproximarmos à variância de qualquer estimador ou de

funções de estimadores é utilizar o chamado método delta, resumido no se-
guinte teorema.
Teorema 4.3 (Método Delta). Suponhamos que {Tn } seja uma sequência de
variáveis aleatórias, θ ∈ R e g uma função real derivável numa vizinhança
do ponto µ, com g ′ (µ) ̸= 0. Se
D
an (Tn − µ) −→ Z ∼ N (0, σ 2 )
onde E(Tn ) = µ e {an } uma sequência de constantes tal que limn→∞ an = ∞.

Então
D
an [g(Tn ) − g(µ)] −→ Z ∼ N (0, [g ′ (µ)]2 σ 2 )·
Demonstração. Vamos começar assumindo que g é continuamente diferenciável

P
em µ. Primeiro observemos que Tn −→ µ, pelo Teorema de Slutsky2 . Pela
expansão em série de Taylor de g(x) em torno de x = µ, temos que
g(Tn ) = g(µ) + g ′ (µ∗n )(Tn − µ)

P
onde µ∗n encontra-se entre Tn e µ. Logo |µ∗n − µ| ≤ |Tn − µ| e então µ∗n −→ µ.
P
Dado que g(x) é contı́nua em x = µ, segue que g(µ∗n ) −→ g(µ). Agora
D
an [g(Tn ) − g(µ)] = g ′ (µ∗n )an (Tn − µ) −→ g(µ)Z
pelo Teorema de Slutsky. Para o caso mais geral, onde g não é necessaria-
mente continuamente diferenciável em µ, note que
g(Tn ) − g(µ) = g ′ (µ)(Tn − µ) + Rn

P
onde Rn /(Tn − µ) −→ 0. Por conseguinte
Rn P
an Rn = an (Tn − µ) −→ 0
an (Tn − µ)
e a conclusão segue pelo Teorema de Slutsky.
Observemos que o teorema demonstrado anteriormente é geral no sentido

de que a sequência de números {an } pode √ser qualquer. Na maioria dos
exemplos a sequência é escolhida como an = n, como no exemplo a seguir.
Exemplo 4.7. Seja X1 , · · · , Xn uma amostra aleatória da distribuição Pa-

reto com densidade
θ
fX (x; θ) = θ+1 , x ≥ 1·
x
2
D P
Teorema 4.4 (Teorema de Slutsky). Suponhamos que Xn −→ X e que Yn −→ θ. Então
D
(a) Xn + Yn −→ X + θ,
D
(b) Xn −→ θX.
A média e variância nesta situação são
θ
µ= , se θ>1
θ−1
e
θ
σ2 = , se θ>2
(θ − 1)2 (θ − 2)
respectivamente. Nesta situação temos somente um parâmetro então, no
Passo No.1, somente precisamos determinar o primeiro momento
θe
= X,
θe − 1
para encontrar o estimador θe pelo método dos momentos.

Pelo Passo No.2, resolvemos a equação acima para θe como função de X
e obtemos
X
θe = g1 (X) = ·
X −1
Um procedimento aproximado de encontrarmos a distribuição assintótica
do estimador θe é utilizar o chamado método delta, apresentado no Teorema
4.3. Segundo este procedimento, E(θ) e ≈ θ, em amostras grandes e Var(θ) e =
[g ′ (θ)]2 σ 2 /n, também em amostras grandes. Qual é a expressão da função g
nesta situação?
√ D
Sabemos que n[X − E(X)] −→ Z ∼ N (0, σ 2 ), quando n é suficiente-
mente grande. Então g(µ) = µ/(µ − 1), ou seja, a função g1 avaliada na
esperança µ no Passo No.2 satisfaz as condições do Teorema 4.3, já que é
contı́nua e g ′ (µ) = −1/(µ − 1)2 é diferente de zero se θ > 1.
Assim ( )
′ θ 1 2
g = −( )2 = −(θ − 1) ,
θ−1 θ
−1
θ−1
do qual encontramos que θe tem média aproximadamente igual a θ e variância

dada por
σ2 θ θ(θ − 1)2
[g ′ (µ)]2 = (θ − 1)4 = ·
n n(θ − 1)2 (θ − 2) n(θ − 2)
4.2 Método de máxima verossimilhança

Vimos na seção anterior que o método de momentos fornece uma abordagem
para encontrar estimadores razoáveis de parâmetros em modelos estatı́sticos.
No entanto, esta metodologia não prescreve qualquer estimador particular
e, de fato, a qualidade dos diferentes estimadores pode variar muito. Além
disso, o método dos momentos é adaptado para dados independentes e igual-
mente distribuı́dos e pode ser difı́cil de aplicar para dados que não sejam
independentes e igualmente distribuı́dos. Estes problemas são um pouco in-
quietantes, uma vez que gostarı́amos de encontrar um algoritmo de propósito
geral para gerar bons estimadores.
O método de máxima verossimilhança atende este propósito. Foi pro-
posto pela primeira vez pelo matemático alemão C.F. Gauss em 1821, no
entanto costuma creditar-se ao estatı́stico inglês R.A. Fisher a descoberta.
Certamente foi ele quem investigou pela primeira vez, em 1922, as proprie-
dades do estimador obtido por este método. Atualmente é uma das técnicas
mais utilizadas na estimação paramétrica.
O objetivo aqui é definir e estudar propriedades da chamada função de
verossimilhança assim como do método de estimação de máxima verossi-
milhança. Depois vamos apresentar as chamadas correções para o vı́cio do
estimador obtido por este procedimento na Seção 4.2.3. No final comentamos
acerca de uma das diversas funções alternativas à verossimilhança, chamada
de função de verossimilhança perfilada na Seção 4.2.4.
Definição 4.2 (Função de verossimilhança). Suponha que X = (X1 , · · · , Xn )

˜
sejam variáveis aleatórias com função de densidade ou de probabilidade con-
junta fX (x; θ), onde θ ∈ Θ um subconjunto de Rq . Dado o vetor de ob-
˜ ˜
servações x = (x1 , · · · , xn ), definimos a função de verossimilhança como
˜
L(θ) = fX (x; θ),
˜ ˜
para cada possı́vel amostra x = (x1 , · · · , xn ).
˜
A função de verossimilhança L(θ) é uma função real definida no espaço

4.2. MÉTODO DE MÁXIMA VEROSSIMILHANÇA 199
de parâmetros Θ. Note que não precisamos supor que X1 , · · · , Xn sejam

variáveis aleatórias independentes e igualmente distribuı́das. Caso seja esta
a situação, a função de verossimilhança assume a forma
n
∏
L(θ) = fX (xi ; θ), (4.5)
i=1
na qual consideramos a função de densidade ou de probabilidade fX (x; θ)

como função do vetor de parâmetros θ, para cada x fixo.
˜
Vamos entender melhor a diferença entre a densidade conjunta e a função
de verossimilhança no seguinte exemplo.
Exemplo 4.8. Suponha que os dados representam o número de sucessos

em uma sequência de 10 ensaios Bernoulli e que a probabilidade de sucesso
em cada tentativa, representada pelo parâmetro θ, seja 0.2. A função de
probabilidade nesta situação é dada por
10!
P (X = x; n = 10, θ = 0.2) = 0.2x 0.810−x , x = 0, 1, · · · , 10,
x!(10 − x)!
conhecida como distribuição Bernoulli e representada sucintamente como
X ∼ Binomial(n, θ).
Binomial(10,0.2) Binomial(10,0.8)
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Figura 4.1: Representação da função de probabilidade Binomial(10, θ = 0.2)

a esquerda e Binomial(10, θ = 0.8) a direita.
Dado um conjunto de valores de parâmetros, a função de probabilidade

correspondente irá mostrar que alguns dados são mais prováveis do que ou-
tros. Neste exemplo, na função de probabilidade com θ = 0.2, x = 2 é mais
provável de ocorrer do que x = 5, 0,302 versus 0,026. Isto pode ser apreci-
ado na Figura 4.1 a esquerda. Na realidade, porém, nós já observamos os
dados. Assim, somos confrontados com um problema inverso: considerando
os dados observados e um modelo de interesse, encontrar a função de pro-
babilidade, entre todas as diferentes funções de probabilidade que o modelo
prescreve, que é mais provável ter produzido os dados.
Para resolver este problema inverso, definimos a função de verossimi-
lhança, invertendo os papéis do vetor de dados x e o vetor de parâmetros θ.
˜
Assim L(θ) representa a probabilidade do parâmetro θ de acordo com os da-
dos observados x e, como tal, é uma função de θ. Para o exemplo Binomial,
˜
a função de verossimilhança para x = 7 e n = 10 é dada por
10! 7
L(θ) = θ (1 − θ)3 , 0 < θ < 1·
7!3!
A forma desta função é mostrada na Figura 4.2.
0.8
Verossimilhança
0.6
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0

θ
Figura 4.2: Representação da função de verossimilhança Binomial(x, 10, θ)

para θ ∈ (0, 1) e x = 0, 1, · · · , 10.
Existe uma diferença importante entre a função de probabilidade e a

função de verossimilhança: como ilustrado nas Figuras 4.1 e 4.2, as duas
funções são definidas em diferentes eixos e, portanto, não são diretamente

comparáveis uns com os outros. Especificamente, a função de probabilidade
na Figura 4.1 é uma função dos dados dado um determinado conjunto de
valores do parâmetro, é uma função definida na escala de dados. Por ou-
tro lado, a função de verossimilhança é uma função do parâmetro dado um
conjunto particular de dados observados, definida na escala do parâmetro.
Em resumo, a Figura 4.1 nos diz a probabilidade de um valor particular nos
dados para um parâmetro fixo, enquanto a Figura 4.2 nos diz a probabilidade
de um valor em particular do parâmetro para dados fixos estabelecidos.
Note-se que a função de verossimilhança nesta última figura (Figura 4.2)
é uma curva porque existe apenas um parâmetro; o qual é assumido a ser
conhecido. Se o modelo tiver dois parâmetros, a função de verossimilhança
será uma superfı́cie no espaço de parâmetros bidimensional. Em geral, para
um modelo com k parâmetros, a função de verossimilhança L(θ) leva a
forma de um geométrica de um hiperplano gerado pelo vetor de parâmetros
θ = (θ1 , · · · , θk ). Ainda devemos observar que, na Figura 4.2, o máximo de
cada curva L(θ) coincide com o valor da amostra escolhido para fazer a repre-
sentação gráfica, o qual oscila no espaço paramétrico Ω = {0, 1, 2, · · · , 10}.
4.2.1 Estimador de máxima verossimilhança

A função de verossimilhança é a base para o obtenção do estimador de
máxima verossimilhança, tem um significado muito mais amplo na teoria
estatı́stica. Um princı́pio importante na estatı́stica. o chamado princı́pio
da verossimilhança afirma, essencialmente, que a função de verossimilhança
contém todas as informações sobre um parâmetro desconhecido nos dados.
Definição 4.3. O método de máxima verossimilhança consiste em encontrar

b ), do espaço paramétrico Θ, que seja o mais provável de ter gerado
o valor θ(x
˜
os dados. Significa que para o vetor x = (x1 , · · · , xn ) fixo, procuramos por
˜
b ) que satisfaz
θ(x
˜
b )) = sup L(θ)·
L(θ(x
˜ θ∈Θ
b ) é o estimador de máxima verossi-
Se este estimador existe diremos que θ(x
˜
milhança de θ.
Para variáveis aleatórias contı́nuas, a função de verossimilhança não é

definida univocamente desde que a densidade conjunta não está definida de
forma única. Na prática, geralmente escolhemos uma forma para a função
de verossimilhança que garanta, se possı́vel, a existência do estimador de
máxima verossimilhança para todos os possı́veis valores de X1 , · · · , Xn . Para
as variáveis aleatórias discretas, tais dificuldades não ocorrem uma vez que
a função de probabilidade comum e, consequentemente, a função de verossi-
milhança é univocamente definida.
Exemplo 4.9. Suponhamos que X1 , · · · , Xn seja uma amostra aleatória da
variável aleatória X ∼ U (0, θ), para algum θ > 0. A função de verossimi-
lhança é
1 1
L(θ) = n 1[0≤X1 ,··· ,Xn ≤θ] = n 1[X(n) ≤θ] ·
θ θ
Então, se θ < X(n) , L(θ) = 0 enquanto L(θ) é uma função decrescente de θ
quando θ ≥ X(n) . Consequentemente, L(θ) atinge seu máximo em θ = X(n)
e, portanto, θb = X(n) é o estimador de máxima verossimilhança de θ.
Definição 4.4. Seja L(θ) a função de verossimilhança para algum modelo

estatı́stico. O logaritmo da função de verossimilhança é definida como
ℓ(θ) = log L(θ)· (4.6)
A função definida em (4.6) é também conhecida como função de log-

verossimilhança. Observemos que escrevemos na definição log mas, como na
maioria das situações práticas utiliza-se ln, ou seja, utiliza-se o logaritmo
neperiano é este que será utilizado a seguir.
Teorema 4.5. Seja L(θ) a função de verossimilhança de alguma variável

aleatória e θb o estimador de máxima verossimilhança. O logaritmo da função
de verossimilhança satisfaz que
b = ℓ(θ)·
L(θ) b
Demonstração. A função logaritmo é contı́nua e crescente logo, se θ1 < θ2 e

L(θ1 ) ≤ L(θ2 ) temos que ℓ(θ1 ) ≤ ℓ(θ2 ) e vice-versa. Então, se θb maximiza a
função L, para qualquer outro valor de θ ̸= θb temos que L(θ) ≤ L(θ).b Então,
também acontece que ℓ(θ) b ≥ ℓ(θ).
Exemplo 4.10. Seja X1 , · · · , Xn uma amostra aleatória da função de pro-

babilidade P oisson(θ), com média θ > 0. Como visto em (4.5), a função de
verossimilhança é da forma
n
∏ e−θ θxi
L(θ) =
i=1
xi !
e o logaritmo da função de verossimilhança ou log-verossimilhança é

n
∑ n
∑
ℓ(θ) = −nθ + ln(θ) xi − ln(xi !)·
i=1 i=1
∑n
Assumindo que i=1 xi > 0 e tomando derivada com relação a θ, encon-
tramos que
n
∂ 1∑
ℓ(θ) = −n + xi
∂θ θ i=1
e, avaliando em θb quando a derivada é zero, temos

n
∂
1∑
ℓ(θ) = −n + xi = 0,
∂θ θ=θb θb i=1
do qual sugere-se que x seja o valor de θb na amostra x1 , · · · , xn . Para veri-

ficar se este é realmente um máximo, note que
∂2 n
2
ℓ(θ) = − 2 x < 0,
∂θ θ
que é sempre negativo. Então x maximiza a função de verossimilhança, dada
uma amostra x∑ 1 , · · · , xn . e o estimador
∑n de máxima verossimilhança de θ é
n
X, desde que i=1 Xi > 0. Caso i=1 Xi = 0, estritamente falando, não
existe o estimador de máxima verossimilhança dado que ℓ(θ) = −nθ não têm
ponto de máximo no intervalo (0, ∞).
Devemos esclarecer que o estimador de máxima verossimilhança pode

não ser único e inclusive pode não existir, embora na maioria das situações
exista e é único. Uma função auxiliar que aparece naturalmente no processo
de obtenção do estimador de máxima verossimilhança é a chamada função
escoe, definida a seguir.
Definição 4.5. Seja ℓ(θ) a função de log-verossimilhança para algum modelo

estatı́stico. A função escore é definida por
∂
U (θ) = ℓ(θ)· (4.7)
∂θ
Observemos que esta é uma função vetorial, com a mesma dimensão do

vetor de parâmetros Θ.
Exemplo 4.11. No Exemplo 4.10 a função escore é
n
1∑
U (θ) = −n + xi ·
θ i=1
Teorema 4.6. Seja U a função escore para algum modelo estatı́stico satis-
fazendo as condições de regularidade do Teorema 3.11. Então,
E[ U (θ)] = 0·
Demonstração. Consideraremos o caso contı́nuo.

∫ [ ] ∫ [ ]
∂ ∂
E[ U(θ)] = ℓ(θ) fX (x; θ) dx = log fX (x; θ) fX (x; θ) dx
Ω ∂θ ˜ ˜ ∂θ ˜ ˜ ˜ ˜ ˜
[˜
Ω
∫ ]
1 ∂
= fX (x; θ) fX (x; θ) dx
Ω fX (x; θ) ∂θ ˜ ˜ ˜ ˜ ˜
∫ ˜ ˜ ∫
∂ ∂
= fX (x; θ) dx = f (x; θ) dx = 0·
Ω ∂θ ˜ ˜ ˜ ∂θ Ω X ˜ ˜ ˜
Exemplo 4.12. Continuando no Exemplo 4.10 a esperança da função escore

é [ n ]
1 ∑ 1
E[ U(θ)] = −n + E Xi = −n + nθ = 0·
θ i=1
θ
Método de Newton-Raphson
Lamentavelmente, nem todo modelo estatı́stico permite obtermos de ma-
neira analı́tica o estimador de máxima verossimilhança, em situações que
nem estas aparece uma utilidade muito importante da função escore: ser-
vir de inspiração para os métodos numéricos de obtenção de estimativas do
estimador de máxima verossimilhança.
Com este objetivo consideramos a expansão em série de Taylor de primeira
ordem da função escore, avaliada no estimador de máxima verossimilhança,
ao redor do ponto θ0 assumindo que θ0 esteja próximo do valor do parâmetro
que gerou a amostra. Então
b ≈ U(θ0 ) + ∂
U(θ) U (θ)(θb − θ0 )· (4.8)
∂θ
Denotemos por H a matriz Hessiana ou matriz de segundas derivadas da
log-verossimilhança, ou seja,
∂2 ∂ U (θ)
H(θ) = ⊤
log L(θ) = ·
∂θ∂θ ∂θ
Fazendo então a parte esquerda da equação em (4.8) igual a zero e resolvendo
para θ, obtemos a aproximação de primeira ordem
θb = θ0 − H −1 (θ0 ) U (θ0 )·
Este resultado fornece a base para uma abordagem iterativa para cal-
cular o estimador de máxima verossimilhança conhecida como a método de
Newton-Raphson. Dado um valor inicial, usamos a expressão em (4.8) para
obter uma estimativa melhorada e repetimos o processo até que as dife-
renças entre as estimativas sucessivas sejam suficientemente perto de zero
ou até que os elementos do vetor de primeiras derivados sejam suficiente-
mente perto de zero. Este procedimento tende a convergir rapidamente se
o log-verossimilhança é bem comportado, perto de função quadrática, em
uma vizinhança do máximo e se o valor de partida é razoavelmente perto da
estimativa de máxima verossimilhança.
Um procedimento alternativo, primeiro sugerido por Fisher, é substituir

menos o Hessiano por seu valor esperado, a matriz de informação. O processo
resultante toma como nossa estimativa melhorada
θb = θ0 + I −1 (θ0 ) U (θ0 )
e é conhecido como método Newton-Raphson-Fisher.
4.2.2 Propriedades do estimador

Devemos observar que, muitas vezes, a equação de verossimilhança ∂ℓ/∂θ = 0
pode ter mais do que uma raiz. Pode acontecer também que a função de ve-
rossimilhança não seja diferenciável em todo Θ ou ainda θb pode ser um valor
no extremo de Θ. Por vezes, a equação de verossimilhança pode ser bastante
complicada e difı́cil de resolver explicitamente. Nesse caso, podemos recor-
rer a algum procedimento numérico para obter a estimativa. Observações
semelhantes aplicam-se ao caso multiparâmetro.
Exemplo 4.13. Seja X1 , · · · , Xn uma amostra aleatória de tamanho n da

distribuição N (µ, σ 2 ), onde ambos parâmetros µ e σ 2 são desconhecidos. Aqui
Θ = {(µ, σ 2 ) : −∞ < µ∞, σ 2 > 0}·
A função de verossimilhança é
{ n
}
1 ∑ (xi − µ)2
L(µ, σ 2 ; x) = n exp − ,
˜ σ (2π)n/2 i=1
2σ 2
e n
n n ∑ (xi − µ)2
ℓ(µ, σ ) = ln L(µ, σ ; x) = ln(σ 2 ) − ln(2π) −
2 2
·
˜ 2 2 i=1
2σ 2
As equações de verossimilhança são
n
1 ∑
(xi − µ) = 0
σ 2 i=1
e n
n 1 1 ∑
− 2+ 4 (xi − µ)2 = 0·
2σ 2σ i=1
Resolvendo a primeira destas equações para µ temos ∑que b = X e, substi-

µ
n
tuindo na segunda equação obtemos que σ b = (1/n) i=1 (Xi − X)2 . Vemos
2
que (b b2 ) ∈ Θ com probabilidade 1.

µ, σ
Devemos mostrar agora que (b b2 ) maximiza a função de verossimi-
µ, σ
lhança. Primeiro notemos que x maximiza L(µ, σ 2 ; x) seja o que for σ 2 ,
˜
dado que L(µ, σ 2 ; x) → 0 quando |µ| → ∞ e nesse caso L(b µ, σ 2 ; x) → 0
˜ ˜
quando σ 2 → 0 ou ∞, sempre que (b b2 ) ∈ Θ.
µ, σ
Podemos considerar três situações para estudar as propriedades do es-

timar de máxima verossimilhança: propriedades gerais que independem do
tamanho da amostra, propriedades assintóticas e propriedades para n finito.
A estudo seguirá esta ordem.
Teorema 4.7. Seja T (X ) uma estatı́stica suficiente para a famı́lia de dis-

˜
tribuições {Fθ : θ ∈ Θ}. Se o estimador de máxima verossimilhança θb de θ
existe, então é uma função de T .
Demonstração. Dado que T é suficiente, então
fX (x; θ) = h(x)g(t; θ)·

˜ ˜
Se a função de densidade ou de probabilidade acima é derivável em relação ao
vetor de parâmetros, então o estimador de máxima verossimilhança é solução
de
∂ log[g(t; θ)]
= 0, j = 1, 2, · · · , p· (4.9)
∂θj
e qualquer solução não constante destas equações é função somente de t.
Observemos que se existirem as equações de verossimilhança e T é sufici-

ente, os estimadores de máxima verossimilhança são dados pela equação em
(4.9) e que cada solução não constante dessas equações é uma função que
depende de T .
Este teorema não afirma que o estimador de máxima verossimilhança seja
ele próprio uma estatı́stica suficiente, mesmo que usualmente este seja o caso.
Exemplo 4.14. Considere uma amostra aleatória X1 , · · · , Xn da distri-

buição U (θ, θ + 1), θ ∈ R. Então
{
1, se θ ≤ X(1) ≤ X(n) ≤ θ + 1
fX (x; θ) =
0, caso contrário
e segue que (X(1) , X(n) ) é uma estatı́stica conjuntamente suficiente para θ.
Qualquer valor de θ satisfazendo
X(n) − 1 ≤ θ ≤ X(1) ,
é um estimador de máxima verossimilhança para θ. Em particular, θb = X(1)

é um estimador de máxima verossimilhança para θ que não é suficiente.
Exemplo 4.15. Seja X1 , · · · , Xn uma amostra aleatória da variável aleatória
X ∼ Gama(α, 1/β), α > 0 e β > 0 ambos desconhecidos. A função de
verossimilhança é
n
( n
)
β nα ∏ α−1 ∑
L(α, β; x) = x exp −β xi
˜ [Γ(α)]n i=1 i i=1
caso todos os xi ≥ 0 e zero em caso contrário. Então

n
∑ n
∑
ℓ(α, β) = nα log(β) − n log[Γ(α)] + (α − 1) log(xi ) − β xi ,
i=1 i=1
Assim,
n
∂ℓ(α, β) nα ∑
= − xi ,
∂β β i=1
n
∂ℓ(α, β) Γ′ (α) ∑
= n log(β) − n + log(xi )·
∂α Γ(α) i=1
Da primeira derivada formamos uma primeira equação de verossimilhança
b )=α
da qual obtemos que β(x b/x, enquanto da segunda derivada temos que
˜

(α) ∑ Γ′ (α)
n
n log + log(xi ) − n = 0,
x i=1
Γ(α)
α=b
α
ou n
Γ′ (b
α) 1∑
α) −
log(b = log(x) − log(xi ),
Γ(b α) n i=1
que deve ser resolvido para α b. Neste caso, a equação de verossimilhança não
é de fácil solução e é necessário recorrer a métodos numéricos.
Vimos que o estimador de máxima verossimilhança pode não ser único,

embora frequentemente eles são. Além disso, eles não são necessariamente
não viciados mesmo se existir um único estimador de máxima verossimi-
lhança. Em termos de erro quadrático médio, um estimador de máxima
verossimilhança pode ser inútil. Além disso, o estimador de máxima verossi-
milhança pode mesmo não existir.
Exemplo 4.16. Seja X1 , · · · , Xn uma amostra aleatória Bernoulli(θ), com

θ ∈ (0, 1). Caso o vetor (0, · · · , 0) seja observado, x = 0 é o estimador
de máxima verossimilhança, o qual assume um valor não admissı́vel para θ.
O mesmo acontece se o vetor de observações fosse (1, · · · , 1). Consequente-
mente, o estimador de máxima verossimilhança não existe.
O resultado a seguir estabelece uma condição suficiente para a unicidade

do estimador de máxima verossimilhança.
Teorema 4.8. Suponha que as condições de regularidade do Teorema 3.11

sejam satisfeitas e que o parâmetro assuma valores num intervalo real aberto.
Se a variância do estimador θb de θ atinge o limite inferior das variâncias dos
estimadores de θ, então a equação de verossimilhança possui como solução
única θb a qual maximiza a função de verossimilhança.
Demonstração. Se θb atinge a limite inferior da desigualdade do Teorema 3.11,

temos que
∂ log fX (X ; θ)
˜ 1 b
= [θ − θ]
∂θ K(θ)
b
com probabilidade 1 e a equação de verossimilhança tem solução única θ = θ.
Vamos escrever A(θ) = [K(θ)]−1 . Então
∂ 2 log fX (X ; θ)
˜ = A′ (θ)(θb − θ) − A(θ),
∂ 2
de maneira que
∂ 2 log fX (X ; θ)
˜ = −A(θ)·
∂ 2

θ=θb
Somente precisamos provar que A(θ) > 0. Mas

 2
∂ log fX (X ; θ)
A(θ) = Eθ  ˜  ,
∂θ
o qual completa a demonstração.
Se as condições deste teorema são satisfeitas o estimador de máxima ve-

rossimilhança é necessariamente eficiente. Isto não significa, no entanto, que
todo estimador de máxima verossimilhança seja eficiente. Por exemplo, numa
amostra normal
n
2 1∑
b =
σ (Xi − X)2
n i=1
é o estimador de máxima verossimilhança de σ b2 , mas não é eficiente, já que

Var(b σ 2 ) = 2(n − 1)σ 2 /n2 , que não é igual ao limite inferior 2σ 4 /n. Observe
que, inclusive, σ b2 é um estimador viciado.
Exemplo 4.17. Vamos considerar uma amostra aleatória X1 , · · · , Xn com

função de probabilidade

 1, k = 1, 2, · · · , N
P (x; N ) = N ·

0, caso contrário
A função de verossimilhança é então


 1 , 1 ≤ x(n) ≤ N
L(N ; x) = Nn ·
˜ 
0, caso contrário
É claro que o estimador de máxima verossimilhança de N é dado por
b (X1 , · · · , Xn ) = X(n) ,
N
isto devido a que se escolhermos qualquer α b<N b como estimador de máxima

b) = 0 e caso escolhermos qualquer βb > N
verossimilhança, então P (x; α b como
˜
estimador de máxima verossimilhança, então
b = 1 < 1 = P (x; N
P (x; β) b )·
˜ βbn bn
N ˜
Vemos que o estimador de máxima verossimilhança de N é consistente,

suficiente e completo, mas não não viciado.
A seguinte propriedade é uma caracterı́stica importante dos estimadores

de máxima verossimilhança, que não é uma caracterı́stica dos estimadores não
viciados. A propriedade aludida é conhecida como o princı́pio da invariância
do estimador de máxima verossimilhança, está enunciada no seguinte Teo-
rema e a demonstração aqui apresentada deve-se a Zehna (1966).
Teorema 4.9. Seja {Fθ : θ ∈ Θ} uma famı́lia de funções de distribuição e

L(θ) a função de verossimilhança. Suponhamos que Θ ∈ Rk , k ≥ 1. Seja
h : Θ → Λ uma função de Θ em Λ, onde Λ é um intervalo em Rp , 1 ≤ p ≤ k.
Se θb é o estimador de máxima verossimilhança de θ, então h(θ)
b é o estimador
de máxima verossimilhança de h(θ).
Demonstração. Para cada λ ∈ Λ, definamos
Θλ = {θ : θ ∈ Θ, h(θ) = λ}
e
M (λ; x) = sup L(θ; x)·
˜ θ∈Θλ ˜
Então, M definido em Λ é chamado de função de verossimilhança induzida
por h. Se θb é algum estimador de máxima verossimilhança de θ, então θb
pertence a um, e somente um conjunto, digamos Θ1 .
b = h(θ).
Devido a que θb ∈ Θλ , λ b Agora
b x) = sup L(θ; x) ≥ L(θ;

M (λ; b x)
˜ θ∈Θλ ˜ ˜
b maximiza M , dado que

eλ
b x) ≤ sup M (λ; x) = sup L(θ; x) = L(θ;
M (λ; b x),
˜ λ∈Λ ˜ θ∈Θ ˜ ˜
temos que
b x) = sup M (λ; x)·
M (λ;
˜ λ∈Λ ˜
b é o estimador de máxima verossimilhança de h(θ), onde
Segue então que λ
b = h(θ).
λ b
Exemplo 4.18. Seja X ∼ Bernoulli(p), 0 ≤ p ≤ 1 e h(p) = p(1 − p).
Queremos encontrar o estimador de máxima verossimilhança de h(p). Ob-
servemos que Λ = [0, 1/4] e que a função h não é biunı́voca. O estimador de
máxima verossimilhança de p com base numa amostra aleatória de tamanho
n é pb(X ) = X. Então, o estimador de máxima verossimilhança de h(p) é
˜
h(X) = X(1 − X).
Exemplo 4.19. Consideremos X ∼ Exponencial(λ) e queremos encontrar o
estimador de máxima verossimilhança de λ da seguinte maneira: uma amos-
tra de tamanho n é colhida e da qual somente é conhecido que k, 0 ≤ k ≤ n
destas observações são ≤ M , onde M é um número real positivo fixo.
Seja p = P (X1 ≤ M ) = 1−e−M/λ , de forma que −M/λ = log(1−p) e λ =
M/ log[1/(1 − p)]. Por isso, o estimador de máxima verossimilhança de λ é
M/ log[1/(1−b p)], sendo que pb é o estimador de máxima verossimilhança de p.
Calculemos agora pb. Para encontrar o estimador de máxima verossimilhança
de p escrevemos a função de verossimilhança como
L(p; x) = pp (1 − p)n−k ,
˜
de maneira que o estimador de máxima verossimilhança de p é pb = k/n.
Então o estimador de máxima verossimilhança de λ é
b= M
λ ·
log[n/(n − k)]
Consideremos agora importante propriedades dos estimadores de máxima
verossimilhança em amostras grandes. Nos seguintes resultados assumimos
que {fθ : θ ∈ Θ} é uma famı́lia de funções de probabilidade ou de densidade,
definidas num intervalo aberto Θ em R. As condições listadas abaixo foram
escritas no caso em que fθ é de funções de densidade. Modificações para o
caso em que fθ é de funções de probabilidade são óbvias.
(i) ∂ log fθ /∂θ, ∂ 2 log fθ /∂θ2 , ∂ 3 log fθ /∂θ3 existem para todo θ ∈ Θ e
todo x. Também,
∫ +∞ [ ]
∂fθ (x) ∂ log fθ (X)
dx = Eθ = 0, ∀θ ∈ Θ·
−∞ ∂θ ∂θ
(ii)
∫ +∞
∂ 2 fθ (x)
dx = 0, ∀θ ∈ Θ·
−∞ ∂θ2
(iii)
∫ +∞
∂ 2 log fθ (x)
fθ (x) dx < 0, ∀θ ∈ Θ·
−∞ ∂θ2
(iv) Existe uma função H(x) tal que, para todo θ ∈ Θ

3 ∫
∂ fθ (x) +∞
H(x)fθ (x) dx = M (θ) < ∞·
∂θ3 < H(x) e
−∞
(v) Existe uma função g(θ) que seja positiva e duas vezes diferenciável
para todo θ ∈ Θ e a função H(x) seja tal que, para todo θ ∈ Θ
2 [ ] ∫
∂ ∂fθ (x) +∞
H(x)fθ (x) dx < ∞·
∂θ2 g(θ) ∂θ < H(x) e
−∞
Observemos que a condição (v) é equivalente a condição (iv) no caso

g(θ) = 1.
Teorema 4.10. Seja θbn o estimador de máxima verossimilhança do

parâmetro θ. Então,
(a) As condições (i), (ii) e (iv) implicam que, com probabilidade

aproximando-se de 1, quando n → ∞, a equação de verossimilhança
tem solução consistente.
(b) As condições (i) até (iv) implicam que a solução consistente θbn da
equação de verossimilhança é assintoticamente normal, isto é,
1√ b D
n(θn − θ) −→ Z,
σ
onde Z ∼ N ormal(0, 1) e
1
σ2 = [ ]2 ·
∂ log fθ (X)
Eθ
∂θ
Demonstração. Ver em Cramér (1946a).

Em ocasiões encontramos exemplos nos quais as condições do Teorema
4.10 não são satisfeitas e, mesmo assim, a solução da equação de verossimi-
lhança é consistente e assintoticamente normal.
Exemplo 4.20. Seja X ∼ N (0, θ), θ > 0. Seja X1 , · · · , Xn uma amostra
aleatória
∑ de X de tamanho n. A solução da equação de verossimilhança é
θbn = ni=1 Xi2 /n. Também temos que E(X) = 0, Var(X 2 ) = 2θ2 e
[ ]2
∂ log fθ (X) 1
Eθ = 2·
∂θ 2θ
q.c.
Observamos que θbn −→ θ e que
∑n
√ √ X 2 − nθ D
n(θbn − θ) = 2θ i=1
√ i −→ N (0, 2θ2 )·
2nθ
No entanto,
∂ 3 log fθ (X) 1 3x2
= − + −→ ∞, quando θ → 0,
∂θ3 θ3 θ4
a qual não é limitada em 0 < θ < ∞. Então, a condição (iv) não se satisfaz.
O seguinte teorema cobre também tais casos.
Teorema 4.11. Seja θbn o estimador de máxima verossimilhança do

parâmetro θ. Então,
(a) As condições (i), (iii) e (iv) implicam que, com probabilidade

aproximando-se de 1, quando n → ∞, a equação de verossimilhança
tem solução.
(b) As condições (i), (ii), (iii) e (v) implicam que a solução consistente da
equação de verossimilhança é assintoticamente normal.
Demonstração. Ver em Kulldorf (1957).

É importante notar que os resultados nos Teoremas 4.10 e 4.11 estabe-
lecem a consistência de alguma raiz da equação verossimilhança, mas não
necessariamente do estimador de máxima verossimilhança quando a equação
verossimilhança tem várias raı́zes. Huzurbazar (1948) mostrou que, sob cer-
tas condições, a função de verossimilhança tem pelo menos uma solução con-
sistente e que a função de verossimilhança tem um máximo relativo para tal
solução.
Desde que podem haver várias soluções para o qual a função de veros-
similhança tem máximos relativos, os resultados de Cramér e Huzurbazar
não implica que uma solução da equação de verossimilhança de que faz ter
a função de verossimilhança um máximo absoluto é necessariamente consis-
tente.
Em qualquer caso, se o estimador de máxima verossimilhança é a única
solução da equação a verossimilhança, podemos usar os Teoremas 4.10 e
4.11 para concluir que é consistente e assintoticamente normal. Note-se que
a variância assintótica é a mesma que o limite inferior da desigualdade de
Fréchet-Cramér-Rao.
Exemplo 4.21. Seja X1 , · · · , Xn uma amostra aleatória P oisson(λ), λ ∈

Θ = (0, ∞). A equação de verossimilhança tem solução única dada por
b ) = x, a qual maximiza a função de verossimilhança. Pode ser verifi-
λ(x
˜
cado que as condições do Teorema 4.10 são satisfeitas e que o estimador
de máxima verossimilhança X é consistente e assintoticamente normal com
média λ e variância λ/n.
Por que o estimador de máxima verossimilhança faz sentido? Por sim-

plicidade, suponha que X1 , · · · , Xn sejam variáveis aleatórias independentes
e igualmente distribuı́das com densidade ou função de probabilidade f0 (x) e
função de distribuição F0 (x). Para qualquer outra função de densidade ou de
probabilidade f (x), podemos definir a informação de Kullback-Leibler como
 
ln f0 (X )
K(f, f0 ) = E0  ˜ , (4.10)
ln f (X )
˜
em que o valor esperado é calculada assumindo que f0 (x) é a verdadeira
função de densidade ou de probabilidade de X = (X1 , · · · , Xn ). K(f, f0 )
˜
pode ser interpretado como a medida da distância para a verdadeira função
de densidade f0 de alguma outra função de densidade f ; é fácil ver que
K(f0 , f0 ) = 0
e que, dado que − ln(x) é uma função convexa, segue da desigualdade de
Jensen que  
ln f (X )
K(f ; f0 ) = − E0  ˜ 
ln f0 (X )
 ˜ 
f (X )
≥ − ln E0  ˜ 
f0 (X )
˜
= 0·
Assim, ao longo de todas as funções de densidade f , K(f, f0 ) é minimi-
zada, para um dado f0 , em f = f0 . Além disso, a menos que f (x) = f0 (x)
para todos os x, K(f, f0 ) > 0. K(f, f0 ) também pode ser interpretado como
o ineficiência em assumir que a função de densidade é f quando a função
densidade real é f0 . Vamos agora usar esses fatos para racionalizar acerca do
estimador de máxima verossimilhança no caso de observações independentes
e igualmente distribuı́das.
Desde que
K(f, f0 ) = − E0 (ln f (X )) + E0 (ln f0 (X ))
˜ ˜
podemos ver que, para f0 fixo,
L(f, f0 ) = E0 (ln f (X ))
˜
é maximizado sobre todos f quando em f = f0 . Isto sugere o seguinte método

para estimar a função de densidade f0 a partir das observações:
(a) Para cada f em uma determinada famı́lia de densidades F , estimar

L(f, f0 ) utilizando o estimador de momentos
∑ n
b f0 ) = 1
L(f, ln f (Xi )
n i=1
(b) Encontrar f que maximize L(f, f0 ).
b f0 ) é simplesmente a função de
Se F = {f (x; θ) : θ ∈ Θ}, então nL(f,
log-verossimilhança. Assim o estimador de máxima verossimilhança pode
ser interpretado como aquele cuja densidade mais se aproxima da verdadeira
densidade que gerou a amostra.
4.2.3 Correções para o vı́cio em amostra pequenas

Podemos concluir que o estimador de máxima verossimilhança é de relati-
vamente fácil obtenção na maioria das situações práticas, seja obtendo-se
a expressão analı́tica ou numericamente. Das propriedades dos estimadores
mencionadas no Capı́tulo 3 os estimadores de máxima verossimilhança satis-
fazem diversas delas, no entanto em geral são viciados em amostras pequenas.
Diversos esforços tem sido dedicados para corrigir esta deficiência de maneira
geral, como em Bartlett (1955) e Cordeiro (1987).
Nos dedicaremos aqui a estudar os resultados gerais e algumas das aplica-
ções dos métodos desenvolvidos para corrigir o vı́cio do estimador de máxima
verossimilhança. Primeiramente conheceremos a notação utilizada. Assumi-
remos que o vetor de parâmetros ϑ é de dimensão p, logo, podemos escrever
ϑ = (ϑ1 , ϑ2 , · · · , ϑp ).
As derivadas do logaritmo da função de verossimilhança com relação às
componentes do vetor de parâmetros são denotadas por
∂ℓ(ϑ) ∂ 2 ℓ(ϑ)
ℓr (ϑ) = , ℓrs (ϑ) = ,···
∂ϑr ∂ϑr ϑs
Definição 4.6. Os cumulantes de derivadas do logaritmo da função de ve-

rossimilhança são denotados pela grega λ e definidos como
λr = E[ℓr (ϑ)], λrs = E[ℓrs (ϑ)], λrst = E[ℓrst (ϑ)], · · · , λr,s = E[ℓr (ϑ)ℓs (ϑ)],
e assumiremos que λr , λrs , λrst , etc. são funções de ordem O(n). Derivadas
de cumulantes são amplamente utilizadas e definidas como
∂λrs ∂λrst ∂ 2 λrs

λrs/t = , λrst/u = , λrs/tu = ,···
∂ϑt ∂ϑu ∂ϑt ∂ϑu
as quais também assumiremos que sejam funções de ordem O(n).
Nesta definição assumimos que tanto os cumulantes quanto as derivadas

destes são funções de ordem O(n), a qual é uma suposição condizente com a
literatura especializada DiCiccio & Stern (1994); DiCiccio, Martin, Stern &
Young (1996); McCullagh & Tibshirani (1990). O seguinte exemplo mostra
como calcular os cumulantes.
Exemplo 4.22. Seja X1 , · · · , Xn uma amostra aleatória normal de parâmetros
µ e σ 2 , isto é, o vetor de parâmetros é ϑ = (µ, σ 2 ). O logaritmo da função
de verossimilhança é da forma
∏n { [ ]}
1 (xi − µ)2
ℓ(ϑ) = log √ exp −
i=1 2πσ 2 2σ 2
n
n n 1 ∑
= − log(2π) − log(σ 2 ) − 2 (xi − µ)2 ·
2 2 2σ i=1
As primeiras derivadas de ℓ(ϑ) em relação às componentes do vetor de parâ-

metros são
∂ℓ(ϑ) ∂ℓ(ϑ) ∂ 2 ℓ(ϑ)
ℓ1 (ϑ) = , ℓ2 (ϑ) = e ℓ12 (ϑ) =
∂µ ∂σ 2 ∂µ∂σ 2
obtendo-se que
n
n n 1 ∑
ℓ1 (ϑ) = 2 (x − µ), ℓ2 (ϑ) = − 2 + 4 (xi − µ)2
σ 2σ 2σ i=1
e
n
ℓ12 (ϑ) = ℓ21 (ϑ) = − (x − µ)·
σ2
Depois de numerosos trabalhos Lawley (1956) demonstrou que, para cada
componente do vetor de parâmetros, vale a seguinte expansão
1
ϑbr − ϑr = −λrs ℓs + λrs λtu ℓst ℓu − λrs λtv λuw λstu ℓu ℓw + OP (n−3/2 ),
2
desde que a famı́lia de densidades ou de probabilidades satisfaça as condições
de regularidade. Nesta expressão ...
Isto significa que, embora na maioria das situações o estimador de máxima
verossimilhança é um estimador viciado do vetor de parâmetros de interesse,
a diferença entre a estimativa de máxima verossimilhança e o verdadeiro valor
do parâmetro diminuem conforme a amostra cresce. Por este motivo, se a
amostra não pode ser aumentada e, mesmo assim, necessitamos de resultados
fidedignos, utilizamos estes resultados para corrigir o vı́cio.
Exemplo 4.23 (Continuação do Exemplo 4.22). O estimador de máxima
verossimilhança corrigido para a variância é da forma
( )
2 2 2 2 1
bc = σ
σ b − λσ σ λµµ λσ2 µ/µ − λσ2 µµ ,
2
isto devido a que nas outras possı́veis situações os termos anulam-se. Subs-
tituindo as expressões correspondentes aos cumulantes obtemos que
n+1 2
bc2 =
σ b ·
σ (4.11)
n
A Figura 4.3 mostra claramente a vantagem de utilizar estimadores cor-
rigidos. A linha contı́nua preta representa as médias das estimativas do
estimador da variância, ou seja, o estimador sem correções. Por outro lado,
a linha descontı́nua vermelha representa o valor médio obtido com o estima-
dor de máxima verossimilhança corrigido. Para gerar esta figura simulamos,
para cada valor de n, hum mil amostras da distribuição N (0, 9), calculamos
b2 e σ
as estimativas σ bc2 (expressão em (4.11))e as médias das estimativas para
cada tamanho de amostra foram representadas.
Observamos nesta figura o comportamento clássico do estimador
∑ de má-
xima verossimilhança, ou seja, podemos observar que σ b2 = n1 ni=1 (xi − x)2
subestima o parâmetro e somente quando aumenta o tamanho da mostra
9.5
9.0
8.5
σ2
8.0
7.5
7.0
5 10 15 20 25
n
Figura 4.3: Estimativas corrigida e não corrigidas do estimador de máxima

verossimilhança da variância em amostras normais.
começa aproximar-se do verdadeiro valor de σ 2 . Por outro lado, as estima-

tivas obtidas com o estimador corrigido tendem sempre a ficar próximas do
valor do parâmetro.
O gráfico na Figura 4.3 foi gerados utilizando as linhas de comandos
n = seq(5, 25, by=1)

set.seed(7420)
sigma1 = rep(0, 21);sigma2 = rep(0, 21)
sigmas1 = sigmas2 = rep(0, 1000)
for(i in 1:21){
for(j in 1:1000) {amostras = rnorm(n[i], mean=0, sd=3);
sigmas1[j] = (n[i]-1)*var(amostras)/n[i];
sigmas2[j] = (n[i]+1)*sigmas1[j]/n[i]}
sigma1[i] = mean(sigmas1); sigma2[i] = mean(sigmas2)
}
para gerar as diferentes amostras e estimativas da variância e para gerar o

gráfico utilizamos os comandos R
par(mar=c(5,5,3,3), cex=0.7, pch=19)

plot(n, sigma2, type=’b’, col="black", ylim=c(7,9.5), lwd=2,
ylab=expression(paste(widehat(sigma)^2)))
lines(n, sigma1, type="b", col="red", lty=2, lwd=2)
abline(h=9)
4.2.4 Verossimilhança perfilada

Num determinado modelo estatı́stico podemos estar interessados somente em
parte do vetor de parâmetros e não no vetor completo ϑ. Especificamente,
se o vetor de parâmetros completo ϑ pode ser decomposto como ϑ = (ψ, ζ)
e nos interessa estimar e inferir acerca de valores de ψ, chamaremos ψ de
vetor de parâmetros de interesse e ao vetor ζ de parâmetros de perturbação.
Em situações como estas é possı́vel, por diferentes metodologias, construir
uma função que dependa somente de ψ e que possamos utilizar para reali-
zar inferências acerca de ψ. Estas funções são conhecidas como funções de
pseudo-verossimilhança.
Diversas destas funções têm sido consideradas na literatura e muitos es-
forços dedicados a uma delas, a função de verossimilhança perfilada. Deve-
mos ressaltar que esta função somente tem sentido quando parte do vetor de
parâmetros que define o modelo estatı́stico em estudo é considerado como de
perturbação.
Definição 4.7. Define-se o logaritmo da função de verossimilhança perfilada

para ψ como
ℓP (ψ) = max ℓ(ϑ),
ζ
sendo que o máximo é obtido em todo o espaço paramétrico Ω fixando um

valor de ψ.
Observemos que o processo de maximização ao qual faz referência a de-

b
finição anterior é realizado quando obtemos ζ(ψ). Desta forma a função de
verossimilhança perfilada pode ser definida como
b
ℓP (ψ) = ℓ(ψ, ζ(ψ))·
Provavelmente a obtenção por William S. Gosset em 1908 da distribuição
amostral da média, num modelo normal, quando a variância é desconhe-
cida, que ficou conhecida como distribuição t-Student, seja um dos primeiros
exemplos da função de verossimilhança perfilada. Outros estudos famosos
são, por exemplo, a obtenção por Ronald A. Fisher em 1915 da distribuição
do coeficiente de correlação amostral no modelo normal bivariado, a obtenção
por John Wishart em 1928 da distribuição que detém seu nome e algumas
soluções para o problema de Behrens-Fisher (Anderson, 1958; Rao, 1973).
Exemplo 4.24. Sejam X1 , X2 , · · · , Xn variáveis aleatórias independentes

cada com distribuição N (µ, σ 2 ). O logaritmo da função de verossimilhança
para o vetor completo ϑ = (µ, σ 2 ) é
n
n n 2 1 ∑
ℓ(ϑ) = − log(2π) − log(σ ) − 2 (xi − µ)2 · (4.12)
2 2 2σ i=1
Suponhamos que somente nos interessa o parâmetro µ e que, logicamente,

2
σ é o parâmetro de perturbação. O estimador de máxima verossimilhança
de σ 2 para um valor fixo de µ é obtido maximizando ℓ(ϑ) em relação a σ 2 .
Para isto encontramos
n
∂ℓ(ϑ) n 1 ∑
2
= − 2
+ 4
(xi − µ)2 ,
∂σ 2σ 2σ i=1
e da equação de verossimilhança (lembrando que µ é supostamente conhecido)

∂ℓ(ϑ)
= 0,
∂σ 2 σ2 =bσ2
obtemos que
n
2 1∑
b (µ) =
σ (xi − µ)2 ·
n i=1
Substituindo este estimador na expressão de ℓ(ϑ), obtemos a verossimilhança

perfilada para o parâmetro de interesse µ
n n [ 2 ] n
ℓP (µ) = − log(2π) − log σ
b (µ) − · (4.13)
2 2 2
Mostramos na Figura 4.4 o comportamento das funções de verossimi-
lhança (4.12) e verossimilhança perfilada (4.13) obtidas no Exemplo 4.24.
Para obter estas funções geramos uma amostra de tamanho 20 da distri-
buição normal de média 3 e variância 4. Observe que o ponto de máximo
de ambas funções coincide e é aproximadamente igual à média populaci-
onal. Posteriormente, na expressão da função de verossimilhança (4.12),
substituı́mos o parâmetro de perturbação σ 2 pelo seu estimador de máxima
verossimilhança. Podemos concluir que ℓP (µ) é uma função mais suave do
que ℓ(µ) e que ambas devem fornecer as mesmas estimativas.
(a) Visão global (b) Visão reduzida

−100 −50
−40
−60
−200
−80
−300
−100
−5 0 5 10 −5 0 5 10
µ µ
Figura 4.4: Funções de verossimilhança e verossimilhança perfilada.
Propriedade da verossimilhança perfilada

Discutimos agora algumas propriedades da função de verossimilhança perfi-
lada. Neste sentido, primeiramente provaremos que os máximos das funções
ℓP (ψ) e ℓ(ϑ) coincidem.
Suponhamos que ψbP maximiza ℓP (ψ). Temos então
ℓP (ψbP ) ≥ ℓP (ψ) ≥ ℓ(ψ, ζ),
e, dado que, ϑb = (ψ,

b ζ)
b é tal que
b ζ)
ℓ(ψ, b = max ℓ(ψ, ζ),
ψ,ζ
então
ℓP (ψbP ) ≥ ℓ(ψ,
b ζ)·
b
Por outro lado, como ϑb é o máximo absoluto de ℓ(ϑ) no espaço pa-

ramétrico Ω,
b ζ)
ℓ(ψ, b ≥ ℓP (ψbP ),
já que ψbP é o máximo em um subespaço de Ω. Desta forma obtemos que os

pontos ℓP (ψ) e ℓ(ϑ) coincidem.
A matriz de informação observada perfilada de ψ, jP (ψ) é definida de
forma análoga à matriz de informação observada do vetor completo j(ϑ), ou
seja,
∂ 2 ℓP (ψ)
jP (ψ) = − ·
∂ψ∂ψ⊤
Supondo a matriz j(ϑ) particionada segundo a partição (ψ, ζ), temos

( )
jψψ jψζ
j(ψ, ζ) =
jψζ jζζ
onde jψψ = −∂ℓ(ϑ)/∂ψ∂ψ ⊤ , jψζ = −∂ℓ(ϑ)/∂ψ∂ζ ⊤ e jζζ = −∂ℓ(ϑ)/∂ζ∂ζ ⊤ .

b ζ)
Pode-se provar que jP (ψ) = jψψ , esta avaliada em (ψ, b e, por resultados
assintóticos, isto nos permitirá calcular a matriz de covariância assintótica
estimada de ψ como jP (ψ)−1 . Salientemos a vantagem operacional deste
cálculo, pois invertemos uma matriz de ordem inferior à dimensão do vetor de
parâmetros completo, enquanto o seu cálculo através da matriz de informação
j(ϑ) envolve a inversão de uma matriz de ordem superior. Esta vantagem
?e apreciável quando o modelo apresenta muitos parâmetros de perturbação.
Estas propriedades constituem vantagens da utilização da função ℓP (ψ), a
qual poderá ser utilizada como qualquer outra verossimilhança, desfrutando
por isso de uma irrestrita aplicabilidade, fundamentalmente em problemas
com parâmetros de perturbação.
Infelizmente ela não usufrui de todas as propriedades de uma verossimi-
lhança genuı́na. A função escore perfilada
∂
UP (ψ) = − ℓP (ψ),
∂ψ
é, em geral viciada, ou seja
E [UP (ψ)] ̸= 0·
O fato da esperança da função escore perfilada não ser zero é chamado de

vı́cio da esperança.
Pode ocorrer também um vı́cio na informação, ou seja,
[ ] [ ]
E UP (ψ)UP⊤ (ψ) ̸= − E ∂UP (ψ)/∂ψ t op ·
Por estes motivos se faz necessário ajustar a função de verossimilhança

perfilada ou a função escore perfilada considerando modelos gerais, veja deta-
lhes em Fraser (1989); McCullagh & Tibshirani (1990); Stern (1997); DiCiccio
& Stern (1994); DiCiccio et al. (1996); Lucambio (2003).
Uma das formas mas simples de aperfeiçoar a função de verossimilhança
perfilada é dada a seguir.
Definição 4.8. Define-se o logaritmo da função de verossimilhança perfilada

ajustada Barndorff-Nielsen (1986) como
1
b
ℓP (ψ) = ℓP (ψ) − log jζζ (ψ, ζ(ψ)) ·
2
O objetivo da função de ajuste é corrigir o vı́cio da esperança, de maneira

que a função de verossimilhança perfilada ajustada satisfaz
E[U P (ψ)] = O(n−1 ),
e desta forma, se este vı́cio não é eliminado, pelo menos é reduzido até uma
ordem aceitável.
Exemplo 4.25. No exemplo 4.22 foi obtida a forma do logaritmo da função
de verossimilhança no caso de X1 , X2 , · · · , Xn variáveis aleatórias N (µ, σ 2 ).
Consideraremos como parâmetro de interesse σ 2 e de perturbação µ. O loga-
ritmo da função de verossimilhança perfilada ?e
n
2 n n 2 1 ∑
ℓP (σ ) = − log(2π) − log(σ ) − 2 b)2 ,
(xi − µ
2 2 2σ i=1
b = X, da qual obtemos a função escore perfilada da variância como

sendo µ
n
2 n 1 ∑
UP (σ ) = − 2 + 4 (xi − x)2 ·
2σ 2σ i=1
A esperança desta função é

[ n
]
n 1 ∑
E[U P (ψ)] = E − 2 + 4 (Xi − X)2
2σ 2σ i=1
n 1
= − 2 + 2 E[χ2 (n − 1)]
2σ 2σ
n n−1 n
= − 2+ 2
= − 2,
2σ σ 2σ
∑n
é nula. Utilizamos aqui que i=1 (Xi − X)2 ∼ σ 2 χ2 (n − 1), o qual
a qual não ∑
implica E[ ni=1 (Xi − X)2 ] = σ 2 (n − 1).
A matriz de informação observada é

 n

n 1 ∑ n
 4− 6 (xi − µ)2 − 4 (x − µ)
2 
j(σ , µ) =  2σ σ σ 
n
i=1
n 
− 4 (x − µ) − 2
σ σ
obtendo-se que
n n 1 ∑
n
1 n
2 2
ℓP (σ ) = − log(2π) − log(σ ) − 2 (xi − x)2 − log − 2 ·
2 2 2σ i=1 2 σ
Desta expressão temos que

n
∂ 2 n 2 1 ∑ 1
2
ℓP (σ ) = − log(σ ) + 4 (xi − x)2 + 2 ,
∂σ 2 2σ i=1 2σ
e o estimador de máxima verossimilhança perfilado ajustado da variância é

n
1 ∑
bP2
σ = (xi − x)2
n − 1 i=1
o qual sabemos é não viciado.
4.3 Estimadores da função de densidade

A função de densidade é um conceito fundamental em Estatı́stica. Define-se
como uma função real mensurável e não-negativa satisfazendo
∫ +∞
f (x; θ)dx = 1·
−∞
A partir de 1956 os métodos de estimação de funções de densidade não pa-

ramétricos tem-se consolidado como uma alternativa sofisticada ao trata-
mento tradicional de estudar conjuntos de dados. Esta alternativa baseia-se
na possibilidade de analisar os dados sem assumir um comportamento dis-
tribucional especı́fico.
A necessidade de utilizar estimadores da função de densidade aparece em
situações tais como:
4.3. ESTIMADORES DA FUNÇÃO DE DENSIDADE 227
1. Análise Exploratória, onde descrevem-se aspectos como multimodali-

dade, cauda, assimetria. Isto devido ao gráfico da densidade estimada
resumir convenientemente a informação relativa à forma da distribuição
da amostra.
2. Análise Confirmatória, para a tomada de decisões através de diferen-
tes métodos, como análise discriminante não paramétrica, análise de
clusters, testes para a moda, etc.
Tempo de duração das erupções do geyser Old Faithful, no parque naci-
onal Yellowstone, Wyoming, USA.
Histogram of x
60
Frequency
40
20
0
2 3 4 5
4.3.1 Estimador kernel (núcleo)

Estes estimadores foram propostos por Rosenblatt em 1956, posteriormente
generalizado por Parzen em 1962 e, desde então, também conhecidos como
estimadores Rosenblatt-Parzen.
Definamos o estimador kernel de densidades como
∑n ( )
1 x − x
fen (x) =
i
K ,
nh i=1 h
onde x1 , x2 , . . . , xn são os pontos amostrais.
A proposta de Parzen foi utilizar as funções K(·), chamadas de funções
kernel ou núcleo, exigindo que sejam reais, positivas, deriváveis e de inte-
gral 1. O parâmetro h exige-se somente que seja positivo e é chamado de
parâmetro de alisamento.
Considerando o parâmetro de alisamento h como dependente do tamanho

da amostra n, isto é, considerando h = hn e tal que limn→∞ hn = 0, temos
que
Suponhamos que a função núcleo K satisfaz que
lim xK(x) = 0.
n→∞
A esperança do estimador fen (x) é

∫ +∞ ( )
e 1 y
E(fn (x)) = K f (x − y)dy,
hn −∞ hn
e portanto
lim E(fen (x)) = f (x)·
n→∞
Se a função kernel é limitada e de quadrado integrável. Neste caso o

estimador kernel da função de densidade tem variância satisfazendo
∫ +∞
e
lim nhn Var(fn (x)) = f (x) K 2 (y) dy·
n→∞ −∞
Para que o estimador de Rosenblatt-Parzen seja consistente exigiremos

que nhn → ∞ quando n → ∞. Nessa situação
lim Var(fen (x)) = 0·

n→∞
Observemos que para garantir boas propriedades destes estimadores a

função núcleo deve ser além de real, positiva e de integral 1, deve ser limitada,
de quadrado integrável e tal que limn→∞ xK(x) = 0. Para o parâmetro
de alisamento exigimos depender do tamanho da amostra de maneira que
limn→∞ hn = 0 e limn→∞ nhn = +∞.
Diferentes funções núcleo e estimação do parâmetro de alisamento

Muito é conhecido acerca da relação entre a razão de convergência de fen (x)
para f e o grau de dependência do parâmetro h como função do tamanho da
amostra n. No entanto, para n fixo, o estimador fen (x) é sensı́vel à escolha de
h e não existe uma metodologia geral para a determinação deste parâmetro.
Diversos métodos de estimação de h estão disponı́veis: nrd0, nrd, sj, bcv
e ucv. Os dois primeiros são simples e baseiam-se na idéia de que a densidade
4.3. ESTIMADORES DA FUNÇÃO DE DENSIDADE 229
a ser estimada é muito parecidida à gaussiana. Os métodos sj, bcv e ucv são
mais complexos e serão os recomendados.
Denotemos por fen−1 i
(x) o estimador fen (x) calculado depois de eliminar a
i-ésima observação, isto é
∑ n ( )
1 x − x
fen−1 (x) =
i j
K ·
(n − 1)h j̸=i=1 h
Este estimador não depende de xi e fen−1 i

(x) pode ser escolhido como
medida apropriada da contribuição de xi ao valor de h: se fen−1
i
(x) for grande,
pode ser dito que fen−1 (x) antecipa a observação xi e que h é apropriado.
i
Valores pequenos de fen−1

i
(x) sugerem que a observação xi pode ser esquecida
e interpretá-la como evidência de que o valor de h é imprópio.
Variando i ao longo da amostra, obtemos n de tais medidas de ajuste que
então podem ser combinadas na expressão de verossimilhança
∏n
L(h) = fen−1
i
(x),
i=1
ou utilizar as fen−1
i
(x) numa espressão aproximada ao erro quadrático integral,
dada por
∫ +∞ n ∫ +∞
e 2 1 ∑ ei
EQIh ≈ fn (x) dx − 2 fn−1 (xi ) + f (x)2 dx.
−∞ n i=1 −∞
Escolhendo bhn como aquele que maximiza a verossimilhança ou minimiza

o erro quadrático médio obtemos o estimador de h.
density.default(x = x, bw = "sj")
0.6
0.5
0.4
Density
0.3
0.2
0.1
0.0
2 3 4 5
N = 272 Bandwidth = 0.14

4.4 Exercı́cios
Exercı́cios da Seção 4.1
1. Suponha que o vetor X = (X1 , · · · , Xn ) tenha por distribuição a famı́lia exponencial
˜
k-paramétrica com função de densidade ou de probabilidade escrita da forma
 
∑ k 
fX (x; θ) = exp θj Tj (x) − D(θ) + S(x) ,
˜ ˜ ˜  ˜ ˜ ˜ 
j=1
onde o espaço paramétrico Θ é um subconjunto aberto de Rk .

(a) Prove que
∂
E[Tj (X )] = D(θ),
˜ ∂θj ˜
para j = 1, · · · , k.
(b) Prove que
∂2
Cov[Ti (X ), Tj (X )] = D(θ),
˜ ˜ ∂θi ∂θj ˜
para i, j = 1, · · · , k.
2. Seja X1 , · · · , Xn uma amostra aleatória da distribuição Gama(α, β). Encontre os
estimadores dos momentos dos parâmetros α e β. Encontre a distribuição assin-
tótica, exata ou aproximada, do vetor de estimadores.
3. Seja X1 , · · · , Xn uma amostra aleatória da distribuição N (µ, σ 2 ). Encontre os esti-
madores dos momentos dos parâmetros µ e σ 2 . Encontre a distribuição assintótica,
exata ou aproximada, do vetor de estimadores.
4. Considere que seja obtida uma mostra aleatória da distribuição log-Normal, com
função de densidade
{ }
1 1
fX (x; µ, σ) = √ exp − 2 [log(x) − µ]2 ,
xσ 2π 2σ
para x > 0. Encontre os estimadores dos momentos dos parâmetros µ e σ 2 . Encon-
tre a distribuição assintótica, exata ou aproximada, do vetor de estimadores.
5. Uma variável aleatória diz-se ter distribuição Poisson truncada em zero com parâ-
metro λ, se sua função de probabilidade é da forma
λy
P (Y = y; λ) = , caso y = 1, 2, 3, · · ·
y!(eλ − 1)
e λ > 0. Pode-se demonstrar que
λ
E(Y ) = µ = e Var(Y ) = µ(1 + λ − µ)·
1 − e−λ
Encontre o estimador dos momentos de λ. Encontre a distribuição assintótica, exata
e
ou aproximada, de λ.
4.4. EXERCÍCIOS 231
6. Distribuição gama de parâmetros α e β. E(X) = αβ e Var(X) = αβ 2 .

Sabemos que θ = (α, β), E(X 2 ) = α(α + 1)β 2 , E(X 3 ) = α(α + 1)(α + 2)β 3 e
E(X 4 ) = α(α + 1)(α + 2)(α + 3)β 4 . Também h(θ) = (αβ, αβ 2 ), logo
( ) ( )
∂h(θ) ∂h(θ) β α
H(θ) = , =
∂α ∂β β 2 2αβ
∑n
eβe = X e α
Do sistema de equações α α + 1)βe =
e(e 1
n i=1 Xi2 , obtemos que
nX
e = ∑n
α 2
i=1 (X i − X)
e
nX
βe = ∑n 2
·
i=1 (X i − X)
De distribuição em amostras grandes

( ) (( ) ( ))
αe α µ2 − µ1 µ1 µ3 − µ1 µ2
∼ N 2 , ,
βe β µ3 − µ2 µ1 µ4 − µ2 µ2
onde
( ) ( )
µ2 − µ1 µ1 µ3 − µ1 µ2 −αβ 2 2α(α + 1)β 3
=
µ3 − µ2 µ1 µ4 − µ2 µ2 2α(α + 1)β 3 2α(α + 1)(2α + 3)β 4
7. Distribuição geométrica de parâmetro θ. E(X) = 1/θ e Var(X) = (1 − θ)/θ2 . Do

primeiro momento teórico e do primeiro momento amostral obtemos que
1
θe =
X
e que
1
∼ N (θ, (1 − θ)θ2 )·
X
8. Distribuição Pearson de parâmetros p conhecido, α e β desconhecidos. E(X) =
α + pβ e Var(X) = pβ 2 .
9. A função de probabilidade Yule-Simon é definida como
P (X = x; ρ) = ρB(x, ρ + 1),
onde x = 1, 2, · · · , ρ > 0 e B(·) é a função beta. Satisfaz que E(X) = ρ/(ρ − 1)

para ρ > 1 e Var(X) = ρ2 /(ρ − 1)2 (ρ − 2) para ρ > 2.
10. A função de densidade Fisher-Tippett é utilizada como a função de densidade do
mı́nimo ou máximo de amostras de diversas distribuições. Por exemplo, utiliza-se
como a distribuição do nı́vel máximo de um rio num particular ano se conhecemos
os nı́veis máximos dos últimos dez anos. Também é utilizada como a distribuição
de probabilidade da ocorrência de desastres naturais.
A função de distribuição acumulada Fisher-Tippett é
(x−µ)/β
F (x; µ, β) = e−e ,
onde x, µ ∈ R e β > 0. A mediana é µ − β ln(− ln(0.5)), média µ + γβ, onde γ é a

constante
√ de Euler-Mascheroni de valor aproximado igual a 0.57721, desvio padrão
βπ/ 6 e moda µ.
Exercı́cios da Seção 4.2

1. Encontre em cada caso o estimador de máxima verossimilhança de ϑ, considerando
X1 , · · · , Xn uma amostra aleatória das seguintes funções de densidade ou de pro-
babilidade:
a) f (x; ϑ) = ϑ(1 − x)(ϑ−1) , se 0 ≤ x ≤ 1 e ϑ > 0.
b) f (x; ϑ) = ϑe−ϑx , x ≥ 0 e ϑ > 0.
√ √
c) f (x; ϑ) = ϑx( ϑ−1) , se 0 ≤ x ≤ 1, ϑ > 0.
d) f (x; ϑ) = 1/ϑ, para x = 1, 2, · · · , ϑ, 1 ≤ ϑ ≤ ϑ0 , um inteiro conhecido.
e) f (x; ϑ) = 12 e−|x−ϑ| , para x ∈ R.
f) f (x; ϑ) = e−x+ϑ , para ϑ ≤ x < ∞.
α
g) f (x; ϑ) = (ϑα)xα−1 eϑx , para x > 0 e α conhecido.
ϑ (2ϑ−1)/(1−ϑ) 1
h) f (x; ϑ) = 1−ϑ x , 0<x≤1e 2 < ϑ < 1.
2. Considere uma amostra aleatória da variável X com função de densidade ou de
probabilidade como as seguintes:
a) X ∼ Binomial(n, θ), onde ambos n e θ são desconhecidos.
b) X ∼ P (X = x; θ), onde 0 < θ < 1 e P (·) uma função de probabilidade da
seguinte forma:
1−θ 1 θ
P (X = y1 ) = , P (X = y2 ) = e P (X = y3 ) = ·
2 2 2
c) X ∼ Cauchy(θ, 0).
d) X ∼ N (θ, θ), para θ > 0.
e) X ∼ Bernoulli(θ), para θ ∈ [ 12 , 34 ].
3. Seja X1 , · · · , Xn uma amostra aleatória da função de densidade
1 − β1 (x−α)
f (x; α, β) = e
β
para α < x < ∞, α ∈ R e β > 0.
4.4. EXERCÍCIOS 233
a) Encontre os estimadores de máxima verossimilhança do vetor de parâmetros

(α, β).
b) Encontre o estimador de máxima verossimilhança de P (X1 ≥ 1).
4. Seja X1 , · · · , Xn uma amostra aleatória da distribuição exponencial f (x; θ) = θ exp −θx,
x ≥ 0 e θ > 0. Encontre o estimador de máxima verossimilhança de θ e mostre que
é consistente e assintoticamente normal.
5. Para uma amostra aleatória de tamanho 1 da distribuição N (µ, σ 2 ), prove que não
existe estimador de máxima verossimilhança do vetor (µ, σ 2 ).
6. Suponha que n observações foram obtidas da variável aleatória X com distribuição
N (µ, 1), mas ao invés de serem registradas todas as observações somente foi anotado
se cada observação é menor do que zero. Se o evento {X < 0} ocorre m vezes
(m < n), encontre o estimador de máxima verossimilhança de µ.
7. Sejam Xij , i = 1, · · · , s e j = 1, · · · , n variáveis aleatórias independentes onde Xij ∼
N (µi , σ 2 ). Encontre os estimadores de máxima verossimilhança para µ1 , · · · , µs e
σ 2 . Mostre que σ b2 não é consistente quando n → ∞, n fixo. Será que esse resultado
contradiz a teoria que nós estabelecemos a respeito da consistência dos estimadores
de máxima verossimilhança? Por que ou por que não?
8. Suponha que X1 , · · · , Xn seja uma amostra aleatória discreta com função de pro-
babilidade {
θ para x = −1,
f (x; θ) =
(1 − θ)2 θx para x = 0, 1, 2, · · ·
0 < θ < 1.
a) Mostre que o estimador de máxima verossimilhança de θ com base nesta
amostra é da forma
∑n ∑n
2 i=1 1 + i=1 Xi
˜[X=−1]
θbn = ∑n
2n + i=1 Xi
e prove que θbn é consistente para θ.

√ D
b) Mostre que n(θbn − θ) −→ Z, onde Z ∼ N (0, σ 2 (θ)) e encontre a expressão
2
de σ (θ).
9. Considere a função de densidade em forma de U, dada por
[ ]
f (x; θ) = c(θ) 1 − e−|x| 1 ,
˜[|x|≤θ]
onde c(θ) é uma constante normalizadora. Mostre que o estimador de máxima

verossimilhança de θ é dado por
X(n) − X(1)
θb = ·
2
10. Seja (X, Y ) um vetor de variáveis aleatórias com distribuição normal bivariada de
2
parâmetros µX , µY , σX , σY2 e ρ, o coeficiente de correlação entre X e Y . Suponha
que temos n observações do par (X, Y ) e ainda que dispomos de N − n observações
de X, ou seja, N − n observações de Y foram perdidas. Encontre os estimadores
2
de máxima verossimilhança de µX , µY , σX , σY2 e ρ.

Cap 04

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Cap 04

Enviado por

Direitos autorais:

Formatos disponíveis

Capı́tulo 4

Uma vez construı́do o modelo estatı́stico a ser aplicado, devemos estimar

4.1 Método dos momentos

as quais representam os primeiros r momentos populacionais e sejam

para k = 1, . . . , r. Observemos que as funções m1 (θ), · · · , mr (θ) são os mo-

Deﬁnição 4.1. Dizemos que θe é o estimador de momentos de θ ∈ Θ ⊆ Rr

Exemplo 4.2. Sejam X1 , . . . , Xn variáveis aleatórias independentes igual-

Os estimadores dos momentos são então

Podemos resumir este procedimento de estimação em dois passos, relaci-

• Passo No.1 Se o modelo estatı́stico tem r parâmetros, calculamos as

obtendo-se r equações com r incógnitas.

• Passo No.2 Resolvemos o sistema acima para os r parâmetros como

A forma de como esta descrição abstrata funciona na prática pode ser

Exemplo 4.3. Sejam X1 , · · · , Xn variáveis aleatórias independentes igual-

e 1 = X, então o estimador de momentos é θe = 2X.

Podemos estender este método à estimação de momentos

onde M −⊤ = (M −1 )⊤ e Σ é uma matriz r×r de elementos Σij = mi+j −mi mj .

Demonstração. Seguimos as ideias em Sen & Singer (1993). Consideremos a

m(θ + n−1/2 u) = m(θ) + n−1/2 M (θ)u + n−1/2 [M (θ8 ) − M (θ)]u, (4.2)

onde θ∗ = θ + n−1/2 γu, 0 ≤ γ ≤ 1. Pela continuidade dos elementos da

Agora, seja λ ∈ Rr , λ ̸= 0, um vetor real arbitrário fixo e seja

Dado que U1 , · · · , Un são variáveis aleatórias independentes e identicamente

e utilizando o Teorema de Cramér-Wold1 concluı́mos que

Por este teorema percebemos que os estimadores de momentos são consis-

o que não é aceitável, porque observamos o valor 18.

Exemplo 4.6 (Continuação do exemplo 4.2). Se X1 , · · · , Xn é uma amostra

Uma forma de aproximarmos à variância de qualquer estimador ou de

onde E(Tn ) = µ e {an } uma sequência de constantes tal que limn→∞ an = ∞.

Demonstração. Vamos começar assumindo que g é continuamente diferenciável

g(Tn ) = g(µ) + g ′ (µ∗n )(Tn − µ)

g(Tn ) − g(µ) = g ′ (µ)(Tn − µ) + Rn

e a conclusão segue pelo Teorema de Slutsky.

Observemos que o teorema demonstrado anteriormente é geral no sentido

Exemplo 4.7. Seja X1 , · · · , Xn uma amostra aleatória da distribuição Pa-

A média e variância nesta situação são

para encontrar o estimador θe pelo método dos momentos.

do qual encontramos que θe tem média aproximadamente igual a θ e variância

4.2 Método de máxima verossimilhança

Deﬁnição 4.2 (Função de verossimilhança). Suponha que X = (X1 , · · · , Xn )

A função de verossimilhança L(θ) é uma função real definida no espaço

de parâmetros Θ. Note que não precisamos supor que X1 , · · · , Xn sejam

na qual consideramos a função de densidade ou de probabilidade fX (x; θ)

Exemplo 4.8. Suponha que os dados representam o número de sucessos

Figura 4.1: Representação da função de probabilidade Binomial(10, θ = 0.2)

Dado um conjunto de valores de parâmetros, a função de probabilidade

0.0 0.2 0.4 0.6 0.8 1.0

Figura 4.2: Representação da função de verossimilhança Binomial(x, 10, θ)

Existe uma diferença importante entre a função de probabilidade e a

funções são definidas em diferentes eixos e, portanto, não são diretamente

4.2.1 Estimador de máxima verossimilhança

Deﬁnição 4.3. O método de máxima verossimilhança consiste em encontrar

Para variáveis aleatórias contı́nuas, a função de verossimilhança não é

Deﬁnição 4.4. Seja L(θ) a função de verossimilhança para algum modelo

ℓ(θ) = log L(θ)· (4.6)

A função definida em (4.6) é também conhecida como função de log-

Teorema 4.5. Seja L(θ) a função de verossimilhança de alguma variável

Demonstração. A função logaritmo é contı́nua e crescente logo, se θ1 < θ2 e

Exemplo 4.10. Seja X1 , · · · , Xn uma amostra aleatória da função de pro-

e o logaritmo da função de verossimilhança ou log-verossimilhança é

e, avaliando em θb quando a derivada é zero, temos

do qual sugere-se que x seja o valor de θb na amostra x1 , · · · , xn . Para veri-

Devemos esclarecer que o estimador de máxima verossimilhança pode

Deﬁnição 4.5. Seja ℓ(θ) a função de log-verossimilhança para algum modelo