Estimação Pontual 3

DEFINIÇÃO
Apresentação de tema referente à área de Probabilidade e Estatística, a partir dos métodos mais usados
para estimação de parâmetros pontuais: o dos momentos e o da máxima verossimilhança.
Demonstração de alguns critérios para avaliar esses estimadores, dando especial ênfase ao erro
quadrático médio, ao viés e à eficiência.
PROPÓSITO
Descrever um estimador pontual como etapa central do aprendizado de Estatística, por meio da
estimação de relações entre diversas variáveis relevantes em praticamente todas as áreas do
conhecimento: da Economia à Engenharia, da Ciência Política à Psicologia.
OBJETIVOS
MÓDULO 1
Distinguir um estimador pontual a partir dos métodos dos momentos e da versossimilhança
MÓDULO 2
Identificar os estimadores pontuais quanto ao seu erro quadrático médio, seu viés e sua eficiência
MÓDULO 1
 Distinguir um estimador pontual a partir dos métodos dos momentos e da verossimilhança
Neste módulo, apresentaremos o que é um estimador pontual e dois métodos para obtê-lo: o dos
momentos e o da máxima verossimilhança. Aqui, daremos maior ênfase ao segundo método, por ser o
mais adotado.
CONCEITOS
Suponha que uma amostragem é feita a partir de uma população descrita por uma função de distribuição
de probabilidade f(x | θ), em que o conhecimento de θ nos permite dizer algo sobre a população inteira
da qual essa amostra foi extraída. Assim, é natural procurar um método para encontrar um bom
estimador de θ, isto é, um bom estimador pontual. Esse também é o caso em que o parâmetro θ tem
uma interpretação significativa para o pesquisador, como no caso da média da população. Por isso,
existe interesse direto em se obter uma boa estimativa pontual de θ. Também pode ser o caso de que
alguma função de θ, digamos, τ(θ), seja de interesse. Os métodos que descreveremos neste módulo
também poderão ser utilizados para a obtenção de estimadores de τ(θ).
Fonte:Shutterstock
DESCREVEREMOS, A SEGUIR, A DEFINIÇÃO

FORMAL DE UM ESTIMADOR PONTUAL. A
PRINCÍPIO, ELA PODE PARECER
DESNECESSARIAMENTE VAGA. NO ENTANTO,
NESTE MOMENTO, É PRECISO TOMAR CUIDADO
PARA NÃO ELIMINAR NENHUM CANDIDATO
POSSÍVEL A ESTIMADOR PONTUAL DE
CONSIDERAÇÃO.
DEFINIÇÃO (ESTIMADOR PONTUAL)
( )
Um estimador pontual é qualquer função W X 1, …, X n de uma amostra, ou seja, qualquer estatística é
um estimador pontual.
VALE LEMBRAR QUE UMA “ESTATÍSTICA” É
SIMPLESMENTE UMA FUNÇÃO DA AMOSTRA.
 EXEMPLO
Por exemplo, a soma de todos os elementos da amostra, a média dos valores da amostra ou qualquer
outra função. Um estimador pontual é, portanto, apenas uma estatística que usamos para obter
informações sobre um parâmetro. Observe que a definição anterior não faz menção a qualquer
correspondência entre o estimador e o parâmetro a ser estimado.
Embora seja possível argumentar que tal declaração deveria ser incluída na definição, ela restringiria o
conjunto disponível de estimadores. Além disso, também não foi feita nenhuma menção na definição
( )
sobre o conjunto de valores da estatística W X 1, …, X n . Apesar de que, em princípio, o conjunto de
valores da estatística deve coincidir com o parâmetro, veremos que nem sempre é o caso.
EXISTE UMA DISTINÇÃO QUE DEVE SER

ESCLARECIDA: A DIFERENÇA ENTRE UMA
ESTIMATIVA E UM ESTIMADOR.
Um estimador é uma função da amostra, ao passo que uma estimativa é o valor observado de um
estimador (isto é, um número), obtido quando uma amostra é efetivamente selecionada. Em termos de
notação, quando temos uma amostra, um estimador é uma função das variáveis aleatórias X 1, …, X n, ao
passo que uma estimativa é uma função dos valores observados x 1, …, x n.
 EXEMPLO
Considere um exemplo simples, em que estamos interessados na média e temos uma amostra com
apenas duas observações. O estimador para o qual queremos obter uma estimativa é a média amostral
(X1 + X2 ) / 2. Se temos uma amostra específica, como x1 = 6ex1 = 7, obtemos a estimativa

6+7
= 6, 5.
2
Em alguns casos, é uma tarefa fácil decidir como encontrar o estimador de um parâmetro e, geralmente,
a intuição, por si, pode nos levar a estimadores muito bons.
Por exemplo, a estimação de um parâmetro com seu análogo amostral, em geral, é razoável. Em
particular, a média amostral seria um candidato natural para um estimador pontual da média da
população. Em modelos mais complicados, aqueles que geralmente surgem na prática, precisamos de
um método para a estimação de parâmetros. Existem dois métodos principais para isso: o dos
momentos e o da verossimilhança.
Fonte:Shutterstock
O método dos momentos é o mais antigo para a descoberta de estimadores pontuais, que data, pelo
menos, do final do século XIX, remontando ao matemático inglês Karl Pearson. Esse método tem a
virtude de ser bastante simples em sua utilização e quase sempre gera algum tipo de estimativa. Em
muitos casos, infelizmente, esse método gera estimadores que precisam ser aperfeiçoados. No entanto,
esse é um bom ponto para começar quando outros métodos se revelam intratáveis.
ANTES, VAMOS LEMBRAR DA DEFINIÇÃO DO QUE É

UM MOMENTO.
DEFINIÇÃO (MOMENTO)
(
Para cada número inteiro n o n-ésimo momento de X ouF X x ( )), μn' , é dado por μn' = E[Xn]. O n-ésimo
[( ] []
momento central de X, μ n, é dado por μ n = E X - μ) n , onde μ = μ 1' = E X .
Seguindo essa definição, temos que a média E[X] de uma variável aleatória é seu primeiro momento,
()
sendo a variância dada pelo segundo momento central, i.e., Var X = μ 2 = [(X - μ) ]. Vamos ver
2
agora como podemos usar os momentos de variáveis aleatórias para estimar parâmetros
Fonte: Shutterstock
(|
Seja X 1, …, X n a amostra de uma população com função distribuição de probabilidade f x θ 1, …, θ k . )
Pelo método dos momentos, os estimadores são encontrados igualando-se os primeiros k momentos
amostrais aos k momentos da população correspondentes, e resolvendo o sistema resultante de
equações simultâneas. Assim, definimos:
( )
Geralmente, o momento da população μ j' será uma função de θ 1, …, θ k, digamos μ j' θ 1, …, θ k . O
( ) ( )
método do estimador de momentos θ̃ 1, …, θ̃ k de θ 1, …, θ k é obtido pela resolução do seguinte
( ) (
sistema de equações para θ 1, …, θ k em termos de m 1, …, m k : )
(
M 1 = Μ 1' Θ 1, …, Θ K , )
'
(
M 2 = Μ 2 Θ 1, …, Θ K , )
(
M K = Μ K' Θ 1, …, Θ K . )
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Vamos criar um exemplo para a distribuição normal, para que o método fique mais claro. Suponha que
X 1, …, X n sejam independentes e identicamente distribuídos (iid), seguindo uma distribuição normal
( )
N θ, σ 2 . Seguindo a mesma notação usada anteriormente, temos que os parâmetros populacionais
1
dessa distribuição são θ 1 = θ e θ 2 = σ 2. Temos também que m 1 = X, m 2 = ∑ i =n1X 2i ,
n
' '
μ 1 =θ, μ 2 = θ 2 + σ 2 e, assim, devemos resolver:
X=Θ
1N
∑ X 2I = Θ 2 + Σ 2
N
I=1
Resolver esse sistema de equações para θ e σ 2 gera os estimadores pelo método dos momentos:
Θ̃ = X
1 N 1N
2
Σ̃ = N
∑
I=1
2
XI -X= N
∑
I-1
( XI - X )2
Neste simples exemplo, a solução do método dos momentos coincide com nossa intuição e talvez dê
algum crédito a ambos. No entanto, o método é mais útil quando nenhum estimador óbvio pode ser
imaginado.
VEREMOS AGORA OUTRO MÉTODO PARA

ESTIMAÇÃO PONTUAL, QUE É A ESTIMAÇÃO POR
MÁXIMA VEROSSIMILHANÇA. ESSE MÉTODO É, DE
LONGE, O MAIS POPULAR PARA DERIVAR
ESTIMADORES. ANTES, PRECISAMOS DEFINIR O
QUE É UMA FUNÇÃO DE VEROSSIMILHANÇA.
DEFINIÇÃO (FUNÇÃO DE VEROSSIMILHANÇA)
( )
Seja f(x│θ) a função de distribuição de probabilidade conjunta da amostra X = X 1, …, X n . Então, dado
que X=x é observado, a função de θ definida por L(θ│x) = f(x│θ) é chamada de função de
verossimilhança.
( ) ( )
Intuitivamente, a função de verossimilhança nos diz que se L θ 1│x > L θ 2│x , então, é mais provável
que a amostra que observamos tenha ocorrido se θ = θ 1, e não se θ = θ 2, o que pode ser interpretado
como θ 1 consistindo em um valor mais plausível para θ do que θ 2.
 ATENÇÃO
Existem diversos modos para utilizar essa informação, mas, certamente, parece razoável examinar a
verossimilhança da amostra que observamos com diversos valores possíveis do parâmetro θ que
pretendemos estimar. Essa é a informação fornecida pela função de verossimilhança.
( ) ( )
Para vetores aleatórios discretos, temos L θ│x = P θ X = x , em que a função P θ representa a
probabilidade de o vetor aleatório X tomar o valor x quando da ocorrência de θ. Se compararmos a

função de verossimilhança para dois estimadores θ 1 e θ 2 do parâmetro θ, concluiremos que θ 1 é mais
plausível que θ 2. Para a amostra x, por exemplo, descobriremos que:
( ) ( ) (
P Θ X = X = L Θ 1│X > L Θ 2│X = P Θ X = X
1 ) 2 ( )
Para o caso de uma variável aleatória contínua X com valor real e com função de distribuição de
probabilidade contínua em x, então, para um valor ϵ positivo e arbitrariamente pequeno (i.e. você pode
imaginar ϵ como tomando valor 1, ou 10 - 2, ou 10 - 999999 … , e assim por diante, desde que seja maior do
( )
que zero), temos P θ x - ϵ < X < x + ϵ , que é aproximadamente igual a f(x│θ), que, como definimos na
função de verossimilhança, é igual a L(θ│x). Portanto:
PΘ
1 ( X-Ε<X<X+Ε ) (
L Θ1 │ X )
≈
L ( Θ2 │ X )
PΘ
2 ( X-Ε<X<X+Ε )
Desse modo, a comparação da função de verossimilhança para dois estimadores diferentes do

parâmetro θ, assim como no caso discreto, fornece uma comparação aproximada da probabilidade do
valor amostral x.
A definição da função de verossimilhança anterior parece dizer apenas que esta é igual à função de
distribuição de probabilidade. A única distinção entre essas duas funções refere-se a qual variável é
considerada fixa e qual varia de fato. Quando consideramos a função de distribuição de probabilidade
f(x│θ), estamos tomando θ como fixo e x como variável. Quando consideramos a verossimilhança L(θ│x)
, estamos tomando x como ponto amostral observado (ou seja, é fixo pois é tomado como dado) e que θ
varia para todos os possíveis valores de parâmetro.
Fonte:Shutterstock
 EXEMPLO
Como exemplo, tomemos o caso de uma variável aleatória X que segue distribuição binomial negativa
BN(r, p), em que r representa o número de sucessos que queremos obter e p é a probabilidade de
sucesso em cada um desses experimentos. Para entender melhor a intuição dessa distribuição, imagine
um dado honesto de seis faces. Se classificamos a obtenção do número 1 no dado como sucesso,
1
temos que a probabilidade p é igual a 6 . A distribuição binomial negativa nos dá, para esse valor, o
número de vezes que iremos tentar jogar o dado até obter r sucessos. Por exemplo, se r = 4, jogaremos
1
o dado um certo número de vezes, com probabilidade 6 de obter o valor 1 em cada vez, até que
obtenhamos quatro sucessos. A distribuição binomial negativa nos fornece, justamente, o número de
falhas nas tentativas até obter r sucessos. Note que, no total, lançamos os dados x + r vezes.
Para o nosso exemplo, assumiremos que X ~ BN(r = 3, p). Se x = 2 é observado, ou seja, foram obtidos
dois fracassos para cada três sucessos, com probabilidade de sucesso p, a função de verossimilhança é
dada por:
( )
L P│2 = P P X = 2 ( )
=
( R+X-1
X ) (
P R 1 - P) X
=
() (4
2
P 3 1 - P) 2
Em geral, se X = x é observado, então, a função de verossimilhança é o polinômio de grau 3 + x dado

por:
( ) (
L P│X =
3+X-1
X ) (
P 3 1 - P) X
AGORA, SURGE A SEGUINTE PERGUNTA: COMO

PODEMOS USAR ESSA FUNÇÃO PARA OBTER UM
BOM ESTIMADOR PARA O PARÂMETRO Θ DE
NOSSO INTERESSE (NO EXEMPLO ACIMA, TAL
PARÂMETRO SERIA DADO PELA PROBABILIDADE P
)?
Nesse caso, queremos obter o estimador θ̂ que maximize a função de verossimilhança, ou seja, um
estimador de máxima verossimilhança.
DEFINIÇÃO (ESTIMADORES DE MÁXIMA
VEROSSIMILHANÇA)
Seja X = X 1, …, X n uma amostra independente e identicamente distribuída de uma população, com
( )
função distribuição de probabilidade f x│θ 1, …, θ k . A função de verossimilhança, neste caso, é definida
( ) ( | ) ( ) )
por L θ│x = L θ 1, …, θ k x 1, …, x n = ∏ i =n1 f x i│θ 1, …, θ k . Para cada ponto amostral x = x 1, …, x n ,
seja θ̂(x), um valor do parâmetro no qual L(θ│x) atinge seu máximo como função de θ, com x mantido
fixo. Um estimador de máxima verossimilhança (EMV) do parâmetro θ com base em uma amostra X é
θ̂(X).
Também utilizamos a abreviação EMV quando nos referirmos à estimativa de máxima verossimilhança,
ou seja, quando falamos do valor observado desse estimador. A figura a seguir exibe como o estimador
de EMV θ̂ maximiza a função de verossimilhança em dois casos:
Fonte:Shutterstock
No primeiro caso, θ toma valores discretos, tal como o parâmetro r na distribuição binomial negativa que
vimos anteriormente. No segundo caso, θ̂ apresenta valores contínuos, como é o caso do parâmetro p
da binomial negativa. Em ambos os casos, o estimador de máxima verossimilhança está associado ao
valor máximo da função de verossimilhança. O subscrito ML ao lado do parâmetro nas duas figuras
refere-se ao termo maximum likelihood (“máxima verossimilhança”).
 ATENÇÃO
Intuitivamente, o EMV é uma escolha razoável para um estimador. Ele é o valor do parâmetro para o
qual a amostra observada é a mais provável. Em geral, o EMV é um bom estimador pontual,
apresentando algumas propriedades interessantes que serão discutidas posteriormente.
HÁ DOIS INCONVENIENTES INTRÍNSECOS
ASSOCIADOS AO PROBLEMA GERAL DE
ENCONTRAR O MÁXIMO DE UMA FUNÇÃO E,
CONSEQUENTEMENTE, DA ESTIMAÇÃO DE MÁXIMA
VEROSSIMILHANÇA.
O primeiro problema refere-se, efetivamente, a encontrar o máximo global da função. Em muitos

casos, esse problema reduz-se a um simples exercício de cálculo diferencial. Às vezes, no entanto,
surgem dificuldades mesmo para densidades comuns. O segundo problema é o da sensibilidade
numérica. Isto é, qual é a sensibilidade da estimativa para pequenas mudanças nos dados? Algumas
vezes, infelizmente, este é o caso em que uma amostra um pouco diferente produzirá um EMV muito
diferente, tornando seu uso suspeito. Iremos focar no primeiro problema, dada a sua natureza mais
intuitiva.
Se a função de verossimilhança for diferenciável em θ i, possíveis candidatos para o EMV são os valores
( )
de θ 1, …, θ k que resolvem a equação a seguir:
∂L(Θ│X)
∂ ΘI
= 0, ONDE I = 1, …, K
NOTE QUE AS SOLUÇÕES PARA A EQUAÇÃO SÃO

APENAS DE POSSÍVEIS CANDIDATAS PARA O EMV,
UMA VEZ QUE A PRIMEIRA DERIVADA SER IGUAL A
ZERO É SOMENTE UMA CONDIÇÃO NECESSÁRIA
PARA UM MÁXIMO, MAS NÃO SUFICIENTE.
Além do mais, os zeros da primeira derivada localizam apenas pontos extremos no interior do domínio
de uma função (i.e., não sabemos os valores nas “pontas” do domínio). Se os extremos ocorrerem no
limite, a derivada poderá não ser 0 (zero). Desse modo, o limite deverá ser verificado separadamente
para os extremos.
 ATENÇÃO
Os pontos nos quais as primeiras derivadas são 0 (zero) podem ser mínimos locais ou globais, máximos
globais ou locais, ou pontos de inflexão. Nossa tarefa é encontrar um máximo global. Como exemplo,
vejamos o caso para a distribuição normal.
Sejam X 1, …, X n variáveis aleatórias independentes e identicamente distribuídas que seguem uma

normal N(θ, 1), em que L(θ│x) denota a função de verossimilhança. Então, seguindo a definição para
esse tipo de função, temos:
L(θ│x) = ∏ i = 1
n 1
e - ( )(
1
2 )
xi - θ 2
( 1
2π ) 2
=
1
e -
() 1
2
n
(
∑i = 1 xi - θ 2 )
(
1
2π ) 2
Como queremos estimar somente um parâmetro, tiramos a derivada simples dessa função em relação a
ele e igualamos a 0 (zero):
dL ( θ │ x )
dθ
=0⇒ ∑ i =n1
( )
xi - θ = 0 ⇒ ∑ i =n1 x i = n θ ⇒ θ̂ =
∑ i =n1 x i
n
=x
Desse modo, a média amostral x é um candidato para o estimador de máxima verossimilhança θ̂. Para
verificar que x sé um máximo global da função de verossimilhança, podemos utilizar o seguinte
argumento: primeiro, observe que θ̂ = x é a única solução para ∑ i =n1 x i - θ = 0, assim, x é o único 0 ( )
(zero) da primeira derivada. Em segundo lugar, verifique que:
(
D 2L Θ │ X | Θ = X)
<0
DΘ 2
Portanto, x é o único ponto extremo no interior, e é um máximo. Para, finalmente, verificar que x é um
máximo global, precisamos checar os limites em ± ∞. A partir da definição dos limites, é fácil estabelecer
que a verossimilhança é 0 (zero) em ± ∞. Assim, θ̂ = x é um máximo global e, desse modo, X sé o EMV.
Na maioria dos casos, é mais fácil trabalhar com o logaritmo natural da função de verossimilhança dado
por l(θ│x) = ln L(θ│x).
NOTE QUE NÃO FAZ DIFERENÇA PARA O NOSSO

OBJETIVO: OBTEMOS O MESMO RESULTADO AO
MAXIMIZAR LN L(Θ│X) OU L(Θ│X), POIS O
LOGARITMO NATURAL É UMA TRANSFORMAÇÃO
MONOTÔNICA DA FUNÇÃO DE VEROSSIMILHANÇA
(ISTO É ENSINADO NOS CURSOS DE CÁLCULO).
CHAMAMOS ESSA FUNÇÃO DE LOG-
VEROSSIMILHANÇA. VAMOS MOSTRAR COMO ISSO
OCORRE PARA O CASO DE UMA BERNOULLI.
Sejam X 1, …, X n variáveis aleatórias independentes e identicamente distribuídas, que seguem uma

distribuição Bernoulli(p). Então, a função de verossimilhança é dada por:
N
1 - XI
L(P│X) = ∏ P X I ( 1 - P )
I=1
N N
∑I = 1
= ∑
P I = 1 XI(1 - P) (
1 - XI )
(
= P Y 1 - P) N - Y

n
Onde y = ∑ i = 1 x i . Embora essa função não seja tão difícil de diferenciar, é muito mais fácil distinguir o
logaritmo natural da verossimilhança dado por:
L(P│X) = Y LN(P) + (N - Y) LN(1 - P)
Se 0 < y < n diferenciar l(p│x) e definir o resultado como igual a 0 (zero), temos a solução:
y
Torna-se também direto verificar que n é o máximo global. Neste caso:
( )
()
D 2L P │ X |P = Y
N
Y Y-N
= - + < 0 PARA TODO Y ∈ 0, N
DP 2 P2 (1-P) 2
y
Desse modo, demonstramos que p̂ = n é o EMV de p.
Neste vídeo, apresentaremos algumas resoluções de exercícios baseados nos tópicos abordados.
VERIFICANDO O APRENDIZADO
1. SUPONHA QUE TENHAMOS UMA AMOSTRA ALEATÓRIA X 1, …, X N ONDE
( )
X I N Μ, Θ , DE TAL MODO QUE:
1 (
- XI - Μ )2
I (
F X X I│Θ = ) √ 2ΠΘ
E 2Θ
ENCONTRE O ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA PARA Θ E

ASSINALE A ALTERNATIVA CORRESPONDENTE À RESPOSTA CORRETA.
n
(
∑i - 1 xi - μ )2
A) θ̂ =
n-1
(
∑ i -n1 x i - μ )2
B) θ̂ = n
n
(
∑i - 1 xi - μ )
C) θ̂ =
n
(
∑ i -n1 x i - μ )
D) θ̂ = n-1
2. SUPONHA QUE TENHAMOS UMA AMOSTRA ALEATÓRIA X 1, …, X N ONDE
X I ~ EXPONENCIAL Θ , DE TAL MODO QUE: ( )
(
F X X I│Θ = Θ E - ΘX I
I
)
ASSINALE A ALTERNATIVA COM A EXPRESSÃO CORRETA PARA O ESTIMADOR
DE MÁXIMA VEROSSIMILHANÇA:
n
A) θ̂ =
∑ i =n1X 2i
n
B) θ̂ =
(
∑ i =n1 X i - X )
n
C) θ̂ = n
∑i = 1 Xi
∑ i =n1 X i
D) θ̂ =
n
GABARITO
1. Suponha que tenhamos uma amostra aleatória X 1, …, X n onde X i N μ, θ , de tal modo que: ( )
(
- XI - Μ )2
( )
1
F X X I│Θ = E 2Θ
I √ 2ΠΘ
Encontre o estimador de máxima verossimilhança para θ e assinale a alternativa correspondente

à resposta correta.
A alternativa "B " está correta.
A função de verossimilhança é dada por:
n
(
∑i = 1 xi - μ ) 2
( )
1
L θ│x 1, …, x n = n e -
2θ
( 2πθ ) 2
Como vimos, quase sempre é mais fácil trabalhar com a log-verossimilhança. Vamos tirar o logaritmo
natural da expressão anterior:
( ) n
( ) n
l θ│x 1, …, x n = - 2 ln 2π - 2 lnθ - 2θ ∑ i = 1 x i - μ) 2
1 n
(
Vamos tirar a condição de primeira ordem por meio da derivada em relação a θ:
(
dL θ │ x 1 , … , x n ) n
(
∑i = 1 xi - μ )2
(xi - μ )2 = 0 ⇒ θ̂ =
n 1
=0⇒ - + 2 ∑ i =n1
dθ 2θ 2θ n
n
(X -μ)
i
2
Assim, o EMV é dado por θ̂ = ∑i = 1 . Note que ele é parecido, porém diferente do estimador usual
n
(
∑ i =n1 X i - Xˉ )2
para a variância de uma normal dada por S2 = .
n-1
2. Suponha que tenhamos uma amostra aleatória X 1, …, X n onde X i ~ Exponencial θ , de tal ()

modo que:
(
F X X I│Θ = Θ E - ΘX I
I
)
Assinale a alternativa com a expressão correta para o estimador de máxima verossimilhança:
A alternativa "C " está correta.

A função de verossimilhança é dada por:
( )
n
L θ│x 1, …, x n = ∏ θe - θx i
i=1
n
= θ ne - θ ∑ i = 1x i
Como vimos, quase sempre é mais fácil trabalhar com a log - verossimilhança. Vamos tirar o logaritmo
natural da expressão anterior:
n
(θ│x1, …, xn ) = nlnθ - ∑i = 1θxi
Vamos tirar a condição de primeira ordem por meio da derivada em relação a θ:
(
dL θ │ x 1 , … , x n ) n n
dθ
= 0 ⇒ θ - ∑ i =n1x i = 0 ⇒ θ̂ = n
∑ i = 1x i
n
Assim, o EMV é dado por θ̂ = n .
∑ i = 1X i
MÓDULO 2
 Identificar os estimadores pontuais quanto ao seu erro quadrático médio, seu viés e sua eficiência
Os métodos discutidos na seção anterior descrevem técnicas razoáveis para encontrar estimadores
pontuais de parâmetros, com especial destaque para a mais útil delas: a estimação por máxima
verossimilhança.
Neste módulo, daremos o passo seguinte, que é o de avaliação de estimadores: como saber se o
estimador encontrado é bom para aquele parâmetro? Veremos a seguir:
CONCEITOS
Uma vez que existem métodos diferentes para a estimação de parâmetros pontuais, surge a dificuldade
de escolher qual desses estimadores é o “melhor”. Para isso, precisamos estabelecer alguns critérios
objetivos. É provável que alguns desses critérios tenham sido mencionados durante a exposição ao
conteúdo referente à propriedade de amostras aleatórias. Neste módulo, porém, aprofundaremos e
formalizaremos detalhes importantes.
Fonte:Shutterstock
INICIALMENTE, INVESTIGAMOS O ERRO

QUADRÁTICO MÉDIO, DEFINIDO A SEGUIR:
DEFINIÇÃO (ERRO QUADRÁTICO MÉDIO)
O erro quadrático médio (EQM) de um estimador W de um parâmetro θ é a função de θ definida por
[( ]
E θ W - θ) 2 .
Observe que o EQM mede a diferença quadrática da média entre o estimador W e o parâmetro θ, uma
medida de desempenho razoável para um estimador pontual. Em geral, qualquer função crescente da
distância absoluta |W - θ| servirá para medir a eficiência de um estimador. Entre elas, por exemplo, está
o erro absoluto médio E θ [ | W - θ | ]. O EQM, porém, tem duas vantagens em relação a outras medidas
de distância: ser bastante tratável analiticamente e nos oferecer a possibilidade de decompô-lo em duas
partes de interpretação conveniente:
[ ] [(
EQM θ W = E θ W - θ) 2 ]
[( [ ] [ ]
= E θ W - E θ W + E θ W - θ) 2 ]
[ [ ] [( [ ])(E [W] - θ )] + (E [W] - θ)
= E θ W - E W ] 2 + 2E θ W - E θ W θ θ
2
= E [W - E [W]]
θ
2
+ 2E [(W - E [W])](E [W ] - θ ) + (E [W ] - θ)
θ θ θ θ
2
[ [ ] ( [ ] [ ])(E [W] - θ ) + (E [W] - θ)

= Eθ W - E W ]2 + 2 Eθ W - Eθ W θ θ
2
= E [W - E [W]]
θ
2
+ 2 (0 )(E [W ] - θ ) + (E [W ] - θ)
θ θ
2
[ [ ] ( [ ]
= E θ W - E W ] 2 + E θ W - θ) 2
= Var [W ] + B [W]
θ θ
2
ONDE A FUNÇÃO B Θ REPRESENTA O VIÉS (OU

TENDÊNCIA) DE UM ESTIMADOR, DEFINIDO A
SEGUIR:
DEFINIÇÃO (VIÉS)
O viés B θ de um estimador pontual W de um parâmetroθ é a diferença entre o valor esperado de W e θ,
[ ] [ ]
ou seja, B θ W = E θ W - θ. Um estimador cujo viés é igual a zero é chamado de não viesado e
satisfaz E θ [W ] = θ para todo θ.
A DERIVAÇÃO ANTERIOR CONTÉM DUAS

PASSAGENS CRUCIAIS.
[ ] [ ]
A primeira, logo no início, consiste em somar - E θ W + E θ W dentro da esperança original. Isso
equivale a somar por 0 (zero) e permite a derivação posterior. Na segunda passagem importante,
[ ]
utilizamos o fato de E θ W - θ ser uma constante para chegar ao resultado. Isso se dá, pois, a
[ ]
esperança E θ W é uma constante, assim como o próprio parâmetro θ — trata-se de um valor
desconhecido, mas fixo. Portanto, pela derivação anterior, podemos expressar o erro quadrático médio
da seguinte maneira:
[ ]
EQM Θ W = VAR Θ W + B Θ W] 2 [ ] [
Desse modo, o EQM incorpora dois componentes: um deles mede a variabilidade do estimador (i.e., sua
precisão) e o outro, seu viés (i.e., sua exatidão). Um estimador que tem boas propriedades de EQM
apresenta pequena variância e viés combinados. Na figura a seguir, este cenário é representado pelo
alvo com os “tiros” no canto superior esquerdo do centro.
Fonte:Shutterstock
Para encontrar um estimador com boas propriedades de EQM precisamos também encontrar
estimadores que controlam a variância e o viés. Claramente, estimadores não viesados realizam um
bom trabalho no sentido de controlar tendências.
[ ]
Para um estimador não viesado, ou seja, com B θ W = 0, temos:
EΘ [(W - Θ) ] = VAR [W ]2
Θ
Sendo assim, seu EQM é igual à sua variância. Vamos analisar como usar o EQM para avaliar a
qualidade de estimadores com um exemplo. Sejam X 1, …, X n variáveis aleatórias independentes e
( )
identicamente distribuídas que seguem uma normal N μ, σ 2 . Neste caso, as estatísticas (i.e.,
contrapartidas amostrais dos parâmetros) usuais para a média e a variância são, respectivamente:
∑ I =N1 X I
X= N
∑ I =N1 ( XI - X ) 2
S2 = N-1
Tome também como dado que S^2 segue uma distribuição qui-quadrado ponderada tal que
( )
n-1
S2
σ2
~χ 2 .
n-1
Esse último resultado não será explicado neste módulo, mas, para fins da resolução do
exemplo, iremos tomá-lo como conhecido em vez derivá-lo passo a passo. As estatísticasXe S 2 são não
viesadas, ou seja, para todo μ e σ 2 , temos:
[]
EΜ X = Μ
[ ]
EΣ2 S2 = Σ2
[] [ ]
Os EQMs desses estimadores, dados por EQM μ X e EQM σ 2 S 2 , são, respectivamente:
[( ]
E μ X - μ) 2 = Var X[]
[ ]
n
∑i = 1 Xi
= Var n
=
n2
1
[ ]
Var ∑ i =n1 X i
nVar X i [ ]
=
n2
σ2
= n
[( ] [ ]
E σ 2 S 2 - σ 2) 2 = Var S 2
= Var
[ σ2
n-1 ]
χ n2- 1
=
(
σ4
n - 1 )2
[ ]
Var χ n2- 1
( )
2 n - 1 σ4
2σ 4
= = n-1
(n-1) 2
Da terceira para a quarta igualdade, usamos o fato de a variância da distribuição qui-quadrado ser igual
a 2k, onde k é igual ao número de graus de liberdade. Como o número de graus de liberdade é n - 1,
[ ] ( )
temos que Var χ n2- 1 = 2 n - 1 .
Embora muitos estimadores não viesados sejam também razoáveis do ponto de vista do EQM, esteja
ciente de que o controle de vieses não garante que o EQM seja controlado. Em particular, pode haver o
caso em que ocorre um ajuste entre a variância e o viés, de modo que um pequeno aumento no viés
pode ser compensado pela maior diminuição na variância, resultando no aperfeiçoamento do EQM.
Vamos prosseguir com o exemplo anterior para ilustrar esse ponto. Um estimador alternativo para σ 2 é o
de máxima verossimilhança obtido no módulo anterior:
2
(
∑ I =N1 X I - X ) 2
Σ̂ =
N
Segue que:
[] [ (X - X )
]
n 2
∑i = 1 i
2
E σ 2 σ̂ =E n
[ (X -X)
]
n 2
∑i = 1 i
n-1
= Eσ2 n - 1 n
= Eσ2 [ ] n-1
n
S2
n-1
= n Eσ2 S2
[ ]
n-1
= σ2
n
2 2
Assim, segue que σ̂ é um estimador viesado de σ 2. A variância de σ̂ também pode ser calculada
como:
[]
Var σ 2 σ̂
2
= Var σ 2
)[ ] n-1
n
S2
= ( n-1
n
) 2 Var σ 2 S 2 [ ]
=
( ( )
n - 1 2 2σ 4
n
) n-1
(
2 n - 1a σ 4 )
=
n2
Desse modo, σ 2 é dado por:
[( 2
]
E σ 2 σ̂ - σ 2) 2 = Var σ 2 σ̂ [ ] 2
[ ]
+ B σˆ22 σ̂
2
= Var σ 2 σ̂ [ ] ( [ ]
2
+ E σˆ 2 σ̂
2
- σ 2) 2
( )
( )
2 n - 1 σ4 2
n-1
= + σ2 - σ2
n2 n
=⋯=
( )
2n - 1
n2
σ4
Assim, temos:
[]( )
EQM σ 2 σ̂
2
=
2n - 1
n2
σ4 <
2σ 4
n-1
= EQM σ 2 S 2
[]
2
Esse resultado mostra que σ̂ tem menor EQM do que S^2. Podemos ver que houve uma compensação
2 2
entre variância e viés: apesar de σ̂ ser viesado, enquanto S^2 não o é, a variância de σ̂ é menor ao
ponto do EQM desse estimador ser menor do que o EQM de S 2.
ISSO NÃO SIGNIFICA QUE S 2 DEVA SER
ABANDONADO COMO ESTIMADOR DE Σ^2.
2
O argumento anterior mostra que, na média, σ̂ estará mais perto de σ 2 do que S 2 se o critério utilizado
2
para julgar essa proximidade for o EQM. No entanto, é importante lembrar que σ̂ é viesado e irá, em
2
média, subestimar σ 2. Esse fato já pode gerar algum desconforto quanto à utilização de σ̂ como
estimador de σ 2.
 ATENÇÃO
Não é possível chegar a uma resposta absoluta, porém mais informações foram obtidas sobre os
estimadores na esperança de que, para uma determinada situação ou aplicação, um bom estimador seja
escolhido.
Uma vez que a comparação entre estimadores utilizando o EQM pode não gerar um óbvio favorito,
podemos dizer que não existe um “melhor estimador por EQM”. O máximo que o critério do EQM nos dá
é uma recomendação. O motivo para isso é que a classe de todos os estimadores é grande demais. Por
exemplo, o estimador constante θ̂ = 15 não pode ser superado em EQM quando θ = 15, mas é um
péssimo estimador para outros valores de θ, uma vez que, quanto maior for a diferença entre θ̂ e θ,
maior será o EQM.
UMA MANEIRA DE SIMPLIFICAR O PROBLEMA E

ESCOLHER O “MELHOR” ESTIMADOR É LIMITAR A
CLASSE DE ESTIMADORES. UM MEIO POPULAR DE
RESTRINGIR A CLASSE DE ESTIMADORES ESTÁ EM
LEVAR EM CONTA SOMENTE OS ESTIMADORES NÃO
VIESADOS.
[ ] [ ]
Se W 1 e W 2 são, ambos, estimadores não viesados de um parâmetro θ, isto é, E θ W 1 = E θ W 1 = θ,
então seus EQMs são iguais a suas variâncias e, por isso, devemos escolher o estimador com menor
variância. Se pudermos encontrar um estimador não viesado, uniformemente com a menor variância
(i.e., um melhor estimador não viesado), nossa tarefa estará completa.
VAMOS VER A DEFINIÇÃO DESSE TIPO DE
ESTIMADOR:
DEFINIÇÃO (MELHOR ESTIMADOR NÃO VIESADO)
[ ]
Um estimador W * é um melhor estimador não viesado (MENV) de θ se E θ W * = θ. Para qualquer outro
[ ] [ ] [ ]
estimador W com E θ W = θ, temos que Var θ W * ≤ Var θ W para todo θ.
Nesse caso, tal estimador também pode ser chamado de estimador não viesado de variância mínima
(ENVVM). Às vezes, não queremos comparar estimadores de par em par, mas obter um limite inferior
global para a variância de qualquer estimador não viesado de θ. Se pudermos encontrar um estimador
não viesado, cuja variância é igual a esse limite inferior, encontramos, de fato, o melhor estimador não
viesado entre todos os possíveis.
A ESSE LIMITE DÁ-SE UM NOME: LIMITE INFERIOR

DE CRAMÉR-RAO. A DEFINIÇÃO FORMAL DESSE
LIMITE SEGUE ADIANTE:
DEFINIÇÃO (DESIGUALDADE CRAMÉR-RAO)

Sejam X 1, …, X n uma amostra iid com função de distribuição f(x│θ), e que θ̂ seja qualquer estimador
não viesado de θ. A desigualdade de Cramér-Rao nos fornece o limite inferior para os estimadores não
viesados de θ, oriundos de uma amostra iid, dada por:
[ ]
Var θ θ ^
1
≥ nI ( θ )
Onde usamos:
() [ ( ) ∂
I θ = E θ ∂ θ ln f X│θ ] 2 = - E θ
∂
∂ θ2 [ ) ( )]
2
ln f X│θ
O lado direito dessa desigualdade é chamado de limite inferior de Cramér-Rao.
Na definição anterior, usamos a função I(θ). Essa função cumpre um papel importante em Estatística,
sendo conhecida como informação de Fisher. Para o caso multivariado, ela é chamada de matriz de
informação de Fisher, enquanto, para o caso de apenas um parâmetro, é o coeficiente de Fisher. Ela
nos relata a quantidade de informação sobre um parâmetro desconhecido θ que é possível aprender a
partir da distribuição f(X│θ) de uma amostra X = X 1, …X n.
 ATENÇÃO
A definição da desigualdade de Cramér-Rao determina o máximo de precisão possível com que

conseguimos estimar θ. Esse limite, no caso de variáveis aleatórias independentes e identicamente
distribuídas e de um estimador não viesado, é dado como função da informação de Fisher.
Intuitivamente, isso pode ser colocado de maneira muito simples: quanto maior o número de informação
que podemos extrair de uma amostra sobre sua população, menor será a menor variância possível a
qual podemos chegar a respeito de um estimador, e, quanto menor a variância, maior a precisão
possível.
Desse modo, um estimador θ ̂ que atinge o limite inferior de Cramér-Rao, ou seja, para o qual vale a
[]
igualdade Var θ θ̂ =
1
nI ( θ )
, é chamado de estimador completamente eficiente, ou, simplesmente,
eficiente. Existe outro tipo de eficiência possível: a eficiência relativa.
NESSE CASO, ESTAMOS COMPARANDO A

VARIÂNCIA DE DOIS ESTIMADORES:
DEFINIÇÃO (EFICIÊNCIA RELATIVA)
( )
A eficiência relativa e θ̂ 1, θ̂ 2 entre dois estimadores θ̂ 1 e θ̂ 2 para o parâmetro θ é dada por:
[ ]VAR Θ Θ̂ 2
E (Θ̂ 1, Θ̂ 2 ) =
VAR Θ [ Θ̂ 1 ]
Desse modo, se e > 1, temos que θ̂ 1 é mais eficiente do que θ̂ 2, por ter menor variância. Caso e < 1,
temos que θ̂ 2 é mais eficiente do que θ̂ 1, e, finalmente, se e = 1 , ambos possuem o mesmo grau de
eficiência.
Neste vídeo, apresentaremos algumas resoluções de exercícios baseados nos tópicos abordados.
VERIFICANDO O APRENDIZADO
1. SEJAM X 1, …, X N INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDOS COM

MÉDIA Μ E VARIÂNCIA Σ 2. ENCONTRE O EQM PARA CADA UM DOS
ESTIMADORES A SEGUIR:
X1 + X2 + X3
Μ̂ 1 = 3
X1 X2 + ⋯ + XN - 1 XN
Μ̂ 2 = + +
4 2(N-2) 4
Μ̂ 3 = X
ASSINALE A ALTERNATIVA CORRETA:
[] σ2
[] nσ 2
[] σ2
A) EQM μ μ̂ 1 = 3 , EQM μ μ̂ 2 = 4 ( n - 1 ) e EQM μ μ̂ 3 = n
[] σ2
B) EQM μ μ̂ 1 = , EQM μ μ̂ 2 =
3 []
8(n-2)
nσ 2
[]
e EQM μ μ̂ 3 = n
σ2
[] σ2
[] nσ 2
[] σ2
C) EQM μ μ̂ 1 = 6 , EQM μ μ̂ 2 = 4 ( n - 1 ) e EQM μ μ̂ 3 = n
[] σ2
[] nσ 2
[] σ4
D) EQM μ μ̂ 1 = 3 , EQM μ μ̂ 2 = 8 ( n - 2 ) e EQM μ μ̂ 3 = n
2. SEJAM X 1, …, X N INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDOS COM

UMA DISTRIBUIÇÃO POISSON(Λ), E QUE X E S 2 SEJAM ESTIMADORES NÃO
VIESADOS DA MÉDIA E DA VARIÂNCIA AMOSTRAIS, RESPECTIVAMENTE.
LEMBRE-SE DE QUE, PARA A FUNÇÃO DE DISTRIBUIÇÃO DE UMA POISSON, A
MÉDIA E A VARIÂNCIA SÃO IGUAIS A Λ
ASSINALE A ALTERNATIVA QUE CORRESPONDE AO MELHOR ESTIMADOR DE Λ

E AO LIMITE INFERIOR DE CRAMÉR-RAO (DICA: CASO NECESSÁRIO, CALCULE
A VARIÂNCIA DE X ANTES DA DE S 2):
λ
A) O melhor estimador é X e o limite inferior de Cramér-Rao é n .
λ
B) O melhor estimador é S 2 e o limite inferior de Cramér-Rao é .
n
2λ 4
C) O melhor estimador é S 2 e o limite inferior de Cramér-Rao é .
n-1
2λ 4
D) O melhor estimador é X e o limite inferior de Cramér-Rao é n - 1 .
GABARITO
1. Sejam X 1, …, X n independentes e identicamente distribuídos com média μ e variância σ 2.

Encontre o EQM para cada um dos estimadores a seguir:
X1 + X2 + X3
μ̂ 1 = 3
X1 X2 + ⋯ + Xn - 1 Xn
μ̂ 2 = 4 + 2(n-2)
+ 4
μ̂ 3 = X
Assinale a alternativa correta:
A alternativa "B " está correta.
[] [( ] [] ( [] [ ] [ ]
Temos que EQM μ μ̂ i = E μ μ̂ i - μ) 2 = Var μ μ̂ i + B μ μ̂ i ) 2 onde B μ μ̂ i = E μ μ̂ i - μ é o viés do
estimador μ̂ i. Desse modo, precisamos obter as variâncias e as médias de cada um desses estimadores.
Vamos começa pelas médias:
[] [
E μ μ̂ 1 = E μ
X1 + X2 + X3
3 ]
= 3
1
(μ+μ+μ
)
=μ
[] [
E μ μ̂ 2 = E μ 4 +
X1 X2 + ⋯ + Xn - 1
2(n-2)
Xn
+ 4
]
μ (n-2)μ μ
= 4 + 2(n-2) + 4
μ μ μ
= + +
4 2 4
=μ
[ ]
E μ μ̂ 3 = E μ X []
= Eμ
[ ]∑ i =n1 X i
nμ
= n
=μ
[ ] [ ]
Ou seja, para todo i = 1, 2, 3, temos B μ μ̂ i = E μ μ̂ i - μ = 0. Nossos estimadores são, portanto, não
viesados. Assim, temos que os erros quadráticos médios de cada um desses estimadores é igual a suas
[ ] [ ]
variâncias, i.e., EQM μ μ̂ i = Var μ μ̂ i . Vamos calcular essas variâncias:
[] [
Var μ μ̂ 1 = Var μ
X1 + X2 + X3
3 ]
1
=
(
9 σ2 + σ2 + σ2 )
σ2
= 3
[] [
Var μ μ̂ 2 = Var μ 4 +
X1 X2 + ⋯ + Xn - 1
2(n-2)
Xn
+ 4
]
(n-2 )σ
]
2
σ2 σ2
= + +
16 16
4 (n-2) 2
nσ 2
= 8(n-2)
[ ]
Var μ μ̂ 3 = Var μ X []
= Var μ
[ ] ∑ i =n1 X i
=
1
n2 [ ]
Var μ ∑ i =n1 X i
nVar μ X i [ ]
=
n2
σ2
= n
[] σ2
[]
Assim, segue que EQM μ μ̂ 1 = 3 , EQM μ μ̂ 2 = 8 ( n - 2 ) e EQM μ μ̂ 3 = n .
nσ 2
[] σ2
2. Sejam X 1, …, X n independentes e identicamente distribuídos com uma distribuição Poisson(λ),

e que X e S 2 sejam estimadores não viesados da média e da variância amostrais,
respectivamente. Lembre-se de que, para a função de distribuição de uma Poisson, a média e a
variância são iguais a λ
Assinale a alternativa que corresponde ao melhor estimador de λ e ao limite inferior de Cramér-

Rao (Dica: caso necessário, calcule a variância de X antes da de S 2):
A alternativa "A " está correta.
Uma vez que os estimadores são não viesados, temos:
[]
Eλ X = Eλ S2 = λ [ ]
Em primeiro lugar, vamos primeiro resolver a desigualdade de Cramér-Rao. Uma vez sabendo o limite
inferior, precisamos comparar as suas variâncias.
[] 1
Var θ θ̂ ≥ nI ( θ ) =
( [ ( )]
- nE θ
∂2
∂ θ2
1
ln f X │ θ
Temos que o denominador do limite inferior de Cramér-Rao é:
- nE λ
[ ( )]
∂2
∂λ 2 ln f X│λ = - nE λ
[ ( )]
∂2
∂λ 2 ln
e - λ λX
X!
[ (
= - nE λ
∂2
∂ λ2
- λ + Xln λ - ln X !
)]
[ ]
= - nE λ -
X
λ2
= λ
n
Ou seja, para qualquer estimador não viesado λ̂ de λ, devemos ter:

[]
Var λ λ ^ ≥
()
1
n
λ
=
λ
n
Vamos calcular agora, seguir a dica do exercício e calcular a variância de X
[] [ ]
Var λ X = Var λ
∑ i =n1 X i
=
1
n2 [ ]
Var λ ∑ i =n1 X i
[ ]
nVar λ X i
=
n2
λ
= n
[]
Desse resultado, já é possível assinalar a alternativa “a” como a correta, uma vez que Var λ X é
λ
exatamente igual ao valor do limite inferior para a variância, n .
[ ]
O cálculo de Var λ S 2 é muito extenso, uma vez que, à diferença do exemplo que estabelecemos neste
módulo para Var [S ], as variáveis aleatórias não seguem uma distribuição normal. Logo, não
σ2
2
podemos assumir que S 2 segue uma qui-quadrado com n - 1 graus de liberdade. Assim, a dica no
enunciado e os resultados acima nos permitem afirmar que a letra “a” é a correta.
CONCLUSÃO
CONSIDERAÇÕES FINAIS
Neste tema, vimos como obter estimadores por dois métodos diferentes: o dos momentos e o da
máxima verossimilhança, e também como avaliá-los quanto ao seu erro quadrático médio e seu viés.
Estimadores são um elemento central em Estatística: queremos tirar conclusões a respeito de

populações partindo apenas de uma amostra. Para isso, nossos estimadores têm que ser bons. O que
significa, no entanto, isso? Vimos que existem critérios diferentes, mas, idealmente, quanto menor o viés
e menor a variância, melhor. Para isso, queremos minimizar o erro quadrático médio obtendo
estimadores não viesados e eficientes.
AVALIAÇÃO DO TEMA:
REFERÊNCIAS
CASELLA, G.; BERGER, R. L. Inferência estatística. 2 ed. São Paulo: Cengage Learning, 2011.
MEYER, P. L. Probabilidade: aplicações à Estatística. 2. ed. Rio de Janeiro: Livros Técnicos e

Científicos, 1983.
EXPLORE+
Para aprofundar-se mais no assunto do tema, leia o Capítulo 7 do livro Inferência Estatística, de
George Casella e Roger L. Berger. Os exercícios desse livro são consideravelmente mais
avançados do que os encontrados aqui. O aluno interessado pode, portanto, aprofundar seus
conhecimentos com esse material.
Para fixar conceitos, recomendamos o Capítulo 14 do livro Probabilidade: aplicações à Estatística

(2ª edição), de Paul Meyer, até a Seção 14.4. Caso tenha dúvidas sobre alguma das distribuições,
consulte os Capítulos 8 e 9, que apresentam, respectivamente, as propriedades de distribuições
discretas e contínuas.
CONTEUDISTA
Raphael Guinâncio Bruce
 CURRÍCULO LATTES

Estimação Pontual 3

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estimação Pontual 3

Enviado por

Direitos autorais:

Formatos disponíveis

DEFINIÇÃO

 Distinguir um estimador pontual a partir dos métodos dos momentos e da verossimilhança

DESCREVEREMOS, A SEGUIR, A DEFINIÇÃO

DEFINIÇÃO (ESTIMADOR PONTUAL)

EXISTE UMA DISTINÇÃO QUE DEVE SER

(X1 + X2 ) / 2. Se temos uma amostra específica, como x1 = 6ex1 = 7, obtemos a estimativa

ANTES, VAMOS LEMBRAR DA DEFINIÇÃO DO QUE É

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

VEREMOS AGORA OUTRO MÉTODO PARA

DEFINIÇÃO (FUNÇÃO DE VEROSSIMILHANÇA)

probabilidade de o vetor aleatório X tomar o valor x quando da ocorrência de θ. Se compararmos a

função de verossimilhança, é igual a L(θ│x). Portanto:

Desse modo, a comparação da função de verossimilhança para dois estimadores diferentes do

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Em geral, se X = x é observado, então, a função de verossimilhança é o polinômio de grau 3 + x dado

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

AGORA, SURGE A SEGUINTE PERGUNTA: COMO

Seja X = X 1, …, X n uma amostra independente e identicamente distribuída de uma população, com

O primeiro problema refere-se, efetivamente, a encontrar o máximo global da função. Em muitos

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

NOTE QUE AS SOLUÇÕES PARA A EQUAÇÃO SÃO

Sejam X 1, …, X n variáveis aleatórias independentes e identicamente distribuídas que seguem uma

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

NOTE QUE NÃO FAZ DIFERENÇA PARA O NOSSO

Sejam X 1, …, X n variáveis aleatórias independentes e identicamente distribuídas, que seguem uma

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

L(P│X) = Y LN(P) + (N - Y) LN(1 - P)

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

ENCONTRE O ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA PARA Θ E

2. SUPONHA QUE TENHAMOS UMA AMOSTRA ALEATÓRIA X 1, …, X N ONDE

X I ~ EXPONENCIAL Θ , DE TAL MODO QUE: ( )

Encontre o estimador de máxima verossimilhança para θ e assinale a alternativa correspondente

A alternativa "B " está correta.

A função de verossimilhança é dada por:

2. Suponha que tenhamos uma amostra aleatória X 1, …, X n onde X i ~ Exponencial θ , de tal ()

A alternativa "C " está correta.

INICIALMENTE, INVESTIGAMOS O ERRO

DEFINIÇÃO (ERRO QUADRÁTICO MÉDIO)

O erro quadrático médio (EQM) de um estimador W de um parâmetro θ é a função de θ definida por

[ [ ] ( [ ] [ ])(E [W] - θ ) + (E [W] - θ)

ONDE A FUNÇÃO B Θ REPRESENTA O VIÉS (OU

O viés B θ de um estimador pontual W de um parâmetroθ é a diferença entre o valor esperado de W e θ,

satisfaz E θ [W ] = θ para todo θ.

A DERIVAÇÃO ANTERIOR CONTÉM DUAS

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Desse modo, σ 2 é dado por:

UMA MANEIRA DE SIMPLIFICAR O PROBLEMA E

DEFINIÇÃO (MELHOR ESTIMADOR NÃO VIESADO)

A ESSE LIMITE DÁ-SE UM NOME: LIMITE INFERIOR

DEFINIÇÃO (DESIGUALDADE CRAMÉR-RAO)

O lado direito dessa desigualdade é chamado de limite inferior de Cramér-Rao.

A definição da desigualdade de Cramér-Rao determina o máximo de precisão possível com que

eficiente. Existe outro tipo de eficiência possível: a eficiência relativa.

NESSE CASO, ESTAMOS COMPARANDO A

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

1. SEJAM X 1, …, X N INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDOS COM

ASSINALE A ALTERNATIVA CORRETA:

2. SEJAM X 1, …, X N INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDOS COM

ASSINALE A ALTERNATIVA QUE CORRESPONDE AO MELHOR ESTIMADOR DE Λ

1. Sejam X 1, …, X n independentes e identicamente distribuídos com média μ e variância σ 2.