Escolar Documentos
Profissional Documentos
Cultura Documentos
Apresentação de tema referente à área de Probabilidade e Estatística, a partir dos métodos mais usados
para estimação de parâmetros pontuais: o dos momentos e o da máxima verossimilhança.
Demonstração de alguns critérios para avaliar esses estimadores, dando especial ênfase ao erro
quadrático médio, ao viés e à eficiência.
PROPÓSITO
Descrever um estimador pontual como etapa central do aprendizado de Estatística, por meio da
estimação de relações entre diversas variáveis relevantes em praticamente todas as áreas do
conhecimento: da Economia à Engenharia, da Ciência Política à Psicologia.
OBJETIVOS
MÓDULO 1
Distinguir um estimador pontual a partir dos métodos dos momentos e da versossimilhança
MÓDULO 2
Identificar os estimadores pontuais quanto ao seu erro quadrático médio, seu viés e sua eficiência
MÓDULO 1
Neste módulo, apresentaremos o que é um estimador pontual e dois métodos para obtê-lo: o dos
momentos e o da máxima verossimilhança. Aqui, daremos maior ênfase ao segundo método, por ser o
mais adotado.
CONCEITOS
Suponha que uma amostragem é feita a partir de uma população descrita por uma função de distribuição
de probabilidade f(x | θ), em que o conhecimento de θ nos permite dizer algo sobre a população inteira
da qual essa amostra foi extraída. Assim, é natural procurar um método para encontrar um bom
estimador de θ, isto é, um bom estimador pontual. Esse também é o caso em que o parâmetro θ tem
uma interpretação significativa para o pesquisador, como no caso da média da população. Por isso,
existe interesse direto em se obter uma boa estimativa pontual de θ. Também pode ser o caso de que
alguma função de θ, digamos, τ(θ), seja de interesse. Os métodos que descreveremos neste módulo
também poderão ser utilizados para a obtenção de estimadores de τ(θ).
Fonte:Shutterstock
( )
Um estimador pontual é qualquer função W X 1, …, X n de uma amostra, ou seja, qualquer estatística é
um estimador pontual.
VALE LEMBRAR QUE UMA “ESTATÍSTICA” É
SIMPLESMENTE UMA FUNÇÃO DA AMOSTRA.
EXEMPLO
Por exemplo, a soma de todos os elementos da amostra, a média dos valores da amostra ou qualquer
outra função. Um estimador pontual é, portanto, apenas uma estatística que usamos para obter
informações sobre um parâmetro. Observe que a definição anterior não faz menção a qualquer
correspondência entre o estimador e o parâmetro a ser estimado.
Embora seja possível argumentar que tal declaração deveria ser incluída na definição, ela restringiria o
conjunto disponível de estimadores. Além disso, também não foi feita nenhuma menção na definição
( )
sobre o conjunto de valores da estatística W X 1, …, X n . Apesar de que, em princípio, o conjunto de
valores da estatística deve coincidir com o parâmetro, veremos que nem sempre é o caso.
Um estimador é uma função da amostra, ao passo que uma estimativa é o valor observado de um
estimador (isto é, um número), obtido quando uma amostra é efetivamente selecionada. Em termos de
notação, quando temos uma amostra, um estimador é uma função das variáveis aleatórias X 1, …, X n, ao
passo que uma estimativa é uma função dos valores observados x 1, …, x n.
EXEMPLO
Considere um exemplo simples, em que estamos interessados na média e temos uma amostra com
apenas duas observações. O estimador para o qual queremos obter uma estimativa é a média amostral
Em alguns casos, é uma tarefa fácil decidir como encontrar o estimador de um parâmetro e, geralmente,
a intuição, por si, pode nos levar a estimadores muito bons.
Por exemplo, a estimação de um parâmetro com seu análogo amostral, em geral, é razoável. Em
particular, a média amostral seria um candidato natural para um estimador pontual da média da
população. Em modelos mais complicados, aqueles que geralmente surgem na prática, precisamos de
um método para a estimação de parâmetros. Existem dois métodos principais para isso: o dos
momentos e o da verossimilhança.
Fonte:Shutterstock
O método dos momentos é o mais antigo para a descoberta de estimadores pontuais, que data, pelo
menos, do final do século XIX, remontando ao matemático inglês Karl Pearson. Esse método tem a
virtude de ser bastante simples em sua utilização e quase sempre gera algum tipo de estimativa. Em
muitos casos, infelizmente, esse método gera estimadores que precisam ser aperfeiçoados. No entanto,
esse é um bom ponto para começar quando outros métodos se revelam intratáveis.
DEFINIÇÃO (MOMENTO)
(
Para cada número inteiro n o n-ésimo momento de X ouF X x ( )), μn' , é dado por μn' = E[Xn]. O n-ésimo
[( ] []
momento central de X, μ n, é dado por μ n = E X - μ) n , onde μ = μ 1' = E X .
Seguindo essa definição, temos que a média E[X] de uma variável aleatória é seu primeiro momento,
()
sendo a variância dada pelo segundo momento central, i.e., Var X = μ 2 = [(X - μ) ]. Vamos ver
2
agora como podemos usar os momentos de variáveis aleatórias para estimar parâmetros
Fonte: Shutterstock
(|
Seja X 1, …, X n a amostra de uma população com função distribuição de probabilidade f x θ 1, …, θ k . )
Pelo método dos momentos, os estimadores são encontrados igualando-se os primeiros k momentos
amostrais aos k momentos da população correspondentes, e resolvendo o sistema resultante de
equações simultâneas. Assim, definimos:
( )
Geralmente, o momento da população μ j' será uma função de θ 1, …, θ k, digamos μ j' θ 1, …, θ k . O
( ) ( )
método do estimador de momentos θ̃ 1, …, θ̃ k de θ 1, …, θ k é obtido pela resolução do seguinte
( ) (
sistema de equações para θ 1, …, θ k em termos de m 1, …, m k : )
(
M 1 = Μ 1' Θ 1, …, Θ K , )
'
(
M 2 = Μ 2 Θ 1, …, Θ K , )
(
M K = Μ K' Θ 1, …, Θ K . )
Atenção! Para visualização completa da equação utilize a rolagem horizontal
Vamos criar um exemplo para a distribuição normal, para que o método fique mais claro. Suponha que
X 1, …, X n sejam independentes e identicamente distribuídos (iid), seguindo uma distribuição normal
( )
N θ, σ 2 . Seguindo a mesma notação usada anteriormente, temos que os parâmetros populacionais
1
dessa distribuição são θ 1 = θ e θ 2 = σ 2. Temos também que m 1 = X, m 2 = ∑ i =n1X 2i ,
n
' '
μ 1 =θ, μ 2 = θ 2 + σ 2 e, assim, devemos resolver:
X=Θ
1N
∑ X 2I = Θ 2 + Σ 2
N
I=1
Resolver esse sistema de equações para θ e σ 2 gera os estimadores pelo método dos momentos:
Θ̃ = X
1 N 1N
2
Σ̃ = N
∑
I=1
2
XI -X= N
∑
I-1
( XI - X )2
Neste simples exemplo, a solução do método dos momentos coincide com nossa intuição e talvez dê
algum crédito a ambos. No entanto, o método é mais útil quando nenhum estimador óbvio pode ser
imaginado.
( )
Seja f(x│θ) a função de distribuição de probabilidade conjunta da amostra X = X 1, …, X n . Então, dado
que X=x é observado, a função de θ definida por L(θ│x) = f(x│θ) é chamada de função de
verossimilhança.
( ) ( )
Intuitivamente, a função de verossimilhança nos diz que se L θ 1│x > L θ 2│x , então, é mais provável
que a amostra que observamos tenha ocorrido se θ = θ 1, e não se θ = θ 2, o que pode ser interpretado
como θ 1 consistindo em um valor mais plausível para θ do que θ 2.
ATENÇÃO
Existem diversos modos para utilizar essa informação, mas, certamente, parece razoável examinar a
verossimilhança da amostra que observamos com diversos valores possíveis do parâmetro θ que
pretendemos estimar. Essa é a informação fornecida pela função de verossimilhança.
( ) ( )
Para vetores aleatórios discretos, temos L θ│x = P θ X = x , em que a função P θ representa a
( ) ( ) (
P Θ X = X = L Θ 1│X > L Θ 2│X = P Θ X = X
1 ) 2 ( )
Atenção! Para visualização completa da equação utilize a rolagem horizontal
Para o caso de uma variável aleatória contínua X com valor real e com função de distribuição de
probabilidade contínua em x, então, para um valor ϵ positivo e arbitrariamente pequeno (i.e. você pode
imaginar ϵ como tomando valor 1, ou 10 - 2, ou 10 - 999999 … , e assim por diante, desde que seja maior do
( )
que zero), temos P θ x - ϵ < X < x + ϵ , que é aproximadamente igual a f(x│θ), que, como definimos na
PΘ
1 ( X-Ε<X<X+Ε ) (
L Θ1 │ X )
≈
L ( Θ2 │ X )
PΘ
2 ( X-Ε<X<X+Ε )
Atenção! Para visualização completa da equação utilize a rolagem horizontal
A definição da função de verossimilhança anterior parece dizer apenas que esta é igual à função de
distribuição de probabilidade. A única distinção entre essas duas funções refere-se a qual variável é
considerada fixa e qual varia de fato. Quando consideramos a função de distribuição de probabilidade
f(x│θ), estamos tomando θ como fixo e x como variável. Quando consideramos a verossimilhança L(θ│x)
, estamos tomando x como ponto amostral observado (ou seja, é fixo pois é tomado como dado) e que θ
varia para todos os possíveis valores de parâmetro.
Fonte:Shutterstock
EXEMPLO
Como exemplo, tomemos o caso de uma variável aleatória X que segue distribuição binomial negativa
BN(r, p), em que r representa o número de sucessos que queremos obter e p é a probabilidade de
sucesso em cada um desses experimentos. Para entender melhor a intuição dessa distribuição, imagine
um dado honesto de seis faces. Se classificamos a obtenção do número 1 no dado como sucesso,
1
temos que a probabilidade p é igual a 6 . A distribuição binomial negativa nos dá, para esse valor, o
número de vezes que iremos tentar jogar o dado até obter r sucessos. Por exemplo, se r = 4, jogaremos
1
o dado um certo número de vezes, com probabilidade 6 de obter o valor 1 em cada vez, até que
obtenhamos quatro sucessos. A distribuição binomial negativa nos fornece, justamente, o número de
falhas nas tentativas até obter r sucessos. Note que, no total, lançamos os dados x + r vezes.
Para o nosso exemplo, assumiremos que X ~ BN(r = 3, p). Se x = 2 é observado, ou seja, foram obtidos
dois fracassos para cada três sucessos, com probabilidade de sucesso p, a função de verossimilhança é
dada por:
( )
L P│2 = P P X = 2 ( )
=
( R+X-1
X ) (
P R 1 - P) X
=
() (4
2
P 3 1 - P) 2
( ) (
L P│X =
3+X-1
X ) (
P 3 1 - P) X
Nesse caso, queremos obter o estimador θ̂ que maximize a função de verossimilhança, ou seja, um
estimador de máxima verossimilhança.
DEFINIÇÃO (ESTIMADORES DE MÁXIMA
VEROSSIMILHANÇA)
( )
função distribuição de probabilidade f x│θ 1, …, θ k . A função de verossimilhança, neste caso, é definida
( ) ( | ) ( ) )
por L θ│x = L θ 1, …, θ k x 1, …, x n = ∏ i =n1 f x i│θ 1, …, θ k . Para cada ponto amostral x = x 1, …, x n ,
seja θ̂(x), um valor do parâmetro no qual L(θ│x) atinge seu máximo como função de θ, com x mantido
fixo. Um estimador de máxima verossimilhança (EMV) do parâmetro θ com base em uma amostra X é
θ̂(X).
Também utilizamos a abreviação EMV quando nos referirmos à estimativa de máxima verossimilhança,
ou seja, quando falamos do valor observado desse estimador. A figura a seguir exibe como o estimador
de EMV θ̂ maximiza a função de verossimilhança em dois casos:
Fonte:Shutterstock
No primeiro caso, θ toma valores discretos, tal como o parâmetro r na distribuição binomial negativa que
vimos anteriormente. No segundo caso, θ̂ apresenta valores contínuos, como é o caso do parâmetro p
da binomial negativa. Em ambos os casos, o estimador de máxima verossimilhança está associado ao
valor máximo da função de verossimilhança. O subscrito ML ao lado do parâmetro nas duas figuras
refere-se ao termo maximum likelihood (“máxima verossimilhança”).
ATENÇÃO
Intuitivamente, o EMV é uma escolha razoável para um estimador. Ele é o valor do parâmetro para o
qual a amostra observada é a mais provável. Em geral, o EMV é um bom estimador pontual,
apresentando algumas propriedades interessantes que serão discutidas posteriormente.
HÁ DOIS INCONVENIENTES INTRÍNSECOS
ASSOCIADOS AO PROBLEMA GERAL DE
ENCONTRAR O MÁXIMO DE UMA FUNÇÃO E,
CONSEQUENTEMENTE, DA ESTIMAÇÃO DE MÁXIMA
VEROSSIMILHANÇA.
Se a função de verossimilhança for diferenciável em θ i, possíveis candidatos para o EMV são os valores
( )
de θ 1, …, θ k que resolvem a equação a seguir:
∂L(Θ│X)
∂ ΘI
= 0, ONDE I = 1, …, K
Além do mais, os zeros da primeira derivada localizam apenas pontos extremos no interior do domínio
de uma função (i.e., não sabemos os valores nas “pontas” do domínio). Se os extremos ocorrerem no
limite, a derivada poderá não ser 0 (zero). Desse modo, o limite deverá ser verificado separadamente
para os extremos.
ATENÇÃO
Os pontos nos quais as primeiras derivadas são 0 (zero) podem ser mínimos locais ou globais, máximos
globais ou locais, ou pontos de inflexão. Nossa tarefa é encontrar um máximo global. Como exemplo,
vejamos o caso para a distribuição normal.
L(θ│x) = ∏ i = 1
n 1
e - ( )(
1
2 )
xi - θ 2
( 1
2π ) 2
=
1
e -
() 1
2
n
(
∑i = 1 xi - θ 2 )
(
1
2π ) 2
Como queremos estimar somente um parâmetro, tiramos a derivada simples dessa função em relação a
ele e igualamos a 0 (zero):
dL ( θ │ x )
dθ
=0⇒ ∑ i =n1
( )
xi - θ = 0 ⇒ ∑ i =n1 x i = n θ ⇒ θ̂ =
∑ i =n1 x i
n
=x
Desse modo, a média amostral x é um candidato para o estimador de máxima verossimilhança θ̂. Para
verificar que x sé um máximo global da função de verossimilhança, podemos utilizar o seguinte
argumento: primeiro, observe que θ̂ = x é a única solução para ∑ i =n1 x i - θ = 0, assim, x é o único 0 ( )
(zero) da primeira derivada. Em segundo lugar, verifique que:
(
D 2L Θ │ X | Θ = X)
<0
DΘ 2
Portanto, x é o único ponto extremo no interior, e é um máximo. Para, finalmente, verificar que x é um
máximo global, precisamos checar os limites em ± ∞. A partir da definição dos limites, é fácil estabelecer
que a verossimilhança é 0 (zero) em ± ∞. Assim, θ̂ = x é um máximo global e, desse modo, X sé o EMV.
Na maioria dos casos, é mais fácil trabalhar com o logaritmo natural da função de verossimilhança dado
por l(θ│x) = ln L(θ│x).
N
1 - XI
L(P│X) = ∏ P X I ( 1 - P )
I=1
N N
∑I = 1
= ∑
P I = 1 XI(1 - P) (
1 - XI )
(
= P Y 1 - P) N - Y
Se 0 < y < n diferenciar l(p│x) e definir o resultado como igual a 0 (zero), temos a solução:
y
Torna-se também direto verificar que n é o máximo global. Neste caso:
( )
()
D 2L P │ X |P = Y
N
Y Y-N
= - + < 0 PARA TODO Y ∈ 0, N
DP 2 P2 (1-P) 2
y
Desse modo, demonstramos que p̂ = n é o EMV de p.
Neste vídeo, apresentaremos algumas resoluções de exercícios baseados nos tópicos abordados.
VERIFICANDO O APRENDIZADO
1. SUPONHA QUE TENHAMOS UMA AMOSTRA ALEATÓRIA X 1, …, X N ONDE
( )
X I N Μ, Θ , DE TAL MODO QUE:
1 (
- XI - Μ )2
I (
F X X I│Θ = ) √ 2ΠΘ
E 2Θ
n
(
∑i - 1 xi - μ )2
A) θ̂ =
n-1
(
∑ i -n1 x i - μ )2
B) θ̂ = n
n
(
∑i - 1 xi - μ )
C) θ̂ =
n
(
∑ i -n1 x i - μ )
D) θ̂ = n-1
(
F X X I│Θ = Θ E - ΘX I
I
)
ASSINALE A ALTERNATIVA COM A EXPRESSÃO CORRETA PARA O ESTIMADOR
DE MÁXIMA VEROSSIMILHANÇA:
n
A) θ̂ =
∑ i =n1X 2i
n
B) θ̂ =
(
∑ i =n1 X i - X )
n
C) θ̂ = n
∑i = 1 Xi
∑ i =n1 X i
D) θ̂ =
n
GABARITO
1. Suponha que tenhamos uma amostra aleatória X 1, …, X n onde X i N μ, θ , de tal modo que: ( )
(
- XI - Μ )2
( )
1
F X X I│Θ = E 2Θ
I √ 2ΠΘ
n
(
∑i = 1 xi - μ ) 2
( )
1
L θ│x 1, …, x n = n e -
2θ
( 2πθ ) 2
Como vimos, quase sempre é mais fácil trabalhar com a log-verossimilhança. Vamos tirar o logaritmo
natural da expressão anterior:
( ) n
( ) n
l θ│x 1, …, x n = - 2 ln 2π - 2 lnθ - 2θ ∑ i = 1 x i - μ) 2
1 n
(
Vamos tirar a condição de primeira ordem por meio da derivada em relação a θ:
(
dL θ │ x 1 , … , x n ) n
(
∑i = 1 xi - μ )2
(xi - μ )2 = 0 ⇒ θ̂ =
n 1
=0⇒ - + 2 ∑ i =n1
dθ 2θ 2θ n
n
(X -μ)
i
2
Assim, o EMV é dado por θ̂ = ∑i = 1 . Note que ele é parecido, porém diferente do estimador usual
n
(
∑ i =n1 X i - Xˉ )2
para a variância de uma normal dada por S2 = .
n-1
(
F X X I│Θ = Θ E - ΘX I
I
)
Assinale a alternativa com a expressão correta para o estimador de máxima verossimilhança:
( )
n
L θ│x 1, …, x n = ∏ θe - θx i
i=1
n
= θ ne - θ ∑ i = 1x i
Como vimos, quase sempre é mais fácil trabalhar com a log - verossimilhança. Vamos tirar o logaritmo
natural da expressão anterior:
n
(θ│x1, …, xn ) = nlnθ - ∑i = 1θxi
Vamos tirar a condição de primeira ordem por meio da derivada em relação a θ:
(
dL θ │ x 1 , … , x n ) n n
dθ
= 0 ⇒ θ - ∑ i =n1x i = 0 ⇒ θ̂ = n
∑ i = 1x i
n
Assim, o EMV é dado por θ̂ = n .
∑ i = 1X i
MÓDULO 2
Identificar os estimadores pontuais quanto ao seu erro quadrático médio, seu viés e sua eficiência
Os métodos discutidos na seção anterior descrevem técnicas razoáveis para encontrar estimadores
pontuais de parâmetros, com especial destaque para a mais útil delas: a estimação por máxima
verossimilhança.
Neste módulo, daremos o passo seguinte, que é o de avaliação de estimadores: como saber se o
estimador encontrado é bom para aquele parâmetro? Veremos a seguir:
CONCEITOS
Uma vez que existem métodos diferentes para a estimação de parâmetros pontuais, surge a dificuldade
de escolher qual desses estimadores é o “melhor”. Para isso, precisamos estabelecer alguns critérios
objetivos. É provável que alguns desses critérios tenham sido mencionados durante a exposição ao
conteúdo referente à propriedade de amostras aleatórias. Neste módulo, porém, aprofundaremos e
formalizaremos detalhes importantes.
Fonte:Shutterstock
[( ]
E θ W - θ) 2 .
Observe que o EQM mede a diferença quadrática da média entre o estimador W e o parâmetro θ, uma
medida de desempenho razoável para um estimador pontual. Em geral, qualquer função crescente da
distância absoluta |W - θ| servirá para medir a eficiência de um estimador. Entre elas, por exemplo, está
o erro absoluto médio E θ [ | W - θ | ]. O EQM, porém, tem duas vantagens em relação a outras medidas
de distância: ser bastante tratável analiticamente e nos oferecer a possibilidade de decompô-lo em duas
partes de interpretação conveniente:
[ ] [(
EQM θ W = E θ W - θ) 2 ]
[( [ ] [ ]
= E θ W - E θ W + E θ W - θ) 2 ]
[ [ ] [( [ ])(E [W] - θ )] + (E [W] - θ)
= E θ W - E W ] 2 + 2E θ W - E θ W θ θ
2
= E [W - E [W]]
θ
2
+ 2E [(W - E [W])](E [W ] - θ ) + (E [W ] - θ)
θ θ θ θ
2
= E [W - E [W]]
θ
2
+ 2 (0 )(E [W ] - θ ) + (E [W ] - θ)
θ θ
2
[ [ ] ( [ ]
= E θ W - E W ] 2 + E θ W - θ) 2
= Var [W ] + B [W]
θ θ
2
DEFINIÇÃO (VIÉS)
[ ] [ ]
ou seja, B θ W = E θ W - θ. Um estimador cujo viés é igual a zero é chamado de não viesado e
[ ] [ ]
A primeira, logo no início, consiste em somar - E θ W + E θ W dentro da esperança original. Isso
equivale a somar por 0 (zero) e permite a derivação posterior. Na segunda passagem importante,
[ ]
utilizamos o fato de E θ W - θ ser uma constante para chegar ao resultado. Isso se dá, pois, a
[ ]
esperança E θ W é uma constante, assim como o próprio parâmetro θ — trata-se de um valor
desconhecido, mas fixo. Portanto, pela derivação anterior, podemos expressar o erro quadrático médio
da seguinte maneira:
[ ]
EQM Θ W = VAR Θ W + B Θ W] 2 [ ] [
Atenção! Para visualização completa da equação utilize a rolagem horizontal
Desse modo, o EQM incorpora dois componentes: um deles mede a variabilidade do estimador (i.e., sua
precisão) e o outro, seu viés (i.e., sua exatidão). Um estimador que tem boas propriedades de EQM
apresenta pequena variância e viés combinados. Na figura a seguir, este cenário é representado pelo
alvo com os “tiros” no canto superior esquerdo do centro.
Fonte:Shutterstock
Para encontrar um estimador com boas propriedades de EQM precisamos também encontrar
estimadores que controlam a variância e o viés. Claramente, estimadores não viesados realizam um
bom trabalho no sentido de controlar tendências.
[ ]
Para um estimador não viesado, ou seja, com B θ W = 0, temos:
EΘ [(W - Θ) ] = VAR [W ]2
Θ
Sendo assim, seu EQM é igual à sua variância. Vamos analisar como usar o EQM para avaliar a
qualidade de estimadores com um exemplo. Sejam X 1, …, X n variáveis aleatórias independentes e
( )
identicamente distribuídas que seguem uma normal N μ, σ 2 . Neste caso, as estatísticas (i.e.,
contrapartidas amostrais dos parâmetros) usuais para a média e a variância são, respectivamente:
∑ I =N1 X I
X= N
∑ I =N1 ( XI - X ) 2
S2 = N-1
Tome também como dado que S^2 segue uma distribuição qui-quadrado ponderada tal que
( )
n-1
S2
σ2
~χ 2 .
n-1
Esse último resultado não será explicado neste módulo, mas, para fins da resolução do
exemplo, iremos tomá-lo como conhecido em vez derivá-lo passo a passo. As estatísticasXe S 2 são não
viesadas, ou seja, para todo μ e σ 2 , temos:
[]
EΜ X = Μ
[ ]
EΣ2 S2 = Σ2
[] [ ]
Os EQMs desses estimadores, dados por EQM μ X e EQM σ 2 S 2 , são, respectivamente:
[( ]
E μ X - μ) 2 = Var X[]
[ ]
n
∑i = 1 Xi
= Var n
=
n2
1
[ ]
Var ∑ i =n1 X i
nVar X i [ ]
=
n2
σ2
= n
[( ] [ ]
E σ 2 S 2 - σ 2) 2 = Var S 2
= Var
[ σ2
n-1 ]
χ n2- 1
=
(
σ4
n - 1 )2
[ ]
Var χ n2- 1
( )
2 n - 1 σ4
2σ 4
= = n-1
(n-1) 2
Da terceira para a quarta igualdade, usamos o fato de a variância da distribuição qui-quadrado ser igual
a 2k, onde k é igual ao número de graus de liberdade. Como o número de graus de liberdade é n - 1,
[ ] ( )
temos que Var χ n2- 1 = 2 n - 1 .
Embora muitos estimadores não viesados sejam também razoáveis do ponto de vista do EQM, esteja
ciente de que o controle de vieses não garante que o EQM seja controlado. Em particular, pode haver o
caso em que ocorre um ajuste entre a variância e o viés, de modo que um pequeno aumento no viés
pode ser compensado pela maior diminuição na variância, resultando no aperfeiçoamento do EQM.
Vamos prosseguir com o exemplo anterior para ilustrar esse ponto. Um estimador alternativo para σ 2 é o
de máxima verossimilhança obtido no módulo anterior:
2
(
∑ I =N1 X I - X ) 2
Σ̂ =
N
Segue que:
[] [ (X - X )
]
n 2
∑i = 1 i
2
E σ 2 σ̂ =E n
[ (X -X)
]
n 2
∑i = 1 i
n-1
= Eσ2 n - 1 n
= Eσ2 [ ] n-1
n
S2
n-1
= n Eσ2 S2
[ ]
n-1
= σ2
n
2 2
Assim, segue que σ̂ é um estimador viesado de σ 2. A variância de σ̂ também pode ser calculada
como:
[]
Var σ 2 σ̂
2
= Var σ 2
)[ ] n-1
n
S2
= ( n-1
n
) 2 Var σ 2 S 2 [ ]
=
( ( )
n - 1 2 2σ 4
n
) n-1
(
2 n - 1a σ 4 )
=
n2
[( 2
]
E σ 2 σ̂ - σ 2) 2 = Var σ 2 σ̂ [ ] 2
[ ]
+ B σˆ22 σ̂
2
= Var σ 2 σ̂ [ ] ( [ ]
2
+ E σˆ 2 σ̂
2
- σ 2) 2
( )
( )
2 n - 1 σ4 2
n-1
= + σ2 - σ2
n2 n
=⋯=
( )
2n - 1
n2
σ4
Assim, temos:
[]( )
EQM σ 2 σ̂
2
=
2n - 1
n2
σ4 <
2σ 4
n-1
= EQM σ 2 S 2
[]
2
Esse resultado mostra que σ̂ tem menor EQM do que S^2. Podemos ver que houve uma compensação
2 2
entre variância e viés: apesar de σ̂ ser viesado, enquanto S^2 não o é, a variância de σ̂ é menor ao
ponto do EQM desse estimador ser menor do que o EQM de S 2.
ISSO NÃO SIGNIFICA QUE S 2 DEVA SER
ABANDONADO COMO ESTIMADOR DE Σ^2.
2
O argumento anterior mostra que, na média, σ̂ estará mais perto de σ 2 do que S 2 se o critério utilizado
2
para julgar essa proximidade for o EQM. No entanto, é importante lembrar que σ̂ é viesado e irá, em
2
média, subestimar σ 2. Esse fato já pode gerar algum desconforto quanto à utilização de σ̂ como
estimador de σ 2.
ATENÇÃO
Não é possível chegar a uma resposta absoluta, porém mais informações foram obtidas sobre os
estimadores na esperança de que, para uma determinada situação ou aplicação, um bom estimador seja
escolhido.
Uma vez que a comparação entre estimadores utilizando o EQM pode não gerar um óbvio favorito,
podemos dizer que não existe um “melhor estimador por EQM”. O máximo que o critério do EQM nos dá
é uma recomendação. O motivo para isso é que a classe de todos os estimadores é grande demais. Por
exemplo, o estimador constante θ̂ = 15 não pode ser superado em EQM quando θ = 15, mas é um
péssimo estimador para outros valores de θ, uma vez que, quanto maior for a diferença entre θ̂ e θ,
maior será o EQM.
[ ] [ ]
Se W 1 e W 2 são, ambos, estimadores não viesados de um parâmetro θ, isto é, E θ W 1 = E θ W 1 = θ,
então seus EQMs são iguais a suas variâncias e, por isso, devemos escolher o estimador com menor
variância. Se pudermos encontrar um estimador não viesado, uniformemente com a menor variância
(i.e., um melhor estimador não viesado), nossa tarefa estará completa.
VAMOS VER A DEFINIÇÃO DESSE TIPO DE
ESTIMADOR:
[ ]
Um estimador W * é um melhor estimador não viesado (MENV) de θ se E θ W * = θ. Para qualquer outro
[ ] [ ] [ ]
estimador W com E θ W = θ, temos que Var θ W * ≤ Var θ W para todo θ.
Nesse caso, tal estimador também pode ser chamado de estimador não viesado de variância mínima
(ENVVM). Às vezes, não queremos comparar estimadores de par em par, mas obter um limite inferior
global para a variância de qualquer estimador não viesado de θ. Se pudermos encontrar um estimador
não viesado, cuja variância é igual a esse limite inferior, encontramos, de fato, o melhor estimador não
viesado entre todos os possíveis.
[ ]
Var θ θ ^
1
≥ nI ( θ )
Onde usamos:
() [ ( ) ∂
I θ = E θ ∂ θ ln f X│θ ] 2 = - E θ
∂
∂ θ2 [ ) ( )]
2
ln f X│θ
Na definição anterior, usamos a função I(θ). Essa função cumpre um papel importante em Estatística,
sendo conhecida como informação de Fisher. Para o caso multivariado, ela é chamada de matriz de
informação de Fisher, enquanto, para o caso de apenas um parâmetro, é o coeficiente de Fisher. Ela
nos relata a quantidade de informação sobre um parâmetro desconhecido θ que é possível aprender a
partir da distribuição f(X│θ) de uma amostra X = X 1, …X n.
ATENÇÃO
Desse modo, um estimador θ ̂ que atinge o limite inferior de Cramér-Rao, ou seja, para o qual vale a
[]
igualdade Var θ θ̂ =
1
nI ( θ )
, é chamado de estimador completamente eficiente, ou, simplesmente,
( )
A eficiência relativa e θ̂ 1, θ̂ 2 entre dois estimadores θ̂ 1 e θ̂ 2 para o parâmetro θ é dada por:
[ ]VAR Θ Θ̂ 2
E (Θ̂ 1, Θ̂ 2 ) =
VAR Θ [ Θ̂ 1 ]
Desse modo, se e > 1, temos que θ̂ 1 é mais eficiente do que θ̂ 2, por ter menor variância. Caso e < 1,
temos que θ̂ 2 é mais eficiente do que θ̂ 1, e, finalmente, se e = 1 , ambos possuem o mesmo grau de
eficiência.
Neste vídeo, apresentaremos algumas resoluções de exercícios baseados nos tópicos abordados.
VERIFICANDO O APRENDIZADO
X1 + X2 + X3
Μ̂ 1 = 3
X1 X2 + ⋯ + XN - 1 XN
Μ̂ 2 = + +
4 2(N-2) 4
Μ̂ 3 = X
[] σ2
[] nσ 2
[] σ2
A) EQM μ μ̂ 1 = 3 , EQM μ μ̂ 2 = 4 ( n - 1 ) e EQM μ μ̂ 3 = n
[] σ2
B) EQM μ μ̂ 1 = , EQM μ μ̂ 2 =
3 []
8(n-2)
nσ 2
[]
e EQM μ μ̂ 3 = n
σ2
[] σ2
[] nσ 2
[] σ2
C) EQM μ μ̂ 1 = 6 , EQM μ μ̂ 2 = 4 ( n - 1 ) e EQM μ μ̂ 3 = n
[] σ2
[] nσ 2
[] σ4
D) EQM μ μ̂ 1 = 3 , EQM μ μ̂ 2 = 8 ( n - 2 ) e EQM μ μ̂ 3 = n
λ
A) O melhor estimador é X e o limite inferior de Cramér-Rao é n .
λ
B) O melhor estimador é S 2 e o limite inferior de Cramér-Rao é .
n
2λ 4
C) O melhor estimador é S 2 e o limite inferior de Cramér-Rao é .
n-1
2λ 4
D) O melhor estimador é X e o limite inferior de Cramér-Rao é n - 1 .
GABARITO
X1 + X2 + X3
μ̂ 1 = 3
X1 X2 + ⋯ + Xn - 1 Xn
μ̂ 2 = 4 + 2(n-2)
+ 4
μ̂ 3 = X
[] [( ] [] ( [] [ ] [ ]
Temos que EQM μ μ̂ i = E μ μ̂ i - μ) 2 = Var μ μ̂ i + B μ μ̂ i ) 2 onde B μ μ̂ i = E μ μ̂ i - μ é o viés do
estimador μ̂ i. Desse modo, precisamos obter as variâncias e as médias de cada um desses estimadores.
Vamos começa pelas médias:
[] [
E μ μ̂ 1 = E μ
X1 + X2 + X3
3 ]
= 3
1
(μ+μ+μ
)
=μ
[] [
E μ μ̂ 2 = E μ 4 +
X1 X2 + ⋯ + Xn - 1
2(n-2)
Xn
+ 4
]
μ (n-2)μ μ
= 4 + 2(n-2) + 4
μ μ μ
= + +
4 2 4
=μ
[ ]
E μ μ̂ 3 = E μ X []
= Eμ
[ ]∑ i =n1 X i
nμ
= n
=μ
[ ] [ ]
Ou seja, para todo i = 1, 2, 3, temos B μ μ̂ i = E μ μ̂ i - μ = 0. Nossos estimadores são, portanto, não
viesados. Assim, temos que os erros quadráticos médios de cada um desses estimadores é igual a suas
[ ] [ ]
variâncias, i.e., EQM μ μ̂ i = Var μ μ̂ i . Vamos calcular essas variâncias:
[] [
Var μ μ̂ 1 = Var μ
X1 + X2 + X3
3 ]
1
=
(
9 σ2 + σ2 + σ2 )
σ2
= 3
[] [
Var μ μ̂ 2 = Var μ 4 +
X1 X2 + ⋯ + Xn - 1
2(n-2)
Xn
+ 4
]
(n-2 )σ
]
2
σ2 σ2
= + +
16 16
4 (n-2) 2
nσ 2
= 8(n-2)
[ ]
Var μ μ̂ 3 = Var μ X []
= Var μ
[ ] ∑ i =n1 X i
=
1
n2 [ ]
Var μ ∑ i =n1 X i
nVar μ X i [ ]
=
n2
σ2
= n
[] σ2
[]
Assim, segue que EQM μ μ̂ 1 = 3 , EQM μ μ̂ 2 = 8 ( n - 2 ) e EQM μ μ̂ 3 = n .
nσ 2
[] σ2
[]
Eλ X = Eλ S2 = λ [ ]
Em primeiro lugar, vamos primeiro resolver a desigualdade de Cramér-Rao. Uma vez sabendo o limite
inferior, precisamos comparar as suas variâncias.
[] 1
Var θ θ̂ ≥ nI ( θ ) =
( [ ( )]
- nE θ
∂2
∂ θ2
1
ln f X │ θ
- nE λ
[ ( )]
∂2
∂λ 2 ln f X│λ = - nE λ
[ ( )]
∂2
∂λ 2 ln
e - λ λX
X!
[ (
= - nE λ
∂2
∂ λ2
- λ + Xln λ - ln X !
)]
[ ]
= - nE λ -
X
λ2
= λ
n
()
1
n
λ
=
λ
n
[] [ ]
Var λ X = Var λ
∑ i =n1 X i
=
1
n2 [ ]
Var λ ∑ i =n1 X i
[ ]
nVar λ X i
=
n2
λ
= n
[]
Desse resultado, já é possível assinalar a alternativa “a” como a correta, uma vez que Var λ X é
λ
exatamente igual ao valor do limite inferior para a variância, n .
[ ]
O cálculo de Var λ S 2 é muito extenso, uma vez que, à diferença do exemplo que estabelecemos neste
módulo para Var [S ], as variáveis aleatórias não seguem uma distribuição normal. Logo, não
σ2
2
podemos assumir que S 2 segue uma qui-quadrado com n - 1 graus de liberdade. Assim, a dica no
enunciado e os resultados acima nos permitem afirmar que a letra “a” é a correta.
CONCLUSÃO
CONSIDERAÇÕES FINAIS
Neste tema, vimos como obter estimadores por dois métodos diferentes: o dos momentos e o da
máxima verossimilhança, e também como avaliá-los quanto ao seu erro quadrático médio e seu viés.
AVALIAÇÃO DO TEMA:
REFERÊNCIAS
CASELLA, G.; BERGER, R. L. Inferência estatística. 2 ed. São Paulo: Cengage Learning, 2011.
EXPLORE+
Para aprofundar-se mais no assunto do tema, leia o Capítulo 7 do livro Inferência Estatística, de
George Casella e Roger L. Berger. Os exercícios desse livro são consideravelmente mais
avançados do que os encontrados aqui. O aluno interessado pode, portanto, aprofundar seus
conhecimentos com esse material.
CURRÍCULO LATTES