Você está na página 1de 38

DEFINIÇÃO

Apresentação de tema referente à área de Probabilidade e Estatística, a partir dos métodos mais usados
para estimação de parâmetros pontuais: o dos momentos e o da máxima verossimilhança.
Demonstração de alguns critérios para avaliar esses estimadores, dando especial ênfase ao erro
quadrático médio, ao viés e à eficiência.

PROPÓSITO
Descrever um estimador pontual como etapa central do aprendizado de Estatística, por meio da
estimação de relações entre diversas variáveis relevantes em praticamente todas as áreas do
conhecimento: da Economia à Engenharia, da Ciência Política à Psicologia.

OBJETIVOS

MÓDULO 1
Distinguir um estimador pontual a partir dos métodos dos momentos e da versossimilhança

MÓDULO 2

Identificar os estimadores pontuais quanto ao seu erro quadrático médio, seu viés e sua eficiência

MÓDULO 1

 Distinguir um estimador pontual a partir dos métodos dos momentos e da verossimilhança

Neste módulo, apresentaremos o que é um estimador pontual e dois métodos para obtê-lo: o dos
momentos e o da máxima verossimilhança. Aqui, daremos maior ênfase ao segundo método, por ser o
mais adotado.

CONCEITOS
Suponha que uma amostragem é feita a partir de uma população descrita por uma função de distribuição
de probabilidade f(x | θ), em que o conhecimento de θ nos permite dizer algo sobre a população inteira
da qual essa amostra foi extraída. Assim, é natural procurar um método para encontrar um bom
estimador de θ, isto é, um bom estimador pontual. Esse também é o caso em que o parâmetro θ tem
uma interpretação significativa para o pesquisador, como no caso da média da população. Por isso,
existe interesse direto em se obter uma boa estimativa pontual de θ. Também pode ser o caso de que
alguma função de θ, digamos, τ(θ), seja de interesse. Os métodos que descreveremos neste módulo
também poderão ser utilizados para a obtenção de estimadores de τ(θ).
Fonte:Shutterstock

DESCREVEREMOS, A SEGUIR, A DEFINIÇÃO


FORMAL DE UM ESTIMADOR PONTUAL. A
PRINCÍPIO, ELA PODE PARECER
DESNECESSARIAMENTE VAGA. NO ENTANTO,
NESTE MOMENTO, É PRECISO TOMAR CUIDADO
PARA NÃO ELIMINAR NENHUM CANDIDATO
POSSÍVEL A ESTIMADOR PONTUAL DE
CONSIDERAÇÃO.

DEFINIÇÃO (ESTIMADOR PONTUAL)

( )
Um estimador pontual é qualquer função W X 1, …, X n de uma amostra, ou seja, qualquer estatística é

um estimador pontual.
VALE LEMBRAR QUE UMA “ESTATÍSTICA” É
SIMPLESMENTE UMA FUNÇÃO DA AMOSTRA.

 EXEMPLO

Por exemplo, a soma de todos os elementos da amostra, a média dos valores da amostra ou qualquer
outra função. Um estimador pontual é, portanto, apenas uma estatística que usamos para obter
informações sobre um parâmetro. Observe que a definição anterior não faz menção a qualquer
correspondência entre o estimador e o parâmetro a ser estimado.

Embora seja possível argumentar que tal declaração deveria ser incluída na definição, ela restringiria o
conjunto disponível de estimadores. Além disso, também não foi feita nenhuma menção na definição

( )
sobre o conjunto de valores da estatística W X 1, …, X n . Apesar de que, em princípio, o conjunto de

valores da estatística deve coincidir com o parâmetro, veremos que nem sempre é o caso.

EXISTE UMA DISTINÇÃO QUE DEVE SER


ESCLARECIDA: A DIFERENÇA ENTRE UMA
ESTIMATIVA E UM ESTIMADOR.

Um estimador é uma função da amostra, ao passo que uma estimativa é o valor observado de um
estimador (isto é, um número), obtido quando uma amostra é efetivamente selecionada. Em termos de
notação, quando temos uma amostra, um estimador é uma função das variáveis aleatórias X 1, …, X n, ao
passo que uma estimativa é uma função dos valores observados x 1, …, x n.

 EXEMPLO

Considere um exemplo simples, em que estamos interessados na média e temos uma amostra com
apenas duas observações. O estimador para o qual queremos obter uma estimativa é a média amostral

(X1 + X2 ) / 2. Se temos uma amostra específica, como x1 = 6ex1 = 7, obtemos a estimativa


6+7
= 6, 5.
2

Em alguns casos, é uma tarefa fácil decidir como encontrar o estimador de um parâmetro e, geralmente,
a intuição, por si, pode nos levar a estimadores muito bons.
Por exemplo, a estimação de um parâmetro com seu análogo amostral, em geral, é razoável. Em
particular, a média amostral seria um candidato natural para um estimador pontual da média da
população. Em modelos mais complicados, aqueles que geralmente surgem na prática, precisamos de
um método para a estimação de parâmetros. Existem dois métodos principais para isso: o dos
momentos e o da verossimilhança.

Fonte:Shutterstock

O método dos momentos é o mais antigo para a descoberta de estimadores pontuais, que data, pelo
menos, do final do século XIX, remontando ao matemático inglês Karl Pearson. Esse método tem a
virtude de ser bastante simples em sua utilização e quase sempre gera algum tipo de estimativa. Em
muitos casos, infelizmente, esse método gera estimadores que precisam ser aperfeiçoados. No entanto,
esse é um bom ponto para começar quando outros métodos se revelam intratáveis.

ANTES, VAMOS LEMBRAR DA DEFINIÇÃO DO QUE É


UM MOMENTO.

DEFINIÇÃO (MOMENTO)

(
Para cada número inteiro n o n-ésimo momento de X ouF X x ( )), μn' , é dado por μn' = E[Xn]. O n-ésimo
[( ] []
momento central de X, μ n, é dado por μ n = E X - μ) n , onde μ = μ 1' = E X .
Seguindo essa definição, temos que a média E[X] de uma variável aleatória é seu primeiro momento,

()
sendo a variância dada pelo segundo momento central, i.e., Var X = μ 2 = [(X - μ) ]. Vamos ver
2

agora como podemos usar os momentos de variáveis aleatórias para estimar parâmetros

Fonte: Shutterstock

(|
Seja X 1, …, X n a amostra de uma população com função distribuição de probabilidade f x θ 1, …, θ k . )
Pelo método dos momentos, os estimadores são encontrados igualando-se os primeiros k momentos
amostrais aos k momentos da população correspondentes, e resolvendo o sistema resultante de
equações simultâneas. Assim, definimos:

( )
Geralmente, o momento da população μ j' será uma função de θ 1, …, θ k, digamos μ j' θ 1, …, θ k . O

( ) ( )
método do estimador de momentos θ̃ 1, …, θ̃ k de θ 1, …, θ k é obtido pela resolução do seguinte

( ) (
sistema de equações para θ 1, …, θ k em termos de m 1, …, m k : )

(
M 1 = Μ 1' Θ 1, …, Θ K , )
'
(
M 2 = Μ 2 Θ 1, …, Θ K , )

(
M K = Μ K' Θ 1, …, Θ K . )
 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Vamos criar um exemplo para a distribuição normal, para que o método fique mais claro. Suponha que
X 1, …, X n sejam independentes e identicamente distribuídos (iid), seguindo uma distribuição normal

( )
N θ, σ 2 . Seguindo a mesma notação usada anteriormente, temos que os parâmetros populacionais
1
dessa distribuição são θ 1 = θ e θ 2 = σ 2. Temos também que m 1 = X, m 2 = ∑ i =n1X 2i ,
n
' '
μ 1 =θ, μ 2 = θ 2 + σ 2 e, assim, devemos resolver:

X=Θ

1N
∑ X 2I = Θ 2 + Σ 2
N
I=1

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Resolver esse sistema de equações para θ e σ 2 gera os estimadores pelo método dos momentos:

Θ̃ = X
1 N 1N
2
Σ̃ = N

I=1
2
XI -X= N

I-1
( XI - X )2

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Neste simples exemplo, a solução do método dos momentos coincide com nossa intuição e talvez dê
algum crédito a ambos. No entanto, o método é mais útil quando nenhum estimador óbvio pode ser
imaginado.

VEREMOS AGORA OUTRO MÉTODO PARA


ESTIMAÇÃO PONTUAL, QUE É A ESTIMAÇÃO POR
MÁXIMA VEROSSIMILHANÇA. ESSE MÉTODO É, DE
LONGE, O MAIS POPULAR PARA DERIVAR
ESTIMADORES. ANTES, PRECISAMOS DEFINIR O
QUE É UMA FUNÇÃO DE VEROSSIMILHANÇA.

DEFINIÇÃO (FUNÇÃO DE VEROSSIMILHANÇA)

( )
Seja f(x│θ) a função de distribuição de probabilidade conjunta da amostra X = X 1, …, X n . Então, dado

que X=x é observado, a função de θ definida por L(θ│x) = f(x│θ) é chamada de função de
verossimilhança.

( ) ( )
Intuitivamente, a função de verossimilhança nos diz que se L θ 1│x > L θ 2│x , então, é mais provável

que a amostra que observamos tenha ocorrido se θ = θ 1, e não se θ = θ 2, o que pode ser interpretado
como θ 1 consistindo em um valor mais plausível para θ do que θ 2.

 ATENÇÃO

Existem diversos modos para utilizar essa informação, mas, certamente, parece razoável examinar a
verossimilhança da amostra que observamos com diversos valores possíveis do parâmetro θ que
pretendemos estimar. Essa é a informação fornecida pela função de verossimilhança.
( ) ( )
Para vetores aleatórios discretos, temos L θ│x = P θ X = x , em que a função P θ representa a

probabilidade de o vetor aleatório X tomar o valor x quando da ocorrência de θ. Se compararmos a


função de verossimilhança para dois estimadores θ 1 e θ 2 do parâmetro θ, concluiremos que θ 1 é mais
plausível que θ 2. Para a amostra x, por exemplo, descobriremos que:

( ) ( ) (
P Θ X = X = L Θ 1│X > L Θ 2│X = P Θ X = X
1 ) 2 ( )
 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Para o caso de uma variável aleatória contínua X com valor real e com função de distribuição de
probabilidade contínua em x, então, para um valor ϵ positivo e arbitrariamente pequeno (i.e. você pode
imaginar ϵ como tomando valor 1, ou 10 - 2, ou 10 - 999999 … , e assim por diante, desde que seja maior do

( )
que zero), temos P θ x - ϵ < X < x + ϵ , que é aproximadamente igual a f(x│θ), que, como definimos na

função de verossimilhança, é igual a L(θ│x). Portanto:


1 ( X-Ε<X<X+Ε ) (
L Θ1 │ X )

L ( Θ2 │ X )

2 ( X-Ε<X<X+Ε )
 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Desse modo, a comparação da função de verossimilhança para dois estimadores diferentes do


parâmetro θ, assim como no caso discreto, fornece uma comparação aproximada da probabilidade do
valor amostral x.

A definição da função de verossimilhança anterior parece dizer apenas que esta é igual à função de
distribuição de probabilidade. A única distinção entre essas duas funções refere-se a qual variável é
considerada fixa e qual varia de fato. Quando consideramos a função de distribuição de probabilidade
f(x│θ), estamos tomando θ como fixo e x como variável. Quando consideramos a verossimilhança L(θ│x)
, estamos tomando x como ponto amostral observado (ou seja, é fixo pois é tomado como dado) e que θ
varia para todos os possíveis valores de parâmetro.
Fonte:Shutterstock

 EXEMPLO

Como exemplo, tomemos o caso de uma variável aleatória X que segue distribuição binomial negativa
BN(r, p), em que r representa o número de sucessos que queremos obter e p é a probabilidade de
sucesso em cada um desses experimentos. Para entender melhor a intuição dessa distribuição, imagine
um dado honesto de seis faces. Se classificamos a obtenção do número 1 no dado como sucesso,
1
temos que a probabilidade p é igual a 6 . A distribuição binomial negativa nos dá, para esse valor, o
número de vezes que iremos tentar jogar o dado até obter r sucessos. Por exemplo, se r = 4, jogaremos
1
o dado um certo número de vezes, com probabilidade 6 de obter o valor 1 em cada vez, até que
obtenhamos quatro sucessos. A distribuição binomial negativa nos fornece, justamente, o número de
falhas nas tentativas até obter r sucessos. Note que, no total, lançamos os dados x + r vezes.

Para o nosso exemplo, assumiremos que X ~ BN(r = 3, p). Se x = 2 é observado, ou seja, foram obtidos
dois fracassos para cada três sucessos, com probabilidade de sucesso p, a função de verossimilhança é
dada por:

( )
L P│2 = P P X = 2 ( )
=
( R+X-1
X ) (
P R 1 - P) X

=
() (4
2
P 3 1 - P) 2

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Em geral, se X = x é observado, então, a função de verossimilhança é o polinômio de grau 3 + x dado


por:

( ) (
L P│X =
3+X-1
X ) (
P 3 1 - P) X

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

AGORA, SURGE A SEGUINTE PERGUNTA: COMO


PODEMOS USAR ESSA FUNÇÃO PARA OBTER UM
BOM ESTIMADOR PARA O PARÂMETRO Θ DE
NOSSO INTERESSE (NO EXEMPLO ACIMA, TAL
PARÂMETRO SERIA DADO PELA PROBABILIDADE P
)?

Nesse caso, queremos obter o estimador θ̂ que maximize a função de verossimilhança, ou seja, um
estimador de máxima verossimilhança.
DEFINIÇÃO (ESTIMADORES DE MÁXIMA
VEROSSIMILHANÇA)

Seja X = X 1, …, X n uma amostra independente e identicamente distribuída de uma população, com

( )
função distribuição de probabilidade f x│θ 1, …, θ k . A função de verossimilhança, neste caso, é definida

( ) ( | ) ( ) )
por L θ│x = L θ 1, …, θ k x 1, …, x n = ∏ i =n1 f x i│θ 1, …, θ k . Para cada ponto amostral x = x 1, …, x n ,

seja θ̂(x), um valor do parâmetro no qual L(θ│x) atinge seu máximo como função de θ, com x mantido
fixo. Um estimador de máxima verossimilhança (EMV) do parâmetro θ com base em uma amostra X é
θ̂(X).

Também utilizamos a abreviação EMV quando nos referirmos à estimativa de máxima verossimilhança,
ou seja, quando falamos do valor observado desse estimador. A figura a seguir exibe como o estimador
de EMV θ̂ maximiza a função de verossimilhança em dois casos:

Fonte:Shutterstock

No primeiro caso, θ toma valores discretos, tal como o parâmetro r na distribuição binomial negativa que
vimos anteriormente. No segundo caso, θ̂ apresenta valores contínuos, como é o caso do parâmetro p
da binomial negativa. Em ambos os casos, o estimador de máxima verossimilhança está associado ao
valor máximo da função de verossimilhança. O subscrito ML ao lado do parâmetro nas duas figuras
refere-se ao termo maximum likelihood (“máxima verossimilhança”).

 ATENÇÃO

Intuitivamente, o EMV é uma escolha razoável para um estimador. Ele é o valor do parâmetro para o
qual a amostra observada é a mais provável. Em geral, o EMV é um bom estimador pontual,
apresentando algumas propriedades interessantes que serão discutidas posteriormente.
HÁ DOIS INCONVENIENTES INTRÍNSECOS
ASSOCIADOS AO PROBLEMA GERAL DE
ENCONTRAR O MÁXIMO DE UMA FUNÇÃO E,
CONSEQUENTEMENTE, DA ESTIMAÇÃO DE MÁXIMA
VEROSSIMILHANÇA.

O primeiro problema refere-se, efetivamente, a encontrar o máximo global da função. Em muitos


casos, esse problema reduz-se a um simples exercício de cálculo diferencial. Às vezes, no entanto,
surgem dificuldades mesmo para densidades comuns. O segundo problema é o da sensibilidade
numérica. Isto é, qual é a sensibilidade da estimativa para pequenas mudanças nos dados? Algumas
vezes, infelizmente, este é o caso em que uma amostra um pouco diferente produzirá um EMV muito
diferente, tornando seu uso suspeito. Iremos focar no primeiro problema, dada a sua natureza mais
intuitiva.

Se a função de verossimilhança for diferenciável em θ i, possíveis candidatos para o EMV são os valores

( )
de θ 1, …, θ k que resolvem a equação a seguir:

∂L(Θ│X)
∂ ΘI
= 0, ONDE I = 1, …, K

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

NOTE QUE AS SOLUÇÕES PARA A EQUAÇÃO SÃO


APENAS DE POSSÍVEIS CANDIDATAS PARA O EMV,
UMA VEZ QUE A PRIMEIRA DERIVADA SER IGUAL A
ZERO É SOMENTE UMA CONDIÇÃO NECESSÁRIA
PARA UM MÁXIMO, MAS NÃO SUFICIENTE.

Além do mais, os zeros da primeira derivada localizam apenas pontos extremos no interior do domínio
de uma função (i.e., não sabemos os valores nas “pontas” do domínio). Se os extremos ocorrerem no
limite, a derivada poderá não ser 0 (zero). Desse modo, o limite deverá ser verificado separadamente
para os extremos.
 ATENÇÃO

Os pontos nos quais as primeiras derivadas são 0 (zero) podem ser mínimos locais ou globais, máximos
globais ou locais, ou pontos de inflexão. Nossa tarefa é encontrar um máximo global. Como exemplo,
vejamos o caso para a distribuição normal.

Sejam X 1, …, X n variáveis aleatórias independentes e identicamente distribuídas que seguem uma


normal N(θ, 1), em que L(θ│x) denota a função de verossimilhança. Então, seguindo a definição para
esse tipo de função, temos:

L(θ│x) = ∏ i = 1
n 1
e - ( )(
1
2 )
xi - θ 2

( 1
2π ) 2

=
1
e -
() 1
2
n
(
∑i = 1 xi - θ 2 )
(
1
2π ) 2

Como queremos estimar somente um parâmetro, tiramos a derivada simples dessa função em relação a
ele e igualamos a 0 (zero):

dL ( θ │ x )

=0⇒ ∑ i =n1
( )
xi - θ = 0 ⇒ ∑ i =n1 x i = n θ ⇒ θ̂ =
∑ i =n1 x i

n
=x

Desse modo, a média amostral x é um candidato para o estimador de máxima verossimilhança θ̂. Para
verificar que x sé um máximo global da função de verossimilhança, podemos utilizar o seguinte

argumento: primeiro, observe que θ̂ = x é a única solução para ∑ i =n1 x i - θ = 0, assim, x é o único 0 ( )
(zero) da primeira derivada. Em segundo lugar, verifique que:
(
D 2L Θ │ X | Θ = X)
<0
DΘ 2

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Portanto, x é o único ponto extremo no interior, e é um máximo. Para, finalmente, verificar que x é um
máximo global, precisamos checar os limites em ± ∞. A partir da definição dos limites, é fácil estabelecer
que a verossimilhança é 0 (zero) em ± ∞. Assim, θ̂ = x é um máximo global e, desse modo, X sé o EMV.

Na maioria dos casos, é mais fácil trabalhar com o logaritmo natural da função de verossimilhança dado
por l(θ│x) = ln L(θ│x).

NOTE QUE NÃO FAZ DIFERENÇA PARA O NOSSO


OBJETIVO: OBTEMOS O MESMO RESULTADO AO
MAXIMIZAR LN L(Θ│X) OU L(Θ│X), POIS O
LOGARITMO NATURAL É UMA TRANSFORMAÇÃO
MONOTÔNICA DA FUNÇÃO DE VEROSSIMILHANÇA
(ISTO É ENSINADO NOS CURSOS DE CÁLCULO).
CHAMAMOS ESSA FUNÇÃO DE LOG-
VEROSSIMILHANÇA. VAMOS MOSTRAR COMO ISSO
OCORRE PARA O CASO DE UMA BERNOULLI.

Sejam X 1, …, X n variáveis aleatórias independentes e identicamente distribuídas, que seguem uma


distribuição Bernoulli(p). Então, a função de verossimilhança é dada por:

N
1 - XI
L(P│X) = ∏ P X I ( 1 - P )
I=1
N N
∑I = 1
= ∑
P I = 1 XI(1 - P) (
1 - XI )

(
= P Y 1 - P) N - Y

 Atenção! Para visualização completa da equação utilize a rolagem horizontal


n
Onde y = ∑ i = 1 x i . Embora essa função não seja tão difícil de diferenciar, é muito mais fácil distinguir o
logaritmo natural da verossimilhança dado por:

L(P│X) = Y LN(P) + (N - Y) LN(1 - P)

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Se 0 < y < n diferenciar l(p│x) e definir o resultado como igual a 0 (zero), temos a solução:

y
Torna-se também direto verificar que n é o máximo global. Neste caso:

( )
()
D 2L P │ X |P = Y
N
Y Y-N
= - + < 0 PARA TODO Y ∈ 0, N
DP 2 P2 (1-P) 2

y
Desse modo, demonstramos que p̂ = n é o EMV de p.
Neste vídeo, apresentaremos algumas resoluções de exercícios baseados nos tópicos abordados.

VERIFICANDO O APRENDIZADO
1. SUPONHA QUE TENHAMOS UMA AMOSTRA ALEATÓRIA X 1, …, X N ONDE

( )
X I N Μ, Θ , DE TAL MODO QUE:

1 (
- XI - Μ )2

I (
F X X I│Θ = ) √ 2ΠΘ
E 2Θ

ENCONTRE O ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA PARA Θ E


ASSINALE A ALTERNATIVA CORRESPONDENTE À RESPOSTA CORRETA.

n
(
∑i - 1 xi - μ )2
A) θ̂ =
n-1

(
∑ i -n1 x i - μ )2
B) θ̂ = n

n
(
∑i - 1 xi - μ )
C) θ̂ =
n

(
∑ i -n1 x i - μ )
D) θ̂ = n-1

2. SUPONHA QUE TENHAMOS UMA AMOSTRA ALEATÓRIA X 1, …, X N ONDE

X I ~ EXPONENCIAL Θ , DE TAL MODO QUE: ( )

(
F X X I│Θ = Θ E - ΘX I
I
)
ASSINALE A ALTERNATIVA COM A EXPRESSÃO CORRETA PARA O ESTIMADOR
DE MÁXIMA VEROSSIMILHANÇA:

n
A) θ̂ =
∑ i =n1X 2i

n
B) θ̂ =
(
∑ i =n1 X i - X )
n
C) θ̂ = n
∑i = 1 Xi

∑ i =n1 X i
D) θ̂ =
n
GABARITO

1. Suponha que tenhamos uma amostra aleatória X 1, …, X n onde X i N μ, θ , de tal modo que: ( )

(
- XI - Μ )2

( )
1
F X X I│Θ = E 2Θ
I √ 2ΠΘ

Encontre o estimador de máxima verossimilhança para θ e assinale a alternativa correspondente


à resposta correta.

A alternativa "B " está correta.

A função de verossimilhança é dada por:

n
(
∑i = 1 xi - μ ) 2

( )
1
L θ│x 1, …, x n = n e -

( 2πθ ) 2

Como vimos, quase sempre é mais fácil trabalhar com a log-verossimilhança. Vamos tirar o logaritmo
natural da expressão anterior:

( ) n
( ) n
l θ│x 1, …, x n = - 2 ln 2π - 2 lnθ - 2θ ∑ i = 1 x i - μ) 2
1 n
(
Vamos tirar a condição de primeira ordem por meio da derivada em relação a θ:

(
dL θ │ x 1 , … , x n ) n
(
∑i = 1 xi - μ )2
(xi - μ )2 = 0 ⇒ θ̂ =
n 1
=0⇒ - + 2 ∑ i =n1
dθ 2θ 2θ n

n
(X -μ)
i
2

Assim, o EMV é dado por θ̂ = ∑i = 1 . Note que ele é parecido, porém diferente do estimador usual
n

(
∑ i =n1 X i - Xˉ )2
para a variância de uma normal dada por S2 = .
n-1

2. Suponha que tenhamos uma amostra aleatória X 1, …, X n onde X i ~ Exponencial θ , de tal ()


modo que:

(
F X X I│Θ = Θ E - ΘX I
I
)
Assinale a alternativa com a expressão correta para o estimador de máxima verossimilhança:

A alternativa "C " está correta.


A função de verossimilhança é dada por:

( )
n
L θ│x 1, …, x n = ∏ θe - θx i
i=1

n
= θ ne - θ ∑ i = 1x i

Como vimos, quase sempre é mais fácil trabalhar com a log - verossimilhança. Vamos tirar o logaritmo
natural da expressão anterior:

n
(θ│x1, …, xn ) = nlnθ - ∑i = 1θxi
Vamos tirar a condição de primeira ordem por meio da derivada em relação a θ:

(
dL θ │ x 1 , … , x n ) n n

= 0 ⇒ θ - ∑ i =n1x i = 0 ⇒ θ̂ = n
∑ i = 1x i

n
Assim, o EMV é dado por θ̂ = n .
∑ i = 1X i

MÓDULO 2

 Identificar os estimadores pontuais quanto ao seu erro quadrático médio, seu viés e sua eficiência

Os métodos discutidos na seção anterior descrevem técnicas razoáveis para encontrar estimadores
pontuais de parâmetros, com especial destaque para a mais útil delas: a estimação por máxima
verossimilhança.

Neste módulo, daremos o passo seguinte, que é o de avaliação de estimadores: como saber se o
estimador encontrado é bom para aquele parâmetro? Veremos a seguir:

CONCEITOS
Uma vez que existem métodos diferentes para a estimação de parâmetros pontuais, surge a dificuldade
de escolher qual desses estimadores é o “melhor”. Para isso, precisamos estabelecer alguns critérios
objetivos. É provável que alguns desses critérios tenham sido mencionados durante a exposição ao
conteúdo referente à propriedade de amostras aleatórias. Neste módulo, porém, aprofundaremos e
formalizaremos detalhes importantes.
Fonte:Shutterstock

INICIALMENTE, INVESTIGAMOS O ERRO


QUADRÁTICO MÉDIO, DEFINIDO A SEGUIR:

DEFINIÇÃO (ERRO QUADRÁTICO MÉDIO)

O erro quadrático médio (EQM) de um estimador W de um parâmetro θ é a função de θ definida por

[( ]
E θ W - θ) 2 .

Observe que o EQM mede a diferença quadrática da média entre o estimador W e o parâmetro θ, uma
medida de desempenho razoável para um estimador pontual. Em geral, qualquer função crescente da
distância absoluta |W - θ| servirá para medir a eficiência de um estimador. Entre elas, por exemplo, está

o erro absoluto médio E θ [ | W - θ | ]. O EQM, porém, tem duas vantagens em relação a outras medidas
de distância: ser bastante tratável analiticamente e nos oferecer a possibilidade de decompô-lo em duas
partes de interpretação conveniente:

[ ] [(
EQM θ W = E θ W - θ) 2 ]
[( [ ] [ ]
= E θ W - E θ W + E θ W - θ) 2 ]
[ [ ] [( [ ])(E [W] - θ )] + (E [W] - θ)
= E θ W - E W ] 2 + 2E θ W - E θ W θ θ
2

= E [W - E [W]]
θ
2
+ 2E [(W - E [W])](E [W ] - θ ) + (E [W ] - θ)
θ θ θ θ
2

[ [ ] ( [ ] [ ])(E [W] - θ ) + (E [W] - θ)


= Eθ W - E W ]2 + 2 Eθ W - Eθ W θ θ
2

= E [W - E [W]]
θ
2
+ 2 (0 )(E [W ] - θ ) + (E [W ] - θ)
θ θ
2

[ [ ] ( [ ]
= E θ W - E W ] 2 + E θ W - θ) 2

= Var [W ] + B [W]
θ θ
2

ONDE A FUNÇÃO B Θ REPRESENTA O VIÉS (OU


TENDÊNCIA) DE UM ESTIMADOR, DEFINIDO A
SEGUIR:

DEFINIÇÃO (VIÉS)

O viés B θ de um estimador pontual W de um parâmetroθ é a diferença entre o valor esperado de W e θ,

[ ] [ ]
ou seja, B θ W = E θ W - θ. Um estimador cujo viés é igual a zero é chamado de não viesado e

satisfaz E θ [W ] = θ para todo θ.

A DERIVAÇÃO ANTERIOR CONTÉM DUAS


PASSAGENS CRUCIAIS.

[ ] [ ]
A primeira, logo no início, consiste em somar - E θ W + E θ W dentro da esperança original. Isso

equivale a somar por 0 (zero) e permite a derivação posterior. Na segunda passagem importante,

[ ]
utilizamos o fato de E θ W - θ ser uma constante para chegar ao resultado. Isso se dá, pois, a

[ ]
esperança E θ W é uma constante, assim como o próprio parâmetro θ — trata-se de um valor
desconhecido, mas fixo. Portanto, pela derivação anterior, podemos expressar o erro quadrático médio
da seguinte maneira:

[ ]
EQM Θ W = VAR Θ W + B Θ W] 2 [ ] [
 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Desse modo, o EQM incorpora dois componentes: um deles mede a variabilidade do estimador (i.e., sua
precisão) e o outro, seu viés (i.e., sua exatidão). Um estimador que tem boas propriedades de EQM
apresenta pequena variância e viés combinados. Na figura a seguir, este cenário é representado pelo
alvo com os “tiros” no canto superior esquerdo do centro.

Fonte:Shutterstock

Para encontrar um estimador com boas propriedades de EQM precisamos também encontrar
estimadores que controlam a variância e o viés. Claramente, estimadores não viesados realizam um
bom trabalho no sentido de controlar tendências.
[ ]
Para um estimador não viesado, ou seja, com B θ W = 0, temos:

EΘ [(W - Θ) ] = VAR [W ]2
Θ

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Sendo assim, seu EQM é igual à sua variância. Vamos analisar como usar o EQM para avaliar a
qualidade de estimadores com um exemplo. Sejam X 1, …, X n variáveis aleatórias independentes e

( )
identicamente distribuídas que seguem uma normal N μ, σ 2 . Neste caso, as estatísticas (i.e.,

contrapartidas amostrais dos parâmetros) usuais para a média e a variância são, respectivamente:

∑ I =N1 X I
X= N

∑ I =N1 ( XI - X ) 2
S2 = N-1

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Tome também como dado que S^2 segue uma distribuição qui-quadrado ponderada tal que

( )
n-1
S2
σ2
~χ 2 .
n-1
Esse último resultado não será explicado neste módulo, mas, para fins da resolução do

exemplo, iremos tomá-lo como conhecido em vez derivá-lo passo a passo. As estatísticasXe S 2 são não
viesadas, ou seja, para todo μ e σ 2 , temos:

[]
EΜ X = Μ
[ ]
EΣ2 S2 = Σ2

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

[] [ ]
Os EQMs desses estimadores, dados por EQM μ X e EQM σ 2 S 2 , são, respectivamente:

[( ]
E μ X - μ) 2 = Var X[]

[ ]
n
∑i = 1 Xi
= Var n

=
n2
1
[ ]
Var ∑ i =n1 X i

nVar X i [ ]
=
n2

σ2
= n

[( ] [ ]
E σ 2 S 2 - σ 2) 2 = Var S 2

= Var
[ σ2
n-1 ]
χ n2- 1

=
(
σ4

n - 1 )2
[ ]
Var χ n2- 1

( )
2 n - 1 σ4
2σ 4
= = n-1
(n-1) 2

Da terceira para a quarta igualdade, usamos o fato de a variância da distribuição qui-quadrado ser igual
a 2k, onde k é igual ao número de graus de liberdade. Como o número de graus de liberdade é n - 1,
[ ] ( )
temos que Var χ n2- 1 = 2 n - 1 .

Embora muitos estimadores não viesados sejam também razoáveis do ponto de vista do EQM, esteja
ciente de que o controle de vieses não garante que o EQM seja controlado. Em particular, pode haver o
caso em que ocorre um ajuste entre a variância e o viés, de modo que um pequeno aumento no viés
pode ser compensado pela maior diminuição na variância, resultando no aperfeiçoamento do EQM.

Vamos prosseguir com o exemplo anterior para ilustrar esse ponto. Um estimador alternativo para σ 2 é o
de máxima verossimilhança obtido no módulo anterior:

2
(
∑ I =N1 X I - X ) 2
Σ̂ =
N

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Segue que:

[] [ (X - X )
]
n 2
∑i = 1 i
2
E σ 2 σ̂ =E n

[ (X -X)
]
n 2
∑i = 1 i
n-1
= Eσ2 n - 1 n

= Eσ2 [ ] n-1
n
S2

n-1
= n Eσ2 S2
[ ]
n-1
= σ2
n
2 2
Assim, segue que σ̂ é um estimador viesado de σ 2. A variância de σ̂ também pode ser calculada
como:

[]
Var σ 2 σ̂
2
= Var σ 2
)[ ] n-1
n
S2

= ( n-1
n
) 2 Var σ 2 S 2 [ ]
=
( ( )
n - 1 2 2σ 4
n
) n-1

(
2 n - 1a σ 4 )
=
n2

Desse modo, σ 2 é dado por:

[( 2
]
E σ 2 σ̂ - σ 2) 2 = Var σ 2 σ̂ [ ] 2
[ ]
+ B σˆ22 σ̂
2

= Var σ 2 σ̂ [ ] ( [ ]
2
+ E σˆ 2 σ̂
2
- σ 2) 2

( )
( )
2 n - 1 σ4 2
n-1
= + σ2 - σ2
n2 n

=⋯=
( )
2n - 1
n2
σ4

Assim, temos:

[]( )
EQM σ 2 σ̂
2
=
2n - 1
n2
σ4 <
2σ 4
n-1
= EQM σ 2 S 2
[]

2
Esse resultado mostra que σ̂ tem menor EQM do que S^2. Podemos ver que houve uma compensação
2 2
entre variância e viés: apesar de σ̂ ser viesado, enquanto S^2 não o é, a variância de σ̂ é menor ao
ponto do EQM desse estimador ser menor do que o EQM de S 2.
ISSO NÃO SIGNIFICA QUE S 2 DEVA SER
ABANDONADO COMO ESTIMADOR DE Σ^2.
2
O argumento anterior mostra que, na média, σ̂ estará mais perto de σ 2 do que S 2 se o critério utilizado
2
para julgar essa proximidade for o EQM. No entanto, é importante lembrar que σ̂ é viesado e irá, em
2
média, subestimar σ 2. Esse fato já pode gerar algum desconforto quanto à utilização de σ̂ como
estimador de σ 2.

 ATENÇÃO

Não é possível chegar a uma resposta absoluta, porém mais informações foram obtidas sobre os
estimadores na esperança de que, para uma determinada situação ou aplicação, um bom estimador seja
escolhido.

Uma vez que a comparação entre estimadores utilizando o EQM pode não gerar um óbvio favorito,
podemos dizer que não existe um “melhor estimador por EQM”. O máximo que o critério do EQM nos dá
é uma recomendação. O motivo para isso é que a classe de todos os estimadores é grande demais. Por
exemplo, o estimador constante θ̂ = 15 não pode ser superado em EQM quando θ = 15, mas é um
péssimo estimador para outros valores de θ, uma vez que, quanto maior for a diferença entre θ̂ e θ,
maior será o EQM.

UMA MANEIRA DE SIMPLIFICAR O PROBLEMA E


ESCOLHER O “MELHOR” ESTIMADOR É LIMITAR A
CLASSE DE ESTIMADORES. UM MEIO POPULAR DE
RESTRINGIR A CLASSE DE ESTIMADORES ESTÁ EM
LEVAR EM CONTA SOMENTE OS ESTIMADORES NÃO
VIESADOS.

[ ] [ ]
Se W 1 e W 2 são, ambos, estimadores não viesados de um parâmetro θ, isto é, E θ W 1 = E θ W 1 = θ,

então seus EQMs são iguais a suas variâncias e, por isso, devemos escolher o estimador com menor
variância. Se pudermos encontrar um estimador não viesado, uniformemente com a menor variância
(i.e., um melhor estimador não viesado), nossa tarefa estará completa.
VAMOS VER A DEFINIÇÃO DESSE TIPO DE
ESTIMADOR:

DEFINIÇÃO (MELHOR ESTIMADOR NÃO VIESADO)

[ ]
Um estimador W * é um melhor estimador não viesado (MENV) de θ se E θ W * = θ. Para qualquer outro

[ ] [ ] [ ]
estimador W com E θ W = θ, temos que Var θ W * ≤ Var θ W para todo θ.

Nesse caso, tal estimador também pode ser chamado de estimador não viesado de variância mínima
(ENVVM). Às vezes, não queremos comparar estimadores de par em par, mas obter um limite inferior
global para a variância de qualquer estimador não viesado de θ. Se pudermos encontrar um estimador
não viesado, cuja variância é igual a esse limite inferior, encontramos, de fato, o melhor estimador não
viesado entre todos os possíveis.

A ESSE LIMITE DÁ-SE UM NOME: LIMITE INFERIOR


DE CRAMÉR-RAO. A DEFINIÇÃO FORMAL DESSE
LIMITE SEGUE ADIANTE:

DEFINIÇÃO (DESIGUALDADE CRAMÉR-RAO)


Sejam X 1, …, X n uma amostra iid com função de distribuição f(x│θ), e que θ̂ seja qualquer estimador
não viesado de θ. A desigualdade de Cramér-Rao nos fornece o limite inferior para os estimadores não
viesados de θ, oriundos de uma amostra iid, dada por:

[ ]
Var θ θ ^
1
≥ nI ( θ )

Onde usamos:

() [ ( ) ∂
I θ = E θ ∂ θ ln f X│θ ] 2 = - E θ

∂ θ2 [ ) ( )]
2
ln f X│θ

O lado direito dessa desigualdade é chamado de limite inferior de Cramér-Rao.

Na definição anterior, usamos a função I(θ). Essa função cumpre um papel importante em Estatística,
sendo conhecida como informação de Fisher. Para o caso multivariado, ela é chamada de matriz de
informação de Fisher, enquanto, para o caso de apenas um parâmetro, é o coeficiente de Fisher. Ela
nos relata a quantidade de informação sobre um parâmetro desconhecido θ que é possível aprender a
partir da distribuição f(X│θ) de uma amostra X = X 1, …X n.

 ATENÇÃO

A definição da desigualdade de Cramér-Rao determina o máximo de precisão possível com que


conseguimos estimar θ. Esse limite, no caso de variáveis aleatórias independentes e identicamente
distribuídas e de um estimador não viesado, é dado como função da informação de Fisher.
Intuitivamente, isso pode ser colocado de maneira muito simples: quanto maior o número de informação
que podemos extrair de uma amostra sobre sua população, menor será a menor variância possível a
qual podemos chegar a respeito de um estimador, e, quanto menor a variância, maior a precisão
possível.

Desse modo, um estimador θ ̂ que atinge o limite inferior de Cramér-Rao, ou seja, para o qual vale a

[]
igualdade Var θ θ̂ =
1
nI ( θ )
, é chamado de estimador completamente eficiente, ou, simplesmente,

eficiente. Existe outro tipo de eficiência possível: a eficiência relativa.

NESSE CASO, ESTAMOS COMPARANDO A


VARIÂNCIA DE DOIS ESTIMADORES:
DEFINIÇÃO (EFICIÊNCIA RELATIVA)

( )
A eficiência relativa e θ̂ 1, θ̂ 2 entre dois estimadores θ̂ 1 e θ̂ 2 para o parâmetro θ é dada por:

[ ]VAR Θ Θ̂ 2
E (Θ̂ 1, Θ̂ 2 ) =
VAR Θ [ Θ̂ 1 ]

 Atenção! Para visualização completa da equação utilize a rolagem horizontal

Desse modo, se e > 1, temos que θ̂ 1 é mais eficiente do que θ̂ 2, por ter menor variância. Caso e < 1,
temos que θ̂ 2 é mais eficiente do que θ̂ 1, e, finalmente, se e = 1 , ambos possuem o mesmo grau de
eficiência.

Neste vídeo, apresentaremos algumas resoluções de exercícios baseados nos tópicos abordados.
VERIFICANDO O APRENDIZADO

1. SEJAM X 1, …, X N INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDOS COM


MÉDIA Μ E VARIÂNCIA Σ 2. ENCONTRE O EQM PARA CADA UM DOS
ESTIMADORES A SEGUIR:

X1 + X2 + X3
Μ̂ 1 = 3

X1 X2 + ⋯ + XN - 1 XN
Μ̂ 2 = + +
4 2(N-2) 4

Μ̂ 3 = X

ASSINALE A ALTERNATIVA CORRETA:

[] σ2
[] nσ 2
[] σ2
A) EQM μ μ̂ 1 = 3 , EQM μ μ̂ 2 = 4 ( n - 1 ) e EQM μ μ̂ 3 = n

[] σ2
B) EQM μ μ̂ 1 = , EQM μ μ̂ 2 =
3 []
8(n-2)
nσ 2
[]
e EQM μ μ̂ 3 = n
σ2

[] σ2
[] nσ 2
[] σ2
C) EQM μ μ̂ 1 = 6 , EQM μ μ̂ 2 = 4 ( n - 1 ) e EQM μ μ̂ 3 = n

[] σ2
[] nσ 2
[] σ4
D) EQM μ μ̂ 1 = 3 , EQM μ μ̂ 2 = 8 ( n - 2 ) e EQM μ μ̂ 3 = n

2. SEJAM X 1, …, X N INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDOS COM


UMA DISTRIBUIÇÃO POISSON(Λ), E QUE X E S 2 SEJAM ESTIMADORES NÃO
VIESADOS DA MÉDIA E DA VARIÂNCIA AMOSTRAIS, RESPECTIVAMENTE.
LEMBRE-SE DE QUE, PARA A FUNÇÃO DE DISTRIBUIÇÃO DE UMA POISSON, A
MÉDIA E A VARIÂNCIA SÃO IGUAIS A Λ

ASSINALE A ALTERNATIVA QUE CORRESPONDE AO MELHOR ESTIMADOR DE Λ


E AO LIMITE INFERIOR DE CRAMÉR-RAO (DICA: CASO NECESSÁRIO, CALCULE
A VARIÂNCIA DE X ANTES DA DE S 2):

λ
A) O melhor estimador é X e o limite inferior de Cramér-Rao é n .

λ
B) O melhor estimador é S 2 e o limite inferior de Cramér-Rao é .
n

2λ 4
C) O melhor estimador é S 2 e o limite inferior de Cramér-Rao é .
n-1

2λ 4
D) O melhor estimador é X e o limite inferior de Cramér-Rao é n - 1 .

GABARITO

1. Sejam X 1, …, X n independentes e identicamente distribuídos com média μ e variância σ 2.


Encontre o EQM para cada um dos estimadores a seguir:

X1 + X2 + X3
μ̂ 1 = 3

X1 X2 + ⋯ + Xn - 1 Xn
μ̂ 2 = 4 + 2(n-2)
+ 4

μ̂ 3 = X

Assinale a alternativa correta:

A alternativa "B " está correta.

[] [( ] [] ( [] [ ] [ ]
Temos que EQM μ μ̂ i = E μ μ̂ i - μ) 2 = Var μ μ̂ i + B μ μ̂ i ) 2 onde B μ μ̂ i = E μ μ̂ i - μ é o viés do

estimador μ̂ i. Desse modo, precisamos obter as variâncias e as médias de cada um desses estimadores.
Vamos começa pelas médias:

[] [
E μ μ̂ 1 = E μ
X1 + X2 + X3
3 ]
= 3
1
(μ+μ+μ
)

[] [
E μ μ̂ 2 = E μ 4 +
X1 X2 + ⋯ + Xn - 1
2(n-2)
Xn
+ 4
]
μ (n-2)μ μ
= 4 + 2(n-2) + 4

μ μ μ
= + +
4 2 4

[ ]
E μ μ̂ 3 = E μ X []

= Eμ
[ ]∑ i =n1 X i


= n

[ ] [ ]
Ou seja, para todo i = 1, 2, 3, temos B μ μ̂ i = E μ μ̂ i - μ = 0. Nossos estimadores são, portanto, não

viesados. Assim, temos que os erros quadráticos médios de cada um desses estimadores é igual a suas

[ ] [ ]
variâncias, i.e., EQM μ μ̂ i = Var μ μ̂ i . Vamos calcular essas variâncias:

[] [
Var μ μ̂ 1 = Var μ
X1 + X2 + X3
3 ]
1
=
(
9 σ2 + σ2 + σ2 )
σ2
= 3

[] [
Var μ μ̂ 2 = Var μ 4 +
X1 X2 + ⋯ + Xn - 1
2(n-2)
Xn
+ 4
]
(n-2 )σ
]
2
σ2 σ2
= + +
16 16
4 (n-2) 2

nσ 2
= 8(n-2)

[ ]
Var μ μ̂ 3 = Var μ X []

= Var μ
[ ] ∑ i =n1 X i

=
1
n2 [ ]
Var μ ∑ i =n1 X i

nVar μ X i [ ]
=
n2
σ2
= n

[] σ2
[]
Assim, segue que EQM μ μ̂ 1 = 3 , EQM μ μ̂ 2 = 8 ( n - 2 ) e EQM μ μ̂ 3 = n .
nσ 2
[] σ2

2. Sejam X 1, …, X n independentes e identicamente distribuídos com uma distribuição Poisson(λ),


e que X e S 2 sejam estimadores não viesados da média e da variância amostrais,
respectivamente. Lembre-se de que, para a função de distribuição de uma Poisson, a média e a
variância são iguais a λ

Assinale a alternativa que corresponde ao melhor estimador de λ e ao limite inferior de Cramér-


Rao (Dica: caso necessário, calcule a variância de X antes da de S 2):

A alternativa "A " está correta.

Uma vez que os estimadores são não viesados, temos:

[]
Eλ X = Eλ S2 = λ [ ]
Em primeiro lugar, vamos primeiro resolver a desigualdade de Cramér-Rao. Uma vez sabendo o limite
inferior, precisamos comparar as suas variâncias.

[] 1
Var θ θ̂ ≥ nI ( θ ) =

( [ ( )]
- nE θ
∂2
∂ θ2
1

ln f X │ θ

Temos que o denominador do limite inferior de Cramér-Rao é:

- nE λ
[ ( )]
∂2
∂λ 2 ln f X│λ = - nE λ
[ ( )]
∂2
∂λ 2 ln
e - λ λX
X!

[ (
= - nE λ
∂2
∂ λ2
- λ + Xln λ - ln X !
)]
[ ]
= - nE λ -
X
λ2
= λ
n

Ou seja, para qualquer estimador não viesado λ̂ de λ, devemos ter:


[]
Var λ λ ^ ≥

()
1

n
λ
=
λ
n

Vamos calcular agora, seguir a dica do exercício e calcular a variância de X

[] [ ]
Var λ X = Var λ
∑ i =n1 X i

=
1
n2 [ ]
Var λ ∑ i =n1 X i

[ ]
nVar λ X i
=
n2

λ
= n

[]
Desse resultado, já é possível assinalar a alternativa “a” como a correta, uma vez que Var λ X é
λ
exatamente igual ao valor do limite inferior para a variância, n .

[ ]
O cálculo de Var λ S 2 é muito extenso, uma vez que, à diferença do exemplo que estabelecemos neste

módulo para Var [S ], as variáveis aleatórias não seguem uma distribuição normal. Logo, não
σ2
2

podemos assumir que S 2 segue uma qui-quadrado com n - 1 graus de liberdade. Assim, a dica no
enunciado e os resultados acima nos permitem afirmar que a letra “a” é a correta.

CONCLUSÃO

CONSIDERAÇÕES FINAIS
Neste tema, vimos como obter estimadores por dois métodos diferentes: o dos momentos e o da
máxima verossimilhança, e também como avaliá-los quanto ao seu erro quadrático médio e seu viés.

Estimadores são um elemento central em Estatística: queremos tirar conclusões a respeito de


populações partindo apenas de uma amostra. Para isso, nossos estimadores têm que ser bons. O que
significa, no entanto, isso? Vimos que existem critérios diferentes, mas, idealmente, quanto menor o viés
e menor a variância, melhor. Para isso, queremos minimizar o erro quadrático médio obtendo
estimadores não viesados e eficientes.

AVALIAÇÃO DO TEMA:

REFERÊNCIAS
CASELLA, G.; BERGER, R. L. Inferência estatística. 2 ed. São Paulo: Cengage Learning, 2011.

MEYER, P. L. Probabilidade: aplicações à Estatística. 2. ed. Rio de Janeiro: Livros Técnicos e


Científicos, 1983.

EXPLORE+

Para aprofundar-se mais no assunto do tema, leia o Capítulo 7 do livro Inferência Estatística, de
George Casella e Roger L. Berger. Os exercícios desse livro são consideravelmente mais
avançados do que os encontrados aqui. O aluno interessado pode, portanto, aprofundar seus
conhecimentos com esse material.

Para fixar conceitos, recomendamos o Capítulo 14 do livro Probabilidade: aplicações à Estatística


(2ª edição), de Paul Meyer, até a Seção 14.4. Caso tenha dúvidas sobre alguma das distribuições,
consulte os Capítulos 8 e 9, que apresentam, respectivamente, as propriedades de distribuições
discretas e contínuas.
CONTEUDISTA
Raphael Guinâncio Bruce

 CURRÍCULO LATTES

Você também pode gostar