UD6 Estimacao

Estimação
Prof. Paulo Justiniano R. Jr
Departamento de Estatística
Universidade Federal do Paraná
Prof. Paulo Justiniano R. Jr Estimação 1

Estimação estatística
Falar sobre população a partir da observação da amostra.

Mas só temos uma flexa!
I Amostra? De qual tamanho?

I Como estimar?
I Como expressar incerteza?
I O que é “estimar bem”?
Figura 1. Analogia ao processo de estimação.

Extraído de bestbowreviews.com.

Um exemplo: cardápio vegano
I Um restaurante deseja caracterizar o
perfil de seus clientes.
I Questionário para uma amostra de
clientes.
I Q1: Há interesse por opções veganas?
I Qual a proporção que prefere pratos
veganos?
1. Dados (0/1) do questionário podem
indicar um valor, por ex., 0.12 e sua
incerteza: 0.12 ± 0.035 ou Figura 2. Foto de Pexels.
(0.085 , 0.155).
2. Quantos questionários?

Exemplo: caracterização dos clientes
Q2: Qual será a idade média dos clientes?
1. Dados de idades nos questionários:
distribuição normal(?)
2. Pode-se estimar, por ex., 32 anos com
alguma incerteza: 32 ± 2.5 ou
(29.5 , 34.5).
4. Diferentes opções para estimar o valor
de idade “típica” dos clientes:
média, mediana, ponto médio, etc.
Quais as características de cada Figura 3. Foto de Adrienn no Pexels.
estimador?

Exemplo: tempo de refeição
Q3: Qual a duração média das refeições?

1. Dados do questionário: Distribuição
para o tempo de permanência:
(Normal(?), Gama(?))
2. Pode-se estimar, por ex., 25 min e sua
incerteza: (22, 30).
4. Qual as características de cada
estimador? Figura 4. Foto de Andrea Piacquadio no Pexels.
5. Mas, qual(ais) estimador(es)?

Elementos da estimação
I Contexto do estudo: a(s) variável(eis)

envolvidas.
I Comportamento (distribuição) desta
variável.
I Característica (parâmetro) de interesse.
I Definição da amostra.
I Obtenção dos dados.
I Estimação do parâmetro.
I Expressão da incerteza.
I Interpretação e conclusões. Figura 5. Roadmap.
https://getnave.com/blog/kanban-roadmap/

Inferência frequentista
I Objeto de inferência: distribuição

amostral. θ
I A estimativa pontual é um resumo
desta distribuição.
I Intervalos entre quantis representam a
incerteza sobre o valor estimado.
I Comparam-se estimadores
concorrentes pelas características de
suas distribuições amostrais.
I E para tudo isto: Figura 6. Distribuição amostral de diferentes
estimadores de um parâmetro.
é preciso saber como estimar.

Falar sobre população Y ∼ Dist.y (θ)
a partir da observação da amostra
θ̂(y1 , . . . , yn ) ∼ Dist.Am.θ̂ (θ).
θ
1. Como expressar incerteza?
Estimação pontual e intervalar.
2. Amostra? De qual tamanho?
Determinação do tamanho da
amostra.
3. O que é “estimar bem”?
Propriedades dos estimadores.
4. Como estimar? Figura 7. Distribuição amostral de diferentes
Métodos de estimação. estimadores de um parâmetro.
Ideias válidas em contextos mais gerais.

Estimação pontual e intervalo de confiança
Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 1

Conteúdo
Estimação pontual e intervalar

I Terminologia.
I Intervalo de confiança para a média.
I Intervalo de confiança para a
proporção.
I Intervalo de confiança para a variância.
Figura 1. Analogia ao processo de estimação.
Extraído de pixabay.

Noções iniciais

Notação e definições
I Y = (Y1 , . . . , Yn ) denota um vetor de v.a.’s independentes e identicamente

distribuídas.
I Cada Yi ∼ f (θ) onde f denota a função densidade de probabilidade ou função de
probabilidade e θ = (θ1 , . . . , θp ) é um vetor de p parâmetros populacionais.
I y = (y1 , . . . , yn ) denota o vetor de valores observados da v.a. Y .
I Estatística: uma estatística T é uma v.a. T = t(Y), definida como função da amostra,
que não depende do vetor de parâmetros θ.
I Uma estatística T é um estimador para θ se o valor realizado t = t(y) é usado como
uma estimativa para o valor de θ, então denotado por θ̂.
I A distribuição de probabilidade de T (Y) → Distribuição amostral.

Exemplo: idade média dos frequentadores do restaurante
Vai se tomar uma amostra de n = 5.
I Y = (Y1 , . . . , Yn ) é definida pelas idades dos frequentadores.
I Cada idade vem de uma distribuição da v.a. observada
Yi ∼ f (θ) = N(µ, 42 ) com θ = (µ).
Pn
Yi
I A estatística: T = t(Y) = i=1
n = Y = µ̂ é um estimador da média.
Coletam-se os dados y = (y1 = 31, y2 = 30, y3 = 32, y4 = 37, y5 = 30)
I A estimativa obtida com esta amostra µ̂ = y = 32,
I Se a amostra é aleatória então esta estimativa é uma v.a. que tem uma distribuição
de probabilidade chamada de distribuição amostral.

42 Y −µ
Y ∼ N µ, ou, equivalentemente, √ ∼ N (0, 1) .
5 4/ 5

Exemplo: estimadores para distribuição Normal
I Modelo de probabilidade: Yi ∼ N(µ, σ 2 ) → θ = (µ, σ 2 ).
I Estimadores e estimativas
1X 1X
n n
Y = Yi → y= yi
n n
i=1 i=1
1 X
n
1 X
n
S2 = (Yi − Y )2 → s2 = (yi − y)2 .
n−1 n−1
i=1 i=1
I Distribuições amostrais

2 σ2 Y −µ
σ conhecido: Y ∼ N µ, ou √ ∼ N (0, 1)
n σ/ n
Y −µ S2
σ 2 desconhecido: √ ∼ tn−1 e (n − 1) 2
∼ χn−1 .
S/ n σ2

Exemplo: estimadores para distribuição de Bernoulli
I Modelo de probabilidade: Yi ∼ Ber(p) → θ = p.

I Estimadores e estimativas
1X 1X
n n
p̂ = Yi → p̂ = yi .
n n
i=1 i=1
I Distribuição amostral (aproximada TLC)

aprox p(1 − p)
p̂ ∼ N p, .
n

A incerteza na estimação
População Amostras
Amostragem
p̂1
A estimativa pontual p̂2
I Fornece apenas um valor plausível de p̂3
ser o verdadeiro valor do parâmetro. p̂4
Não considera a incerteza devido a

p̂5
I
termos apenas uma amostra.
p̂6
Isso não é
feito na p̂7
prática.
Como expressar a incerteza? p̂8
p̂9
Baseado na distribuição amostral pode-se
p̂10
obter uma faixa de valores com determi-
nada probabilidade de conter o parâmetro p̂11
→ intervalo de confiança. p̂12
Figura 2. Processo de inferência na prática.

Intervalo de confiança para a média

Intervalos de confiança para a média quando σ 2 é conhecido
I Seja Yi ∼ N(µ, σ 2 ) e suponha que σ 2 é
conhecido.
I Neste caso, temos que

σ2 Y −µ
Y ∼ N µ, ou √ ∼ N (0, 1) .
n σ/ n
1−α
yLI yLS
I Fixando uma probabilidade 1 − α α/2 α/2
podemos encontrar yLI e yLS , tal que
P(yLI < µ < yLS ) = 1 − α.
ȳ
4 √σ
3 √σ
2 √σ
1 √σ
1 √σ
2 √σ
3 √σ
4 √σ
n
n
−
+
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
I Vários pares yLI e yLS existem, então
prefere-se aqueles que dão intervalo Figura 3. Intervalo de confiança para a média.
simétrico em relação a µ.

Obtenção do intervalo para µ
I Definimos limites Z na distribuição amostral padronizada

y−µ
P zLI < √ < zLS = 1 − α.
σ/ n
I Agora deixamos apenas µ no centro para obtermos,

σ σ
P y − zLI √ < µ < y + zLS √ = 1 − α.
n n
I Como deseja-se intervalos simétricos, então abs(zLI ) = abs(zLS ) = zα/2 . Assim,

σ σ
P y − zα/2 · √ < µ < y + zα/2 √ = 1 − α.
n n
I zα/2 é o quantil da distribuição Normal padrão para o valor de 1 − α fixado.

Margem de erro e nível de confiança
I Chamamos de erro máximo provável I zα/2 é chamado de valor crítico. É o
ou margem de erro a quantidade valor z que produz uma área de α/2
σ na cauda superior da distribuição
e = zα/2 · √ . Normal padrão.
n
I Chamamos a quantidade 1 − α de
coeficiente de confiança ou nível
2e de confiança do intervalo.
√
e = zα/2 · σ / n
√ √
y − zα/2 · σ / n y y + zα/2 · σ / n
1−α
yLI yLS
Figura 4. Margem de erro do intervalo de confiança. α/2 α/2
ȳ
4 √σ
3 √σ
2 √σ
1 √σ
1 √σ
2 √σ
3 √σ
4 √σ
n
n
−
+
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
Exemplo: idade média dos frequentadores do restaurante
Y : idade dos frequentadores

Y ∼ N(µ, σ 2 = 42 )
Dados: y = (31, 30, 32, 37, 30)

I estimativa: µ̂ = y = 32
I escolha do nível de confiança: 95% (1 − α = 0,95 e α/2 = 0.025)
I valor-z: zα/2 = 1.96
I erro máximo provável: e = zα/2 · √σ = 1.96 · √4 = 3.51
n 5
I intervalo de confiança (95%): y ± zα/2 · √σ = 32 ± 3.51
n
IC0,95 (µ) : (28.5 , 35.5)

Construção do intervalo usando a distribuição amostral
1 2 3 4 5 6 7 8 9 10
Distribuição da média amostral de Y
11 12 13 14 15 16 17 18 19 20
Figura 6. Construção do intervalo de confiança a partir da distribuição amostral.

Interpretação frequentista
Valores da v.a. Y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Número da amostra
Média amostral de Y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Número da amostra
Figura 7. Interpretação frequentista do intervalo de confiança.

Interpretação do intervalo de confiança
Suponha que obtivemos um intervalo de 95% de confiança: IC95% (µ) = [yLI , yLS ].
Interpretação ERRADA de IC Interpretação CERTA de IC

Temos 95% de confiança de que a Temos 95% de confiança de que o
média populacional µ se encontra intervalo entre yLI e yLS contém a
entre yLI e yLS . média populacional µ.
Semanticamente as afirmações podem parecer equivalentes, mas a segunda sentença

enfatiza o que é crucial: o intervalo é aleatório e o parâmetro é fixo.

Interpretação de um intervalo de confiança
I Como o intervalo de confiança é calculado a partir de uma amostra aleatória, este

intervalo também é aleatório!
I Isso significa que para cada amostra aleatória que tivermos, um intervalo diferente
será calculado.
I Como o valor de µ é fixo, é o intervalo que deve conter o valor de µ, e não o
contrário.
I Isso significa que se pudessemos obter 100 amostras diferentes, e calcularmos um
intervalo de confiança de 95% para cada uma das 100 amostras, esperariamos que 5
destes intervalos não contenham o verdadeiro valor da média populacional µ.

Exercício: performance no TOEFL
Uma escola on-line de idiomas preparató-

ria para o TOEFL afirma possuir uma exce-
lente pontuação média dos seus alunos no Figura 8. Extraído de elacademy.co.uk.
exame. Em uma amostra de aleatória de 50
alunos, a pontuação média foi de 560 pon- f (z)
tos. Por estudos anteriores, sabe-se que o 0.4
desvio-padrão é 25 pontos. Obtenha inter- −z0.05 = −1.645 z0.05 = 1.645
valos de confiança com 90%, 95% e 99% de 0.2 −z0.025 = −1.960

−z0.005 = −2.576
z0.025 = 1.960
z0.005 = 2.576
confiança. Discuta as diferenças.

0
z
−4 −3 −2 −1 0 1 2 3 4
Figura 9. Quantis da distribuição Normal Padrão.

Solução
1. 1 − α = 0.9 → zα/2 = z0.05 = 1.645, então

25 25
IC0.9 (µ) = 560 − 1.645 · √ , 560 + 1.645 · √ , = (554.2, 565.8).
50 50
2. 1 − α = 0.95 → zα/2 = z0.025 = 1.96, então

25 25
IC0.95 (µ) = 560 − 1.96 · √ , 560 + 1.96 · √ , = (553.1, 566.9).
50 50
3. 1 − α = 0.99 → zα/2 = z0.005 = 2.576, então

25 25
IC0.99 (µ) = 560 − 2.576 · √ , 560 + 2.576 · √ , = (550.9, 569.1).
50 50

RESUMO: Intervalo de confiança para média com σ conhecido
1. Verifique se as suposições necessárias estão satisfeitas.

I Temos uma amostra aleatória simples.
I σ é conhecido.
I A população tem distribuição Normal ou n > 30 (regra empírica para usar o TLC).
2. Determine o nível de confiança 1 − α, e encontre o valor crítico zα/2 .
√
3. Calcule a margem de erro e = zα/2 · (σ / n).
4. Calcule IC1−α (µ).

Intervalos de confiança para a média quando σ 2 é desconhecido
I Seja Yi ∼ N(µ, σ 2 ) e suponha que σ 2 é desconhecido.

I Neste caso, temos que
Y −µ
t= √ ∼ tn−1 ,
S/ n
em que tn−1 denota a distribuição t-Student com n − 1 graus de liberdade.
I Argumentos análogos ao caso em que σ 2 é conhecido levam a

s s
P y − tα/2 · √ < µ < y + tα/2 · √ = 1 − α.
n n
I tα/2 é o valor da distribuição t-Student que produz uma área de α/2 na cauda
superior da distribuição.

Exercício: gastos com cartão de crédito
Um estudo foi idealizado para estimar a mé-
dia anual dos débitos de cartão de crédito f (t)
da população de famílias brasileiras. Uma 0.4

ν = 15 − 1
amostra de n = 15 famílias forneceu os sal- −t0.025 = −2.145 t0.025 = 2.145
dos de cartões de crédito. A média amostral 0.2
foi de R$ 5.900,00 e o desvio padrão foi de

R$ 3.058,00. Obtenha um intervalo com 95% 0
t
de confiança. −4 −3 −2 −1 0 1 2 3 4
Figura 10. Quantis da distribuição t-Student.

Neste caso tα/2 = t0.025 = 2.145 com 15 − 1 =
14 graus de liberdade. Assim, o intervalo de
confiança é dado por

3058 3058
IC1−0.95 (µ) = 5900 − 2.145 · √ , 5900 + 2.145 · √ ≈ (4206.4, 7593.6).
15 15

RESUMO: Intervalos de confiança para média com σ 2 desconhecido

I Temos uma estimativa de s.
I A população tem distribuição normal ou n > 30 (regra empírica para usar o TLC).
2. Determine o nível de confiança 1 − α, e encontre o valor crítico tα/2 .
√
3. Calcule a margem de erro e = tα/2 · (s/ n).
4. Calcule IC1−α (µ).

Intervalo de confiança para a
proporção

Intervalos de confiança para a proporção
I Seja Yi ∼ Ber(p). Neste caso, temos que pelo TLC

aprox p(1 − p)
p̂ ∼ N p, .
n
I Argumentos análogos ao caso da média levam a

r r !
p(1 − p) p(1 − p)
P p̂ − zα/2 · < p < p̂ + zα/2 · = 1 − α.
n n
I Note que p aparece na expressão da margem de erro, o que na prática impossibilita

o uso desta equação. Uma opção é substituir p por sua estimativa p̂ e assim
r r !
p̂(1 − p̂) p̂(1 − p̂)
P p̂ − zα/2 · < p < p̂ + zα/2 · = 1 − α.
n n

Intervalo de confiança para proporção
p (1 − p) p(1 − p)
0.1 0.9 0.09
0.3 0.7 0.21
Uma possível dificuldade nessa abordagem
0.5 0.5 0.25
é que em geral não conhecemos o verda-
0.6 0.4 0.24
deiro valor de p para calcular o IC.
0.8 0.2 0.16
Quando não conhecemos a proporção po-
pulacional p, temos duas alternativas:
1. Usar p̂ no lugar de p (estimativa
0.20
otimista).
p ⋅ (1 − p)
2. Usar p = 0.5 (estimativa
0.10
conservadora). Porque quando
p = 0.5, o termo p(1 − p) terá valor
0.00
máximo. 0.0 0.2 0.4 0.6 0.8 1.0

Exercício: existe aquecimento global?
Foi realizada uma pesquisa com 1500 adul-
tos selecionados aleatoriamente para res-
ponder à pergunta se acreditam ou não
no aquecimento global. 1050 entrevistados
responderam que sim. Com isso:
1. Para um nível de confiança de 95%,
calcule o intervalo de confiança para a
verdadeira proporção de pessoas que
acreditam no aquecimento global,
utilizando: i) p = p̂ e ii) p = 0.5 e
compare os resultados.
2. Com base nesses resultados, podemos
concluir que a maioria dos adultos Figura 11. Foto de Markus Spiske no Pexels.
acredita no aquecimento global?

Solução
1050
I Estimativa pontual: p̂ = 1500 = 0.7
I Intervalo otimista
r r !
0.7(1 − 0.7) 0.7(1 − 0.7)
IC0.95 (p) = 0.7 − 1.96 , 0.7 + 1.96 ≈ (0.677, 0.723).
1500 1500
I Intervalo conservador
r r !
0.5(1 − 0.5) 0.5(1 − 0.5)
IC0.95 (p) = 0.7 − 1.96 , 0.7 + 1.96 ≈ (0.675, 0.725).
1500 1500
I Intervalo conservador será ligeiramente mais largo quando p̂ 6= 0.5.

RESUMO: Intervalo de confiança para proporção
I Há dois resultados possíveis (“sucesso”, “fracasso”).
I As condições para a distribuição binomial são satisfeitas:
I As tentativas são independentes.
I A probabilidade de sucesso p permanece constante.
I A distribuição normal pode ser usada como aproximação para a distribuição binomial,
ou seja, np ≥ 5 e np(1 − p) ≥ 5.
2. Determine o nível de confiança 1 − α, e encontre o valor crítico zα/2 .
q
3. Calcule a margem de erro e = zα/2 · p(1−p)
n ,
com p = p̂ ou p = 0.5.
4. Calcule IC1−α (p).

Intervalo de confiança para a variância

Intervalo de confiança para variância
I Sendo Yi ∼ N(µ, σ 2 ), então a v.a.
S2 2
(n − 1) ∼ χn−1 , em que n − 1 são os graus de liberdade.
σ2
I Argumentos análogos ao caso da média, levam a

!
(n − 1)s2 (n − 1)s2
IC1−α (σ 2 ) = 2
, 2 ,
χα/2,n−1 χ1−α/2,n−1
2
em que χα/2,n−1 2
e χ1−α/2,n−1 são os quantis da cauda direita e esquerda da
2
distribuição χ com n − 1 graus de liberdade.
I Note que neste caso o intervalo não é simétrico.

Exercício: variabilidade no diâmetro de parafusos
Uma amostra aleatória de 20 parafusos e

seus diâmetros são medidos. As medidas
em milímetros foram as seguintes.
2.02 1.98 2.08 1.99 2.03

1.94 2.00 2.07 1.95 2.05
2.09 2.03 1.99 1.99 2.01
1.95 2.04 1.96 1.99 2.03
Encontre um intervalo com 90% de confi- Figura 12. Foto de Pexels.
ança para σ 2 .

Solução
I Média e variância amostral ·10−2
ν = 20 − 1
e s2 = 0.0019.
6
y = 2.0095 2
χ0.1/2 = 10.117 2
χ1−0.1/2 = 30.143
4
I Quantis da distribuição χ 2 2
2
χ19,0.95 = 30.1435 0
0 10 20 30 40 50
2
χ19,0.05 = 10.117.
Figura 13. Quantis da distribuição χ 2 .
I Assim, o intervalo de confiança é

2 (20 − 1) · 0.0019 (20 − 1) · 0.0019
IC0.9 (σ ) = , = (0.0012, 0.0035) .
30.14353 10.11701

Considerações finais

Comentários finais
Em resumo Alguns tópicos adicionais

I Intervalos de confiança são formas de I Expressões de outros intervalos.
expressar incerteza.
I Intervalos unilaterais.
I Os intervalos são obtidos através de
I Intervalos conjuntos.
quantis com base na distribuição
amostral. I Intervalos com diferentes
probabilidades nas causas.
I Esta forma de raciocínio (paradigma) é
chamada de frequentista. I Outros paradigmas de inferência.

Resumo
Estimação pontual e intervalar

I Terminologia.
I Intervalo de confiança para a média.
I Intervalo de confiança para a
proporção.
I Intervalo de confiança para a variância.
Figura 14. Foto de Karolina Grabowska no Pexels.

Tamanho de amostra
Prof. Paulo Justiniano Ribeiro Jr
Prof. Paulo Justiniano Ribeiro Jr Tamanho de amostra 1

Por que dimensionar amostras?
I Dimensionar esforço, economizar recursos.

I Planejar pesquisas de opinião pública.
I Controle de qualidade.
I Estudos demográficos.
I Inspeções de qualidade de água.
I Volume de madeira em florestas cultivadas.
I Biodiversidade.
I Estoque de peixes.
I Testes de medicamentos. Figura 1. Foto de fauxels no
Pexels.

Exemplos básicos
I Exemplos (simples) discutidos aqui

1. Tamanho da amostra para estimar a
média.
proporção.
variância.
I Outros contextos
I Teoria e prática

Tamanho da amostra para a média

Tamanho da amostra para estimar a média
Nosso objetivo é coletar dados para estimar a média populacional µ.

A questão é:
Quantos elementos (itens, objetos, pessoas, ...) devemos amostrar?
A resposta pode ser:
Uma quantidade que permita obter estimativas com uma incerteza aceitável.

Amplitude do intervalo de confiança para a média
O intervalo de confiança para média é

σ σ
IC(µ) : y − zα/2 · √ ; y + zα/2 · √ .
n n
Logo, a amplitude do intervalo dada pela diferença entre o limite superior e inferior é
√
AIC(µ) = 2 · zα/2 · (σ / n).
2e
√
e = zα/2 · σ / n
√ √
y − zα/2 · σ / n y y + zα/2 · σ / n
Figura 3. Margem de erro do intervalo de confiança para a média.

Componentes do intervalo de confiança para a média
A amplitude do intervalo de confiança depende de três componentes:

√
AIC(µ) = 2 · zα/2 · (σ / n)
1. Coeficiente de confiança 1 − α, que determina o valor crítico zα/2 .

2. Desvio-padrão populacional σ .
3. Tamanho da amostra n.

Efeitos na amplitude do intervalo de confiança para a média
↑ σ ⇒↑ AIC(µ)
↑ 1 − α ⇒↑ zα/2 ⇒↑ AIC(µ)
σ
AIC(µ) = 2 · z α/2 · √
n
↑ n ⇒↓ AIC(µ)
1. zα/2 : cada vez que aumentamos a confiança 1 − α, o valor de zα/2 fica maior e,
consequentemente, a amplitude do intervalo aumenta.
2. σ : um grande desvio padrão indica a possibilidade de um considerável
distanciamento dos valores amostrais em relação à média populacional.
3. n: quanto maior for o tamanho da amostra, maior será a quantidade de informação
disponível. Com isso, valores maiores de n produzem intervalos mais informativos
(estreitos).

Invertendo a equação da margem de erro
A partir da equação do erro máximo provável,

σ
e = zα/2 · √ ,
n
e fixando e, podemos obter n a partir da seguinte equação

z · σ 2
α/2
n= .
e

Tamanho da amostra para estimar a média
Note que, em
↑ 1 − α ⇒↑ zα/2 ⇒↑ n ↑ σ ⇒↑ n
z · σ 2
α/2
n=
e
↑ e ⇒↓ n
I O tamanho da amostra (n) depende do

I nível de confiança (1 − α) desejado (expresso pelo valor crítico zα/2 ).
I desvio-padrão (σ ) (embora veremos que não é estritamente necessário).
I erro máximo admitido (e).
I Como o tamanho da amostra precisa ser um número inteiro, usamos o número
inteiro logo acima, denotado por dne.

Exercício: cálculo de tamanho de amostra para a média
Considere uma característica Y ∼ N(µ, σ 2 = 36).

1. Calcule o tamanho da amostra, para que com 95% de probabilidade, a média
amostral não difira da média populacional por mais de
a) 0.5 unidades e 2 unidades.
b) Qual o impacto do erro máximo assumido para o tamanho da amostra?

Solução do item 1
I Temos σ = 6, e = 0.5 e z0.025 = 1.96.
Assim,
z 2 f (z)
α/2 · σ 2 1.96 · 6 0.4

n= = ≈ 554.
e 0.5
−z0.05 = −1.645 z0.05 = 1.645
0.2 −z0.025 = −1.960 z0.025 = 1.960
I Temos σ = 6, e = 2 e z0.025 = 1.96. −z0.005 = −2.576 z0.005 = 2.576
Assim,
z 2 0
· σ 2
z
α/2 1.96 · 6 −4 −3 −2 −1 0 1 2 3 4
n= = ≈ 35.
e 2
Figura 4. Quantis da distribuição Normal Padrão.
I Quanto menor o erro admitido, maior
o tamanho da amostra.

Exercício: cálculo de tamanho de amostra para a média
Considere uma característica Y ∼ N(µ, σ 2 = 36).

1. Calcule o tamanho da amostra, para que com 95% de probabilidade, a média
amostral não difira da média populacional por mais de
a) 0.5 unidades e 2 unidades.
b) Qual o impacto do erro máximo assumido para o tamanho da amostra?
2. Calcule o tamanho da amostra, para que a diferença da média amostral para a
média populacional (em valor absoluto) seja menor ou igual a 2 unidades, com
níveis de confiança de
a) 90% e 99%.
b) Compare as estimativas do item anterior e analise o impacto do nível de confiança
para a determinação do tamanho amostral.

Solução do item 2
I Temos σ = 6, e = 2 e z0.05 = 1.645. Assim,

z 2
α/2 · σ 2 1.645 · 6
n= = ≈ 25.
e 2
I Temos σ = 6, e = 2 e z0.005 = 2.576. Assim,

z 2
α/2 · σ 2 2.576 · 6
n= = ≈ 60.
e 2
I Quanto maior o nível de confiança, maior o tamanho da amostra.

Quando a variância é desconhecida
Se σ for desconhecido?
f (z)
0.4
1. Estime o valor de σ com base em

algum estudo feito anteriormente.
0.2
2. Faça uma amostra piloto e estime o 0

−4 −3 −2 −1 0 1 2 3 4
z
desvio-padrão amostral s, e use-o P(−1 < Z < 1) ≈ 0.6826
como uma aproximação para o P(−2 < Z < 2) ≈ 0.9546
desvio-padrão populacional σ . P(−3 < Z < 3) ≈ 0.9973
3. Use a regra empírica da amplitude µ − 3σ µ − 2σ µ − 1σ µ µ + 1σ µ + 2σ µ + 3σ
para dados com distribuição Figura 5. Áreas simétricas na distribuição Normal

(aproximadamente) Normal. para a regra empírica.

A regra empírica da amplitude
Definem-se como valores usuais aqueles que são típicos (não extremos).
Como sabemos que em uma distribuição (aproximadamente) Normal praticamente 95%
dos valores encontram-se a 2 desvios-padrões acima e abaixo da média, temos que
4σ = (µ + 2σ ) − (µ − 2σ )
4σ = Y(n) − Y(1)
Y(n) − Y(1)
σ̃ =
4
pode ser utilizado como um estimador para σ . Y(n) é maior valor da amostra e Y(1) é o
menor.

Exercício: gasto com educação dos filhos
Um cientista social deseja estimar o gasto

mensal com educação dos filhos nas famí-
lias de uma cidade. Quantas famílias devem
ser selecionadas para termos 90% de confi-
ança que a média amostral esteja a menos
de R$ 30.00 da média populacional? Apura-
se que gastos estão entre R$ 800.00 e R$
1200.00. Assume-se que isto ocorre 95% das
vezes.
Figura 6. Foto de August de Richelieu no Pexels.

Solução
Para confiança de 1 − α de 0.90,

temos que zα/2 = 1.645, e = 30 e o desvio padrão pode ser aproximado por
σ̃ = (1200 − 800)/4 = 100.
Usando a equação apresentada, temos

2
1.645 · 100
n= ≈ 31.
30

Tamanho da amostra para proporção

Tamanho da amostra para estimar a proporção
Seguindo o mesmo raciocínio do tamanho de amostra para a média, a partir da equação

do erro máximo provável para a distribuição amostral (aproximada pela Normal) da
proporção, r
p(1 − p)
e = zα/2 · ,
n
podemos isolar n e chegar à seguinte equação
z 2
α/2
n= · p(1 − p).
e
Quando não conhecemos p, usamos p̂ (estimativa otimista) ou p = 0.5 (estimativa

conservadora) como valores para p.

Exemplo: proporção de troncos defeituosos
Um engenheiro florestal deseja estimar a
verdadeira proporção de troncos defeituo-
sos (impróprios para a marcenaria por te-
rem rachaduras ou nós), com um erro má-
ximo de 3% e nível de confiança de 99%. Cal-
cule o tamanho da amostra necessário para
se estimar esta proporção se:
1. O engenheiro tem uma estimativa de
que, em uma amostra anterior,
aproximadamente 10% dos troncos
eram defeituosos.
2. O fabricante não tem nenhuma
Figura 7. Foto de Pexels.
informação prévia sobre a proporção
de troncos defeituosos.

Solução
1. Temos p = 0.1, e = 0.03 e zα/2 = z0.005 = 2.576. Assim,

2
2.576
n= 0.1 · (1 − 0.1) ≈ 664.
0.03
2. Temos p = 0.5, e = 0.03 e zα/2 = z0.005 = 2.576. Assim,

2
2.576
n= 0.5 · (1 − 0.5) ≈ 1844.
0.03

Tamanho da amostra para a variância

I O intervalo de confiança para σ 2 é
!
2 (n − 1)s2 (n − 1)s2
IC1−α (σ ) = 2
, 2 ,
χα/2,n−1 χ1−α/2,n−1
2
em que χα/2,n−1 2
e χ1−α/2,n−1 são os valores da cauda direita e esquerda da
2
distribuição χ com n − 1 graus de liberdade.
I Queremos determinar o tamanho da amostra n para que a amplitude do intervalo
seja uma fração ρ de σ 2 .
ρσ 2
σ2
0 (n − 1)s2 (n − 1)s2
σ2
2 2
χα/2,n−1 χ1−α/2,n−1

I Note que neste caso queremos um intervalo de amplitude tal que satisfaça
(n − 1)s2 (n − 1)s2
AIC σ 2 = 2
− 2
≤ ρs2 .
χα/2,n−1 χ1−α/2,n−1
I Simplificando os termos, precisamos encontrar n tal que

!
1 1
(n − 1) 2
− 2 ≤ ρ.
χα/2,n−1 χ1−α/2,n−1
I Neste caso, a margem de erro é definida como um percentual de σ 2 .

I Após simplificação, o valor particular de s2 não entra diretamente no cálculo.
I Neste caso não é possível expressar n por uma fórmula. Cálculo feito por algum
algoritmo.

Curvas de tamanho amostra
Nível de 5000 Nível de
confiança confiança
2500
0.75 0.75
Tamanho de amostra (log10 n )

0.9 0.9
Tamanho de amostra (n )
4000
1000
0.95 0.95
0.99 500 0.99
250
2000
100
50
25
0.25 0.50 0.75 1.00 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.80.9
Erro relativo (ρ) Erro relativo (log10 ρ)
Figura 8. Curvas para determinar o tamanho da amostra para estimação da variância.

Considerações práticas sobre tamanho de amostra
I Para média e proporção, é simples determinar o tamanho de amostra.

I Para outros parâmetros populacionais, pode não ser de fácil obtenção.
I Em algumas situações é possível empregar simulação computacional para
determinar tamanho de amostra.
I Para esquemas complexos de amostragem ou delineamentos experimentais, todas
as características do plano amostral/experimental devem ser consideradas.
I Quase sempre os tamanhos de amostra determinados superam a capacidade
logística/operacional disponível para a sua execução.

Propriedades dos estimadores
Prof. Paulo Justiniano R. Jr Propriedades dos estimadores 1

Falar sobre população Y ∼ Dist.y (θ)
a partir da observação da amostra
θ̂(y1 , . . . , yn ) ∼ Dist.Am.θ̂ (θ). θ
1. Como expressar incerteza?

Estimação pontual e intervalar.
2. Amostra? De qual tamanho?
Determinação do tamanho da
amostra.
3. O que é “estimar bem”?
Propriedades dos estimadores.
Figura 1. Distribuição amostral de diferentes
4. Como estimar?
estimadores de um parâmetro.
Métodos de estimação.

1. Estimação pontual e intervalar.

2. Determinação do tamanho da amostra.
3. Propriedades dos estimadores.
I Vício (ou não tendenciosidade).
I Variância.
I Erro quadrático médio.
I Consistência.
4. Métodos de estimação.

Notação e definições

Notação e definições (relembrando)
I Y = (Y1 , . . . , Yn ): v.a.’s independentes e identicamente distribuídas.

I Yi ∼ f (θ) onde f denota a função densidade de probabilidade ou função de
I Uma estatística T (Y) pode ser um estimador θ̂ de um parâmetro θ da população.
I A distribuição de probabilidade de T (Y) é a distribuição amostral.
Objeto de inferência (frequentista).
I Objetivo: O que caracteriza bons estimadores? → Propriedades dos estimadores.

Questões
I O que torna um estimador “bom” em

termos práticos?
I Existe “erro” na estimação? Como
medir?
I Quais as propriedades desejáveis de
um estimador?
I Como comparar dois (ou mais)
estimadores?
Figura 3. Foto de cottonbro no Pexels.

Vício de um estimador

Estimadores não viciados
I Um estimador deve fornecer valores

próximos do valor verdadeiro do
parâmetro que está sendo estimado.
I Um estimador é não viciado para θ se
o valor esperado de θ̂ for igual a θ.
I Isso quer dizer que a média da
distribuição amostral de θ̂ é θ.
I Em certos casos, é possivel determinar
o vício de um estimador de forma
analítica.
I Em situações mais complexas, pode-se Figura 4. Foto de icon0.com no Pexels.
determinar de forma computacional,
por meio de simulação.

Definição
Não viciado
O estimador pontual θ̂ = Tθ (y1 , y2 , . . . , yn ) é

um estimador não viciado para o parâmetro ^
θ
θ se θ
E(θ̂) = θ.
Viciado
Se o estimador for viciado ou tendencioso,

então a diferença
B(θ̂) = E(θ̂) − θ ^
θ
θ
é chamada de vício (bias) do estimador θ̂.
Figura 5. Exemplo de estimador viciado e não
viciado.

Exemplo: vício da variância amostral (analítico)
Pn ! !
− Y )2 X n
2 i=1 (Yi 1 2
E(S ) = E = ·E (Yi − Y )
n−1n−1
i=1
! !
1 X n
2 1 Xn
2
= ·E (Yi2 − 2Yi Y + Y ) = ·E Yi2 − nY
n−1 n−1
i=1 i=1
!
1 X n
2
= E(Yi2 ) − nE(Y )
n−1
i=1
!
1 X n
= (µ 2 + σ 2 ) − n(µ 2 + σ 2 /n)
n−1
i=1
1 (n − 1)σ 2
= nµ 2 + nσ 2 − nµ 2 − σ 2 = = σ 2.
n−1 n−1

Sobre os estimadores da variância
I Em Estatística Descritiva, apresentou-se duas expressões para a variância
Pn 2
Pn
i=1 (Yi − Y ) (Yi − Y )2
2
S = e σ̂ = i=1
2
n−1 n
I O denominador n − 1 na expressão da variância amostral (S 2 ) é o que o torna um

estimador não viciado para σ 2 .
I Portanto, σ̂ 2 é um estimador viciado.
I Neste caso, o vício depende do tamanho da amostra
n−1 2 1
B(σ̂ 2 ) = · σ − σ 2 = − · σ 2.
n n
I Pode não ser possível determinar o vício do estimador de forma analítica.

Exemplo: vício de estimadores da variância (computacional)
Também é possível determinar o vício de es-
timadores por simulação. σ
^
2
S2
Neste caso, procedeu-se da seguinte forma: 100
75
Número da amostra
1. Extraiu-se k = 100 amostras de
tamanho n = 6 de uma população com
50
variância conhecida σ 2 = 1. 25
2. Para cada amostra i ∈ {1, . . . , k},

determinou-se a estimativa da 0
σ2 σ2
variância usando: S 2 e σ̂ 2 .
2
σ
^ S2
0 1 2 0 1 2
3. Obteve-se a média das estimativas ao Valor das estimativas pontuais de cada estimador
longo das k amostras que é o Figura 6. Simulação computacional para o vício

equivalente computacional da dos estimadores da variância.
esperança do estimador.

Exemplo: estimador da média com mediana e média aparada
I A distribuição Normal é simétrica, Media 10% aparada Mediana
então média e mediana coincidem.

I A mediana e a média aparada são
menos influenciadas por valores
extremos.
I Seriam então bons estimadores?
I Qual o vício de cada um destes
estimadores?
I Ao lado, simulação computacional com
k = 500 amostras aleatórias de Valor das estimativas pontuais de cada estimador
tamanho n = 20. Figura 7. Simulação computacional para o vício

dos estimadores da média: mediana e média
10% aparada.

Variância de um estimador

Variância de um estimador
I Sejam θ̂1 e θ̂2 estimadores não

viciados de θ. θ
I Então, E(θ̂1 ) = E(θ̂2 ) = θ.
I No entanto, as variâncias destas θ̂1
distribuições amostrais podem ser
diferentes. θ̂2
I É razoável escolher o estimador que

apresente a menor variância.
Figura 8. Distribuição amostral de dois

estimadores não viciados.

Exemplo: estimador da média com mediana e média aparada
I Na simulação computacional, Media 10% aparada Mediana
Y ∼ N(µ = 0, σ 2 = 1) e amostras de
tamanho n = 20.
I Os estimadores média 10% aparada
(θ̂1 ) e mediana (θ̂2 ) para µ tem
variâncias
V(θ̂1 ) = 0.0477 e V(θ̂2 ) = 0.0673.
I Na simulação obteve-se V(y) = 0.0465.

Valor das estimativas pontuais de cada estimador
I A variância teórica da média amostral
é Figura 9. Simulação computacional para o vício
σ2 1 dos estimadores da média: mediana e média
V(Y ) = = = 0.05. 10% aparada.
n 20

Exemplo: estimadores da média para v.a. Uniforme Contínua
I Nem sempre o estimador “óbvio” é o Estimador Média Ponto médio
melhor estimador.
Y ~ Normal(0, 1 3)
I O melhor estimador pode depender da
distribuição da v.a.
I Estimadores concorrentes:
I Média amostral Y ~ Uniforme(− 1, 1)
1X
n
θ̂1 = Y = Yi .
n
i=1
−0.8 −0.4 0.0 0.4
Valor das estimativas pontuais de cada estimador
I Valor médio
Figura 10. Simulação computacional para a
Y(1) + Y(n)
θ̂2 = . variância de estimadores da média.
2

Erro-padrão
É o desvio-padrão da distribuição amostral do estimador.
I O erro-padrão de um estimador é a raiz quadrada
da variância do estimador.
p
v.a.: Y ↔ Variância: V(Y ) ↔ Desvio-padrão: V(Y )
q
Estimador: θ̂ ↔ Variância: V(θ̂) ↔ Erro-padrão: V(θ̂)
I É frequente reportado acompanhando estimativas Figura 11. Tabela

pontuais para representar sua incerteza. reportando estimativas
aprox e seus erros-padrões.
I Como visto, quando θ̂ ∼ Normal, o erro-padrão
Extraído de
multiplicado por um fator (por exemplo ±2) define stackoverflow.com.
o intervalo de confiança.

Combinando propriedades
Estimador não viciado de variância mínima (ENVVM)

Se considerarmos todos os estimadores não viciados de θ, aquele com a menor
variância será chamado de estimador não viciado de variância mínima (ENVVM).
A média amostral
Se Y1 , Y2 , . . . , Yn for uma amostra aleatória de tamanho n, proveniente
P de uma v.a.
aleatória de distribuição Normal, então a média amostral Y = ni=1 Yi /n é um ENVVM
para µ.

Erro quadrático médio

Erro quadrático médio
I Nem sempre se dispõe de estimadores

não viciados. θ
I Há situações em que estimadores
viciados têm distribuição amostral
com menor variância. θ̂1
I Como escolher o estimador neste caso θ̂2
conciliando ambos aspectos, vício e
variância?
Figura 12. Distribuição amostral de dois

estimadores.

Decomposição em vício e variância
I O erro quadrático médio (EQM) é uma medida que concilia vício e variância.
I O EQM de um estimador θ̂ do parâmetro θ é definido como
EQM(θ̂) = E(θ̂ − θ)2 .
I Ele pode ser reescrito como função da variância e vício
EQM(θ̂) = E[θ̂ − E(θ̂)]2 + [E(θ̂) − θ]2

= V(θ̂) + B2 (θ̂).
I Portanto, o EQM de um estimador não viciado é a própria variância.

Analogia do tiro ao alvo
×
θ̂i
×
ˆ
E(θ) Variância: V(θ̂) = 1/n ∑(θ̂i − E(θ̂))
2
θ
× ×
× ×
EQM(θ̂) = 1/n ∑(θ̂i − θ)

2
×
×
2
EQM(θ̂) = V(θ̂) + B(θ̂) Vício: B(θ̂) = E(θ̂) − θ
Figura 13. Analogia do tiro ao alvo para o erro quadrático médio e sua decomposição.

Ilustração da decomposição do erro quadrático médio
θ θ E(θ̂)
θ̂i
2
EQM(θ̂) = V(θ̂) + B(θ̂)
θ̂1
θ̂2
EQM(θ̂) = (1/n) ∑(θ̂i − θ)
2
Variância: V(θ̂) = (1/n) ∑(θ̂i − E(θ̂))

2
Vício: B(θ̂) = E(θ̂) − θ
Figura 14. A decomposição do erro quadrático médio.

Eficiência relativa de um estimador
I O erro quadrático médio é uma métrica importante para comparar estimadores.

I Ele é usado para definir a eficiência relativa de um estimador comparado a outro,
EQM(θ̂1 )
Efr(θ̂1 , θ̂2 ) = .
EQM(θ̂2 )
I Se a Efr(θ̂1 , θ̂2 ) < 1, conclui-se que θ̂1 é um estimador superior a θ̂2 e vice-versa.

Consistência de um estimador

θ̂1
I Não viés é uma propriedade
desejável.
I Pode ser restrita em situações mais θ
gerais.
I O viés de um estimador pode n
θ̂2
“sumir” quando a amostra
aumenta de tamanho.
I Consistência é uma propriedade
θ
mais geral.
I Verifica o que acontece com o
estimador quando a amostra n
aumenta de tamanho.
Figura 15. Consistência para dois estimadores.

I Verificar a consistência de um I Para consistência em probabilidade, a

estimador não é trivial. Desigualdade de Chebyshev permite
I Precisam da idéia de convergência de dizer que
v.a.
V(θ̂) → 0, para n → ∞,
I Um estimador é consistente em
probabilidade se então θ̂ é consistente em
probabilidade para θ.
P(|θ̂ − θ| ≥ ε) → 0 quando n → ∞.
I Existem outras formas de consistência
→ Fisher consistency.
I Um estimador é erro quadrático
médio consistente se I Mais detalhes estão fora do escopo
deste curso.
E(θ̂ − θ)2 → 0 quando n → ∞.

Consistência do estimador σ̂ 2 da variância
n
^ = ∑ (yi − y)2 n com Y ~ Normal(0, 1)
2
Estimador da variância usando σ
1
n=3 n=5 n=8 n = 13 n = 20 n = 50

5
3
S2
Figura 16. Ilustração por simulação computacional da consistência para o estimador σ̂ 2 da variância.

Inconsistência do estimador σ̃ do desvio-padrão
~ = (y(n) − y(1)) 4 com Y ~ Normal(0, 1)
Estimador da variância usando σ
n = 10 n = 20 n = 50 n = 100 n = 200 n = 500
2.0
1.5
σ
~
1.0
0.5
Figura 17. Ilustração por simulação computacional da inconsistência do estimador σ̃ do desvio-padrão

baseado na regra empírica da amplitude.


Notas finais
I O estimador ideal é aquele que

captura a informação da amostra da θ
forma mais eficiente.
I Deseja-se que seja não viciado, com a
menor variância possível e consistente.
I A maioria dos estimadores vistos aqui
apresentam tais características.
I Estimadores “empíricos” podem não
apresentá-las.
I Há situações em que estimadores Figura 18. Distribuição amostral de diferentes
“óbvios” são superados por outros estimadores de um parâmetro.
devidamente formulados.

Métodos de estimação
Prof. Paulo Justiniano Ribeiro Junior
Prof. Paulo Justiniano Ribeiro Junior Métodos de estimação 1

1. Estimação pontual e intervalar.

2. Determinação do tamanho da amostra.
3. Propriedades dos estimadores.
4. Métodos de estimação.
I Método dos momentos.
I Método da máxima verossimilhança.
Figura 1. Foto de Kaique Rocha no Pexels.

Probabilidades versus estimação
Tabela 1. Objeto das distribuições de probabilidades e da inferência estatística.

Distribuição de probabilidades Inferência Estatística
1 Distribuição conhecida. Distribuição desconhecida.
2 Parâmetros conhecidos. Parâmetros desconhecidos.
3 Obter probabilidades para valores da Obter estimativas dos parâmetros
v.a.. usando dados observados.
Estimação: Especificar a distribuição e estimar parâmetros a partir dos dados observados.

Notação e definições (relembrando)
I Y = (Y1 , . . . , Yn ): v.a.’s independentes e identicamente distribuídas.

I Yi ∼ f (θ) onde f denota a função densidade de probabilidade ou função de
I Uma estatística T (Y) pode ser um estimador θ̂ de um parâmetro θ da população.
I A distribuição de probabilidade de T (Y) é a distribuição amostral.
Objeto de inferência (frequentista).
I Objetivo: Como obter estimadores? → Métodos de estimação.

Como o obter um estimador?
I Existem estimadores “óbvios”.

I y → µ.
I p̂ → p.
I S 2 → σ 2.
I Existem estimadores baseados em
regras físicas, geométricas, etc.
Figura 2. Foto de Marko Blazevic no Pexels.


I y → µ.
I p̂ → p.
I S 2 → σ 2.

Exemplo: estimador do comprimento de raízes
A determinação exata do comprimento de
raízes (C ) de plantas é laborioso.
Figura 4. Extraído de Liao Chengsong no Figura 5. Exemplo da determinação de

ResearchGate. comprimento de raízes pelo método da
intersecção.

Um estimador para o comprimento das raízes
I Um estimador usado na prática é o
seguinte
π
Ĉ = · l · n,
4
em que n é o número de interseções
das raízes (linhas sólidas) com a
malha (pontos vermelhos), l é a
distância entre linhas da malha (linhas
tracejadas).
I Para o exemplo didático ao lado,
n = 84 e l = 0.1 que dá a estimativa
ĉ = 6.597.
I O comprimento real é 7.072.

Reconhecendo os componentes para a inferência
I População: as raízes.
I Parâmetro: comprimento total das
raízes.
I Amostra: a forma como as raízes
ficaram dispostas na malha.
I Estatística: o número de intersecções.
I Estimador: a fórmula Ĉ = π
4 ·l·n
I Estimativa: o resultado de aplicar o
estimador aos dados observados na
amostra, no caso ĉ = 6.597.


I y → µ.
I p̂ → p.
I S 2 → σ 2.
I De forma mais geral, existem
parâmetros que não possuem
estimadores “imediatos”.

Método dos momentos

Método dos momentos
I Método proposto por volta de 1887 por

Pafnuty Chebyshev.
I Ideia básica é atribuída a Karl Pearson.
I Método dos momentos: igualar os
momentos da população, que são
definidos em termos de valores
esperados, aos correspondentes
momentos da amostra.
I Os momentos da população são
funções de parâmetros desconhecidos.
I Solução da(s) equação(ões) são os
estimadores dos parâmetros.
Figura 7. Karl Pearson. Retirado da Wikipedia.

Momentos
Sejam Y1 , Y2 , . . . , Yn v.a’s com fdp ou fp f (y; θ).
O k-ésimo momento da população (ou momento de distribuição) é
X
E(Y k ) = yk · f (y; θ) → v.a. discreta.
y∈Ry
Z
= yk · f (y; θ) dy → v.a. contínua.
y∈Ry
O correspondente k-ésimo momento amostral é

n
1X k
mk = yi , k ∈ {1, 2, . . .}.
n
i=1

Estimador de momentos
I Sejam Y1 , Y2 , . . . , Yn v.a.’s com fdp ou fp
f (y; θ) com p parâmetros
θ = (θ1 , . . . , θp ).
I Os estimadores Tθ1 , . . . , Tθp são
encontrados igualando os primeiros p
momentos populacionais aos
primeiros p momentos amostrais.
I Tal procedimento resulta em um
conjunto de equações que deve ser
resolvido.



E(Y ) = m1

E(Y 2 ) = m
2
E(Y m Figura 8. Pafnuty Lvovich Chebyshev. Retirado da
 3
 ) = 3
Wikipedia.


. . .
Exemplo: distribuição de Poisson e Exponencial
Poisson Exponencial
e−λ λy
P[Y = y] =
y! f (y) = λexp{−λy}
I Número de parâmetros: p = 1 I Número de parâmetros: p = 1
I 1º momento populacional: I 1º momento populacional:
E(Y 1 ) = µ = λ. E(Y 1 ) = µ = 1/λ.
I 1º momento amostral: m1 = y. I 1º momento amostral: m1 = y.
I Dessa forma, I Dessa forma,
λ̂ = m1 = Y . λ̂ = 1/m1 = 1/Y .
I A média amostral é o estimador de I O recíproco da média amostral é o
momentos do parâmetro λ (média) da estimador de momentos do
Poisson. parâmetro λ (taxa) da Exponencial.
Exemplo: distribuição Normal
1ª Equação 2ª Equação
I Número de I 2º momento populacional: E(Y 2 ) = µ 2 + σ 2 .
parâmetros: p = 2. I 2º momento amostral: m2 = (1/n) ni=1 y2i .
P
I 1º momento I Dessa forma,
populacional:
n
E(Y 1 ) = µ. 1X 2
µ +σ =
2 2
Yi ,
I 1º momento amostral: n
i=1
m1 = y.
I Dessa forma, e resolvendo em σ 2 usando o fato que µ̂ = Y ,
 !2  P
n n n
µ̂ = Y . X X (Yi − Y )2
σ̂ 2 =  Yi2 − n Yi  = i=1 .
1 1
n n n
i=1 i=1

Exemplo: distribuição Gama
λr r−1
f (y) = y exp{−λy}
Γ(r)
I Suponha que I Os estimadores de momentos são encontrados

Y1 , Y2 , . . . , Yn v.a’s com resolvendo o sistema de equações
distribuição Gama de r
parâmetros r e λ. ( 
λ
 =y
E(Y ) = m1 n
I Os p = 2 primeiros −→ r(r + 1) 1X 2
momentos E(Y 2 ) = m2  yi
 λ2 n
 =
i=1
populacionais da
Gama são
I Com a solução do sistema, os estimadores são
r
E(Y ) =
λ Y
2
Y
r(r + 1) r̂ = e λ̂ =
E(Y 2 ) =
Pn Pn
. i=1 Yi −Y i=1 Yi −Y
2 2 2 2
λ2
(1/n) (1/n)
Exemplo: tempo de atendimento
Acredita-se que o tempo de atendimento

seja uma distribuição adequada para des-
1.0
crever o tempo de atendimento de clientes
Frequência relativa
0.8
no caixa de um supermercado. Uma amos-
0.6
tra aleatória de n = 20 atendimentos foi ob-
0.4
tida. Os tempos são os seguintes.
0.2
0.0
2.34 4.03 4.85 5.68 7.41
2.39 4.04 4.90 5.76 7.48
2 4 6 8
2.96 4.17 5.20 5.88 7.64
3.30 4.61 5.24 6.62 8.62 Tempo de atendimento (min)
Estime os parâmetros da distribuição Gama Figura 9. Gráfico de distribuição acumulada

pelo método dos momentos. empírica com os dados de tempo de
atendimento no caixa.

Solução
1.0
0.8
0.6
Aplicando as expressões, obtém-se
0.4
0.2
I r̂ = 8.9.
0.0
I λ̂ = 1.73.
2 4 6 8
Tempo de atendimento (min)
Figura 10. A curva da função de distribuição da

Gama como parâmetros estimados sobreposta
ao gráfico da distribuição empírica.

Recomendações e limitações
Vantagens Desvantagens
I Concepção simples e intuitiva. I Difícil de expressar a incerteza
I Fácil de obter (desde que os associada às estimativas.
momentos populacionais estejam I Difícil de generalizar para modelos
disponíveis). e/ou estruturas complexas de dados.
I Em geral, oferece estimadores I Em geral, não viés não é garantido.
consistentes. I Eficiência é difícil de medir e não é
I Suposições distribucionais não são garantida mesmo para grandes
essenciais. amostras.
I Pode ser usado como guia inicial para I Pode resultar em estimativas fora do
outros métodos. espaço paramétrico.
I É a base do método dos momentos I Precisa que os momentos
generalizados. populacionais sejam passíveis de
calcular.
Método de máxima verossimilhança

Método de máxima verossimilhança
I Proposto por Ronald Fisher em 1922.

I É o método mais popular em
estatística aplicada.
I Ideia geral: Encontrar o conjunto de
valores para os parâmetros θ de uma
distribuição de probabilidade f (y; θ)
que maximize a “chance” de observar a
amostra de fato observada.
Figura 11. Ronald Fisher. Retirado do Google imagens.

Função de verossimilhança
I Configuração: Sejam dados y uma realização de um v.a. Y com fp ou fdp f (y; θ).
I Função de verossimilhança
L(θ) ≡ f (y; θ),
em que f (y; θ) é a função de distribuição conjunta de Y.
I Supondo que as observações são independentes
n
Y
L(θ) ≡ f (yi ; θ).
i=1
I Notação para enfatizar que a verossimilhança é com o y já observado
L(θ|y).

Estimação de população por captura e recaptura
Biólogos foram a campo, capturaram e mar-
caram 21 macacos (m) em uma reserva eco-
lógica. Após 1 mês, eles retornaram e fize-
ram outra captura igual à primeira. Dos 49
(r) macacos capturados, 5 (y) apresentam a
marca. Qual o tamanho da população de
macacos (m + n)?
m = 21, r = 49, y = 5, n=?

Parâmetro desconhecido: θ = n
E se n fosse. . . qual a probabilidade de ob-
servar este resultado y = 5?
Figura 12. Foto de Pexels.

Exemplo da estimação da população de macacos (cont)
0.20
m n

y · r−y
L(n|y) = m+n

0.15
r
n

·
L(m|y)
21
0.10
5 49−5
= 21+n

49
0.05
0.00 100 150 200 250 300
Figura 13. Função de verossimilhança para o problema de estimação

do tamanho da população para o problema de captura e recaptura
dos macacos.

Função de Probabilidade versus de verossimilhança
Interpretações da função conforme o argumento em uso
0.20
0.15
f(y, θ)
0.10
0.05
240 15
220
10
Figura 14. Função de verossimilhança com o eixo
200
180
para y (função de probabilidade) e um eixo para
m+n 5
160
y m + n (função de verossimilhança).
0

Função de log-verossimilhança e escore
I A função de log-verossimilhança é
l(θ; y) = ln (L(θ; y)) .
I No caso de observações independentes, tem-se

n
X
l(θ; y) = ln (L(θ; yi )) .
i=1
I Função escore: Caso de observações independentes

n
X ∂
U(θ; Y) = ln f (θ, Yi ), para j ∈ {1, . . . , p}.
∂θj
i=1

Estimativa e estimador de máxima verossimilhança
I Estimativa de máxima verossimilhança: O valor
θ̂ = θ̂(y)
é a estimativa de máxima verossimilhança para θ se L(θ̂) ≥ L(θ), ∀θ.

I Estimador de máxima verossimilhança: Se θ̂(y) é a estimativa de máxima
verossimilhança, então
θ̂(Y)
é o estimador de máxima verossimilhança (EMV).

Exemplo: distribuição de Poisson
I Se Yi ∼ P(λ), então a fp
λy exp{−λ}
f (y; λ) = .
y!
I Assumindo observações independentes, a verosssimilhança
n
Y λyi exp{−λ}
L(λ) = .
yi !
i=1
I E, dessa forma, a função de log-verossimilhança

n
X n
X
l(λ) = ln(λ) yi − nλ − ln(yi !).
i=1 i=1

Exemplo: distribuição de Poisson (cont.)
I Função escore (derivada de l(λ) em relação a λ)

n
1X
U(λ) = yi − n.
λ
i=1
I Resolvendo em λ, temos
n
X yi
λ̂ = .
n
i=1
I O estimador de máxima verossimilhança do parâmetro λ da distribuição Poisson é a

média amostral.

Exemplo: distribuição exponencial
Se Yi ∼ Exp(λ) e a amostra é iid, então
f (y; λ) = λ exp{−λy}
Yn
L(λ) = λ exp{−λyi }
i=1
n
X
l(λ) = n ln(λ) − λ yi
i=1
n
n X
U(λ) = − yi = 0
λ
i=1
n
λ̂ = Pn .
1
i=1 yi y
=
O estimador de máxima verossimilhança do parâmetro λ é recíproco da média amostral.

Exemplo: Distribuição Normal
I Se Yi ∼ N(µ, σ 2 ), então a fdp

(y − µ)2
f (y; θ = (µ, σ )) = √ exp − .
2 1
2πσ 2 2σ 2

n
Y
L(θ) = √ exp − 2 (yi − µ) .
1 1 2
i=1 2πσ 2 2σ
I Log-verossimilhança
n
n n 1 X
l(θ) = − ln(2π) − ln(σ ) − 2
2
(yi − µ)2 .
2 2 2σ
i=1

Exemplo: distribuição Normal (cont.)
I Função escore (derivada de l(θ) em relação a µ)

n n
1 X 1X
Uµ (θ) = (yi − µ), que resolvendo µ̂ = yi .
σ2 n
i=1 i=1
I Função escore (derivada de l(θ) em relação a σ 2 )

n n
n 1 X 1X
Uσ 2 (θ) = − (yi − µ)2 , que resolvendo σ̂ 2 = (yi − µ)2 .
n
+
2σ 2 2(σ 2 )2
i=1 i=1

Exemplo: distribuição Gama
I Se Yi ∼ Gama(r, λ), então a fdp
λr r−1
f (y; θ = (r, λ)) = y exp {−λy} .
Γ(r)

n
Y λr r−1
L(θ) = y exp {−λyi } .
Γ(r) i
i=1
I Log-verossimilhança
n
X n
X
l(θ) = nr ln(λ) − n ln(Γ(r)) − λ yi + (r − 1) ln(yi ).
i=1 i=1

Exemplo: distribuição Gama (cont.)
I Função escore (derivada de l(θ) em relação a r)
n
n X
Ur (θ) = n ln(λ) − 0 + r ln(yi ) → Não tem solução analítica.
Γ (r)
i=1
I Função escore (derivada de l(θ) em relação a λ)

n
nr X nr
Uλ (θ) = − yi , que resolvendo λ̂ = Pn .
λ i=1 yi
i=1
I Conclusão: não se tem expressão analítica para os estimadores de máxima

verossimilhança da Gama.
Métodos numéricos devem ser utilizados.

Exemplo: tempo de atendimento (cont.)
Acredita-se que o tempo de atendimento
seja uma distribuição adequada para des-
1.0
crever o tempo de atendimento de clientes
0.8
no caixa de um supermercado. Uma amos-
tra aleatória de n = 20 atendimentos foi ob-
0.6
tida. Os tempos são os seguintes:
0.4
0.2
2.34 4.03 4.85 5.68 7.41
0.0
2.39 4.04 4.90 5.76 7.48
2.96 4.17 5.20 5.88 7.64 2 4 6 8

3.30 4.61 5.24 6.62 8.62
Estime os parâmetros da distribuição Gama
pelo método da máxima verossimilhança Figura 15. Gráfico de distribuição acumulada
empírica com os dados de tempo de
(use software).
atendimento no caixa.

Solução
1.0
0.8
0.6
Usando um algorítio numérico ou software
0.4
estatístico, obtém-se
0.2
I r̂ = 8.288015.
0.0
I λ̂ = 1.61. 2 4 6 8
Figura 16. A curva da função de distribuição da

Gama como parâmetros estimados sobreposta
ao gráfico da distribuição empírica.

Recomendações e limitações
Vantagens Desvantagens
I Concepção intuitiva. I Pode ser difícil de obter em termos
I Propriedades assintóticas desejáveis: práticos.
não-viés e eficiência. I De forma geral, requer métodos
I Estimadores consistentes. numéricos.
I Metodologia completa para estimação I Suposição explícita de uma
e inferência (IC e TH). distribuição de probabilidade.
I É o método de estimação mais popular
em estatística.

Inferência completa com a função de verossimilhança
m + n = 205
0.30 164 268

m  n  m + n
p(y) =   ⋅   , y ∈ {0, 1, ..., r}
0.25
 y  r − y   r 
0.20
L(m|y)
0.15
0.10
0.00 0.05
100 150 200 250 300
Valores para o parâmetro m
Figura 17. Função de verossimilhança usada para obter intervalo de confiança.


Comentário finais sobre estimação estatística
I Estimação de parâmetros emprega I Existem ainda outros métodos de

álgebra, cálculo e métodos numéricos. estimação.
I No entanto, os métodos são I Método de mínimos quadrados.
conceitualmente fáceis de I Método da Inferência Bayesiana.
compreender. I Métodos de estimação robustos.
I Momentos: igualar momentos e I Equações de estimação
resolver. generalizadas.
I Máxima verossimilhança: maximizar a I Etc.
chance de observar a amostra. I Implementados em softwares
I Os estimadores já foram determinados estatísticos.
para os principais parâmetros e
distribuições .

UD6 Estimacao

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

UD6 Estimacao

Enviado por

Direitos autorais:

Formatos disponíveis

Estimação

Prof. Paulo Justiniano R. Jr

Prof. Paulo Justiniano R. Jr Estimação 1

Falar sobre população a partir da observação da amostra.

I Amostra? De qual tamanho?

Figura 1. Analogia ao processo de estimação.

Prof. Paulo Justiniano R. Jr Estimação 2

Prof. Paulo Justiniano R. Jr Estimação 3

Prof. Paulo Justiniano R. Jr Estimação 4

Q3: Qual a duração média das refeições?

Prof. Paulo Justiniano R. Jr Estimação 5

I Contexto do estudo: a(s) variável(eis)

Prof. Paulo Justiniano R. Jr Estimação 6

I Objeto de inferência: distribuição

Prof. Paulo Justiniano R. Jr Estimação 7

Ideias válidas em contextos mais gerais.

Prof. Paulo Justiniano R. Jr Estimação 8

Prof. Paulo Justiniano R. Jr

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 1

Estimação pontual e intervalar

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 2

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 3

I Y = (Y1 , . . . , Yn ) denota um vetor de v.a.’s independentes e identicamente

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 4

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 5

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 6

I Modelo de probabilidade: Yi ∼ Ber(p) → θ = p.

I Distribuição amostral (aproximada TLC)

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 7

A estimativa pontual p̂2

I Fornece apenas um valor plausível de p̂3

ser o verdadeiro valor do parâmetro. p̂4

Não considera a incerteza devido a

Como expressar a incerteza? p̂8

→ intervalo de confiança. p̂12

Figura 2. Processo de inferência na prática.

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 8

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 9

P(yLI < µ < yLS ) = 1 − α.

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 10

I Agora deixamos apenas µ no centro para obtermos,

I Como deseja-se intervalos simétricos, então abs(zLI ) = abs(zLS ) = zα/2 . Assim,

I zα/2 é o quantil da distribuição Normal padrão para o valor de 1 − α fixado.

Figura 4. Margem de erro do intervalo de confiança. α/2 α/2

Y : idade dos frequentadores

Dados: y = (31, 30, 32, 37, 30)

IC0,95 (µ) : (28.5 , 35.5)

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 13

Figura 6. Construção do intervalo de confiança a partir da distribuição amostral.

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 14

Figura 7. Interpretação frequentista do intervalo de confiança.

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 15

Interpretação ERRADA de IC Interpretação CERTA de IC

Semanticamente as afirmações podem parecer equivalentes, mas a segunda sentença

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 16

I Como o intervalo de confiança é calculado a partir de uma amostra aleatória, este

Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 17

Uma escola on-line de idiomas preparató-

tos. Por estudos anteriores, sabe-se que o 0.4

desvio-padrão é 25 pontos. Obtenha inter- −z0.05 = −1.645 z0.05 = 1.645

valos de confiança com 90%, 95% e 99% de 0.2 −z0.025 = −1.960

confiança. Discuta as diferenças.

Figura 9. Quantis da distribuição Normal Padrão.

α/2 · σ 2 1.96 · 6 0.4