Escolar Documentos
Profissional Documentos
Cultura Documentos
Departamento de Estatística
Universidade Federal do Paraná
Departamento de Estatística
Universidade Federal do Paraná
1X 1X
n n
Y = Yi → y= yi
n n
i=1 i=1
1 X
n
1 X
n
S2 = (Yi − Y )2 → s2 = (yi − y)2 .
n−1 n−1
i=1 i=1
I Distribuições amostrais
2 σ2 Y −µ
σ conhecido: Y ∼ N µ, ou √ ∼ N (0, 1)
n σ/ n
Y −µ S2
σ 2 desconhecido: √ ∼ tn−1 e (n − 1) 2
∼ χn−1 .
S/ n σ2
1X 1X
n n
p̂ = Yi → p̂ = yi .
n n
i=1 i=1
p̂9
Baseado na distribuição amostral pode-se
p̂10
obter uma faixa de valores com determi-
nada probabilidade de conter o parâmetro p̂11
ȳ
4 √σ
3 √σ
2 √σ
1 √σ
1 √σ
2 √σ
3 √σ
4 √σ
n
n
−
+
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
I Vários pares yLI e yLS existem, então
prefere-se aqueles que dão intervalo Figura 3. Intervalo de confiança para a média.
simétrico em relação a µ.
√ √
y − zα/2 · σ / n y y + zα/2 · σ / n
1−α
yLI yLS
ȳ
4 √σ
3 √σ
2 √σ
1 √σ
1 √σ
2 √σ
3 √σ
4 √σ
n
n
−
+
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 12
Exemplo: idade média dos frequentadores do restaurante
11 12 13 14 15 16 17 18 19 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Número da amostra
Média amostral de Y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Número da amostra
Suponha que obtivemos um intervalo de 95% de confiança: IC95% (µ) = [yLI , yLS ].
I tα/2 é o valor da distribuição t-Student que produz uma área de α/2 na cauda
superior da distribuição.
0.20
otimista).
p ⋅ (1 − p)
2. Usar p = 0.5 (estimativa
0.10
conservadora). Porque quando
p = 0.5, o termo p(1 − p) terá valor
0.00
máximo. 0.0 0.2 0.4 0.6 0.8 1.0
I Intervalo conservador
r r !
0.5(1 − 0.5) 0.5(1 − 0.5)
IC0.95 (p) = 0.7 − 1.96 , 0.7 + 1.96 ≈ (0.675, 0.725).
1500 1500
S2 2
(n − 1) ∼ χn−1 , em que n − 1 são os graus de liberdade.
σ2
2
em que χα/2,n−1 2
e χ1−α/2,n−1 são os quantis da cauda direita e esquerda da
2
distribuição χ com n − 1 graus de liberdade.
I Note que neste caso o intervalo não é simétrico.
ν = 20 − 1
e s2 = 0.0019.
6
y = 2.0095 2
χ0.1/2 = 10.117 2
χ1−0.1/2 = 30.143
4
I Quantis da distribuição χ 2 2
2
χ19,0.95 = 30.1435 0
0 10 20 30 40 50
2
χ19,0.05 = 10.117.
Figura 13. Quantis da distribuição χ 2 .
I Assim, o intervalo de confiança é
2 (20 − 1) · 0.0019 (20 − 1) · 0.0019
IC0.9 (σ ) = , = (0.0012, 0.0035) .
30.14353 10.11701
Departamento de Estatística
Universidade Federal do Paraná
Logo, a amplitude do intervalo dada pela diferença entre o limite superior e inferior é
√
AIC(µ) = 2 · zα/2 · (σ / n).
2e
√
e = zα/2 · σ / n
√ √
y − zα/2 · σ / n y y + zα/2 · σ / n
↑ σ ⇒↑ AIC(µ)
↑ 1 − α ⇒↑ zα/2 ⇒↑ AIC(µ)
σ
AIC(µ) = 2 · z α/2 · √
n
↑ n ⇒↓ AIC(µ)
1. zα/2 : cada vez que aumentamos a confiança 1 − α, o valor de zα/2 fica maior e,
consequentemente, a amplitude do intervalo aumenta.
2. σ : um grande desvio padrão indica a possibilidade de um considerável
distanciamento dos valores amostrais em relação à média populacional.
3. n: quanto maior for o tamanho da amostra, maior será a quantidade de informação
disponível. Com isso, valores maiores de n produzem intervalos mais informativos
(estreitos).
↑ 1 − α ⇒↑ zα/2 ⇒↑ n ↑ σ ⇒↑ n
z · σ 2
α/2
n=
e
↑ e ⇒↓ n
Assim,
z 2 0
· σ 2
z
α/2 1.96 · 6 −4 −3 −2 −1 0 1 2 3 4
n= = ≈ 35.
e 2
Figura 4. Quantis da distribuição Normal Padrão.
I Quanto menor o erro admitido, maior
o tamanho da amostra.
Se σ for desconhecido?
f (z)
0.4
Definem-se como valores usuais aqueles que são típicos (não extremos).
Como sabemos que em uma distribuição (aproximadamente) Normal praticamente 95%
dos valores encontram-se a 2 desvios-padrões acima e abaixo da média, temos que
4σ = (µ + 2σ ) − (µ − 2σ )
4σ = Y(n) − Y(1)
Y(n) − Y(1)
σ̃ =
4
pode ser utilizado como um estimador para σ . Y(n) é maior valor da amostra e Y(1) é o
menor.
2
em que χα/2,n−1 2
e χ1−α/2,n−1 são os valores da cauda direita e esquerda da
2
distribuição χ com n − 1 graus de liberdade.
I Queremos determinar o tamanho da amostra n para que a amplitude do intervalo
seja uma fração ρ de σ 2 .
ρσ 2
σ2
0 (n − 1)s2 (n − 1)s2
σ2
2 2
χα/2,n−1 χ1−α/2,n−1
(n − 1)s2 (n − 1)s2
AIC σ 2 = 2
− 2
≤ ρs2 .
χα/2,n−1 χ1−α/2,n−1
250
2000
100
50
25
0.25 0.50 0.75 1.00 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.80.9
Erro relativo (ρ) Erro relativo (log10 ρ)
Departamento de Estatística
Universidade Federal do Paraná
θ se θ
E(θ̂) = θ.
Viciado
B(θ̂) = E(θ̂) − θ ^
θ
θ
é chamada de vício (bias) do estimador θ̂.
Figura 5. Exemplo de estimador viciado e não
viciado.
n−1 2 1
B(σ̂ 2 ) = · σ − σ 2 = − · σ 2.
n n
75
Número da amostra
1. Extraiu-se k = 100 amostras de
tamanho n = 6 de uma população com
50
variância conhecida σ 2 = 1. 25
3. Obteve-se a média das estimativas ao Valor das estimativas pontuais de cada estimador
Y ∼ N(µ = 0, σ 2 = 1) e amostras de
tamanho n = 20.
I Os estimadores média 10% aparada
(θ̂1 ) e mediana (θ̂2 ) para µ tem
variâncias
melhor estimador.
Y ~ Normal(0, 1 3)
I O melhor estimador pode depender da
distribuição da v.a.
I Estimadores concorrentes:
I Média amostral Y ~ Uniforme(− 1, 1)
1X
n
θ̂1 = Y = Yi .
n
i=1
−0.8 −0.4 0.0 0.4
Valor das estimativas pontuais de cada estimador
I Valor médio
Figura 10. Simulação computacional para a
Y(1) + Y(n)
θ̂2 = . variância de estimadores da média.
2
A média amostral
Se Y1 , Y2 , . . . , Yn for uma amostra aleatória de tamanho n, proveniente
P de uma v.a.
aleatória de distribuição Normal, então a média amostral Y = ni=1 Yi /n é um ENVVM
para µ.
I O erro quadrático médio (EQM) é uma medida que concilia vício e variância.
I O EQM de um estimador θ̂ do parâmetro θ é definido como
×
θ̂i
×
ˆ
E(θ) Variância: V(θ̂) = 1/n ∑(θ̂i − E(θ̂))
2
θ
× ×
× ×
×
×
2
EQM(θ̂) = V(θ̂) + B(θ̂) Vício: B(θ̂) = E(θ̂) − θ
Figura 13. Analogia do tiro ao alvo para o erro quadrático médio e sua decomposição.
θ θ E(θ̂)
θ̂i
2
EQM(θ̂) = V(θ̂) + B(θ̂)
θ̂1
θ̂2
EQM(θ̂) = (1/n) ∑(θ̂i − θ)
2
EQM(θ̂1 )
Efr(θ̂1 , θ̂2 ) = .
EQM(θ̂2 )
I Se a Efr(θ̂1 , θ̂2 ) < 1, conclui-se que θ̂1 é um estimador superior a θ̂2 e vice-versa.
gerais.
I O viés de um estimador pode n
θ̂2
“sumir” quando a amostra
aumenta de tamanho.
I Consistência é uma propriedade
θ
mais geral.
I Verifica o que acontece com o
estimador quando a amostra n
aumenta de tamanho.
Figura 15. Consistência para dois estimadores.
3
S2
Figura 16. Ilustração por simulação computacional da consistência para o estimador σ̂ 2 da variância.
2.0
1.5
σ
~
1.0
0.5
Departamento de Estatística
Universidade Federal do Paraná
I População: as raízes.
I Parâmetro: comprimento total das
raízes.
I Amostra: a forma como as raízes
ficaram dispostas na malha.
I Estatística: o número de intersecções.
I Estimador: a fórmula Ĉ = π
4 ·l·n
I Estimativa: o resultado de aplicar o
estimador aos dados observados na
amostra, no caso ĉ = 6.597.
1.0
crever o tempo de atendimento de clientes
Frequência relativa
0.8
no caixa de um supermercado. Uma amos-
0.6
tra aleatória de n = 20 atendimentos foi ob-
0.4
tida. Os tempos são os seguintes.
0.2
0.0
2.34 4.03 4.85 5.68 7.41
2.39 4.04 4.90 5.76 7.48
2 4 6 8
2.96 4.17 5.20 5.88 7.64
3.30 4.61 5.24 6.62 8.62 Tempo de atendimento (min)
1.0
Frequência relativa
0.8
0.6
Aplicando as expressões, obtém-se
0.4
0.2
I r̂ = 8.9.
0.0
I λ̂ = 1.73.
2 4 6 8
L(θ|y).
0.20
m n
y · r−y
L(n|y) = m+n
0.15
r
n
·
L(m|y)
21
0.10
5 49−5
= 21+n
49
0.05
0.00 100 150 200 250 300
0.20
0.15
f(y, θ)
0.10
0.05
240 15
220
10
Figura 14. Função de verossimilhança com o eixo
200
180
para y (função de probabilidade) e um eixo para
m+n 5
160
y m + n (função de verossimilhança).
0
θ̂ = θ̂(y)
I Resolvendo em λ, temos
n
X yi
λ̂ = .
n
i=1
f (y; λ) = λ exp{−λy}
Yn
L(λ) = λ exp{−λyi }
i=1
n
X
l(λ) = n ln(λ) − λ yi
i=1
n
n X
U(λ) = − yi = 0
λ
i=1
n
λ̂ = Pn .
1
i=1 yi y
=
i=1 2πσ 2 2σ
I Log-verossimilhança
n
n n 1 X
l(θ) = − ln(2π) − ln(σ ) − 2
2
(yi − µ)2 .
2 2 2σ
i=1
λr r−1
f (y; θ = (r, λ)) = y exp {−λy} .
Γ(r)
I Log-verossimilhança
n
X n
X
l(θ) = nr ln(λ) − n ln(Γ(r)) − λ yi + (r − 1) ln(yi ).
i=1 i=1
1.0
crever o tempo de atendimento de clientes
Frequência relativa
0.8
no caixa de um supermercado. Uma amos-
tra aleatória de n = 20 atendimentos foi ob-
0.6
tida. Os tempos são os seguintes:
0.4
0.2
2.34 4.03 4.85 5.68 7.41
0.0
2.39 4.04 4.90 5.76 7.48
2.96 4.17 5.20 5.88 7.64 2 4 6 8
1.0
Frequência relativa
0.8
0.6
Usando um algorítio numérico ou software
0.4
estatístico, obtém-se
0.2
I r̂ = 8.288015.
0.0
I λ̂ = 1.61. 2 4 6 8
Vantagens Desvantagens
I Concepção intuitiva. I Pode ser difícil de obter em termos
I Propriedades assintóticas desejáveis: práticos.
não-viés e eficiência. I De forma geral, requer métodos
I Estimadores consistentes. numéricos.
I Metodologia completa para estimação I Suposição explícita de uma
e inferência (IC e TH). distribuição de probabilidade.
I É o método de estimação mais popular
em estatística.
y r − y r
0.20
L(m|y)
0.15
0.10
0.00 0.05