Escolar Documentos
Profissional Documentos
Cultura Documentos
premissa
Motivação
Os dados
Vamos analizar medições da concentração (em partes por milhão, ppm) de um composto
químico em 𝑛 = 100 amostras de bateladas de um determinado produto.
1
Concentração em ppm
0.04
Density
0.02
0.00
0 10 20 30 40 50 60
Será que os dados apresentam alguma tendência em relação ao número da batelada (índice da
observação)
20
0
0 20 40 60 80 100
Index
Estatísticas descritivas
2
summary(conc)
sd(conc)
[1] 10.58646
Inferência
Vamos raciocinar sobre algumas quantidades, a saber a média (𝑋̄ 𝑛 ) e a mediana (𝑀̂ ) amostrais.
Em particular, vamos pensar sobre como construir intervalos de confiança para essas quanti-
dades.
Agora, vamos aplicar estas funções aos nossos dados. Primeiro, a média amostral:
3
Nivel <- 0.95
xbar <- mean(conc)
c(xbar, xbar + c(-1, 1) * qnorm(p = (1 + Nivel)/2) * sd(conc)/length(conc))
Depois, a mediana:
med_np(conc)
med_app(conc)
Como discutido nos exercícios abaixo, podemos aproximar 𝐹 a partir da amostra através do
estimador
1 𝑛
𝑌𝑛 (𝑥) = ∑ 𝕀 (𝑋𝑖 ≤ 𝑥)
𝑛 𝑖=1
Vamos ver como ficam as estimativas usando os dados sob análise:
plot(fda.empirica)
4
ecdf(conc)
0.8
Fn(x)
0.4
0.0
0 10 20 30 40 50 60
Desta forma, se o alvo inferencial é Pr(𝑋 ≤ 30), podemos obter uma estimativa fazendo
[1] 0.94
Para finalizar, vamos olhar o que acontece se fizermos (i) uma transformação e (ii) uma pre-
missa paramétrica:
5
Concentrações transformadas
0.4
Density
0.2
0.0
0 1 2 3 4
log(X)
plot(fda.empirica)
curve(plnorm(x, meanlog = mu.hat, sdlog = sd.hat), min(conc), max(conc), lwd = 3, lty = 2,
ecdf(conc)
0.8
Fn(x)
0.4
0.0
0 10 20 30 40 50 60
6
Exercícios de fixação
e argumente sobre o que acontece à medida que 𝑛 → ∞ sob as premissas de (a) inde-
pendência (b) indentidade de distribuição. O que precisamos assumir sobre 𝑣𝑖 ? E sobre
as covariâncias?
2. O método Delta. Suponha que 𝑌1 , 𝑌2 , … é uma sequência de variáveis aleatórias i.i.d.
para as quais vale um teorema central do limite, isto é,
√ (𝑌𝑛 − 𝜇)
𝑛 ⟹ Normal(0, 1),
𝜎
a. 𝐸[𝕀 (𝑋𝑖 ≤ 𝑥)] = 𝐹 (𝑥) e que Var (𝕀 (𝑋𝑖 ≤ 𝑥)) = 𝐹 (𝑥)[1 − 𝐹 (𝑥)].
b. √(𝑛)(𝑌𝑛 (𝑥) − 𝐹 (𝑥)) ⟹ Normal (0, 𝐹 (𝑥)[1 − 𝐹 (𝑥)]).
c. Considere a função 𝑔(𝑡) = 𝐹 −1 (𝑡) para 𝑡 ∈ (0, 1), isto é a inversa generalizada de 𝐹 .
Calcule 𝑔′ (𝑡) em termos de 𝐹 e da densidade 𝑓.
d. Finalmente, use o resultado do item 2 para deduzir que
√ 𝑝(1 − 𝑝)
𝑛 (𝐹 −1 (𝑌𝑛 (𝑥)) − 𝑥) ⟹ Normal (0, ),
[𝑓(𝑥)]2
para 𝑝 = 𝐹 (𝑥).
1
mensurável.
7
Dica: 𝑓(𝑥) pode ser bem estimada em qualquer ponto 𝑥 usando o método do histograma.
Seja {𝐵𝑘 ∶= (𝑡𝑘 , 𝑡𝑘+1 ) ∶ 𝑡𝑘 = 𝑡0 + ℎ𝑘, 𝑘 ∈ ℤ} e defina para 𝑥 ∈ 𝐵𝑘 uma função constante
̂ 𝑡 , ℎ) ∶= 𝑣𝑘 , onde 𝑣 é o numéro de observações que estão no intervalo 𝐵 . Sob
em 𝐵𝑘 𝑓(𝑥, 0 𝑛ℎ 𝑘 𝑘
condições de regularidade2 , temos que quando ℎ → 0, 𝑓(𝑥,̂ 𝑡 , ℎ) → 𝑓(𝑥), isto é, o estimador
0
da densidade é consistente3 . No R, podemos fazer
para obter uma pdf aproximada usando como amostra um conjunto de v.a.s. normal padrão,
por exemplo.
5. (Desafio) A discussão dos itens anteriores supõe amostras grandes, para as quais faça
sentido falar em teorema central do limite. Agora vamos estudar uma maneira de con-
struir um intervalo de confiança para a mediana que seja válido para amostras finitas.
Suponha uma amostra aleatória de tamanho 𝑛 ímpar de uma distribuição 𝐹 e considere
sua versão ordenada:
𝑋(1) , 𝑋(2) , … , 𝑋( 𝑛+1 ) , … , 𝑋(𝑛) .
2
Seja 𝑋̃ a mediana de 𝐹 , i.e., 𝐹 (𝑋)̃ = Pr(𝑋 ≤ 𝑋)̃ = 1/2. Defina 𝜋𝑚 = Pr(𝑌 ≤ 𝑋).
̃
a. Mostre que
𝑖−1
̃ 𝑛 𝑗 𝑛−𝑗
Pr(𝑋𝑖 > 𝑋) = ∑ ( )𝜋𝑚 (1 − 𝜋𝑚 ) .
𝑗=0
𝑗
c. Use os resultados anteriores para mostrar que sempre existem 𝑙 ≤ 𝑢 ∈ {1, … , 𝑛} tais que
𝑖−1
𝑛
Pr (𝑋(𝑙) ≤ 𝑋̃ ≤ 𝑋(𝑢) ) ≥ 2−𝑛 ∑ ( ).
𝑗=0
𝑗
2
Basicamente queremos que 𝑛ℎ → ∞
3
E assintoticamente não-viesado. Para mais detalhes, veja essas notas
8
Referências