Inferencia Estatistica

Fundação Getúlio Vargas
Inferência Estatı́stica Abstract of statistical inference

Wellington Silva Last Update: August 01, 2022
Resumo de Inferência Estatı́stica
Content
Aula 0: Revisão de Probabilidade
Aula 1: O que é e para que serve Inferência Estatı́stica?
Aula 2: Distribuição a priori e a posteriori
Aula 3: Prioris conjugadas e função de perda
Aula 4: Estimadores de Bayes e EMV
Aula 5: EMV
Aula 6: Método dos momentos e suficiência
Aula 7: Suficiência conjunta e mı́nima, teorema de Rao-Blackwell
Aula 8: Admissibilidade e viés
Aula 9: Eficiência
Aula 10: Distribuição de uma estatı́stica amostral e qui-quadrado
Aula 11: Distribuição da média e variância amostrais
Aula 12: Distribuição t de Student e intervalos de confiança
Aula 13: Intervalos de confiança e Quantidades Pivotais
Aula 14: Testes de hipótese I
Aula 15: Testes de hipótese II
Aula 16: Testes de hipótese III
Aula 17: Testes e conjuntos de confiança
Aula 18: Teste t I
Aula 19: Teste t II
Aula 20: Teste f
Aula 21: Regressão Linear I
Aula 22: Regressão Linear II
1
Aula 0: Revisão de Probabilidade
Teorema 1 (Desigualdade de Marvok) Seja X uma variável aleatória não-negativa e t > 0. Então
E[X n ]
P (X ≥ t) ≤ . (1)
tn
Teorema 2 (Desigualdade de Chebychev) Seja uma variável aleatória com média E[Y ] := µ e variância
V ar(Y ) := σ 2 , ambas finitas. Mas uma vez, t > 0. Então
V ar(Y )
P (|Y − µ| ≥ t) ≤ . (2)
t2
Teorema 3 (Média e variância em uma amostra i.i.d.) Sejam X1 , X2 , . . . , Xn variáveis aleatórias i.i.d.,
com média µ e variância σ 2 . Temos que
(i) E[X̄n ] = µ
σ2
(ii) V ar(X̄n ) = n
Definição 1 (Convergência em probabilidade) Dizemos que uma sequência de variáveis aleatórias con-
verge em probabilidade para b se, ∀ε > 0, temos
lim P (|Zn − b| < ε) = 1

n→∞
p
Neste caso, escrevemos Zn −
→ b.
Teorema 4 (Lei Fraca dos Grandes Números) Sejam X1 , X2 , . . . , Xn variáveis aleatórias i.i.d., com
média µ e variância σ 2 . Então
p
X̄n −
→µ
Definição 2 (Convergência quase certa) Dizemos que uma sequência de variáveis aleatórias (Zn )n≤1
converge quase certamente para b se
P ( lim Zn = b) = 1
n→∞
Teorema 5 (Lei Forte dos Grandes Números) Sejam X1 , X2 , . . . , Xn variáveis aleatórias i.i.d., com
média µ. Então
P ( lim X̄n = µ) = 1
n→∞
Teorema 6 (Teorema Central do Limite (Lindenberg e Lévy)) Sejam X1 , X2 , . . . , Xn variáveis aleatórias

i.i.d., com média µ e variância σ 2 . Então, para cada x, temos

X̄n − µ
lim P √ ≤ x = Φ(x),
n→∞ σ/ n
onde,
Z x 2
1 t
Φ(x) := √ exp − dt
2π 0 2
é a função de distribuição (cumulativa) normal padrão.
2
Aula 1: O que é e para que serve Inferência Estatı́stica?
Definição 3 (Modelo estatı́stico: informal) Um modelo estatı́stico consiste na identificação de variáveis
aleatórias de interesse (observáveis e potencialmente observáveis), na especificação de uma distribuição con-
junta para as variáveis aleatórias observáveis e na identificação dos parâmetros (θ) desta distribuição con-
junta. Às vezes é conveniente assumir que os parâmetros são variáveis aleatórias também, mas para isso é
preciso especificar uma distribuição conjunta para θ.
Definição 4 (Modelo estatı́stico: formal) Seja X um espaço amostral qualquer, Θ um conjunto não-
vazio arbitrário e P(X ) o conjunto de todas as distribuições de probabilidade em X . Um modelo estatı́stico
paramétrico é uma função P : Θ → P(X ) que associa a cada θ ∈ Θ uma distribuição de probabilidade Pθ
em X .
Definição 5 (Afirmação probabilı́stica) Dizemos que uma afirmação é probabilı́stica quando ela uti-
liza conceitos da teoria de probabilidade para falar de um objeto.
Definição 6 (Inferência Estatı́stica) Uma inferência estatı́stica é uma afirmação probabilı́stica

sobre uma ou mais partes de um modelo estatı́stico.
Definição 7 (Estatı́stica) Suponha que temos uma coleção de variáveis aleatórias X1 , X2 , . . . , Xn ⊆ Rn

e uma função r : X → Rm . Dizemos que a variável aleatória T = r(X1 , X2 , . . . , Xn ) é uma estatı́stica.
Definição 8 (Permutabilidade) Uma coleção finita de variáveis aleatórias X1 , X2 , . . . , Xn com densidade

conjunta f é dita permutável se
f (x1 , x2 , . . . , xn ) = f (xπ(1) , xπ(2) , . . . , xπ(n) ) (3)

para qualquer permutação π = {π(1), π(2), . . . , π(n)} dos seus elementos. Uma coleção finita é permutável
se qualquer subconjunto finito é permutável.
Aula 2: Distribuição a priori e a posteriori

Definição 9 (Distribuição a priori) Se tratamos o parâmetro θ como uma variável aleatória, então a
distribuição a priori é a distribuição que damos a θ antes de observarmos as outras variáveis aleatórias
de interesse. Vamos denotar a função de densidade/massa de probabilidade da priori por ξ(θ).
Definição 10 (Distribuição a posteriori) Considere o problema estatı́stico com parâmetros θ e variáveis

aleatórias observáveis X1 , X2 , . . . , Xn . A distribuição condicional de θ dados os valores observados das
variáveis aleatórias, x := {x1 , x2 , . . . , xn } é a distribuição a posteriori de θ, denotamos por ξ(θ | x) a
f.d.p./f.m.p. condicional a X1 = x1 , X2 = x2 , . . . , Xn = xn .
Teorema 7 (Distribuição a posteriori: derivação) Considere a amostra aleatória X1 , X2 , . . . , Xn de

uma distribuição com f.d.p./f.m.p. f (x | θ). Se a distribuição a priori é ξ(θ), temos
ξ(θ)Πni=1 f (xi | θ)
ξ(θ | x) = , θ∈Ω (4)
gn (x)
Chamamos gn (x) de distribuição marginal de X1 , X2 , . . . , Xn .
Definição 11 (Função de verossimilhança) Quando encaramos a f.d.p./f.m.p. f (x1 , x2 , . . . , xn | θ)

como uma função do parâmetro θ, chamamos esta função de função de verossimilhança, e podemos
denotá-la como L(θ; x) ou, quando a notação não criar ambiguidade, simplesmente L(θ).
3
Aula 3: Prioris conjugadas e função de perda
Definição 12 (Hiper-parâmetros) Seja ξ(θ | φ) a distribuição a priori para o parâmetro θ, indexada por
φ ∈ Φ. Dizemos que φ é(são) o(s) hiper-parâmetro(s) da priori de θ.
Definição 13 (Priori conjugada) Suponha que X1 , X2 , . . . sejam condicionalmente independentes dado

θ, com f.d.p./f.m.p. f (x | θ). Defina
Z
Ψ = f : Ω → (0, ∞), f dx = 1 (5)
Ω
onde Ω é o espaço de parâmetros. Dizemos que Ψ é uma famı́lia de distribuições conjugadas para
f (x | θ) se ∀f ∈ Ψ e toda realização x de X = X1 , X2 , . . . , Xn
f (x | θ)f (θ)
R ∈Ψ (6)
Ω
f (x | θ)f (θ)dθ
Teorema 8 (Distribuição a posteriori da média de uma normal) Suponha que X1 , X2 , . . . , Xn for-

mam uma amostra aleatória com distribuição normal e com média desconhecida θ e variância σ 2 > 0,
conhecida e fixa. Suponha que θ ∼ N ormal(µ0 , v02 ) a priori. Então
(θ − µ1 )2

2 1
ξ(θ | x, σ ) = √ exp , (7)
2πσ 2 2v12
onde
σ 2 µ0 + nv02 xn σ2 v2
µ1 := 2 2 e v12 := 2 0 2 (8)
σ + nv0 σ + nv0
R
Definição 14 (Priori imprópria) Seja ξ : Λ → (0, ∞), Ω ⊆ Λ, uma função tal que Ω ξ(θ)dθ = ∞. Se
utilizamos ξ como uma p.d.f. 1 para θ, dizemos que ξ é uma priori imprópria para θ.
Definição 15 (Estimador) Sejam X1 , X2 , . . . , Xn variáveis aleatórias com distribuição conjunta indexada

por θ. Um estimador de θ é qualquer função real δ: X1 , X2 , . . . , Xn → Rd , d ≥ 1.
Definição 16 (Estimativa) Dizemos que o valor de δ avaliado nas realizações de X1 , X2 , . . . , Xn , x =

{x1 , x2 , . . . , xn }, δ(x)} é uma estimativa de θ.
Definição 17 (Função de perda) Uma função de perda é uma função real em duas variáveis
L : Ω × Rd → R, (9)
em que dizemos que o estatı́stico perde L(θ, a) se o parâmetro vale θ e a estimativa dada vale a.
Famı́lias Conjugadas
Se X1 , . . . , Xn são iid
Pne seguem a distribuição
Pn da coluna “Dados” na tabela 1.
Notações: x̄n = n1 i=1 xi ; y = i=1 xi
1 p.d.f. - “probability density function” ou função de densidade de probabilidade
4
Dados Priori Posteriori
Bernoulli(θ) Beta(α, β) Beta(α + y, β + n − y)
Poisson(θ) Gama(α, β) Gama(α
2 + y,2 β + n)2 2
σ µ0 +nv0 x̄n σ v0
Normal(µ, σ 2 ) Normal(µ0 , v02 ) Normal σ 2 +nv 2
, σ2 +nv 2
0 0
Exp(θ) Gama(α, β) Gama(α + n, β + y)
Table 1: Famı́lias Conjugadas
Aula 4: Estimadores de Bayes e EMV

Definição 18 (Estimador de Bayes) Considere a perda esperada a posteriori:
Z
Eθ|x [L(θ, a)] = E[L(θ, a) | x] = L(θ, a)ξ(θ | x)dθ (10)
Ω
Dizemos que δ ∗ é um estimador de Bayes se, para toda realização X = x,
E[L(θ, δ ∗ (x)) | x] = min E[L(θ, a) | x]. (11)

a∈A
Em outras palavras, um estimador de Bayes é uma função real dos dados que minimiza a perda esperada
com respeito à posteriori dos parâmetros.
Teorema 9 (δ ∗ sob perda quadrática) Seja θ um parâmetro tomando valores reais. Sob perda quadrática,
Z
δ ∗ (x) = E[θ | X = x] = θξ(θ | x)dθ (12)
Ω
∗
Teorema 10 (δ sob perda absoluta) Suponha que a função de perda é dada por
L(θ, δ ∗ ) = |θ − δ ∗ |. (13)
Dizemos que a função de perda é absoluta. Seja θ um parâmetro tomando valores na reta. Sob perda
absoluta, δ ∗ (x) é a mediana a posteriori, isto é,
Z δ ∗ (x)
1
ξ(θ | x)dθ = (14)
∞ 2
Definição 19 (Estimador consistente) Seja δ1 , δ2 , . . . , δn uma sequência de estimadores de θ. Se quando

n → ∞ a sequência convergente para θ, dizemos que esta é uma sequência consistente de estimadores.
Definição 20 (Estimador de máxima verossimilhança) Para cada possı́vel vetor (de observações) x,
seja δ(x) ∈ Ω um valor de θ ∈ Ω de modo que a função de verossimilhança, L(θ) ∝ f (x | θ) 2 , atinge
o máximo. Dizemos que θ̂ = δ(X) é o estimador de máximo verossimilhança de θ (Fisher, 1922)3 .
Quando observamos X = x, dizemos que δ(x) é uma estimativa de θ. Dito de outra forma:
max f (X | θ) = f (X | θ̂). (15)

θ∈Ω
2∝ - é um operador matemático binário que indica que o valor esquerdo é proporcional ao valor direito.
3 Ronald Aylmer Fisher (1890-1962), biólogo e estatı́stico inglês.
5
Aula 5: EMV
Teorema 11 (Invariância do EMV) Considere uma função φ : Ω → R. Se θ̂ é um EMV para θ, então
φ(θ̂) é um EMV para ω = φ(θ).
Teorema 12 (Consistência do EMV) Defina l(θ) := log fn (x |R θ) e assuma que X1 , . . . , Xn ∼ f (θ0 ),

isto é, que θ0 é o valor verdadeiro do parâmetro. Denote Eθ0 [g] := X g(x, θ0 )f (x | θ0 ) dx. Suponha que
• f (xi | θ) tem o mesmo suporte;

• θ0 é o ponto inferior de Ω;
• I(θ) é diferenciável;
• θ̂EM V é única solução de I 0 (θ) = 0.
Então
θ̂EM V → θ
Aula 6: Método dos momentos e suficiência

Definição 21 (Método dos momentos) Suponha que X1 , . . . , Xn formam uma sequência aleatória com
distribuição conjunta fn (X1 , . . . , Xn | θ), θ ∈ Ω ⊆ Rk e que o k-ésimo momento existe. Defina µj (θ) =
E[X1j | θ] e suponha que µ : Ω → Rk é biunı́voca, de modo que sua inversa é
θ = M (µ1 (θ), . . . , µk (θ)).

1
Pn j
Dados os momentos amostrais mj := n i=1 Xi , j = 1, . . . , k o estimador de momentos (EMM) de θ é
θ̂EM M = M (m1 , . . . , mk ).
Teorema 13 (Consistência do EMM) Suponha que X1 , . . . , Xn formam uma amostra aleatória com dis-
tribuição conjunta fn (X1 , . . . , Xn | θ), θ ∈ Ω ⊆ Rk e que o k-ésimo momento existe. Suponha que a inversa
M existe e é continua. Então o EMM é consistente para θ.
Definição 22 (Estatı́stica suficiente) Seja X1 , . . . , Xn uma amostra aleatória de uma distribuição in-
dexada pelo parâmetro θ. Seja T = r(X1 , . . . , Xn ) uma estatı́stica. Dizemos que T é uma estatı́stica
suficiente para θ se e somente se
f (X1 , . . . , Xn | T = t, θ) = f (X1 , . . . , Xn | T = t, θ0 ), ∀θ, θ0 ∈ Ω, (16)

isto é, se a distribuição condicional da amostra dado o valor da estatı́stica não depende de θ.
Definição 23 (Aleatorização auxiliar) Suponha que T é suficiente para θ. O processo de simular X10 , . . . , Xn0
dado que T = r(X1 , . . . , Xn ) de modo que
f (X1 , . . . , Xn | θ) = f (X10 , . . . , Xn0 | θ), ∀θ ∈ Ω, (17)

é chamado de aleatorização auxiliar (em inglês, auxiliary randomisation).
Teorema 14 (Teorema de fatorização) Suponha que X1 , . . . , Xn perfazem uma amostra aleatória com
f.d.p./f.m.p. f (x | θ), θ ∈ Ω. Uma estatı́stica T = r(X1 , . . . , Xn ) é suficiente para θ se, e somente se, para
todo x ∈ X e θ ∈ Ω existem u e v não negativos tal que
fn (x | θ) = u(x)v[r(x), θ]. (18)
6
Definição 24 (Suficiência conjunta) Dizemos que um conjunto de estatı́sticas T = {T1 , . . . , Tn } é sufi-
ciente (conjuntamente) se que a distribuição condicional conjunta de X1 , . . . , Xn dado T1 = t1 , . . . , Tn = tn
não dependentes de θ.
Aula 7: Suficiência conjunta e mı́nima, teorema de Rao-Blackwell

Definição 25 (Estatı́sticas de ordem) Seja X = X1 , . . . , Xn uma amostra aleatória. Dizemos que Y1 , . . . , Yn
são estatı́sticas de ordem se Y1 é o menor valor de X, Y2 é o segundo menor valor e assim sucessivamente.
Teorema 15 (Estatı́sticas de ordem são suficientes conjuntas) Seja X1 , . . . , Xn uma amostra aleatória
com f.d.p./f.m.p. f (x | θ). As estatı́sticas de ordem Y1 , . . . , Yn são suficientes conjuntas para θ.
Definição 26 (Suficiência mı́nima) Uma estatı́stica T é dita mı́nima suficiente se T é suficiente e é
função de qualquer outra estatı́stica suficiente. Um vetor T = {T1 , . . . , Tn } é dito minimamente suficiente
conjunto se é função de qualquer outro valor de estatı́sticas suficientes conjuntas.
Teorema 16 (EMV e Bayes são suficientes) Se a função de verossimilhança admite fatorização pelo
Teorema 14, os estimadores de Bayes e de máxima verossimilhança são estatı́sticas minimamente suficientes.
Definição 27 (Notação conveniente) É conveniente definir que para g : X n → R, escrevemos
Z Z Z
Eθ [g] = ··· g(x)fn (x | θ)dx1 · · · dxn = g(x)fn (x | θ)dx (19)
X X X
Definição 28 (Erro quadrático médio)

R(θ, δ) := Eθ {δ(X) − θ}2 .

(20)
Definição 29 (Estimador condicionado)
δ0 (T) := Eθ [δ(X) | T] . (21)
Teorema 17 (Teorema de Rao-Blackwell) Seja δ(X) um estimador, T uma estatı́stica suficiente para
θ e seja δ0 (T) como na Definição 29. Então vale que
R(θ, δ0 ) ≤ R(θ, δ)
Além disso, se R(θ, δ) < ∞ e δ(X) não é função de T, vale a desigualdade estrita:
R(θ, δ0 ) < R(θ, δ)
Aula 8: Admissibilidade e viés

Definição 30 (Admissibilidade) Um estimador δ é dito inadmissı́vel se existe outro estimador δ0 tal
que R(θ, δ0 ) ≤ R(θ, δ), ∀θ ∈ Ω e existe θ0 ∈ Ω tal que R(θ0 , δ0 ) < R(θ0 , δ). Nesse caso, dizemos que δ0 domina
δ. O estimador δ0 é admissı́vel se (e somente se) não há nenhum estimador que o domine.
Definição 31 (Estimador não-viesado) Um estimador δ(X) de uma função g(θ) é dito não-viesado se
Eθ [δ(X)] = g(θ), ∀θ ∈ Ω. Um estimador que não atende a essa condição é dito viesado. E o vı́es de δ é
definido como Bδ (θ) := Eθ [δ(X)] − g(θ).
Teorema 18 (Estimador não-viesado da variância) Seja X = {X1 , . . . , Xn } uma amostra aleatória,
com E[X1 ] = m e V ar(X1 ) = v < ∞. Então
n
1 X
δ1 (X) = (Xi − X n )2
n − 1 i=1
é um estimador não-viesado de v.
7
Aula 9: Eficiência
Definição 32 (Informação de Fisher) Seja X uma variável aleatória com f.d.p./f.m.p. f (x | θ), θ ∈
Ω ⊆ R. Suponha que f (x | θ) é duas vezes diferenciável com respeito a θ. Defina λ(x | θ) = log f (x | θ) e
∂λ(x | θ) ∂ 2 λ(x | θ)
λ0 (x | θ) = e λ00 (x | θ) = (22)
∂θ ∂θ2
Definimos a informação de Fisher como
(1)
I(θ) = Eθ {λ0 (x | θ)}2 = −Eθ [λ00 (x | θ)] = V arθ (λ0 (x | θ)) .

(23)
Teorema 19 (Informação de Fisher em uma amostra aleatória) Seja X = {X1 , . . . , Xn } uma amostra
aleatória e seja In = Eθ [−λ00n (X | θ)] a informação de Fisher da amostra. Então
In (θ) = nI(θ)
Teorema 20 (Teorema de Cramér-Rao) Seja X = {X1 , . . . , Xn } uma amostra aleatória, onde f.d.p./f.m.p.
tem as mesmas premissas da Definição 32. Supondo que T = r(X) é uma estatı́stica com variância finita.
Seja m(θ) = Eθ (T ) uma função diferenciável de θ. Então,
[m0 (θ)]2
V arθ (T ) ≥ , (24)
nI(θ)
com igualdade apenas se existem u e v tal que
T = u(θ)λ0n (X | θ) + v(θ).
Definição 33 (Estimador eficiente) Um estimador δ(X) é dito eficiente de (sua esperança) m(θ) se
[m0 (θ)]2
V arθ (δ) = .
nI(θ)
Aula 10: Distribuição de uma estatı́stica amostral e qui-quadrado

Definição 34 (Distribuição qui-quadrado) Dizemos que uma variável aleatória Y tem distribuição qui-
quadrado com m graus de liberdade quando
1
fY (y) = y m/2−1 e−y/2 , y > 0 (25)
2m/2 Γ(m/2)
Vemos que Y tem função geradora de momentos:
m/2
1
ψ(t) = , t < 1/2.
1 − 2t
Teorema 21 (Soma de variáveis aleatórias qui-quadrado)

Pn Se X1 , . . . , Xn são variáveis aleatórias in-
dependentes com
Pngraus de liberdade mi , então W = X
i=1 i tem distribuição qui-quadrado com graus de
liberdade m = i=1 mi .
Teorema 22 (Distribuição do quadrado de uma variável aleatória Normal padrão) Se
X ∼ N ormal(0, 1), Y = X 2
então, tem distribuição qui-quadrado com m = 1.
8
Aula 11: Distribuição da média e variância amostrais
Teorema 23 (Independência da média e variância amostrais na Normal) Seja X1 , . . . , Xn uma amostra
2
aleatória de uma distribuição Normal com parâmetros µ e σ 2 , X n e a variância amostral S n , são indepen-
2
dentes. Ademais, X n ∼ N ormal µ, σ 2 e S n ∼ Gama n−1 n

2 , 2n2
Aula 12: Distribuição t de Student e intervalos de confiança

Definição 35 (A distribuição t de Student) Tome, Y ∼ Qui − quadrado(m) e Z ∼ Normal(0, 1) e de-
fina a variável aleatória
Z
X=q .
Y
m
Dizemos que X tem distribuição t de Student com m graus de liberdade. E sabemos que
− m+1
Γ( m+1 x2

2 )
2
fX =√ 1+ , x ∈ (−∞, +∞).
mπΓ( m2) m
Teorema 24 (Distribuição amostral do estimador não-viesado da variância) Considere o estimador

r
0 ∆2
σ̂ = ,
n−1
Pn
onde ∆2 = i=1 (Xi − X n )2 . Então, vale que
√
n(X n − µ)
∼ Student(n − 1)
σ̂ 0
Teorema 25 (Intervalo de confiança) Seja X = {X1 , . . . , Xn } uma amostra aleatória, onde cada uma
tem p.d.f. f (x | θ), e considere uma função real g(θ). Sejam A(X) e B(X) duas estatı́sticas de modo de
valha
P (A(X) < g(θ) < B(X)) ≥ γ. (26)

Dizemos que I(X) = (A(X, B(X)) é um intervalo de confiança de 100γ% para g(θ). Se a desigualdade
for uma igualdade para todo θ ∈ Ω, dizemos que o intervalo é exato.
Aula 13: Intervalos de confiança e Quantidades Pivotais

Definição 36 (Intervalo de confiança unilateral) Seja X = {X1 . . . . , Xn } uma amostra aleatória, onde
cada uma tem p.d.f. f (x | θ), e considere uma função real g(θ). Seja A(X) uma estatı́stica que
P (A(X) < g(θ)) ≥ γ, ∀θ ∈ Ω

dizemos que o intervalo aleatório (A(X), ∞) é chamado de intervalo de confiança unilateral de 100γ% para
g(θ) (ou ainda, de intervalo de confiança inferior de 100γ% para g(θ)). O intervalo (−∞, B(X)), com
P (g(θ) < B(X)) ≥ γ, ∀θ ∈ Ω

é definido de forma análoga, e é chamado de intervalo de confiança superior de 100γ% para g(θ). Se a
desigualdade é uma igualdade para todo θ ∈ Ω, os intervalos são chamados exatos.
9
Definição 37 (Quantidade pivotal) Seja X = {X1 , . . . , Xn } uma amostra aleatória com p.d.f. f (x | θ).
Seja V (X, θ) uma variável aleatória cuja distribuição é a mesma para todo θ ∈ Ω. Dizemos que V (X, θ) é
uma quantidade pivotal.
Teorema 26 (Intervalo de confiança unilateral) Seja X = {X1 , . . . , Xn } uma amostra aleatória com
p.d.f. f (x | θ). Suponha que existe uma quantidade pivotal V, com c.d.f. 4 continua G. Assuma que existe
r(v, x) estritamente crescente em v para todo x. Finalmente, tome 0 < γ < 1 e γ1 < γ2 de modo que
γ2 − γ1 = γ. Então as estatı́sticas
A(X) = r(G−1 (γ1 ), X),
B(X) = r(G−1 (γ2 ), X),

são os limites de um intervalo de confiança de 100γ% para g(θ).
Aula 14: Testes de hipótese I

Definição 38 (Hipótese nula e hipótese alternativa) Considere o espaço de parâmetros Ω e defina
Ω0 , Ω1 ⊂ Ω de modo que Ω0 ∪ Ω1 = Ω e Ω0 ∩ Ω1 = ∅. Definimos
H0 := θ ∈ Ω0 ,
H1 := θ ∈ Ω1 ,
E dizemos que H0 é a hipótese nula e H1 é a hipótese alternativa. Se θ ∈ Ω1 , então dizemos que
rejeitamos a hipótese nula. Por outro lado, se θ ∈ Ω0 , então dizemos que não rejeitamos ou falhamos em
rejeitar H0 .
Definição 39 (Hipótese simples e hipótese composta) Dizemos que uma hipótese Hi , é simples, se
Ωi = {θi }, isto é, se a partição correspondente é um único ponto. Uma hipótese é dita composta se não é
simples.
Definição 40 (Hipótese unilateral e hipótese bilateral) Uma hipótese da forma H0 : θ ≤ θ0 ou H0 :

θ ≥ θ0 é dita unilateral (“one-sided”), enquanto hipóteses da forma H0 : θ 6= θ0 são ditas bilaterais
(“two-sided”).
Aula 15: Testes de hipótese II

Definição 41 (Região crı́tica) O conjunto
S1 := {x : |X n − µ0 | ≥ c}
é chamado de região crı́tica do teste.
Definição 42 (Região de rejeição) Se R ⊆ R é tal que “rejeitamos H0 se T ∈ R”, então R é chamada

uma região de rejeição para a estatı́stica T e o teste associado.
Definição 43 (Função poder) Seja δ um procedimento de aceitação/rejeição como visto anteriormente.

A função poder é definida como
π(θ | δ) := P (X ∈ S1 | θ) = P (T ∈ R | θ), θ ∈ Ω (27)

4 c.d.f. - cumulative distribution function
10
Definição 44 (Tipos de erros) Tipos de erros que podem ser cometidos
Nome Erro cometido

Erro tipo I Rejeitar H0 quando ela é verdadeira.
Erro tipo II Falhar em rejeitar H0 quando ela é falsa.
Definição 45 (Tamanho/nı́vel de um teste) Dizemos que um teste, δ, tem tamanho ou nı́vel de sig-
nificância α(δ), com
α(δ) := supθ∈Ω0 π(θ | δ).
Aula 16: Testes de hipótese III

Definição 46 (O p-valor) Para cada t, seja δt o teste que rejeita H0 se T ≥ t. Então, quando T = t, o
p-valor vale
p(t) := sup π(θ | δt ) = sup P (T ≥ t | θ) (28)

θ∈Ω0 θ∈Ω0
ou seja, o p-valor é o tamanho do teste δt .
Aula 17: Testes e conjuntos de confiança

Definição 47 (Intervalos de confiança e testes são equivalentes) Suponha que dispomos de dados X =
{X1 , . . . , Xn } com f.d.p. comum f (x | θ), e estamos interessados em testar as hipóteses:
H0 : g(θ) = g0 ,
H1 : g(θ) 6= g0 ,
de modo que existe um teste δg0 com nı́vel α0 destas hipóteses. Para cada X = x, defina
w(x) = {g0 : δg0 não rejeita H0 dado que X = x} .

Fazendo o nı́vel de confiança do intervalo γ = 1 − α0 , temos
P (g(θ0 ) ∈ w(X) | θ = θ0 ) ≥ γ, ∀θ0 ∈ Ω.
Definição 48 (Conjunto de confiança) Se um conjunto aleatório w(X) satisfaz
P (g(θ0 ) ∈ w(X) | θ = θ0 ) ≥ γ,
para todo θ0 ∈ Ω, então chamamos w(X) de um conjunto de confiança para g(θ).
Teorema 27 (Testando hipóteses a partir de conjuntos de confiança) Suponha que dispomos de da-
dos X = {X1 , . . . .Xn } com f.d.p. comum f (x | θ) e que w(X) é um conjunto de confiança para uma função
de interesse g(θ). Então para todo valor g0 assumido por g(θ) existe um teste δg0 , de nı́vel α0 que rejeita
H0 : g(θ) = g0 se e somente se g(θ0 ) = g0 ∈/ w(X).
Teorema 28 (Teste de razão de verossimilhanças (para o Teo. de Wilks)) A estatı́stica

supθ∈Ω0 fn (x|θ)
∧(x) =
supθ∈Ωfn (x|θ)
é chamada um estatı́stica de razão de verossimilhanças. Um teste de razão de verossimilhanças,
δk , é um teste que rejeita H0 se ∧(x) ≤ k para uma constante k.
11
Teorema 29 (Teorema de Wilks) Suponha que temos um espaço de parâmetros com k coordenadas, θ =
(θ1 , . . . , θn ) e desejamos testar a hipótese (simples) da forma
H0 : θj = θ0j , j = 1, . . . , k,
H1 : θj 6= θ0j , j = 1, . . . , k.
Então, sob condições de regularidade, temos que, à medida que n → ∞,
d
−2 log ∧(x) → X 2 (k)
Aula 18: Teste t I

Definição 49 (Teste não viesado) Suponha que desejamos testar a hipótese
H0 : θ ∈ Ω 0 ,
H1 : θ ∈ Ω 1 ,
através do teste δ. Dizemos que δ é não-viesado se (e somente se) para θ ∈ Ω0 e θ0 ∈ Ω1 , vale
π(θ | δ) ≤ π(θ0 | δ),

ou seja, se a função poder é pelo menos tão grande no espaço onde H0 é falsa (Ω1 ) quando no espaço em
que H0 é verdadeira (Ω0 ).
Definição 50 (Teste t) Um teste δc que rejeita H0 se U ≥ c (equiv. U ≤ c), com c = T −1 (1 − α0 ; n − 1)

é chamado de um teste t (unicaudal) de tamanho α0 .
Teorema 30 (Propriedades do teste t) Suponha que δc rejeita H0 se U ≥ c. Então
• µ = µ0 =⇒ π(µ, σ 2 | δc ) = α0
• µ < µ0 =⇒ π(µ, σ 2 | δc ) < α0

• µ > µ0 =⇒ π(µ, σ 2 | δc ) > α0
• limµ→−∞ π(µ, σ 2 | δc ) = 0
• limµ→+∞ π(µ, σ 2 | δc ) = 1
• δc é não-viesado e tem tamanho α0 .
Teorema 31 (P-valor para um teste t unicaudal) Suponha que observarmos U = u e seja T (·.n − 1)
a f.d.a. de uma distribuição t de Student com n - 1 graus de liberdade. Para a hipótese
H0 : µ ≥ µ0 ,
H1 : µ < µ0 ,
o p-valor vale T (u; n − 1), enquanto para a hipótese
H0 : µ ≤ µ0 ,
H1 : µ > µ0 ,
o p-valor vale 1 − T (u; n − 1).
12
Aula 19: Teste t II
Teorema 32 (Teste pareado) Sejam amostras X e Y (antes e depois), tais que Xi ∼ Normal(µ1 , σ 2 ) e
Yi ∼ Normal(µ2 , σ 2 ), a hipótese
H0 : µ1 ≤ µ2
H1 : µ1 > µ2
Pode ser modelada com a variável Zi = Xi − Yi (Zi ∼ Normal(µZ = µ1 − µ2 , 2σ 2 )), então podemos testar
hipóteses sobre µZ a partir de Z
H0 : µZ ≤ 0
H1 : µZ > 0
Teorema 33 (Teste t para duas amostras) Considere X = {X1 , . . . , Xm } e Y = {Y1 , . . . , Yn }, quere-

mos estudar a diferença das médias. Modelando em distribuição normal Xi ∼ Normal(µ1 , σ12 ), i = 1, . . . , m
e Yj ∼ Normal(µ2 , σ22 ), j = 1, . . . , n. Sob a premissa de homogeneidade σ12 = σ22 = σ 2 , podemos testar a
hipótese
H0 : µ1 ≤ µ2
H1 : µ1 > µ2
computando a estatı́stica
√
m + n − 2(X m − Y n )
U= q
1
(m + n1 )(SX
2 + S2 )
Y
2 2
onde X m e X m são as médias e SX e SX são a soma das variâncias.
Teorema 34 (Relaxando a premissa de homogeneidade) Do teorema acima, podemos relaxar a pre-

missa de igualdade das variâncias assumindo que σ22 = kσ12 , então a estatı́stica teste vale
√
m + n − 2(X m − Y n )
U= q 2
1
(m 2 + SY )
+ nk )(SX n
Aula 20: Teste f

Definição 51 (A distribuição F) Sejam Y ∼ Qui − quadrado(m) e W ∼ Qui − quadrado(n). Então
Y /m
X= ,
W/n
tem distribuição F com m e n graus de liberdade, com f.d.p.
Γ( m+n
2 )m
m/2 n/2
n xm/2−1
fX (x) = n m · , x > 0,
Γ( 2 )Γ( 2 ) (mx + n)(m+n)/2
Teorema 35 (Propriedades da distribuição F) Propriedades para a distribuição F:

1
1. Se X ∼ F (m, n), então X ∼ F (m, n);
2. Se Y ∼ Student(n), então Y 2 ∼ F (1, n).
13
Teorema 36 (Igualdade de duas variâncias) Suponha Xi ∼ Normal(µ1 , σ12 ), i = 1, . . . , m e Yj ∼
Normal(µ2 , σ22 ), j = 1, . . . , n. Queremos testar
H0 : σ12 ≤ σ22
H1 : σ12 > σ22
Para isso, vamos computar a estatı́stica de teste
2
SX /(m − 1)
V = 2
SY /(n − 1)
2
Pm Pm
onde SX = i=1 (Xi − X m )2 e SY2 = j=1 (Yj − Y m )2
Definição 52 (O teste F) O teste F de homogeneidade (igualdade de variâncias) é o teste δc que rejeita

H0 de V ≥ c, para uma constante positiva c.
2
SX /(m−1)
Teorema 37 (A distribuição de V) Seja V = 2 /(n−1) ,
SY
então:
σ22
V ∼ F (m − 1, n − 1).
σ12
Além disso, se σ12 = σ22 , V ∼ F (m − 1, n − 1).
Aula 21: Regressão Linear I

Teorema 38 (A linha de mı́nimos quadrados) Sejam (x1 , y1 ), . . . , (xn , yn ) uma coleção de n pontos.
Suponha que estamos interessados na reta
yi = β0 + β1 xi . (29)
Os valores dos coeficientes que minimizam a soma de quadrados são
β̂0 = y − β̂1 x,
Pn
(y − y)(xi − x)
β̂1 = Pn i
i=1
2
.
i=1 (xi − x)
Definição 53 (Modelo linear) Podemos construir um modelo estatı́stico explı́cito para a relação entre as
variáveis X e Y:
E[Y | X = x1 , . . . , xP ] = β0 + β1 x1 + . . . + βP xP (30)
Podemos então idealizar o seguinte modelo
P
X
Yi = β0 βj xij + εi , ε ∼ Normal(0, σ 2 ).
j=1
14
Aula 22: Regressão Linear II
Teorema 39 (EMV para os coeficientes de uma regressão linear (simples)) Sob as premissas já lis-
tadas, os estimadores de máxima verossimilhança para θ = (β0 , β1 , σ 2 ) são
β̂0EM V = y − β̂1EM V x,
Pn
(y − y)(xi − x)
β̂1EM V Pn i
= i=1 2
,
i=1 (xi − x)
n 2
ˆ2
1 X
σ EM V = yi − (β̂0EM V + β̂1EM V xi ) ,
n i=1
ou seja, os estimadores de máxima verossimilhança dos coeficientes minimizam a soma de quadrados da reta
estimada.
Teorema 40 (Distribuição amostral dos estimadores dos coeficientes)
x2

1
β̂0EM V ∼ Normal β0 , σ 2 + 2 ,
n sX
σ2

β̂1EM V ∼ Normal β0 , 2 ,
sX
xσ 2
Cov(β̂0EM V , β̂1EM V ) = − ,
s2X
pPn
onde sx = i=1 (xi − x)2 .
Teorema 41 (Intervalos de confiança para os coeficientes de uma regressão linear) Podemos com-
putar intervalos de confiança para os coeficientes da regressão linear de maneira muito similar ao que já vimos
para o caso da média da Normal
s
1 x̄2 σ̂ 0
βˆ0 ± σ̂ 0 c + 2 e βˆ1 ± c ,
n sx sx
s
2
1 (xpred − x̄)
βˆ0 + βˆ1 xpred ± cσ̂ 0
+
n s2x
α0
onde c = T −1 (1 − 2 ;n − 2) e
v
uP 2
u n Y − ˆ
β − ˆ
β x
t i=1 i 0 1 i
σ̂ 0 := .
n−2
Definição 54 (Testes de hipóteses para o coeficiente angular) Em geral, estamos interessados em

testar a hipótese
H0 : β 1 = β ? ,
H1 : β1 6= β ? .
Para tanto, podemos computar a estatı́stica
βˆ1 − β ?
U1 = sx , (31)
σ̂ 0
15
e computar o p-valor como
P (U1 ≥ |u1 |) + P (U1 ≤ −|u1 |). (32)

Notando que U1 tem distribuição t de Student com n − 2 graus de liberdade sob H0 , podemos computar o
p-valor exatamente.
Resultados bem similares valem para testar hipóteses sobre β0 ou Ŷ .
Teorema 42 (Predição pontual) Suponha que queremos prever o valor de Y para um certo xpred que não
foi observado no experimento. Podemos compor nossa predição (pontual) como
Ŷ = β̂0 + β̂1 xpred . (33)

Onde a predição tem erro quadrático médio (EQM) igual a
(xpred − x)2

h i 1
E (Ŷ − Y )2 = σ 2 1 + + .
n s2X
Teorema 43 (Intervalos de predição para Ŷ ) A probabilidade de Ŷ = β̂0 + β̂1 xpred estar no intervalo
s
(xpred − x)2

−1 α0 0 1
Ŷ ± T (1 − ; n − 2)σ̂ 1+ + ,
2 n s2X
é 1 − α0 .
16

Inferencia Estatistica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Inferencia Estatistica

Enviado por

Direitos autorais:

Formatos disponíveis

Fundação Getúlio Vargas

Inferência Estatı́stica Abstract of statistical inference

Resumo de Inferência Estatı́stica

lim P (|Zn − b| < ε) = 1

Teorema 6 (Teorema Central do Limite (Lindenberg e Lévy)) Sejam X1 , X2 , . . . , Xn variáveis aleatórias

Definição 6 (Inferência Estatı́stica) Uma inferência estatı́stica é uma afirmação probabilı́stica

Definição 7 (Estatı́stica) Suponha que temos uma coleção de variáveis aleatórias X1 , X2 , . . . , Xn ⊆ Rn

Definição 8 (Permutabilidade) Uma coleção finita de variáveis aleatórias X1 , X2 , . . . , Xn com densidade

f (x1 , x2 , . . . , xn ) = f (xπ(1) , xπ(2) , . . . , xπ(n) ) (3)

Aula 2: Distribuição a priori e a posteriori

Definição 10 (Distribuição a posteriori) Considere o problema estatı́stico com parâmetros θ e variáveis

Teorema 7 (Distribuição a posteriori: derivação) Considere a amostra aleatória X1 , X2 , . . . , Xn de

Definição 11 (Função de verossimilhança) Quando encaramos a f.d.p./f.m.p. f (x1 , x2 , . . . , xn | θ)

Definição 13 (Priori conjugada) Suponha que X1 , X2 , . . . sejam condicionalmente independentes dado

Teorema 8 (Distribuição a posteriori da média de uma normal) Suponha que X1 , X2 , . . . , Xn for-

Definição 15 (Estimador) Sejam X1 , X2 , . . . , Xn variáveis aleatórias com distribuição conjunta indexada

Definição 16 (Estimativa) Dizemos que o valor de δ avaliado nas realizações de X1 , X2 , . . . , Xn , x =

Table 1: Famı́lias Conjugadas

Aula 4: Estimadores de Bayes e EMV

E[L(θ, δ ∗ (x)) | x] = min E[L(θ, a) | x]. (11)

Definição 19 (Estimador consistente) Seja δ1 , δ2 , . . . , δn uma sequência de estimadores de θ. Se quando

max f (X | θ) = f (X | θ̂). (15)

Teorema 12 (Consistência do EMV) Defina l(θ) := log fn (x |R θ) e assuma que X1 , . . . , Xn ∼ f (θ0 ),

• f (xi | θ) tem o mesmo suporte;

• θ̂EM V é única solução de I 0 (θ) = 0.

Aula 6: Método dos momentos e suficiência

θ = M (µ1 (θ), . . . , µk (θ)).

f (X1 , . . . , Xn | T = t, θ) = f (X1 , . . . , Xn | T = t, θ0 ), ∀θ, θ0 ∈ Ω, (16)

f (X1 , . . . , Xn | θ) = f (X10 , . . . , Xn0 | θ), ∀θ ∈ Ω, (17)

fn (x | θ) = u(x)v[r(x), θ]. (18)

Aula 7: Suficiência conjunta e mı́nima, teorema de Rao-Blackwell

Definição 28 (Erro quadrático médio)

R(θ, δ0 ) < R(θ, δ)

Aula 8: Admissibilidade e viés

Aula 10: Distribuição de uma estatı́stica amostral e qui-quadrado

Teorema 21 (Soma de variáveis aleatórias qui-quadrado)

Teorema 22 (Distribuição do quadrado de uma variável aleatória Normal padrão) Se

Aula 12: Distribuição t de Student e intervalos de confiança

Teorema 24 (Distribuição amostral do estimador não-viesado da variância) Considere o estimador

P (A(X) < g(θ) < B(X)) ≥ γ. (26)

Aula 13: Intervalos de confiança e Quantidades Pivotais

P (A(X) < g(θ)) ≥ γ, ∀θ ∈ Ω

P (g(θ) < B(X)) ≥ γ, ∀θ ∈ Ω

A(X) = r(G−1 (γ1 ), X),

B(X) = r(G−1 (γ2 ), X),

Aula 14: Testes de hipótese I

Definição 40 (Hipótese unilateral e hipótese bilateral) Uma hipótese da forma H0 : θ ≤ θ0 ou H0 :

Aula 15: Testes de hipótese II

Definição 42 (Região de rejeição) Se R ⊆ R é tal que “rejeitamos H0 se T ∈ R”, então R é chamada

Definição 43 (Função poder) Seja δ um procedimento de aceitação/rejeição como visto anteriormente.

π(θ | δ) := P (X ∈ S1 | θ) = P (T ∈ R | θ), θ ∈ Ω (27)

Nome Erro cometido

α(δ) := supθ∈Ω0 π(θ | δ).

Aula 16: Testes de hipótese III

p(t) := sup π(θ | δt ) = sup P (T ≥ t | θ) (28)

ou seja, o p-valor é o tamanho do teste δt .

Aula 17: Testes e conjuntos de confiança

w(x) = {g0 : δg0 não rejeita H0 dado que X = x} .

P (g(θ0 ) ∈ w(X) | θ = θ0 ) ≥ γ, ∀θ0 ∈ Ω.

Definição 48 (Conjunto de confiança) Se um conjunto aleatório w(X) satisfaz

Teorema 28 (Teste de razão de verossimilhanças (para o Teo. de Wilks)) A estatı́stica

Aula 18: Teste t I

π(θ | δ) ≤ π(θ0 | δ),