Estatistica CCM NA5

Notas de Aula 5 – Inferência Estatı́stica
Estatı́stica
Curso Cecı́lia Menon
1 Definições Iniciais
1.1 Revisão Conceitual
Nessa subseção reapresentaremos alguns conceitos básicos de estatı́stica.
A população, objeto de estudo, é uma coleção de itens, sobre a qual necessita-se obter in-
formações. A população pode ser chamada também universo de estudo, universo para o qual
procuramos obter informações.
Definição: Amostra. Uma amostra é um grupo de itens selecionados da população.
Em muitas pesquisas, seleciona-se uma amostra da população para inferirmos resultados para
a população inteira.
A estatı́stica descritiva é o ramo da estatı́stica que busca descrever e analisar as carac-

terı́sticas de um grupo por meio de tabelas e gráficos.
A inferência estatı́stica, também chamada estatı́stica indutiva, é o ramo da estatı́tica

que formula testes e generalizações para uma população a partir de informações obtidas com
amostras.
Exemplos: teste de durabilidade de um material a partir de uma amostra; estimação de uma

relação linear entre consumo e renda dos indivı́duos, etc.
A inferência estatı́stica estuda a razoabilidade/validade de se extrapolar resultados obtidos

na amostra para a população. Essa extrapolação exige cuidado, pois pode ocorrer que algum
resultado encontrado na amostra seja mera coincidência, não sendo válido para a população.
As variáveis de interesse podem ser qualitativas ou quantitativas. Uma variável qualitativa

(também chamada categórica) descreve uma caracterı́stica não mensurável dos elementos da
população. Exemplos são caracterı́sticas individuais tais como sexo, estado civil, cor do cabelo.
Variáveis quantitativas podem ser medidas em uma escala numérica ou quantitativa. Exemplos:
número da população, altura, idade, tempo de duração de uma lâmpada.
As variáveis quantitativas se dividem em contı́nuas e discretas. Variáveis contı́nuas podem

ter qualquer valor dentro de um intervalo. Exemplos são altura e peso. Variáveis discretas
possuem quebras entre dois valores possı́veis que uma observação pode assumir. Exemplos são
número de filhos de uma famı́lia, quantidade de televisores por residência.
Amostragem é o campo da estatı́stica que estuda como extrair amostras de modo a fazer
inferências válidas sobre toda a população. Em certas situações, podemos trabalhar com a
população inteira, obtendo dados de toda a população. Nesse caso, estamos fazendo um censo.
A pesquisa pode ser classificada então como censitária ou como amostral.
1
1.2 Amostras Aleatórias
Definição. Seja X uma variável aleatória com distribuição de probabilidade qualquer. Sejam
n v.a.s X1 , . . . , Xn independentes e com a mesma distribuição de X. Nesse caso dizemos que
(X1 , . . . , Xn ) é uma amostra aleatória de tamanho n da v.a. X.
Uma amostra aleatória de tamanho n da v.a. X consiste de n mensurações repetidas de X,

feitas sob condições inalteradas (ou pelo menos que quaisquer alterações não influenciem o
resultado do experimento).
Se X tem função de densidade de probabilidade (fdp) f e se (X1 , X2 , . . . , Xn ) for uma amostra

aleatória de X com fdp conjunta g, a hipótese iid resulta em:
g(x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn ) .
Se X for discreta, então:
p(X1 = x1 , . . . , Xn = xn ) = pX (x1 ) . . . pX (xn ) ,
onde pX (xi ) = p(X = xi ).
1.3 Estatı́sticas
Uma vez obtida uma amostra aleatória de X, queremos utilizar os valores amostrais para
realizar inferências sobre alguma ou algumas caracterı́sticas da população representada pela
amostra. Para isso, vamos definir o seguinte conceito.
Definição: Estatı́stica. Seja X1 , . . . , Xn uma amostra aleatória da v.a. X e sejam x1 , . . . , xn

os valores assumidos pela amostra. Seja H uma função definida para (x1 , . . . , xn ). Dizemos
que a v.a. Y = H(X1 , . . . , Xn ) é uma estatı́stica, que toma o valor y = H(x1 , . . . , xn ) quando
X1 , . . . , Xn toma os valores (x1 , . . . , xn ).
Uma estatı́stica nada mais é do que uma função de valores reais da amostra e, portanto, é
também uma variável aleatória. É comum se referir à distribuição de probabilidade de Y por
distribuição amostral, já que a estatı́stica Y é uma função de amostras aleatórias. Mais ainda,
apesar de comum, não é correto dizer “a estatı́stica y = H(x1 , . . . , xn )”. Temos que y é o valor
que a estatı́stica Y = H(X1 , . . . , Xn ) assume quando a amostra X1 , . . . , Xn toma os valores
(x1 , . . . , xn ).
Definição: Três Estatı́sticas Importantes. Seja (X1 , . . . , Xn ) uma amostra aleatória da

v.a. X. Temos que:
(1) X̄ = (1/n) ni=1 Xi é a média amostral.

P
(2) S 2 = [1/(n − 1)] ni=1 (Xi − X̄)2 é a variância amostral não-viesada.

P
(3) σ̂ 2 = [1/n] ni=1 (Xi − X̄)2 é a variância amostral viesada.

P
2
Teorema. Seja X uma variável aleatória com valor esperado EX = µ e variância σ 2 . Seja X̄
a média amostral de uma amostra aleatória de tamanho n. Então:
i) E(X̄) = µ;
ii) Var(X̄) = σ 2 /n;

√
iii) Para n grande, (X̄ − µ)/(σ/ n) terá aproximadamente a distribuição N (0, 1).
Note que o teorema acima mostra que, quanto maior o tamanho n da amostra, a média amostral
varia cada vez menos (Var(X̄) → 0 quando n → ∞). Além disso, se n for suficientemente
grande, podemos aproximar a distribuição de X̄ pela distribuição normal de valor esperado√µ
e variância σ 2 /n (o Teorema Central do Limite garante que a distribuição de (X̄ − µ)/(σ/ n)
pode ser aproximada pela distribuição normal padrão, para n suficientemente grande). Se n não
for grande, essa aproximação pode não ser boa e podemos então tentar calcular a distribuição
exata de X̄.
2 Estimação Pontual
2.1 Introdução
Exemplo 1: Suponha que temos 1.000.000 de lâmpadas produzidas e queremos determinar a
proporção p de lâmpadas defeituosas. A verificação de lâmpada por lâmpada pode ser muito
custosa. Neste caso, podemos usar amostragem para estimar o parâmetro p.
Denote por Xi a v.a. que toma o valor 1 se a i-ésima lâmpada for defeituosa, 0 caso contrário.
Considere X1 , . . . , Xn uma amostra aleatória da v.a. X, cuja distribuição é p(X = 1) = p e
p(X = 0) = 1 − p.
Logo, a distribuição de X depende do parâmetro p. Queremos usar a amostra X1 , . . . , Xn para

estimar p. Ou seja, queremos encontrar alguma estatı́stica H tal que H(X1 , . . . , Xn ) constitua
um estimador pontual de p.
Não é esperado que a estimativa p̂ de p seja igual a p. Mais ainda, p̂ é uma variável aleatória,
que depende da amostra considerada. Duas questões:
1) Quais as caracterı́sticas que um “bom” estimador deve apresentar?
2) Como decidir que um estimador é melhor do que outro?
Exemplo 2: Seja X ∼ N (µ, σ 2 ) e considere a amostra aleatória X1 , . . . , Xn de X. Queremos

estimar (µ, σ 2 ).
Os exemplos acima são problemas clássicos em inferência estatı́stica clássica, que assume que
θ é um parâmetro desconhecido, mas fixo. Já a estatı́stica Bayesiana assume que θ é uma v.a
não observável com uma distribuição conhecida (antes de se obter quaisquer observações). A
distribuição a priori é então atualizada com os dados de modo a constituir uma distribuição a
posteriori, que é usada para se fazer a inferência estatı́stica.
Ao longo dessa seção, X denota uma variável aleatória, X1 , . . . , Xn uma amostra aleatória de
X, e x1 , . . . , xn os valores amostrais correspondentes.
3
Definição: Estimador. Seja X uma v.a cuja função de distribuição dependa de um parâmetro
θ desconhecido. Se H(X1 , . . . , Xn ) for uma estatı́stica da amostra que será usada para a
estimação de θ, dizemos que H é um estimador pontual de θ. O valor que H assume em
(x1 , . . . , xn ) é uma estimativa de θ, que será denotada por θ̂ = H(x1 , . . . , xn ).
Há um abuso de notação muito comum em livros de estatı́stica, que algumas vezes é replicado
nos exames da ANPEC. A notação θ̂ é usada também para denotar o estimador de θ, apesar
de que na definição acima θ̂ é uma estimativa de θ, enquanto o estimador é H(X1 , . . . , Xn ).
Adotaremos essa terminologia, apesar de não ser inteiramente correta.
Definição: Estimador Linear. Dizemos que θ̂ é um estimador linear de θ se:
θ̂ = a1 X1 + a2 X2 + · · · + an Xn ,
onde a1 , . . . , an são números reais.
Definição: Estimador Não Viesado. Seja θ̂ um estimador do parâmetro desconhecido θ

associado à v.a. X. Dizemos que θ̂ é um estimador não viesado (ou não tendencioso ou não
viciado) de θ se E(θ̂) = θ.
Logo, um estimador não viesado de um parâmetro qualquer é tal que o seu valor esperado é
igual ao parâmetro que se deseja estimar.
Definição: Estimador Consistente. Seja θ̂ um estimador do parâmetro desconhecido θ

P
associado à v.a. X. Dizemos que θ̂ é um estimador consistente (ou coerente) de θ se θ̂ −→ θ
(ou seja, θ̂ converge em probabilidade para θ).
Portanto, o estimador θ̂ do parâmetro θ é consistente se para todo ε > 0 tivermos que:

lim p |θ̂ − θ| ≥ ε = 0 ;
n→∞
ou, de modo similar, se:

lim p |θ̂ − θ| < ε = 1 .
n→∞
Verificar se um estimador é consistente é relativamente complicado. O teorema a seguir, con-

sequência da desigualdade de Tchebycheff, ajuda essa tarefa.
Teorema. Seja θ̂ um estimador de θ baseado em uma amostra de tamanho n. Se:
lim E(θ̂) = θ e lim Var(θ̂) = 0 ,

n→∞ n→∞
então θ̂ é um estimador consistente de θ.
Se o estimador θ̂ for não tendencioso, então E(θ̂) = θ e basta verificar se Var(θ̂) → 0 quando
n → ∞ para concluirmos que θ̂ é consistente.
Definição: Variância Mı́nima. Seja θ̂ um estimador não-tendencioso do parâmetro θ.

Dizemos que θ̂ é um estimador não-tendencioso de variância mı́nima de θ se:
Var(θ̂) ≤ Var(θ̃) ,
para todas as estimativas θ̃ não-tendenciosas de θ.
4
Definição: Estimador BLUE. Dizemos que θ̂ é o melhor estimador linear não-tendencioso
(no inglês, Best Linear Unbiased Estimate – BLUE ) do parâmetro θ se:
i) θ̂ é linear;
ii) θ̂ é não-tendencioso (E(θ̂) = θ);
iii) θ̂ possui a menor variância entre todos os estimadores lineares não-tendenciosos de θ (ou
seja, Var(θ̂) ≤ Var(θ̃), para todo θ̃ linear e não-tendencioso).
Se estivermos comparando um grupo de estimadores θ̂i , i = 1, . . . , k, de θ, todos não ten-

denciosos, dizemos que um estimador é o mais eficiente do grupo se tiver a menor variância.
Porém, essa comparação perde sentido quando alguns estimadores forem tendenciosos. Uma
possibilidade neste caso é calcular o erro quadrado médio (MSE – Mean Squared Error ) de
cada estimador, definido como:
MSE(θ̂i ) = E[(θ̂i − θ)2 ] .
O estimador com menor MSE é dito o mais eficiente do grupo. Observe que se o estimador
for não tendencioso, então o MSE será igual à variância do estimador. Logo, o MSE estende o
conceito de eficiência para estimadores tendenciosos.
O erro quadrado médio de um estimador θ̂ pode ser escrito como:
MSE(θ̂) = E[(θ̂ − θ)2 ] = E[(θ̂ − E(θ̂) + E(θ̂) − θ)2 ]

= E[(θ̂ − E(θ̂))2 + 2(θ̂ − E(θ̂))(E(θ̂) − θ) + (E(θ̂) − θ)2 ]
= E[(θ̂ − E(θ̂))2 ] + 2E[(θ̂ − E(θ̂))(E(θ̂) − θ)] + E[E(θ̂) − θ]2
= E[(θ̂ − E(θ̂))2 ] + [E(θ̂) − θ]2
= Var(θ̂) + [VIES(θ̂, θ)]2 ,
onde VIES(θ̂, θ) = E(θ̂) − θ (e, portanto, VIES(θ̂, θ) = 0 se o estimador θ̂ for não-tendencioso).
2.2 Resultados
Teorema. Seja X uma variável aleatória com esperança finita µ e variância σ 2 . A média
amostral X̄ calculada a partir de uma amostra aleatória de tamanho n é um estimador não-
tendencioso e consistente de µ.
Note então que a média amostral X̄ = (1/n) ni=1 Xi é um estimador linear e não-tendencioso
P
do valor esperado µ. Além disso, X̄ tem a menor variância entre todos os estimadores lineares
não-tendenciosos de µ (logo, X̄ é BLUE).
Teorema. Sejam X uma variável aleatória com esperança µ e variância σ 2 e X

P1n, . . . , Xn uma
amostra aleatória de tamanho n de X. Denote por X̄ a média amostral (1/n) i=1 Xi . Então
n
1 X
S2 = (Xi − X̄)2 ,
n − 1 i=1
é tal que:
i) E(S 2 ) = σ 2 ; e
ii) Se X ∼ N (µ, σ 2 ), então (n − 1)S 2 /σ 2 ∼ χ2n−1 .
5
Logo, S 2 definido no teorema acima é um estimador não-tendencioso da variância σ 2 .
O estimador σ̂ 2 = (1/n) ni=1 (Xi − X̄)2 é viesado, pois:

P

n−1
E(σ̂) = σ2
n
Note que σ̂ 2 é assintoticamente não-tendencioso, no sentido de que:

2 n−1
lim E(σ̂ ) = lim σ2 = σ2 ,
n→∞ n→∞ n
Além disso, o viés se torna cada vez menor com o aumento do tamanho da amostra.
EXERCÍCIOS ANPEC
RESOLVER: QUESTÃO 4, EXAME 2017; QUESTÃO 14, EXAME 2016; QUESTÕES 12

e 15, EXAME 2015; QUESTÃO 9, EXAME 2014; QUESTÃO 7, EXAME 2013; QUESTÕES
9 e 12, EXAME 2012; QUESTÃO 4, EXAME 2011; QUESTÕES 4, 5 e 6, EXAME 2010;
QUESTÃO 8, EXAME 2009; QUESTÃO 3, EXAME 2008.
QUESTÕES DE EXAMES MAIS ANTIGOS: QUESTÃO 5, EXAME 2006; QUESTÃO

5, EXAME 2005; QUESTÃO 2, EXAME 2003; QUESTÃO 6, EXAME 2002; QUESTÕES 6
e 7, EXAME 1998; QUESTÕES 8, 9 e 10, EXAME 1997; QUESTÕES 9 e 13, EXAME 1996;
QUESTÃO 2, EXAME 1995; QUESTÕES 2 e 14, EXAME 1993.
6
3 Estimação de Máxima Verossimilhança
Vamos denotar a função de densidade de probabilidade (fdp) de X por f (x; θ), onde θ denota
um vetor de parâmetros que define a distribuição de X (por exemplo, se X ∼ N (µ, σ 2 ), então
θ = (µ, σ 2 )).
Definição: Função de Verossimilhança. Seja X1 , . . . , Xn uma amostra aleatória da v.a.

X e sejam x1 , . . . , xn os valores amostrais observados. A função de verossimilhança (FV)
L(X1 , . . . , Xn ; θ) é definida como:
n
Y
L(X1 , . . . , Xn ; θ) = f (Xi ; θ) = f (X1 ; θ) × f (X2 , θ) × · · · × f (Xn , θ) .
i=1
Logo, se f for discreta, a FV representa a distribuição conjunta p(X1 = x1 , . . . , Xn = xn ). Se

f for contı́nua, então a FV representa a função de densidade conjunta de (X1 , . . . , Xn ).
É comum log-linearizar a FV, que neste caso será denotada por L(X1 , . . . , Xn ; θ):
n
X
L(X1 , . . . , Xn ; θ) = ln(L(X1 , . . . , Xn ; θ)) = ln(f (Xi ; θ)) .
i=1
Considere a v.a X e a amostra aleatória X1 , . . . , Xn de tamanho n de X e seja θ um vetor de

parâmetros que ajuda a definir a função de densidade de X.
A estimação de máxima verossimilhança consiste em, dada uma amostra aleatória qualquer,
encontrar o estimador que maximiza a função de verossimilhança. A definição abaixo conceitua
esse estimador.
Definição: Estimador de Máxima Verossimilhança. O estimador de máxima verossimi-

lhança (EMV) θ̂M V de θ é o valor que maximiza a função de verossimilhança L(X1 , . . . , Xn ; θ).
Note que maximizar a FV é equivalente a maximizar a FV log-linearizada. Portanto, temos

que:
θ̂M V (x) = arg max L(x, θ) = arg max L(x, θ) ,
θ θ
onde estamos considerando a estimativa θ̂M V para os valores amostrais observados x = (x1 , . . . , xn ).
Os estimadores de máxima verossimilhança são usualmente determinados resolvendo as condições

de primeira ordem (CPO) do problema de maximização da FV:
∂L(x; θ)
=0
∂θ
Essas CPOs são denominadas equações de máxima verossimilhança. As CPOs não são sufi-
cientes (nem necessárias, caso de solução de canto, a não ser que algumas condições sejam
satisfeitas) para uma solução.
A determinação de estimadores de máxima verossimilhança pode ser complicada e envolver uma

série de aspectos técnicos. Além disso, em muitos problemas pode não ser possı́vel encontrar
uma solução analı́tica fechada para o estimador de MV. Neste caso, determina-se o estimador
de MV por meio de métodos computacionais.
7
Podemos mostrar que os estimadores de MV, quando existirem, satisfazem as seguintes propri-
edades (importante para a ANPEC ):
a) podem ser tendenciosos. Muitas vezes o viés do estimador pode ser eliminado multipli-
cando o estimador por uma constante.
b) são assintoticamente não-tendenciosos. Ou seja, o valor esperado do estimador de MV
de θ tende a θ quando o tamanho da amostra aumenta.
c) são consistentes.
d) possuem distribuição assintótica normal. Logo, a distribuição do estimador de MV tende
a uma distribuição normal quando o tamanho da amostra aumenta.
e) são assintoticamente eficientes.
f) satisfazem a seguinte propriedade de invariância: Seja θ̂M V o estimador de MV de θ. O
estimador de MV de g(θ), onde g é uma função monótona contı́nua, é g(θ̂M V ).
Exemplo: Suponha que X ∼ N (µ, σ 2 ) e seja X1 , . . . , Xn uma amostra aleatória de X. Que-

remos encontrar os estimadores de MV para µ e σ 2 . A fdp de X é:
2
2 !
1 (x − µ) 1 x − µ
f (x; µ, σ 2 ) = √ exp − = (2πσ 2 )1/2 exp − .
σ 2π 2σ 2 2 σ
Então a função de verossimilhança é:

n 2 !
1 X X i − µ
L(X1 , . . . , Xn ; θ) = (2πσ 2 )n/2 exp − .
2 i=1 σ
Log-linearizando a FV, encontramos:

n 2
n
2 1 X Xi − µ
L(X1 , . . . , Xn ; θ) = − ln(2πσ ) − .
2 2 i=1 σ
As CPOS resultam em:

n n
∂L X Xi − µ̂M V 1X
(µ) : = 2
=0 ⇒ µ̂M V = Xi
∂µ i=1
σ̂ M V n i=1
n
X (Xi − µ̂M V )2 n
∂L n 2 1X
(σ) : =− + 3
=0 ⇒ σ̂M V = (Xi − µ̂M V )2
∂σ σ̂M V i=1
σ̂M V n i=1
Portanto, o estimador de MV paraP o valor esperado µ é a média amostral X̄ e o estimador

de MV para a variância σ é (1/n) ni=1 (Xi − X̄)2 . O primeiro é não tendencioso. Porém, o
2
estimador de MV de σ 2 é tendencioso.
EXERCÍCIOS ANPEC
RESOLVER: QUESTÃO 2, EXAME 2007; QUESTÃO 4, EXAME 2002; QUESTÕES 4, 7

e 8, EXAME 2000; QUESTÃO 6, EXAME 1999.
Leitura Sugerida
• Meyer, capı́tulo 13 (Amostras e Distribuições Amostrais), seções 13.1 a 13.4; capı́tulo 14
(Estimação de Parâmetros), seções 14.1-14.4.
8
4 Intervalos de Confiança
As questões da ANPEC sobre intervalo de confiança (IC) referem-se sempre a uma v.a. X
com distribuição normal N (µ, σ 2 ), em que o objetivo é estimar um intervalo de confiança para
a média populacional µ, usando uma amostra aleatória X1 , . . . , Xn de X e a média amostral
X̄. As questões dividem-se em dois tipos: 1) estimar o intervalo de confiança com variância
conhecida e 2) estimar o intervalo de confiança com variância desconhecida.
4.1 Variância Conhecida

2 2 2
X ∼ N (µ,
Suponha que √σ ), com µ desconhecido e σ conhecido. Então X̄ ∼ N (µ, σ /n).
Logo, Z = (X̄ − µ)/σ n possui distribuição normal padrão. Observe que Z depende de µ,
mas a sua distribuição não depende de µ.
Sabemos que 2Φ(z) − 1 = p(−z ≤ Z ≤ z), com Z ∼ N (0, 1). Desenvolvendo essa expressão,
obtemos:
X̄ − µ √

zσ zσ
p −z ≤ n ≤ z = p X̄ − √ ≤ µ ≤ X̄ + √
σ n n
√ √
O intervalo aleatório (X̄ − (σ/ n) × z; X̄ + (σ/ n) × z) é chamado intervalo de confiança da
média aleatória µ.
Não é correto dizer que a “probabilidade de µ cair dentro do intervalo acima especificado é
2Φ − 1”, pois µ é um parâmetro fixo: ou ele está ou não está dentro do intervalo. O intervalo
é que é aleatório: a cada amostra obtida, será obtido um intervalo diferente. O correto então é
dizer que “se repertimos a estimação muitas vezes, os intervalos de confiança obtidos conterão
µ em 95% das vezes”.
Podemos escolher z de tal modo que 2Φ(z) − 1 = 1 − α, ou seja, Φ(z) = 1 − α/2. Esse valor
de z, denotado
√ por K1−α/2 , é tabelado,
√ de tal modo que Φ(K1−α/2 ) = 1 − α/2. Dizemos que
(X̄ − (σ/ n) × K1−α/2 ; X̄ + (σ/ n) × K1−α/2 ) é um intervalo de confiança do parâmetro µ,
com coeficiente de confiança 1 − α (ou um intervalo de confiança 100(1 − α)%).
Exemplo: Suponha que X ∼ N (µ, 16) representa a duração da vida de uma peça de equipa-
mento em horas. Suponha que foi obtida uma amostra aleatória de tamanho n = 100 dessa
variável, em que X̄ = 501,2 horas. O intervalo de confiança de 95% para a média µ é:

4 4
501,2 − √ × 1,96 ; 501,2 + √ × 1,96 = (500,4 ; 502,0)
100 100
Note novamente que isto não significa que a média amostral cairá neste intervalo com 95% de
probabilidade. Ou µ está ou não está no intervalo (500,4 ; 502,0).
Finalmente, observe que para um mesmo nı́vel de confiança 1 − α e um mesmo tamanho n da

amostra aleatória, os intervalos de confiança estimados quando a variância é conhecida terão
sempre a mesma amplitude (ie, o mesmo comprimento), igual a:

σ σ 2σz1−α/2
X̄ + √ × z1−α/2 − X̄ − √ × z1−α/2 = √
n n n
Logo, se a amostra for diferente (mas de mesmo tamanho), então o comprimento do IC será o
mesmo, apenas os pontos extremos do intervalo serão distintos.
9
4.2 Variância Desconhecida
Suponha que X ∼ N (µ, σ 2 ), com µ desconhecido e σ 2 desconhecido. Sejam X1 , . . . , Xn uma
amostra aleatória de X e X̄ a média amostral.
Vamos supor que estimamos σ 2 por meio da estimativa não viesada:

n
1 X
σ̂ 2 = (Xi − X̄)2 .
n − 1 i=1
Usando os seguintes fatos:

√
1. Z = (X̄ − µ) n/σ ∼ N (0, 1),
2. V = ni=1 (Xi − X̄)2 /σ 2 ∼ χn−1 , e

P
3. Z e V são independentes,
temos que a variável aleatória:

√ √
Z (X̄ − µ) n/σ (X̄ − µ) n
t= p =p =
(1/(n − 1)) ni=1 (Xi − X̄)2 /σ 2 σ̂
P
V /(n − 1)
possui distribuição t de student com n − 1 graus de liberdade.

√
Portanto, t = (X̄ − µ) n/σ̂ possui distribuição que não depende de µ (embora t dependa de
µ). Lembre-se que a distribuição t é simétrica em torno de 0 e converge para a normal padrão
à medida que n aumenta.
Para α e n dados, o intervalo:

√ √
X̄ − (σ̂/ n) × tn−1,1−α/2 ; X̄ + (σ̂/ n) × tn−1,1−α/2
define um intervalo de confiança ao nı́vel de 100(1 − α)% para µ.
Exemplo: Suponha que X ∼ N (µ, σ 2 ) represente a duração da vida de uma peça de equi-
pamento em horas. Suponha que foi obtida uma amostra aleatória de tamanho n = 9 dessa
variável, em que X̄ = 10,50 horas e σ̂ = 1,50 horas. Para calcularmos o intervalo de confiança
de 95% para a média µ, primeiro obtemos de uma tabela da distribuição t de Student o va-
lor t8;0,95 = 2,31 (em que os 5% restantes são repartidos pela metade em cada uma das duas
caudas). Temos então que o intervalo de confiança associada a esta amostra aleatória é:

1,50 1,50
10,50 − √ × 2,31 ; 10,50 + √ × 2,31 = (10,50 − 1,155; 10,50 + 1,155) = (9,345 ; 11,655)
9 9
Novamente isto não significa que a média populacional cairá neste intervalo 95% das vezes. O
intervalo é aleatório: cada amostra aleatória gera um intervalo diferente.
10
5 Teste de Hipóteses
5.1 Introdução
Vimos como obter uma estimativa de um parâmetro desconhecido, associado a uma distribuição
de probabilidade, baseado em uma amostra aleatória.
Considere então uma v.a. X em que não conhecemos o valor de um parâmetro θ associado à
sua distribuição e que temos uma amostra aleatória X1 , . . . , Xn de X.
Um teste de hipóteses é outro método estatı́stico que utiliza dados amostrais para realizar
inferências sobre a população de interesse. É um dos métodos mais usados.
Definição: Teste de Hipóteses. Um teste de hipóteses é um método estatı́stico que utiliza

amostras aleatórias para avaliar uma hipótese sobre algum parâmetro θ (que pode ser um vetor
de parâmetros) populacional.
Portanto, no lugar de obter uma estimativa para θ, vamos fazer um teste de hipótese, que
consiste em admitir um valor hipotético para θ e então usar a informação da amostra para
confirmar ou rejeitar esse valor hipotético.
Vamos testar uma hipótese base H0 (ou hipótese nula ou de nulidade ou hipótese básica) versus
uma hipótese alternativa H1 . O termo hipótese nula refere-se que na maioria das aplicações
de testes de hipóteses, deseja-se verificar se um determinado tratamento alterou a média po-
pulacional (sem alterar a variância ou a distribuição populacional). A hipótese nula assume
que não ocorre mudança e a hipótese alternativa que ocorre mudança. Parece estranho dar
tanta atenção à hipótese nula, já que o interesse na maioria dos casos consiste em verificar se
o tratamento teve efeito.
O motivo para isso é que é mais fácil mostrar que uma determinada hipótese universal é falsa
do que verdadeira. Considere testar a seguinte afirmação: “todos os cisnes são brancos”. Se
coletamos uma amostra em que todos os cisnes são brancos, isso não prova a afirmação. Porém
se na nossa amostra obtivermos um cisne negro, isso mostra que a afirmação é falsa. Ou seja,
é mais fácil mostrar que algo é falso do que verdadeiro.
Testes de hipóteses seguem essa lógica: se a hipótese base fosse “tratamento tem efeito”, seria
mais difı́cil de lidar. Logo, se estabelece que a hipótese base é “tratamento não tem efeito”
e tentamos mostrar que ela é falsa (ou seja, encontramos evidência de que o tratamento tem
efeito).
Vamos então definir as hipóteses nula e alternativa em termos de tratamento. O Exemplo 1

abaixo descreve uma situação tı́pica em que se usa testes de hipóteses.
Definição: Hipótese Nula. A hipótese nula H0 assume que a variável independente (o

tratamento) não tem efeito na variável dependente da população.
Definição: Hipótese Alternativa. A hipótese alternativa H1 assume que a variável inde-

pendente (o tratamento) tem efeito na variável dependente da população.
Podemos realizar basicamente dois tipos de testes. O primeiro, descrito por:
H0 : θ = θ0 vs H1 : θ 6= θ0 ,
11
é chamado bicaudal (ou bilateral ou não-direcional ). Neste teste rejeitaremos a hipótese nula
se encontrarmos evidência convincente de que θ 6= θ0 (ou seja, ou de que θ > θ0 ou de que
θ < θ0 .
O segundo tipo, descrito por:
H0 : θ ≤ θ0 (ou θ ≥ θ0 ) vs H1 : θ > θ0 (ou θ < θ0 ) ,
é chamado unicaudal (à direita se H1 : θ > θ0 ; à esquerda se H1 : θ < θ0 ). O teste unicau-

dal também é chamado unilateral ou direcional. Neste teste rejeitaremos a hipótese nula se
encontrarmos evidência convincente de que θ > θ0 (θ < θ0 ).
É comum representar o teste unicaudal da seguinte forma:
H0 : θ = θ0 vs H1 : θ > θ0 (ou θ < θ0 ) ,
em que denotamos a hipótese nula com a igualdade.
5.2 Teste de Hipóteses para a Média Populacional

Vamos analisar testes de hipóteses para a média populacional de uma v.a. X com distribuição
normal N (µ, σ 2 ). Vamos supor que a variância σ 2 é conhecida (caso não seja, adaptamos o
teste usando o estimador não viesado σ̂ 2 = (1/(n − 1)) ni=1 (Xi − X̄)2 de modo similar ao
P
que foi feito em intervalos de confiança – ver subseção 5.6 abaixo). Considere uma P amostra
aleatória X1 , . . . , Xn de tamanho n de X. Sabemos que a média amostral X̄ = (1/n) ni=1 Xi
possui distribuição normal com média µ e variância σ 2 /n.
Se a v.a. X não tiver distribuição normal, podemos utilizar o Teorema Central do Limite, que
assegura que a distribuição das médias amostrais será (aproximadamente) normal quando n
for grande. Logo, mesmo neste caso podemos proceder de modo análogo ao que é feito a seguir
(ver subseção 5.7 abaixo).
Vamos analisar o teste bicaudal para média, supondo o set-up acima. O teste pode ser descrito
então por:
H0 : µ = µ0 vs H1 : µ 6= µ0 ,
em que µ0 é o valor que assumimos para a média populacional.
Exemplo 1: Suponha uma fábrica que produz amortecedores. A duração da vida de um

amortecedor tem valor esperado de 520 meses, com desvio-padrão de 20 meses (situação antes
do tratamento). Um novo método de produção que pode alterar o valor esperado da duração
do amortecedor, sem alterar o desvio-padrão, é implementado (situação pós-tratamento). Que-
remos testar se o novo método de produção de fato alterou o valor esperado da duração do
amortecedor. Vamos analisar o seguinte teste bicaudal:
H0 : µ = 520 vs H1 : µ 6= 520 .
Vamos assumir que o efeito do tratamento é apenas adicionar um valor constante na duração
de cada amortecedor, de modo que não altera a distribuição nem o desvio-padrão populacional.
12
Note que não existe teste perfeito, pois nunca estaremos certos de que a nova média popula-
cional é igual ou diferente a 520 usando amostras aleatórias. Podemos apenas comparar um
teste com outro, determinar propriedades desejadas, etc, de modo parecido ao que é feito numa
estimação pontual.
Queremos por meio da média amostral determinar se a hipótese nula é válida ou não. Preci-
samos definir limites para separar amostras muito prováveis das pouco prováveis. Para fazer
isso, precisamos definir o que é “muito” e “pouco” provável. Isto é feito selecionando um valor
especı́fico chamado nı́vel de significância (ou nı́vel -α ou valor -α) para o teste de hipóteses.
Definição: Nı́vel de Significância. O nı́vel de significância α de um teste de hipóteses é o

valor de probabilidade usado para definir que resultados amostrais são muito improváveis se a
hipótese nula for verdadeira.
Os valores mais comuns para α são 0,10 = 10%, 0,05 = 5%, 0,01 = 1% e 0,001 = 0, 1%. Um
α = 0,05 significa que iremos separar os 5% menos prováveis valores para a média amostral
dos 95% valores mais prováveis (valores centrais).
Definição: Região Crı́tica. A região crı́tica de um teste de hipóteses é dada pelos va-
lores amostrais extremos que são muito improváveis de serem obtidos (onde agora “muito
improvável” é definido pelo nı́vel de significância do teste) se a hipótese nula for verdadeira.
Os limites da região crı́tica são definidos pelo nı́vel de significância α selecionado para o teste.
Portanto, a região crı́tica define valores para resultados amostrais muito improváveis de ocor-
rerem se o tratamento não tiver efeito. De modo inverso, podemos ver a região crı́tica como
definindo os valores para resultados amostrais que fornecem evidência convincente de que o
tratamento tem efeito.
Para determinar exatamente os limites da região crı́tica, usamos o valor α selecionado e a tabela
da normal padrão (para o caso do exemplo acima e de situações em que se deseja testar a média
populacional quando a variância populacional é conhecida). Se α = 0,05, precisamos encontrar
os limites que separam os 5% extremos dos 95% centrais. Como a distribuição normal padrão é
simétrica ao redor de zero, temos 2,5% em cada cauda. Na tabela da normal padrão, obtemos
z0,025 = 1,96. Portanto, para qualquer distribuição normal, os 5% extremos possuem valores
acima de z = 1,96 ou abaixo de z = −1,96.
Figura 1: Região crı́tica para α = 0,05
13
A Figura 1 evidencia que a região crı́tica é definida pelos extremos da distribuição. Os valores
da distribuição que definem os dois extremos são denominados valores crı́ticos do teste e deter-
minados pelo nı́vel de significância adotado (e, evidentemente, pela distribuição considerada).
Para o caso da distribuição normal padrão, como ela é simétrica em torno de zero, os dois
valores que determinam a região crı́tica são iguais em valor absoluto. Se α = 5%, então o valor
crı́tico |zc | associado, que delimita os dois extremos da distribuição com probabilidade 2,5% de
ocorrer, é igual a 1,96.
Uma vez estabelecido o nı́vel de significância do teste de hipótese, obtemos a amostra aleatória
e estabelecemos o critério de decisão para o teste. Para o exemplo dado, calculamos a média
amostral da duração dos amortecedores que compõem a amostra. Esse é o ponto central do
procedimento: comparar os dados com a hipótese.
Calculada a média amostral X̄, computamos o valor da estatı́stica do teste, denotada por z,
usando a hipótese nula:
X̄ − µ0 Média Amostral − Media Populacional Hipotética

z= √ =
σ/ n Desvio Padrão Amostral
Uma vez calculado a estatı́stica do teste z acima, devemos tomar uma decisão entre duas
possı́veis: rejeitar a hipótese nula ou falhar em rejeitar a hipótese nula.
Regra de Decisão. A decisão é feita simplesmente comparando a estatı́stica do teste z com

o valor crı́tico zc :
• Se −zc < z < zc (ou seja, se |z| < |zc |), então não rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de aceitação do teste.
• Se z < −zc ou z > zc (ou seja, se |z| > |zc |), então rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de crı́tica do teste).
Voltemos ao Exemplo 1 acima. Suponha que obtivemos uma amostra aleatória com 100 ob-
servações.
√ A média
√ amostral calculada é X̄ = 528. O desvio-padrão da média amostral é
σX̄ = σ/ n = 20/ 100 = 2. O valor da estatı́stica z é:
X̄ − µ0 528 − 520
z= = = 4.
σX̄ 2
A um nı́vel de significância de 0,05 = 5%, esse valor obtido para a estatı́stica z é distante do
valor limite de 1,96. Como a estatı́stica amostral z está na região crı́tica, rejeitamos a hipótese
nula e concluı́mos que o novo método de produção alterou o valor esperado da duração dos
amortecedores.
Suponha agora que a amostra aleatória com 100 observações resultou em uma média amostral
de X̄ = 522. O valor da estatı́stica z agora é:
X̄ − µ0 522 − 520
z= = =1
σX̄ 2
Este valor de z não está na região crı́tica (podemos então dizer que ele está na região de
aceitação da hipótese nula). Portanto, falhamos em rejeitar a hipótese nula e concluı́mos que
o novo método de produção não alterou o valor esperado da duração dos amortecedores.
14
Resumindo, temos então dois possı́veis resultados:
1) A evidência coletada (obtida da amostra aleatória) é suficiente para mostrar de modo

convincente que o tratamento tem efeito (rejeitamos a hipótese nula).
2) A evidência coletada (obtida da amostra aleatória) não é convincente para inferir que o
tratamento tem efeito (falhamos em rejeitar a hipótese nula).
Note que a amostra aleatória foi usada para obter um único valor especı́fico, a estatı́stica z que
define a região crı́tica do teste de hipóteses, ou seja, que é usado para a tomada de decisão do
teste (se aceitamos ou rejeitamos a hipótese nula).
Para o valor z = 4 obtido no exemplo acima, usando a tabela da distribuição normal padrão
temos que p = 0,0003, ou seja, a probabilidade de que o resultado tenha ocorrido por chance
(assumindo H0 verdadeira) é 0,0003 = 0,03%. Este é o p-valor do teste de hipóteses (também
chamado valor -p, nı́vel descritivo, probabilidade de significância).
Definição: p-valor. O p-valor de um teste é a probabilidade de se obter uma estatı́stica de

teste maior ou igual àquela calculada com a amostra obtida, sob a hipótese nula. Então o
p-valor de um teste pode ser visto como o menor nı́vel de significância com o qual se rejeitaria
a hipótese nula (isso é bastante controverso!).
Portanto, se o p-valor do teste for menor do 0,05, pode-se rejeitar a hipótese nula ao nı́vel de
significância de 0,05 = 5%. Para o outro caso acima, em que a estatı́stica do teste é z = 1,
temos que p = 0,3374. Neste caso, aceitamos a hipótese nula ao nı́vel de significância de 5%.
Logo, quanto menor o p-valor, maior a incompatibilidade estatı́stica dos dados amostrais com
a hipótese nula. Podemos usar o p-valor para a tomada de decisão:
• Se p > α: aceita-se a hipótese nula.
• Se p < α: rejeita-se a hipótese nula.
Atualmente ocorre uma grande discussão entre estatı́sticos sobre o abuso que se faz do p-valor
(ver “The ASA Statement on Statistical Significance and p-Values” de 2016). Ressaltamos que:
1) O p-valor não é a probabilidade da hipótese nula de um teste ser verdadeira; 2) O p-valor não
é a probabilidade da hipótese nula ter sido rejeitada erroneamente (ou seja, a probabilidade
de um erro do tipo I, que veremos abaixo); 3) A magnitude do p-valor não indica o tamanho
ou a importância de um efeito observado; 4) p-valor e nı́vel de significância não são sinônimos:
o p-valor é sempre computado a partir da amostra, enquanto o nı́vel de significância é fixado
antes de se obter a amostra.
15
5.3 Erros em Testes de Hipóteses
Testes de hipóteses são procedimentos de inferência estatı́stica, que usam informação limitada
(amostra) para chegar a uma conclusão geral (população). Logo, existe a possibilidade de que
a conclusão obtida seja incorreta. Existem dois tipos de erros que podem ocorrer.
Definição: Erro Tipo I. Um erro tipo I ocorre quando a hipótese nula é válida, mas é
rejeitada pelo teste. Tipicamente, conclui-se que o tratamento teve efeito quando na verdade
não teve.
O erro tipo I ocorre porque a informação obtida da amostra aleatória coletada é enganadora.
Para que ele ocorra, a média amostral deve estar na região crı́tica. A região crı́tica deve então
ser estruturada de modo que seja muito improvável obter uma média amostral nela quando H0
for verdadeira.
Portanto, o nı́vel de significância α de um teste define a probabilidade (ou risco) de ocorrer um

erro tipo I. Ou seja, α determina a probabilidade de obter uma amostra aleatória na região
crı́tica quando a hipótese nula for verdadeira:
α = p (Erro Tipo I) = p (Rejeitar H0 | H0 é verdadeira) = p (H1 | H0 )
Esta observação resulta na seguinte definição alternativa para nı́vel de significância.
Definição (alternativa): Nı́vel de Significância. O nı́vel de significância α de um teste

de hipóteses é a probabilidade de ocorrer um erro tipo I.
Portanto, o nı́vel de significância α cumpre dois papéis em um teste de hipóteses:

1. Auxilia a determinação dos limites da região crı́tica, ao definir o significado de “muito
improvável ”;
2. Determina a probabilidade do erro tipo I.
Note que se fixassemos α = 0, um erro tipo I nunca ocorreria. Mas isso implicaria em sempre
aceitar a hipótese nula, o que por sua vez implicaria nunca aceitar a possibilidade de ela ser
falsa. Logo, não faz sentido realizar testes de hipóteses com α = 0.
O erro tipo II consiste no outro tipo de erro que pode ocorrer em um teste de hipóteses, que
consiste em não rejeitar a hipótese nula quando ela é falsa. Ou seja, o teste de hipóteses falhou
em observar que o tratamento de fato teve efeito.
Definição: Erro Tipo II. Um erro tipo II ocorre quando não se rejeita uma hipótese nula
falsa. Tipicamente, conclui-se que o tratamento não teve efeito quando na verdade teve.
No exemplo acima, um erro tipo II ocorrerá quando a média amostral não estiver na região
crı́tica, mas o tratamento obteve efeito (a nova média populacional é diferente da antiga).
Frequentemente, o erro tipo II ocorre quando o efeito do tratamento é muito pequeno.
Resumo: Erro Tipo I e Tipo II. Definimos os erros tipo I e II como os seguintes eventos
(ver Figura 2 abaixo):
Erro Tipo I Rejeitar H0 quando H0 verdadeira (“falso positivo”).
Erro Tipo II Aceitar H0 quando H0 for falsa (“falso negativo”).
16
Figura 2: H0 : “pessoa não grávida”, H1 : “pessoa grávida”
A probabilidade de ocorrência de um erro tipo II é usualmente denotada por β:
β = p (Erro Tipo II) = p (Aceitar H0 | H0 é falsa) = p (H0 | H1 ) .
Definição: Poder de um Teste. O poder (ou potência) de um teste de hipóteses, denotado

por P D, é a probabilidade de o teste rejeitar H0 quando H0 é realmente falsa. Logo, o poder
de um teste é 1 menos a probabilidade de ocorrer um erro tipo II: P D = 1 − β.
A Figura 3 abaixo ilustra todas as possibilidades que podem ocorrer em um teste de hipóteses.
Figura 3: Possibilidades em um Teste de Hipóteses
17
O Exemplo 2 abaixo evidencia que a probabilidade de um erro tipo II depende da verdadeira
média populacional µ. Logo, o poder de um teste também depende de µ.
Exemplo 2. Suponha o Exemplo 1, em que testamos H0 : µ = 520 (vs H √1 : µ 6= 520).

Suponha também que n = 100, σ = 20, α = 5%. Então sabemos que σX̄ = 20/ 100 = 2 e que
o valor crı́tico associado ao nı́vel de significância 5% para um teste bicaudal é 1,96. Este valor
crı́tico para X̄ leva ao seguinte IC para X̄:
X̄ − µ0
−1,96 ≤ ≤ 1,96 ⇒ 516,08 ≤ X̄ ≤ 523,92
σX̄
já que µ0 = 520 e σX̄ = 2. Logo, a probabilidade do erro tipo II é:

β = p 516,08 ≤ X̄ ≤ 523,92 | µ 6= 520
Agora precisamos calcular os valores crı́ticos da estatı́stica z quando µ 6= 520. Para fazer isso,
precisamos assumir algum valor para a verdadeira média populacional. Suponha que µ = 525,
então temos que:

516,08 − 525 523,92 − 525
β(µ) = p 516,08 ≤ X̄ ≤ 523,92 | µ = 525 = p ≤z≤
2 2
= p (−4,46 ≤ z ≤ −0,54) = Φ(−0,54) − Φ(−4,46) = 0,29460 − 0,00003 = 0,29457
Logo, a probabilidade de cometer um erro tipo II quando a verdadeira média populacional for
µ = 525 é 29,46%. Então o poder do teste, para µ = 525, é 1 − 0,29457 = 0,70543 = 70,54%.
Note que não conhecemos a média populacional µ verdadeira. Podemos “plotar” o poder de
um teste em função do valor µ considerado como verdadeiro para média populacional. Para
cada µ que assumirmos como verdadeiro, temos um valor para a probabilidade do erro tipo II
e para o poder do teste. Quanto mais distante for o valor assumido como verdadeiro do valor
tomado na hipótese nula, menor a probabilidade de aceitar a hipótese nula quando ela for falsa
e, portanto, maior o poder do teste. A Figura 4 abaixo ilustra graficamente a probabilidade
do erro tipo II.
Figura 4: Probabilidade do Erro Tipo II
18
Para aumentar o poder de um teste, podemos:
• Aumentar o tamanho n da amostra aleatória;
• Aumentar o nı́vel de significância α adotado (ou seja, se aumentarmos a probabilidade de

um erro tipo I, diminuı́mos a probabilidade de um erro tipo II, tudo o mais constante);
• Aumentar o tamanho do efeito (ou seja, a distância entre o valor do parâmetro real e o
considerado verdadeiro em H0 ).
Apesar de não ser necessário saber o poder de um teste antes de conduzir o teste de hipóteses,
é adequado tentar simulá-lo para obter uma noção do tamanho da amostra n necessário para
manter a probabilidade de um erro tipo II em um certo patamar.
5.4 Teste Unicaudal

O procedimento visto acima é válido para um teste bicaudal, ou seja, um teste em que a região
crı́tica se encontra nas duas caudas da distribuição. O procedimento para um teste unicaudal
(ou direcional ), definido abaixo, é um pouco diferente.
Definição: Teste de Hipóteses Unicaudal. Em um teste de hipóteses unicaudal, a hipótese

estatı́stica (dada por H0 e H1 ) especifica ou um aumento ou uma diminuição no parâmetro
populacional de interesse (usualmente, a média populacional).
Portanto, um teste unicaudal faz uma afirmação sobre a direção do efeito do tratamento.
Quando o tratamento define uma direção especı́fica, é aconselhado o teste unicaudal.
Exemplo 3. Suponha que um laboratório está testando em ratos um remédio para abrir o
apetite. Sabe-se que o consumo médio de comida de cada rato por dia é de 26 gramas, com
distribuição normal com desvio-padrão σ = 4. O efeito esperado do remédio é aumentar o
consumo de comida. O propósito do teste é verificar se o remédio de fato funciona ou não.
Então as duas hipóteses serão:
H0 : Consumo de comida não é aumentado;

H1 : Consumo de comida é aumentado.
Portanto,
H0 : µ ≤ 26 vs H1 : µ > 26
A região crı́tica novamente é definida pelos resultados amostrais muito improváveis de ocorre-
rem se a hipótese nula for verdadeira (isto é, se o tratamento não tiver efeito). Como espera-se
que o tratamento aumente o consumo de comida, o teste é unicaudal à direita. Se o efeito do
tratamento fosse reduzir a média populacional, o teste seria unicaudal à esquerda.
Portanto, um teste unicaudal modifica o procedimento do teste de hipóteses em duas etapas:

1. Na primeira etapa do teste de hipóteses, a predição direcional do tratamento é incorporada
nas hipóteses; e
2. Na segunda etapa do teste de hipóteses, a região crı́tica é localizada inteiramente em uma

das caudas da distribuição (ver Figura 5).
19
Figura 5: Teste Unicaudal
Daı́ procede-se exatamente como antes: calculamos a estatı́stica z e tomamos a decisão sobre
aceitar ou rejeitar H0 se a estatı́stica z estiver fora ou dentro da região crı́tica.
Continuando o Exemplo 3 acima, suponha que o laboratório testou o remédio em 4 ratos

(n = 4). O nı́vel de significância assumido para o teste é de 5%. Com α = 5%, o valor z
tabelado é z = 1,65. Como assumimos que a distribuiçã populacional
√ √é normal, a distribuição
da média amostral é normal com desvio padrão σX̄ = σ/ n = 4/ 4 = 2. Suponha que a
média amostral é 29,5 A estatı́stica do teste é portanto:
X̄ − µ0 29,5 − 26 3,5
z= = = = 1,75 .
σX̄ 2 2
O valor da estatı́stica z maior do que o tabelado indica que a média amostral obtida está na
região crı́tica. Logo, como isso é um resultado muito improvável de ocorrer se H0 for verdadeira,
a decisão é rejeitar H0 . Ou seja, o remédio tem efeito e aumenta o apetite de ratos.
5.5 Comparação do Teste Bicaudal com o Unicaudal

O objetivo mais comum de um teste de hipóteses é verificar se determinado tratamento tem
efeito sobre a população, usando dados amostrais. Suponha ainda o Exemplo 3 acima do
remédio para abrir o apetite. Se for usado um teste bicaudal, então as hipóteses serão:
H0 : µ = 26 vs H1 : µ 6= 26
Ao nı́vel de significância de 5% para o teste bicaudal, o valor tabelado da estatı́stica z é 1,96.

Como a estatı́stica do teste computada é z = 1,75, a decisão é aceitar H0 . Logo, a diferença
entre os dados amostrais (X̄ = 29, 5) e a população (µ = 26) não é grande o suficiente para
rejeitar H0 , considerando um teste bicaudal.
Note que se o teste for unicaudal como no Exemplo 2 acima, os mesmos dados amostrais levam
a rejeitar H0 . Evidentemente, podemos concluir que os dois tipos de testes são diferentes.
Porém, existem diversos modos de interpretar essa diferença.
Alguns autores argumentam que testes bicaudais são mais rigorosos, pois sempre que se rejeitar
H0 no teste bicaudal, rejeita-se também H0 em um teste unicaudal, mas o contrário não é válido.
Daı́ concluem que testes bicaudais são mais “convincentes”.
20
Outros autores argumentam que testes unicaudais são preferı́veis por serem mais sensı́veis, no
sentido de que um efeito relativamente pequeno do tratamento pode ser significante no teste
unicaudal mas falhar em ser significante no teste bicaudal. Além disso, esse tipo de teste é
mais preciso sobre a hipótese feita sobre o tratamento.
Em geral, testes bicaudais devem ser utilizados quando não se tem uma expectativa forte sobre
a direção do tratamento ou quando há duas predições alternativas (diminuir e aumentar a
média populacional, por exemplo). Por outro lado, testes unicaudais devem ser usados apenas
em situações em que exista uma forte justificativa para a direção a ser assumida do tratamento
no teste de hipóteses.
5.6 Variância Desconhecida

Suponha o mesmo arcabouço de antes, só que agora não conhecemos a variância populacional
associada a v.a. X ∼ N (µ, σ 2 ) para a qual queremos realizar um teste de hipótese sobre µ.
Como fazemos agora? Se utilizarmos a variância amostral σ̂ 2 = (1/(n − 1)) ni=1 (Xi − X̄)2 ,
P
em que X̄ denota a média amostral, podemos proceder exatamente do mesmo modo que antes
(seja um teste bicaudal, seja um teste unicaudal), usando a variância amostral no lugar da
variância populacional para calcular a estatı́stica do teste.
Porém, agora devemos comparar a estatı́stica obtida com uma estatı́stica t com n − 1 graus de
liberdade. A justificativa para isso é similar à que vimos com intervalos de confiança.
5.7 Teste de Hipóteses para Proporções

O mesmo procedimento visto acima, com pequenas modificações, vale quando queremos realizar
um teste de hipóteses para proporções, como no exemplo abaixo.
Exemplo 4. Uma fábrica afirma que a probabilidade de uma peça produzida por ela ser
defeituosa é 0,1. Suponha que obtivemos uma amostra aleatória com 100 peças e verificamos
que 19 são defeituosas. Queremos realizar o seguinte teste de hipóteses:
H0 : p = 0,1 vs H1 : p 6= 0,1 ,
onde p denota a proporção de peças defeituosas. Vamos adotar o nı́vel de significância de 0,1%.
Como procedemos para realizar o teste? Sob a hipótesep nula, temos √ que a variância amostral
é p0 (1 − p0 )/n. Então o desvio-padrão amostral é p0 (1 − p0 )/ n. Nesse tipo de teste, o
correto seria utilizar a distribuição binomial. Mas se n for grande, o Teorema Central do
Limite permitepusar a distribuição
√ normal para calcular de modo aproximado a estatı́stica do
teste, usando p0 (1 − p0 )/ n como desvio padrão:
p̄ − p0
z=p √ ,
p0 (1 − p0 )/ n
onde p̄ é a proporção obtida na amostra.
Voltando ao Exemplo 4 acima, temos que:

p̄ − p0 0,19 − 0,10 0,09
z=p √ =p √ = = 10
p0 (1 − p0 )/ n (0,1 × 0,9)/ 100 0,009
Como o valor crı́tico do teste para o nı́vel de significância α = 0,1% é 3,3, podemos então
rejeitar a hipótese nula ao nı́vel de significância de 0,1%.
21
5.8 Teste de Hipóteses para Variâncias
Considere a v.a. X ∼ N (µ, σ 2 ) e uma amostra aleatória de tamanho n de X. Suponha que
queremos realizar um teste de hipóteses bicaudal (o caso unicaudal é similar) sobre a variância
σ 2 de X:
H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02 .
Para isso, computamos a estatı́stica:

(n − 1)S 2
q=
σ02
Pn
onde S 2 = (1/(n − 1)) i=1 (Xi − X̄)2 é o estimador não-viesado de variância populacional.
É possı́vel mostrar que a estatı́stica q possui distribuição qui-quadrada com n−1 graus de liber-
dade. Logo, selecionado o nı́vel de significância α do teste, procedemos como antes, definindo
a região crı́tica, que dependerá de o teste ser unicaudal ou bicaudal.
Se o teste for bicaudal, lembre-se que a distribuição qui-quadrada não é simétrica. Logo,
precisaremos dos limites inferior e superior que definem a região crı́tica para prosseguir com o
teste.
5.9 Teste de Hipóteses para Comparações de Médias Populacionais

Suponha duas populações X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 ) independentes, em que obtivemos
uma amostra aleatória X1 , X2 , . . . , Xn1 de tamanho n1 da população 1 e uma amostra aleatória
Y1 , Y2 , . . . , Yn2 de tamanho n2 da população 2.
O objetivo é testar se as duas médias populacionais são iguais, ou seja, H0 : µ1 = µ2 vs

H1 : µ1 6= µ2 . Podemos também testar H0 : µ1 − µ2 = d vs H1 : µ1 − µ2 6= d. Porém o mais
comum é de fato testar se as duas médias populacionais são iguais.
Sabemos que as médias amostrais X̄ e Ȳ referentes às populações 1 e 2, respectivamente,

possuem distribuição normal: X̄ ∼ N (µ1 , σ12 /n1 ) e Ȳ ∼ N (µ2 , σ22 /n2 ). Isso e a hipótese de
independência implicam que:
σ12 σ22

X̄ − Ȳ ∼ N µ1 − µ2 , +
n1 n2
Vamos analisar três casos:

1. Variâncias conhecidas: procedimento padrão.
2. Variâncias desconhecidas porém iguais: ou seja, não conhecemos as variâncias σ12 e
σ22 , mas sabemos que σ12 = σ22 = σ 2 . Denote por σ̂k2 o estimador não viesado da variância
populacional, para k = 1, 2. É possı́vel mostrar que a estatı́stica
(X̄ − Ȳ ) − d
t= q ,
σ̂ × n11 + n12
em que
(n − 1)σ̂12 + (n − 2)σ̂22
σ̂ = ,
n1 + n2 − 2
possui distribuição t de Student com n1 + n2 − 2 graus de liberdade. Uma vez selecionado
o nı́vel de significância do teste, comparamos a estatı́stica do teste t com o valor tabelado.
22
3. Variâncias desconhecidas e diferentes: ou seja, não conhecemos as variâncias σ12 e σ22
nem sabemos se são iguais ou não. Denote por σ̂k2 o estimador não viesado da variância
populacional, para k = 1, 2. É possı́vel mostrar que a estatı́stica
(X̄ − Ȳ ) − d
t= q 2 ,
σ̂1 σ̂22
n1
+ n2
possui distribuição t de Student com ν graus de liberdade, em que ν é dado por:

2 2
σ̂1 σ̂22
n1
+ n2
ν= 2 2 2
(σ̂1 /n1 ) (σ̂22 /n2 )
n1 −1
+ n2 −1
(se ν não for um inteiro, arredondamos para o inteiro mais próximo). Uma vez selecionado
o nı́vel de significância do teste, comparamos a estatı́stica do teste t com o valor tabelado.
EXERCÍCIOS ANPEC
RESOLVER: QUESTÕES 5 e 9, EXAME 2018; QUESTÃO 8, EXAME 2017; QUESTÃO 11,

EXAME 2014; QUESTÃO 3, EXAME 2013; QUESTÕES 1 e 2, EXAME 2012; QUESTÕES
1 e 6, EXAME 2011; QUESTÃO 9, EXAME 2009; QUESTÃO 4, EXAME 2008; QUESTÃO
11, EXAME 2007.
QUESTÕES DE EXAMES MAIS ANTIGOS: QUESTÕES 4 e 14, EXAME 2006;

QUESTÕES 4 e 6, 2005; QUESTÕES 2, 6 e 8, EXAME 2004.QUESTÃO 5, EXAME 2003;
QUESTÃO 5, EXAME 2002; QUESTÕES 3, 6 e 7, EXAME 2001; QUESTÕES 5 e 9, EXAME
2000; QUESTÕES 7 e 10, EXAME 1999; QUESTÃO 9, EXAME 1998; QUESTÕES 11 e
12, EXAME 1997; QUESTÃO 8, EXAME 1996; QUESTÕES 9, 13 e 14, EXAME 1995;
QUESTÕES 7, 8 e 10, EXAME 1994.
Leitura Sugerida
• Meyer, capı́tulos 14 (Estimação de Parâmetros), seções 14.7 (Intervalos de Confiança),

14.8 (A Distribuição t de Student) e 14.9 (Mais sobre Intervalos de Confiança); e 15
(Testes de Hipóteses).
• Casella e Berger, capı́tulos 8 (Hypothesis Testing) e 9 (Interval Estimation) – apenas as

seções de interesse.
23

Estatistica CCM NA5

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatistica CCM NA5

Enviado por

Direitos autorais:

Formatos disponíveis

Notas de Aula 5 – Inferência Estatı́stica

Definição: Amostra. Uma amostra é um grupo de itens selecionados da população.

A estatı́stica descritiva é o ramo da estatı́stica que busca descrever e analisar as carac-

A inferência estatı́stica, também chamada estatı́stica indutiva, é o ramo da estatı́tica

Exemplos: teste de durabilidade de um material a partir de uma amostra; estimação de uma

A inferência estatı́stica estuda a razoabilidade/validade de se extrapolar resultados obtidos

As variáveis de interesse podem ser qualitativas ou quantitativas. Uma variável qualitativa

As variáveis quantitativas se dividem em contı́nuas e discretas. Variáveis contı́nuas podem

Uma amostra aleatória de tamanho n da v.a. X consiste de n mensurações repetidas de X,

Se X tem função de densidade de probabilidade (fdp) f e se (X1 , X2 , . . . , Xn ) for uma amostra

g(x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn ) .

Se X for discreta, então:

p(X1 = x1 , . . . , Xn = xn ) = pX (x1 ) . . . pX (xn ) ,

onde pX (xi ) = p(X = xi ).

Definição: Estatı́stica. Seja X1 , . . . , Xn uma amostra aleatória da v.a. X e sejam x1 , . . . , xn

Definição: Três Estatı́sticas Importantes. Seja (X1 , . . . , Xn ) uma amostra aleatória da

(1) X̄ = (1/n) ni=1 Xi é a média amostral.

(2) S 2 = [1/(n − 1)] ni=1 (Xi − X̄)2 é a variância amostral não-viesada.

(3) σ̂ 2 = [1/n] ni=1 (Xi − X̄)2 é a variância amostral viesada.

ii) Var(X̄) = σ 2 /n;

Logo, a distribuição de X depende do parâmetro p. Queremos usar a amostra X1 , . . . , Xn para

1) Quais as caracterı́sticas que um “bom” estimador deve apresentar?

2) Como decidir que um estimador é melhor do que outro?

Exemplo 2: Seja X ∼ N (µ, σ 2 ) e considere a amostra aleatória X1 , . . . , Xn de X. Queremos

Definição: Estimador Linear. Dizemos que θ̂ é um estimador linear de θ se:

onde a1 , . . . , an são números reais.

Definição: Estimador Não Viesado. Seja θ̂ um estimador do parâmetro desconhecido θ

Definição: Estimador Consistente. Seja θ̂ um estimador do parâmetro desconhecido θ

Portanto, o estimador θ̂ do parâmetro θ é consistente se para todo ε > 0 tivermos que:

ou, de modo similar, se:  

Verificar se um estimador é consistente é relativamente complicado. O teorema a seguir, con-

Teorema. Seja θ̂ um estimador de θ baseado em uma amostra de tamanho n. Se:

lim E(θ̂) = θ e lim Var(θ̂) = 0 ,

então θ̂ é um estimador consistente de θ.

Definição: Variância Mı́nima. Seja θ̂ um estimador não-tendencioso do parâmetro θ.

para todas as estimativas θ̃ não-tendenciosas de θ.

Se estivermos comparando um grupo de estimadores θ̂i , i = 1, . . . , k, de θ, todos não ten-

MSE(θ̂i ) = E[(θ̂i − θ)2 ] .

O erro quadrado médio de um estimador θ̂ pode ser escrito como:

MSE(θ̂) = E[(θ̂ − θ)2 ] = E[(θ̂ − E(θ̂) + E(θ̂) − θ)2 ]

onde VIES(θ̂, θ) = E(θ̂) − θ (e, portanto, VIES(θ̂, θ) = 0 se o estimador θ̂ for não-tendencioso).

Teorema. Sejam X uma variável aleatória com esperança µ e variância σ 2 e X

O estimador σ̂ 2 = (1/n) ni=1 (Xi − X̄)2 é viesado, pois:

Note que σ̂ 2 é assintoticamente não-tendencioso, no sentido de que:

RESOLVER: QUESTÃO 4, EXAME 2017; QUESTÃO 14, EXAME 2016; QUESTÕES 12

QUESTÕES DE EXAMES MAIS ANTIGOS: QUESTÃO 5, EXAME 2006; QUESTÃO

Definição: Função de Verossimilhança. Seja X1 , . . . , Xn uma amostra aleatória da v.a.

Logo, se f for discreta, a FV representa a distribuição conjunta p(X1 = x1 , . . . , Xn = xn ). Se

Considere a v.a X e a amostra aleatória X1 , . . . , Xn de tamanho n de X e seja θ um vetor de

Definição: Estimador de Máxima Verossimilhança. O estimador de máxima verossimi-

Note que maximizar a FV é equivalente a maximizar a FV log-linearizada. Portanto, temos

Os estimadores de máxima verossimilhança são usualmente determinados resolvendo as condições

A determinação de estimadores de máxima verossimilhança pode ser complicada e envolver uma

Exemplo: Suponha que X ∼ N (µ, σ 2 ) e seja X1 , . . . , Xn uma amostra aleatória de X. Que-

Então a função de verossimilhança é:

Log-linearizando a FV, encontramos:

As CPOS resultam em:

Portanto, o estimador de MV paraP o valor esperado µ é a média amostral X̄ e o estimador

RESOLVER: QUESTÃO 2, EXAME 2007; QUESTÃO 4, EXAME 2002; QUESTÕES 4, 7

4.1 Variância Conhecida

Finalmente, observe que para um mesmo nı́vel de confiança 1 − α e um mesmo tamanho n da

Vamos supor que estimamos σ 2 por meio da estimativa não viesada:

Usando os seguintes fatos:

ou, de modo similar, se: