Você está na página 1de 23

Notas de Aula 5 – Inferência Estatı́stica

Estatı́stica
Curso Cecı́lia Menon

1 Definições Iniciais
1.1 Revisão Conceitual
Nessa subseção reapresentaremos alguns conceitos básicos de estatı́stica.

A população, objeto de estudo, é uma coleção de itens, sobre a qual necessita-se obter in-
formações. A população pode ser chamada também universo de estudo, universo para o qual
procuramos obter informações.

Definição: Amostra. Uma amostra é um grupo de itens selecionados da população.

Em muitas pesquisas, seleciona-se uma amostra da população para inferirmos resultados para
a população inteira.

A estatı́stica descritiva é o ramo da estatı́stica que busca descrever e analisar as carac-


terı́sticas de um grupo por meio de tabelas e gráficos.

A inferência estatı́stica, também chamada estatı́stica indutiva, é o ramo da estatı́tica


que formula testes e generalizações para uma população a partir de informações obtidas com
amostras.

Exemplos: teste de durabilidade de um material a partir de uma amostra; estimação de uma


relação linear entre consumo e renda dos indivı́duos, etc.

A inferência estatı́stica estuda a razoabilidade/validade de se extrapolar resultados obtidos


na amostra para a população. Essa extrapolação exige cuidado, pois pode ocorrer que algum
resultado encontrado na amostra seja mera coincidência, não sendo válido para a população.

As variáveis de interesse podem ser qualitativas ou quantitativas. Uma variável qualitativa


(também chamada categórica) descreve uma caracterı́stica não mensurável dos elementos da
população. Exemplos são caracterı́sticas individuais tais como sexo, estado civil, cor do cabelo.

Variáveis quantitativas podem ser medidas em uma escala numérica ou quantitativa. Exemplos:
número da população, altura, idade, tempo de duração de uma lâmpada.

As variáveis quantitativas se dividem em contı́nuas e discretas. Variáveis contı́nuas podem


ter qualquer valor dentro de um intervalo. Exemplos são altura e peso. Variáveis discretas
possuem quebras entre dois valores possı́veis que uma observação pode assumir. Exemplos são
número de filhos de uma famı́lia, quantidade de televisores por residência.

Amostragem é o campo da estatı́stica que estuda como extrair amostras de modo a fazer
inferências válidas sobre toda a população. Em certas situações, podemos trabalhar com a
população inteira, obtendo dados de toda a população. Nesse caso, estamos fazendo um censo.
A pesquisa pode ser classificada então como censitária ou como amostral.

1
1.2 Amostras Aleatórias
Definição. Seja X uma variável aleatória com distribuição de probabilidade qualquer. Sejam
n v.a.s X1 , . . . , Xn independentes e com a mesma distribuição de X. Nesse caso dizemos que
(X1 , . . . , Xn ) é uma amostra aleatória de tamanho n da v.a. X.

Uma amostra aleatória de tamanho n da v.a. X consiste de n mensurações repetidas de X,


feitas sob condições inalteradas (ou pelo menos que quaisquer alterações não influenciem o
resultado do experimento).

Se X tem função de densidade de probabilidade (fdp) f e se (X1 , X2 , . . . , Xn ) for uma amostra


aleatória de X com fdp conjunta g, a hipótese iid resulta em:

g(x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn ) .

Se X for discreta, então:

p(X1 = x1 , . . . , Xn = xn ) = pX (x1 ) . . . pX (xn ) ,

onde pX (xi ) = p(X = xi ).

1.3 Estatı́sticas
Uma vez obtida uma amostra aleatória de X, queremos utilizar os valores amostrais para
realizar inferências sobre alguma ou algumas caracterı́sticas da população representada pela
amostra. Para isso, vamos definir o seguinte conceito.

Definição: Estatı́stica. Seja X1 , . . . , Xn uma amostra aleatória da v.a. X e sejam x1 , . . . , xn


os valores assumidos pela amostra. Seja H uma função definida para (x1 , . . . , xn ). Dizemos
que a v.a. Y = H(X1 , . . . , Xn ) é uma estatı́stica, que toma o valor y = H(x1 , . . . , xn ) quando
X1 , . . . , Xn toma os valores (x1 , . . . , xn ).

Uma estatı́stica nada mais é do que uma função de valores reais da amostra e, portanto, é
também uma variável aleatória. É comum se referir à distribuição de probabilidade de Y por
distribuição amostral, já que a estatı́stica Y é uma função de amostras aleatórias. Mais ainda,
apesar de comum, não é correto dizer “a estatı́stica y = H(x1 , . . . , xn )”. Temos que y é o valor
que a estatı́stica Y = H(X1 , . . . , Xn ) assume quando a amostra X1 , . . . , Xn toma os valores
(x1 , . . . , xn ).

Definição: Três Estatı́sticas Importantes. Seja (X1 , . . . , Xn ) uma amostra aleatória da


v.a. X. Temos que:

(1) X̄ = (1/n) ni=1 Xi é a média amostral.


P

(2) S 2 = [1/(n − 1)] ni=1 (Xi − X̄)2 é a variância amostral não-viesada.


P

(3) σ̂ 2 = [1/n] ni=1 (Xi − X̄)2 é a variância amostral viesada.


P

2
Teorema. Seja X uma variável aleatória com valor esperado EX = µ e variância σ 2 . Seja X̄
a média amostral de uma amostra aleatória de tamanho n. Então:

i) E(X̄) = µ;

ii) Var(X̄) = σ 2 /n;



iii) Para n grande, (X̄ − µ)/(σ/ n) terá aproximadamente a distribuição N (0, 1).

Note que o teorema acima mostra que, quanto maior o tamanho n da amostra, a média amostral
varia cada vez menos (Var(X̄) → 0 quando n → ∞). Além disso, se n for suficientemente
grande, podemos aproximar a distribuição de X̄ pela distribuição normal de valor esperado√µ
e variância σ 2 /n (o Teorema Central do Limite garante que a distribuição de (X̄ − µ)/(σ/ n)
pode ser aproximada pela distribuição normal padrão, para n suficientemente grande). Se n não
for grande, essa aproximação pode não ser boa e podemos então tentar calcular a distribuição
exata de X̄.

2 Estimação Pontual
2.1 Introdução
Exemplo 1: Suponha que temos 1.000.000 de lâmpadas produzidas e queremos determinar a
proporção p de lâmpadas defeituosas. A verificação de lâmpada por lâmpada pode ser muito
custosa. Neste caso, podemos usar amostragem para estimar o parâmetro p.

Denote por Xi a v.a. que toma o valor 1 se a i-ésima lâmpada for defeituosa, 0 caso contrário.
Considere X1 , . . . , Xn uma amostra aleatória da v.a. X, cuja distribuição é p(X = 1) = p e
p(X = 0) = 1 − p.

Logo, a distribuição de X depende do parâmetro p. Queremos usar a amostra X1 , . . . , Xn para


estimar p. Ou seja, queremos encontrar alguma estatı́stica H tal que H(X1 , . . . , Xn ) constitua
um estimador pontual de p.

Não é esperado que a estimativa p̂ de p seja igual a p. Mais ainda, p̂ é uma variável aleatória,
que depende da amostra considerada. Duas questões:

1) Quais as caracterı́sticas que um “bom” estimador deve apresentar?

2) Como decidir que um estimador é melhor do que outro?

Exemplo 2: Seja X ∼ N (µ, σ 2 ) e considere a amostra aleatória X1 , . . . , Xn de X. Queremos


estimar (µ, σ 2 ).

Os exemplos acima são problemas clássicos em inferência estatı́stica clássica, que assume que
θ é um parâmetro desconhecido, mas fixo. Já a estatı́stica Bayesiana assume que θ é uma v.a
não observável com uma distribuição conhecida (antes de se obter quaisquer observações). A
distribuição a priori é então atualizada com os dados de modo a constituir uma distribuição a
posteriori, que é usada para se fazer a inferência estatı́stica.

Ao longo dessa seção, X denota uma variável aleatória, X1 , . . . , Xn uma amostra aleatória de
X, e x1 , . . . , xn os valores amostrais correspondentes.

3
Definição: Estimador. Seja X uma v.a cuja função de distribuição dependa de um parâmetro
θ desconhecido. Se H(X1 , . . . , Xn ) for uma estatı́stica da amostra que será usada para a
estimação de θ, dizemos que H é um estimador pontual de θ. O valor que H assume em
(x1 , . . . , xn ) é uma estimativa de θ, que será denotada por θ̂ = H(x1 , . . . , xn ).

Há um abuso de notação muito comum em livros de estatı́stica, que algumas vezes é replicado
nos exames da ANPEC. A notação θ̂ é usada também para denotar o estimador de θ, apesar
de que na definição acima θ̂ é uma estimativa de θ, enquanto o estimador é H(X1 , . . . , Xn ).
Adotaremos essa terminologia, apesar de não ser inteiramente correta.

Definição: Estimador Linear. Dizemos que θ̂ é um estimador linear de θ se:

θ̂ = a1 X1 + a2 X2 + · · · + an Xn ,

onde a1 , . . . , an são números reais.

Definição: Estimador Não Viesado. Seja θ̂ um estimador do parâmetro desconhecido θ


associado à v.a. X. Dizemos que θ̂ é um estimador não viesado (ou não tendencioso ou não
viciado) de θ se E(θ̂) = θ.

Logo, um estimador não viesado de um parâmetro qualquer é tal que o seu valor esperado é
igual ao parâmetro que se deseja estimar.

Definição: Estimador Consistente. Seja θ̂ um estimador do parâmetro desconhecido θ


P
associado à v.a. X. Dizemos que θ̂ é um estimador consistente (ou coerente) de θ se θ̂ −→ θ
(ou seja, θ̂ converge em probabilidade para θ).

Portanto, o estimador θ̂ do parâmetro θ é consistente se para todo ε > 0 tivermos que:


 
lim p |θ̂ − θ| ≥ ε = 0 ;
n→∞

ou, de modo similar, se:  


lim p |θ̂ − θ| < ε = 1 .
n→∞

Verificar se um estimador é consistente é relativamente complicado. O teorema a seguir, con-


sequência da desigualdade de Tchebycheff, ajuda essa tarefa.

Teorema. Seja θ̂ um estimador de θ baseado em uma amostra de tamanho n. Se:

lim E(θ̂) = θ e lim Var(θ̂) = 0 ,


n→∞ n→∞

então θ̂ é um estimador consistente de θ.

Se o estimador θ̂ for não tendencioso, então E(θ̂) = θ e basta verificar se Var(θ̂) → 0 quando
n → ∞ para concluirmos que θ̂ é consistente.

Definição: Variância Mı́nima. Seja θ̂ um estimador não-tendencioso do parâmetro θ.


Dizemos que θ̂ é um estimador não-tendencioso de variância mı́nima de θ se:

Var(θ̂) ≤ Var(θ̃) ,

para todas as estimativas θ̃ não-tendenciosas de θ.

4
Definição: Estimador BLUE. Dizemos que θ̂ é o melhor estimador linear não-tendencioso
(no inglês, Best Linear Unbiased Estimate – BLUE ) do parâmetro θ se:
i) θ̂ é linear;
ii) θ̂ é não-tendencioso (E(θ̂) = θ);
iii) θ̂ possui a menor variância entre todos os estimadores lineares não-tendenciosos de θ (ou
seja, Var(θ̂) ≤ Var(θ̃), para todo θ̃ linear e não-tendencioso).

Se estivermos comparando um grupo de estimadores θ̂i , i = 1, . . . , k, de θ, todos não ten-


denciosos, dizemos que um estimador é o mais eficiente do grupo se tiver a menor variância.
Porém, essa comparação perde sentido quando alguns estimadores forem tendenciosos. Uma
possibilidade neste caso é calcular o erro quadrado médio (MSE – Mean Squared Error ) de
cada estimador, definido como:

MSE(θ̂i ) = E[(θ̂i − θ)2 ] .

O estimador com menor MSE é dito o mais eficiente do grupo. Observe que se o estimador
for não tendencioso, então o MSE será igual à variância do estimador. Logo, o MSE estende o
conceito de eficiência para estimadores tendenciosos.

O erro quadrado médio de um estimador θ̂ pode ser escrito como:

MSE(θ̂) = E[(θ̂ − θ)2 ] = E[(θ̂ − E(θ̂) + E(θ̂) − θ)2 ]


= E[(θ̂ − E(θ̂))2 + 2(θ̂ − E(θ̂))(E(θ̂) − θ) + (E(θ̂) − θ)2 ]
= E[(θ̂ − E(θ̂))2 ] + 2E[(θ̂ − E(θ̂))(E(θ̂) − θ)] + E[E(θ̂) − θ]2
= E[(θ̂ − E(θ̂))2 ] + [E(θ̂) − θ]2
= Var(θ̂) + [VIES(θ̂, θ)]2 ,

onde VIES(θ̂, θ) = E(θ̂) − θ (e, portanto, VIES(θ̂, θ) = 0 se o estimador θ̂ for não-tendencioso).

2.2 Resultados
Teorema. Seja X uma variável aleatória com esperança finita µ e variância σ 2 . A média
amostral X̄ calculada a partir de uma amostra aleatória de tamanho n é um estimador não-
tendencioso e consistente de µ.

Note então que a média amostral X̄ = (1/n) ni=1 Xi é um estimador linear e não-tendencioso
P
do valor esperado µ. Além disso, X̄ tem a menor variância entre todos os estimadores lineares
não-tendenciosos de µ (logo, X̄ é BLUE).

Teorema. Sejam X uma variável aleatória com esperança µ e variância σ 2 e X


P1n, . . . , Xn uma
amostra aleatória de tamanho n de X. Denote por X̄ a média amostral (1/n) i=1 Xi . Então
n
1 X
S2 = (Xi − X̄)2 ,
n − 1 i=1

é tal que:
i) E(S 2 ) = σ 2 ; e
ii) Se X ∼ N (µ, σ 2 ), então (n − 1)S 2 /σ 2 ∼ χ2n−1 .

5
Logo, S 2 definido no teorema acima é um estimador não-tendencioso da variância σ 2 .

O estimador σ̂ 2 = (1/n) ni=1 (Xi − X̄)2 é viesado, pois:


P

 
n−1
E(σ̂) = σ2
n

Note que σ̂ 2 é assintoticamente não-tendencioso, no sentido de que:


 
2 n−1
lim E(σ̂ ) = lim σ2 = σ2 ,
n→∞ n→∞ n

Além disso, o viés se torna cada vez menor com o aumento do tamanho da amostra.

EXERCÍCIOS ANPEC

RESOLVER: QUESTÃO 4, EXAME 2017; QUESTÃO 14, EXAME 2016; QUESTÕES 12


e 15, EXAME 2015; QUESTÃO 9, EXAME 2014; QUESTÃO 7, EXAME 2013; QUESTÕES
9 e 12, EXAME 2012; QUESTÃO 4, EXAME 2011; QUESTÕES 4, 5 e 6, EXAME 2010;
QUESTÃO 8, EXAME 2009; QUESTÃO 3, EXAME 2008.

QUESTÕES DE EXAMES MAIS ANTIGOS: QUESTÃO 5, EXAME 2006; QUESTÃO


5, EXAME 2005; QUESTÃO 2, EXAME 2003; QUESTÃO 6, EXAME 2002; QUESTÕES 6
e 7, EXAME 1998; QUESTÕES 8, 9 e 10, EXAME 1997; QUESTÕES 9 e 13, EXAME 1996;
QUESTÃO 2, EXAME 1995; QUESTÕES 2 e 14, EXAME 1993.

6
3 Estimação de Máxima Verossimilhança
Vamos denotar a função de densidade de probabilidade (fdp) de X por f (x; θ), onde θ denota
um vetor de parâmetros que define a distribuição de X (por exemplo, se X ∼ N (µ, σ 2 ), então
θ = (µ, σ 2 )).

Definição: Função de Verossimilhança. Seja X1 , . . . , Xn uma amostra aleatória da v.a.


X e sejam x1 , . . . , xn os valores amostrais observados. A função de verossimilhança (FV)
L(X1 , . . . , Xn ; θ) é definida como:
n
Y
L(X1 , . . . , Xn ; θ) = f (Xi ; θ) = f (X1 ; θ) × f (X2 , θ) × · · · × f (Xn , θ) .
i=1

Logo, se f for discreta, a FV representa a distribuição conjunta p(X1 = x1 , . . . , Xn = xn ). Se


f for contı́nua, então a FV representa a função de densidade conjunta de (X1 , . . . , Xn ).

É comum log-linearizar a FV, que neste caso será denotada por L(X1 , . . . , Xn ; θ):
n
X
L(X1 , . . . , Xn ; θ) = ln(L(X1 , . . . , Xn ; θ)) = ln(f (Xi ; θ)) .
i=1

Considere a v.a X e a amostra aleatória X1 , . . . , Xn de tamanho n de X e seja θ um vetor de


parâmetros que ajuda a definir a função de densidade de X.

A estimação de máxima verossimilhança consiste em, dada uma amostra aleatória qualquer,
encontrar o estimador que maximiza a função de verossimilhança. A definição abaixo conceitua
esse estimador.

Definição: Estimador de Máxima Verossimilhança. O estimador de máxima verossimi-


lhança (EMV) θ̂M V de θ é o valor que maximiza a função de verossimilhança L(X1 , . . . , Xn ; θ).

Note que maximizar a FV é equivalente a maximizar a FV log-linearizada. Portanto, temos


que:
θ̂M V (x) = arg max L(x, θ) = arg max L(x, θ) ,
θ θ

onde estamos considerando a estimativa θ̂M V para os valores amostrais observados x = (x1 , . . . , xn ).

Os estimadores de máxima verossimilhança são usualmente determinados resolvendo as condições


de primeira ordem (CPO) do problema de maximização da FV:

∂L(x; θ)
=0
∂θ
Essas CPOs são denominadas equações de máxima verossimilhança. As CPOs não são sufi-
cientes (nem necessárias, caso de solução de canto, a não ser que algumas condições sejam
satisfeitas) para uma solução.

A determinação de estimadores de máxima verossimilhança pode ser complicada e envolver uma


série de aspectos técnicos. Além disso, em muitos problemas pode não ser possı́vel encontrar
uma solução analı́tica fechada para o estimador de MV. Neste caso, determina-se o estimador
de MV por meio de métodos computacionais.

7
Podemos mostrar que os estimadores de MV, quando existirem, satisfazem as seguintes propri-
edades (importante para a ANPEC ):
a) podem ser tendenciosos. Muitas vezes o viés do estimador pode ser eliminado multipli-
cando o estimador por uma constante.
b) são assintoticamente não-tendenciosos. Ou seja, o valor esperado do estimador de MV
de θ tende a θ quando o tamanho da amostra aumenta.
c) são consistentes.
d) possuem distribuição assintótica normal. Logo, a distribuição do estimador de MV tende
a uma distribuição normal quando o tamanho da amostra aumenta.
e) são assintoticamente eficientes.
f) satisfazem a seguinte propriedade de invariância: Seja θ̂M V o estimador de MV de θ. O
estimador de MV de g(θ), onde g é uma função monótona contı́nua, é g(θ̂M V ).

Exemplo: Suponha que X ∼ N (µ, σ 2 ) e seja X1 , . . . , Xn uma amostra aleatória de X. Que-


remos encontrar os estimadores de MV para µ e σ 2 . A fdp de X é:
 2
  2 !
1 (x − µ) 1 x − µ
f (x; µ, σ 2 ) = √ exp − = (2πσ 2 )1/2 exp − .
σ 2π 2σ 2 2 σ

Então a função de verossimilhança é:


n  2 !
1 X X i − µ
L(X1 , . . . , Xn ; θ) = (2πσ 2 )n/2 exp − .
2 i=1 σ

Log-linearizando a FV, encontramos:


n  2
 n
2 1 X Xi − µ
L(X1 , . . . , Xn ; θ) = − ln(2πσ ) − .
2 2 i=1 σ

As CPOS resultam em:


n n
∂L X Xi − µ̂M V 1X
(µ) : = 2
=0 ⇒ µ̂M V = Xi
∂µ i=1
σ̂ M V n i=1
n
X (Xi − µ̂M V )2 n
∂L n 2 1X
(σ) : =− + 3
=0 ⇒ σ̂M V = (Xi − µ̂M V )2
∂σ σ̂M V i=1
σ̂M V n i=1

Portanto, o estimador de MV paraP o valor esperado µ é a média amostral X̄ e o estimador


de MV para a variância σ é (1/n) ni=1 (Xi − X̄)2 . O primeiro é não tendencioso. Porém, o
2

estimador de MV de σ 2 é tendencioso.

EXERCÍCIOS ANPEC

RESOLVER: QUESTÃO 2, EXAME 2007; QUESTÃO 4, EXAME 2002; QUESTÕES 4, 7


e 8, EXAME 2000; QUESTÃO 6, EXAME 1999.

Leitura Sugerida
• Meyer, capı́tulo 13 (Amostras e Distribuições Amostrais), seções 13.1 a 13.4; capı́tulo 14
(Estimação de Parâmetros), seções 14.1-14.4.

8
4 Intervalos de Confiança
As questões da ANPEC sobre intervalo de confiança (IC) referem-se sempre a uma v.a. X
com distribuição normal N (µ, σ 2 ), em que o objetivo é estimar um intervalo de confiança para
a média populacional µ, usando uma amostra aleatória X1 , . . . , Xn de X e a média amostral
X̄. As questões dividem-se em dois tipos: 1) estimar o intervalo de confiança com variância
conhecida e 2) estimar o intervalo de confiança com variância desconhecida.

4.1 Variância Conhecida


2 2 2
 X ∼ N (µ,
Suponha que  √σ ), com µ desconhecido e σ conhecido. Então X̄ ∼ N (µ, σ /n).
Logo, Z = (X̄ − µ)/σ n possui distribuição normal padrão. Observe que Z depende de µ,
mas a sua distribuição não depende de µ.

Sabemos que 2Φ(z) − 1 = p(−z ≤ Z ≤ z), com Z ∼ N (0, 1). Desenvolvendo essa expressão,
obtemos:
X̄ − µ √
     
zσ zσ
p −z ≤ n ≤ z = p X̄ − √ ≤ µ ≤ X̄ + √
σ n n
√ √
O intervalo aleatório (X̄ − (σ/ n) × z; X̄ + (σ/ n) × z) é chamado intervalo de confiança da
média aleatória µ.

Não é correto dizer que a “probabilidade de µ cair dentro do intervalo acima especificado é
2Φ − 1”, pois µ é um parâmetro fixo: ou ele está ou não está dentro do intervalo. O intervalo
é que é aleatório: a cada amostra obtida, será obtido um intervalo diferente. O correto então é
dizer que “se repertimos a estimação muitas vezes, os intervalos de confiança obtidos conterão
µ em 95% das vezes”.

Podemos escolher z de tal modo que 2Φ(z) − 1 = 1 − α, ou seja, Φ(z) = 1 − α/2. Esse valor
de z, denotado
√ por K1−α/2 , é tabelado,
√ de tal modo que Φ(K1−α/2 ) = 1 − α/2. Dizemos que
(X̄ − (σ/ n) × K1−α/2 ; X̄ + (σ/ n) × K1−α/2 ) é um intervalo de confiança do parâmetro µ,
com coeficiente de confiança 1 − α (ou um intervalo de confiança 100(1 − α)%).

Exemplo: Suponha que X ∼ N (µ, 16) representa a duração da vida de uma peça de equipa-
mento em horas. Suponha que foi obtida uma amostra aleatória de tamanho n = 100 dessa
variável, em que X̄ = 501,2 horas. O intervalo de confiança de 95% para a média µ é:
 
4 4
501,2 − √ × 1,96 ; 501,2 + √ × 1,96 = (500,4 ; 502,0)
100 100
Note novamente que isto não significa que a média amostral cairá neste intervalo com 95% de
probabilidade. Ou µ está ou não está no intervalo (500,4 ; 502,0).

Finalmente, observe que para um mesmo nı́vel de confiança 1 − α e um mesmo tamanho n da


amostra aleatória, os intervalos de confiança estimados quando a variância é conhecida terão
sempre a mesma amplitude (ie, o mesmo comprimento), igual a:
   
σ σ 2σz1−α/2
X̄ + √ × z1−α/2 − X̄ − √ × z1−α/2 = √
n n n

Logo, se a amostra for diferente (mas de mesmo tamanho), então o comprimento do IC será o
mesmo, apenas os pontos extremos do intervalo serão distintos.

9
4.2 Variância Desconhecida
Suponha que X ∼ N (µ, σ 2 ), com µ desconhecido e σ 2 desconhecido. Sejam X1 , . . . , Xn uma
amostra aleatória de X e X̄ a média amostral.

Vamos supor que estimamos σ 2 por meio da estimativa não viesada:


n
1 X
σ̂ 2 = (Xi − X̄)2 .
n − 1 i=1

Usando os seguintes fatos:



1. Z = (X̄ − µ) n/σ ∼ N (0, 1),

2. V = ni=1 (Xi − X̄)2 /σ 2 ∼ χn−1 , e


P

3. Z e V são independentes,

temos que a variável aleatória:


√ √
Z (X̄ − µ) n/σ (X̄ − µ) n
t= p =p =
(1/(n − 1)) ni=1 (Xi − X̄)2 /σ 2 σ̂
P
V /(n − 1)

possui distribuição t de student com n − 1 graus de liberdade.



Portanto, t = (X̄ − µ) n/σ̂ possui distribuição que não depende de µ (embora t dependa de
µ). Lembre-se que a distribuição t é simétrica em torno de 0 e converge para a normal padrão
à medida que n aumenta.

Para α e n dados, o intervalo:


√ √ 
X̄ − (σ̂/ n) × tn−1,1−α/2 ; X̄ + (σ̂/ n) × tn−1,1−α/2

define um intervalo de confiança ao nı́vel de 100(1 − α)% para µ.

Exemplo: Suponha que X ∼ N (µ, σ 2 ) represente a duração da vida de uma peça de equi-
pamento em horas. Suponha que foi obtida uma amostra aleatória de tamanho n = 9 dessa
variável, em que X̄ = 10,50 horas e σ̂ = 1,50 horas. Para calcularmos o intervalo de confiança
de 95% para a média µ, primeiro obtemos de uma tabela da distribuição t de Student o va-
lor t8;0,95 = 2,31 (em que os 5% restantes são repartidos pela metade em cada uma das duas
caudas). Temos então que o intervalo de confiança associada a esta amostra aleatória é:
 
1,50 1,50
10,50 − √ × 2,31 ; 10,50 + √ × 2,31 = (10,50 − 1,155; 10,50 + 1,155) = (9,345 ; 11,655)
9 9
Novamente isto não significa que a média populacional cairá neste intervalo 95% das vezes. O
intervalo é aleatório: cada amostra aleatória gera um intervalo diferente.

10
5 Teste de Hipóteses
5.1 Introdução
Vimos como obter uma estimativa de um parâmetro desconhecido, associado a uma distribuição
de probabilidade, baseado em uma amostra aleatória.

Considere então uma v.a. X em que não conhecemos o valor de um parâmetro θ associado à
sua distribuição e que temos uma amostra aleatória X1 , . . . , Xn de X.

Um teste de hipóteses é outro método estatı́stico que utiliza dados amostrais para realizar
inferências sobre a população de interesse. É um dos métodos mais usados.

Definição: Teste de Hipóteses. Um teste de hipóteses é um método estatı́stico que utiliza


amostras aleatórias para avaliar uma hipótese sobre algum parâmetro θ (que pode ser um vetor
de parâmetros) populacional.

Portanto, no lugar de obter uma estimativa para θ, vamos fazer um teste de hipótese, que
consiste em admitir um valor hipotético para θ e então usar a informação da amostra para
confirmar ou rejeitar esse valor hipotético.

Vamos testar uma hipótese base H0 (ou hipótese nula ou de nulidade ou hipótese básica) versus
uma hipótese alternativa H1 . O termo hipótese nula refere-se que na maioria das aplicações
de testes de hipóteses, deseja-se verificar se um determinado tratamento alterou a média po-
pulacional (sem alterar a variância ou a distribuição populacional). A hipótese nula assume
que não ocorre mudança e a hipótese alternativa que ocorre mudança. Parece estranho dar
tanta atenção à hipótese nula, já que o interesse na maioria dos casos consiste em verificar se
o tratamento teve efeito.

O motivo para isso é que é mais fácil mostrar que uma determinada hipótese universal é falsa
do que verdadeira. Considere testar a seguinte afirmação: “todos os cisnes são brancos”. Se
coletamos uma amostra em que todos os cisnes são brancos, isso não prova a afirmação. Porém
se na nossa amostra obtivermos um cisne negro, isso mostra que a afirmação é falsa. Ou seja,
é mais fácil mostrar que algo é falso do que verdadeiro.

Testes de hipóteses seguem essa lógica: se a hipótese base fosse “tratamento tem efeito”, seria
mais difı́cil de lidar. Logo, se estabelece que a hipótese base é “tratamento não tem efeito”
e tentamos mostrar que ela é falsa (ou seja, encontramos evidência de que o tratamento tem
efeito).

Vamos então definir as hipóteses nula e alternativa em termos de tratamento. O Exemplo 1


abaixo descreve uma situação tı́pica em que se usa testes de hipóteses.

Definição: Hipótese Nula. A hipótese nula H0 assume que a variável independente (o


tratamento) não tem efeito na variável dependente da população.

Definição: Hipótese Alternativa. A hipótese alternativa H1 assume que a variável inde-


pendente (o tratamento) tem efeito na variável dependente da população.

Podemos realizar basicamente dois tipos de testes. O primeiro, descrito por:

H0 : θ = θ0 vs H1 : θ 6= θ0 ,

11
é chamado bicaudal (ou bilateral ou não-direcional ). Neste teste rejeitaremos a hipótese nula
se encontrarmos evidência convincente de que θ 6= θ0 (ou seja, ou de que θ > θ0 ou de que
θ < θ0 .

O segundo tipo, descrito por:

H0 : θ ≤ θ0 (ou θ ≥ θ0 ) vs H1 : θ > θ0 (ou θ < θ0 ) ,

é chamado unicaudal (à direita se H1 : θ > θ0 ; à esquerda se H1 : θ < θ0 ). O teste unicau-


dal também é chamado unilateral ou direcional. Neste teste rejeitaremos a hipótese nula se
encontrarmos evidência convincente de que θ > θ0 (θ < θ0 ).

É comum representar o teste unicaudal da seguinte forma:

H0 : θ = θ0 vs H1 : θ > θ0 (ou θ < θ0 ) ,

em que denotamos a hipótese nula com a igualdade.

5.2 Teste de Hipóteses para a Média Populacional


Vamos analisar testes de hipóteses para a média populacional de uma v.a. X com distribuição
normal N (µ, σ 2 ). Vamos supor que a variância σ 2 é conhecida (caso não seja, adaptamos o
teste usando o estimador não viesado σ̂ 2 = (1/(n − 1)) ni=1 (Xi − X̄)2 de modo similar ao
P
que foi feito em intervalos de confiança – ver subseção 5.6 abaixo). Considere uma P amostra
aleatória X1 , . . . , Xn de tamanho n de X. Sabemos que a média amostral X̄ = (1/n) ni=1 Xi
possui distribuição normal com média µ e variância σ 2 /n.

Se a v.a. X não tiver distribuição normal, podemos utilizar o Teorema Central do Limite, que
assegura que a distribuição das médias amostrais será (aproximadamente) normal quando n
for grande. Logo, mesmo neste caso podemos proceder de modo análogo ao que é feito a seguir
(ver subseção 5.7 abaixo).

Vamos analisar o teste bicaudal para média, supondo o set-up acima. O teste pode ser descrito
então por:
H0 : µ = µ0 vs H1 : µ 6= µ0 ,
em que µ0 é o valor que assumimos para a média populacional.

Exemplo 1: Suponha uma fábrica que produz amortecedores. A duração da vida de um


amortecedor tem valor esperado de 520 meses, com desvio-padrão de 20 meses (situação antes
do tratamento). Um novo método de produção que pode alterar o valor esperado da duração
do amortecedor, sem alterar o desvio-padrão, é implementado (situação pós-tratamento). Que-
remos testar se o novo método de produção de fato alterou o valor esperado da duração do
amortecedor. Vamos analisar o seguinte teste bicaudal:

H0 : µ = 520 vs H1 : µ 6= 520 .

Vamos assumir que o efeito do tratamento é apenas adicionar um valor constante na duração
de cada amortecedor, de modo que não altera a distribuição nem o desvio-padrão populacional.

12
Note que não existe teste perfeito, pois nunca estaremos certos de que a nova média popula-
cional é igual ou diferente a 520 usando amostras aleatórias. Podemos apenas comparar um
teste com outro, determinar propriedades desejadas, etc, de modo parecido ao que é feito numa
estimação pontual.

Queremos por meio da média amostral determinar se a hipótese nula é válida ou não. Preci-
samos definir limites para separar amostras muito prováveis das pouco prováveis. Para fazer
isso, precisamos definir o que é “muito” e “pouco” provável. Isto é feito selecionando um valor
especı́fico chamado nı́vel de significância (ou nı́vel -α ou valor -α) para o teste de hipóteses.

Definição: Nı́vel de Significância. O nı́vel de significância α de um teste de hipóteses é o


valor de probabilidade usado para definir que resultados amostrais são muito improváveis se a
hipótese nula for verdadeira.

Os valores mais comuns para α são 0,10 = 10%, 0,05 = 5%, 0,01 = 1% e 0,001 = 0, 1%. Um
α = 0,05 significa que iremos separar os 5% menos prováveis valores para a média amostral
dos 95% valores mais prováveis (valores centrais).

Definição: Região Crı́tica. A região crı́tica de um teste de hipóteses é dada pelos va-
lores amostrais extremos que são muito improváveis de serem obtidos (onde agora “muito
improvável” é definido pelo nı́vel de significância do teste) se a hipótese nula for verdadeira.
Os limites da região crı́tica são definidos pelo nı́vel de significância α selecionado para o teste.

Portanto, a região crı́tica define valores para resultados amostrais muito improváveis de ocor-
rerem se o tratamento não tiver efeito. De modo inverso, podemos ver a região crı́tica como
definindo os valores para resultados amostrais que fornecem evidência convincente de que o
tratamento tem efeito.

Para determinar exatamente os limites da região crı́tica, usamos o valor α selecionado e a tabela
da normal padrão (para o caso do exemplo acima e de situações em que se deseja testar a média
populacional quando a variância populacional é conhecida). Se α = 0,05, precisamos encontrar
os limites que separam os 5% extremos dos 95% centrais. Como a distribuição normal padrão é
simétrica ao redor de zero, temos 2,5% em cada cauda. Na tabela da normal padrão, obtemos
z0,025 = 1,96. Portanto, para qualquer distribuição normal, os 5% extremos possuem valores
acima de z = 1,96 ou abaixo de z = −1,96.

Figura 1: Região crı́tica para α = 0,05

13
A Figura 1 evidencia que a região crı́tica é definida pelos extremos da distribuição. Os valores
da distribuição que definem os dois extremos são denominados valores crı́ticos do teste e deter-
minados pelo nı́vel de significância adotado (e, evidentemente, pela distribuição considerada).

Para o caso da distribuição normal padrão, como ela é simétrica em torno de zero, os dois
valores que determinam a região crı́tica são iguais em valor absoluto. Se α = 5%, então o valor
crı́tico |zc | associado, que delimita os dois extremos da distribuição com probabilidade 2,5% de
ocorrer, é igual a 1,96.

Uma vez estabelecido o nı́vel de significância do teste de hipótese, obtemos a amostra aleatória
e estabelecemos o critério de decisão para o teste. Para o exemplo dado, calculamos a média
amostral da duração dos amortecedores que compõem a amostra. Esse é o ponto central do
procedimento: comparar os dados com a hipótese.

Calculada a média amostral X̄, computamos o valor da estatı́stica do teste, denotada por z,
usando a hipótese nula:

X̄ − µ0 Média Amostral − Media Populacional Hipotética


z= √ =
σ/ n Desvio Padrão Amostral

Uma vez calculado a estatı́stica do teste z acima, devemos tomar uma decisão entre duas
possı́veis: rejeitar a hipótese nula ou falhar em rejeitar a hipótese nula.

Regra de Decisão. A decisão é feita simplesmente comparando a estatı́stica do teste z com


o valor crı́tico zc :

• Se −zc < z < zc (ou seja, se |z| < |zc |), então não rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de aceitação do teste.

• Se z < −zc ou z > zc (ou seja, se |z| > |zc |), então rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de crı́tica do teste).

Voltemos ao Exemplo 1 acima. Suponha que obtivemos uma amostra aleatória com 100 ob-
servações.
√ A média
√ amostral calculada é X̄ = 528. O desvio-padrão da média amostral é
σX̄ = σ/ n = 20/ 100 = 2. O valor da estatı́stica z é:

X̄ − µ0 528 − 520
z= = = 4.
σX̄ 2

A um nı́vel de significância de 0,05 = 5%, esse valor obtido para a estatı́stica z é distante do
valor limite de 1,96. Como a estatı́stica amostral z está na região crı́tica, rejeitamos a hipótese
nula e concluı́mos que o novo método de produção alterou o valor esperado da duração dos
amortecedores.

Suponha agora que a amostra aleatória com 100 observações resultou em uma média amostral
de X̄ = 522. O valor da estatı́stica z agora é:

X̄ − µ0 522 − 520
z= = =1
σX̄ 2

Este valor de z não está na região crı́tica (podemos então dizer que ele está na região de
aceitação da hipótese nula). Portanto, falhamos em rejeitar a hipótese nula e concluı́mos que
o novo método de produção não alterou o valor esperado da duração dos amortecedores.

14
Resumindo, temos então dois possı́veis resultados:

1) A evidência coletada (obtida da amostra aleatória) é suficiente para mostrar de modo


convincente que o tratamento tem efeito (rejeitamos a hipótese nula).

2) A evidência coletada (obtida da amostra aleatória) não é convincente para inferir que o
tratamento tem efeito (falhamos em rejeitar a hipótese nula).

Note que a amostra aleatória foi usada para obter um único valor especı́fico, a estatı́stica z que
define a região crı́tica do teste de hipóteses, ou seja, que é usado para a tomada de decisão do
teste (se aceitamos ou rejeitamos a hipótese nula).

Para o valor z = 4 obtido no exemplo acima, usando a tabela da distribuição normal padrão
temos que p = 0,0003, ou seja, a probabilidade de que o resultado tenha ocorrido por chance
(assumindo H0 verdadeira) é 0,0003 = 0,03%. Este é o p-valor do teste de hipóteses (também
chamado valor -p, nı́vel descritivo, probabilidade de significância).

Definição: p-valor. O p-valor de um teste é a probabilidade de se obter uma estatı́stica de


teste maior ou igual àquela calculada com a amostra obtida, sob a hipótese nula. Então o
p-valor de um teste pode ser visto como o menor nı́vel de significância com o qual se rejeitaria
a hipótese nula (isso é bastante controverso!).

Portanto, se o p-valor do teste for menor do 0,05, pode-se rejeitar a hipótese nula ao nı́vel de
significância de 0,05 = 5%. Para o outro caso acima, em que a estatı́stica do teste é z = 1,
temos que p = 0,3374. Neste caso, aceitamos a hipótese nula ao nı́vel de significância de 5%.

Logo, quanto menor o p-valor, maior a incompatibilidade estatı́stica dos dados amostrais com
a hipótese nula. Podemos usar o p-valor para a tomada de decisão:

• Se p > α: aceita-se a hipótese nula.

• Se p < α: rejeita-se a hipótese nula.

Atualmente ocorre uma grande discussão entre estatı́sticos sobre o abuso que se faz do p-valor
(ver “The ASA Statement on Statistical Significance and p-Values” de 2016). Ressaltamos que:
1) O p-valor não é a probabilidade da hipótese nula de um teste ser verdadeira; 2) O p-valor não
é a probabilidade da hipótese nula ter sido rejeitada erroneamente (ou seja, a probabilidade
de um erro do tipo I, que veremos abaixo); 3) A magnitude do p-valor não indica o tamanho
ou a importância de um efeito observado; 4) p-valor e nı́vel de significância não são sinônimos:
o p-valor é sempre computado a partir da amostra, enquanto o nı́vel de significância é fixado
antes de se obter a amostra.

15
5.3 Erros em Testes de Hipóteses
Testes de hipóteses são procedimentos de inferência estatı́stica, que usam informação limitada
(amostra) para chegar a uma conclusão geral (população). Logo, existe a possibilidade de que
a conclusão obtida seja incorreta. Existem dois tipos de erros que podem ocorrer.

Definição: Erro Tipo I. Um erro tipo I ocorre quando a hipótese nula é válida, mas é
rejeitada pelo teste. Tipicamente, conclui-se que o tratamento teve efeito quando na verdade
não teve.

O erro tipo I ocorre porque a informação obtida da amostra aleatória coletada é enganadora.
Para que ele ocorra, a média amostral deve estar na região crı́tica. A região crı́tica deve então
ser estruturada de modo que seja muito improvável obter uma média amostral nela quando H0
for verdadeira.

Portanto, o nı́vel de significância α de um teste define a probabilidade (ou risco) de ocorrer um


erro tipo I. Ou seja, α determina a probabilidade de obter uma amostra aleatória na região
crı́tica quando a hipótese nula for verdadeira:
α = p (Erro Tipo I) = p (Rejeitar H0 | H0 é verdadeira) = p (H1 | H0 )
Esta observação resulta na seguinte definição alternativa para nı́vel de significância.

Definição (alternativa): Nı́vel de Significância. O nı́vel de significância α de um teste


de hipóteses é a probabilidade de ocorrer um erro tipo I.

Portanto, o nı́vel de significância α cumpre dois papéis em um teste de hipóteses:


1. Auxilia a determinação dos limites da região crı́tica, ao definir o significado de “muito
improvável ”;
2. Determina a probabilidade do erro tipo I.

Note que se fixassemos α = 0, um erro tipo I nunca ocorreria. Mas isso implicaria em sempre
aceitar a hipótese nula, o que por sua vez implicaria nunca aceitar a possibilidade de ela ser
falsa. Logo, não faz sentido realizar testes de hipóteses com α = 0.

O erro tipo II consiste no outro tipo de erro que pode ocorrer em um teste de hipóteses, que
consiste em não rejeitar a hipótese nula quando ela é falsa. Ou seja, o teste de hipóteses falhou
em observar que o tratamento de fato teve efeito.

Definição: Erro Tipo II. Um erro tipo II ocorre quando não se rejeita uma hipótese nula
falsa. Tipicamente, conclui-se que o tratamento não teve efeito quando na verdade teve.

No exemplo acima, um erro tipo II ocorrerá quando a média amostral não estiver na região
crı́tica, mas o tratamento obteve efeito (a nova média populacional é diferente da antiga).
Frequentemente, o erro tipo II ocorre quando o efeito do tratamento é muito pequeno.

Resumo: Erro Tipo I e Tipo II. Definimos os erros tipo I e II como os seguintes eventos
(ver Figura 2 abaixo):
Erro Tipo I Rejeitar H0 quando H0 verdadeira (“falso positivo”).
Erro Tipo II Aceitar H0 quando H0 for falsa (“falso negativo”).

16
Figura 2: H0 : “pessoa não grávida”, H1 : “pessoa grávida”

A probabilidade de ocorrência de um erro tipo II é usualmente denotada por β:

β = p (Erro Tipo II) = p (Aceitar H0 | H0 é falsa) = p (H0 | H1 ) .

Definição: Poder de um Teste. O poder (ou potência) de um teste de hipóteses, denotado


por P D, é a probabilidade de o teste rejeitar H0 quando H0 é realmente falsa. Logo, o poder
de um teste é 1 menos a probabilidade de ocorrer um erro tipo II: P D = 1 − β.

A Figura 3 abaixo ilustra todas as possibilidades que podem ocorrer em um teste de hipóteses.

Figura 3: Possibilidades em um Teste de Hipóteses

17
O Exemplo 2 abaixo evidencia que a probabilidade de um erro tipo II depende da verdadeira
média populacional µ. Logo, o poder de um teste também depende de µ.

Exemplo 2. Suponha o Exemplo 1, em que testamos H0 : µ = 520 (vs H √1 : µ 6= 520).


Suponha também que n = 100, σ = 20, α = 5%. Então sabemos que σX̄ = 20/ 100 = 2 e que
o valor crı́tico associado ao nı́vel de significância 5% para um teste bicaudal é 1,96. Este valor
crı́tico para X̄ leva ao seguinte IC para X̄:

X̄ − µ0
−1,96 ≤ ≤ 1,96 ⇒ 516,08 ≤ X̄ ≤ 523,92
σX̄
já que µ0 = 520 e σX̄ = 2. Logo, a probabilidade do erro tipo II é:

β = p 516,08 ≤ X̄ ≤ 523,92 | µ 6= 520

Agora precisamos calcular os valores crı́ticos da estatı́stica z quando µ 6= 520. Para fazer isso,
precisamos assumir algum valor para a verdadeira média populacional. Suponha que µ = 525,
então temos que:
 
 516,08 − 525 523,92 − 525
β(µ) = p 516,08 ≤ X̄ ≤ 523,92 | µ = 525 = p ≤z≤
2 2
= p (−4,46 ≤ z ≤ −0,54) = Φ(−0,54) − Φ(−4,46) = 0,29460 − 0,00003 = 0,29457

Logo, a probabilidade de cometer um erro tipo II quando a verdadeira média populacional for
µ = 525 é 29,46%. Então o poder do teste, para µ = 525, é 1 − 0,29457 = 0,70543 = 70,54%.

Note que não conhecemos a média populacional µ verdadeira. Podemos “plotar” o poder de
um teste em função do valor µ considerado como verdadeiro para média populacional. Para
cada µ que assumirmos como verdadeiro, temos um valor para a probabilidade do erro tipo II
e para o poder do teste. Quanto mais distante for o valor assumido como verdadeiro do valor
tomado na hipótese nula, menor a probabilidade de aceitar a hipótese nula quando ela for falsa
e, portanto, maior o poder do teste. A Figura 4 abaixo ilustra graficamente a probabilidade
do erro tipo II.

Figura 4: Probabilidade do Erro Tipo II

18
Para aumentar o poder de um teste, podemos:
• Aumentar o tamanho n da amostra aleatória;

• Aumentar o nı́vel de significância α adotado (ou seja, se aumentarmos a probabilidade de


um erro tipo I, diminuı́mos a probabilidade de um erro tipo II, tudo o mais constante);

• Aumentar o tamanho do efeito (ou seja, a distância entre o valor do parâmetro real e o
considerado verdadeiro em H0 ).

Apesar de não ser necessário saber o poder de um teste antes de conduzir o teste de hipóteses,
é adequado tentar simulá-lo para obter uma noção do tamanho da amostra n necessário para
manter a probabilidade de um erro tipo II em um certo patamar.

5.4 Teste Unicaudal


O procedimento visto acima é válido para um teste bicaudal, ou seja, um teste em que a região
crı́tica se encontra nas duas caudas da distribuição. O procedimento para um teste unicaudal
(ou direcional ), definido abaixo, é um pouco diferente.

Definição: Teste de Hipóteses Unicaudal. Em um teste de hipóteses unicaudal, a hipótese


estatı́stica (dada por H0 e H1 ) especifica ou um aumento ou uma diminuição no parâmetro
populacional de interesse (usualmente, a média populacional).

Portanto, um teste unicaudal faz uma afirmação sobre a direção do efeito do tratamento.
Quando o tratamento define uma direção especı́fica, é aconselhado o teste unicaudal.

Exemplo 3. Suponha que um laboratório está testando em ratos um remédio para abrir o
apetite. Sabe-se que o consumo médio de comida de cada rato por dia é de 26 gramas, com
distribuição normal com desvio-padrão σ = 4. O efeito esperado do remédio é aumentar o
consumo de comida. O propósito do teste é verificar se o remédio de fato funciona ou não.
Então as duas hipóteses serão:

H0 : Consumo de comida não é aumentado;


H1 : Consumo de comida é aumentado.

Portanto,
H0 : µ ≤ 26 vs H1 : µ > 26

A região crı́tica novamente é definida pelos resultados amostrais muito improváveis de ocorre-
rem se a hipótese nula for verdadeira (isto é, se o tratamento não tiver efeito). Como espera-se
que o tratamento aumente o consumo de comida, o teste é unicaudal à direita. Se o efeito do
tratamento fosse reduzir a média populacional, o teste seria unicaudal à esquerda.

Portanto, um teste unicaudal modifica o procedimento do teste de hipóteses em duas etapas:


1. Na primeira etapa do teste de hipóteses, a predição direcional do tratamento é incorporada
nas hipóteses; e

2. Na segunda etapa do teste de hipóteses, a região crı́tica é localizada inteiramente em uma


das caudas da distribuição (ver Figura 5).

19
Figura 5: Teste Unicaudal

Daı́ procede-se exatamente como antes: calculamos a estatı́stica z e tomamos a decisão sobre
aceitar ou rejeitar H0 se a estatı́stica z estiver fora ou dentro da região crı́tica.

Continuando o Exemplo 3 acima, suponha que o laboratório testou o remédio em 4 ratos


(n = 4). O nı́vel de significância assumido para o teste é de 5%. Com α = 5%, o valor z
tabelado é z = 1,65. Como assumimos que a distribuiçã populacional
√ √é normal, a distribuição
da média amostral é normal com desvio padrão σX̄ = σ/ n = 4/ 4 = 2. Suponha que a
média amostral é 29,5 A estatı́stica do teste é portanto:

X̄ − µ0 29,5 − 26 3,5
z= = = = 1,75 .
σX̄ 2 2
O valor da estatı́stica z maior do que o tabelado indica que a média amostral obtida está na
região crı́tica. Logo, como isso é um resultado muito improvável de ocorrer se H0 for verdadeira,
a decisão é rejeitar H0 . Ou seja, o remédio tem efeito e aumenta o apetite de ratos.

5.5 Comparação do Teste Bicaudal com o Unicaudal


O objetivo mais comum de um teste de hipóteses é verificar se determinado tratamento tem
efeito sobre a população, usando dados amostrais. Suponha ainda o Exemplo 3 acima do
remédio para abrir o apetite. Se for usado um teste bicaudal, então as hipóteses serão:

H0 : µ = 26 vs H1 : µ 6= 26

Ao nı́vel de significância de 5% para o teste bicaudal, o valor tabelado da estatı́stica z é 1,96.


Como a estatı́stica do teste computada é z = 1,75, a decisão é aceitar H0 . Logo, a diferença
entre os dados amostrais (X̄ = 29, 5) e a população (µ = 26) não é grande o suficiente para
rejeitar H0 , considerando um teste bicaudal.

Note que se o teste for unicaudal como no Exemplo 2 acima, os mesmos dados amostrais levam
a rejeitar H0 . Evidentemente, podemos concluir que os dois tipos de testes são diferentes.
Porém, existem diversos modos de interpretar essa diferença.

Alguns autores argumentam que testes bicaudais são mais rigorosos, pois sempre que se rejeitar
H0 no teste bicaudal, rejeita-se também H0 em um teste unicaudal, mas o contrário não é válido.
Daı́ concluem que testes bicaudais são mais “convincentes”.

20
Outros autores argumentam que testes unicaudais são preferı́veis por serem mais sensı́veis, no
sentido de que um efeito relativamente pequeno do tratamento pode ser significante no teste
unicaudal mas falhar em ser significante no teste bicaudal. Além disso, esse tipo de teste é
mais preciso sobre a hipótese feita sobre o tratamento.

Em geral, testes bicaudais devem ser utilizados quando não se tem uma expectativa forte sobre
a direção do tratamento ou quando há duas predições alternativas (diminuir e aumentar a
média populacional, por exemplo). Por outro lado, testes unicaudais devem ser usados apenas
em situações em que exista uma forte justificativa para a direção a ser assumida do tratamento
no teste de hipóteses.

5.6 Variância Desconhecida


Suponha o mesmo arcabouço de antes, só que agora não conhecemos a variância populacional
associada a v.a. X ∼ N (µ, σ 2 ) para a qual queremos realizar um teste de hipótese sobre µ.

Como fazemos agora? Se utilizarmos a variância amostral σ̂ 2 = (1/(n − 1)) ni=1 (Xi − X̄)2 ,
P
em que X̄ denota a média amostral, podemos proceder exatamente do mesmo modo que antes
(seja um teste bicaudal, seja um teste unicaudal), usando a variância amostral no lugar da
variância populacional para calcular a estatı́stica do teste.

Porém, agora devemos comparar a estatı́stica obtida com uma estatı́stica t com n − 1 graus de
liberdade. A justificativa para isso é similar à que vimos com intervalos de confiança.

5.7 Teste de Hipóteses para Proporções


O mesmo procedimento visto acima, com pequenas modificações, vale quando queremos realizar
um teste de hipóteses para proporções, como no exemplo abaixo.

Exemplo 4. Uma fábrica afirma que a probabilidade de uma peça produzida por ela ser
defeituosa é 0,1. Suponha que obtivemos uma amostra aleatória com 100 peças e verificamos
que 19 são defeituosas. Queremos realizar o seguinte teste de hipóteses:
H0 : p = 0,1 vs H1 : p 6= 0,1 ,
onde p denota a proporção de peças defeituosas. Vamos adotar o nı́vel de significância de 0,1%.

Como procedemos para realizar o teste? Sob a hipótesep nula, temos √ que a variância amostral
é p0 (1 − p0 )/n. Então o desvio-padrão amostral é p0 (1 − p0 )/ n. Nesse tipo de teste, o
correto seria utilizar a distribuição binomial. Mas se n for grande, o Teorema Central do
Limite permitepusar a distribuição
√ normal para calcular de modo aproximado a estatı́stica do
teste, usando p0 (1 − p0 )/ n como desvio padrão:
p̄ − p0
z=p √ ,
p0 (1 − p0 )/ n
onde p̄ é a proporção obtida na amostra.

Voltando ao Exemplo 4 acima, temos que:


p̄ − p0 0,19 − 0,10 0,09
z=p √ =p √ = = 10
p0 (1 − p0 )/ n (0,1 × 0,9)/ 100 0,009
Como o valor crı́tico do teste para o nı́vel de significância α = 0,1% é 3,3, podemos então
rejeitar a hipótese nula ao nı́vel de significância de 0,1%.

21
5.8 Teste de Hipóteses para Variâncias
Considere a v.a. X ∼ N (µ, σ 2 ) e uma amostra aleatória de tamanho n de X. Suponha que
queremos realizar um teste de hipóteses bicaudal (o caso unicaudal é similar) sobre a variância
σ 2 de X:
H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02 .

Para isso, computamos a estatı́stica:


(n − 1)S 2
q=
σ02
Pn
onde S 2 = (1/(n − 1)) i=1 (Xi − X̄)2 é o estimador não-viesado de variância populacional.

É possı́vel mostrar que a estatı́stica q possui distribuição qui-quadrada com n−1 graus de liber-
dade. Logo, selecionado o nı́vel de significância α do teste, procedemos como antes, definindo
a região crı́tica, que dependerá de o teste ser unicaudal ou bicaudal.

Se o teste for bicaudal, lembre-se que a distribuição qui-quadrada não é simétrica. Logo,
precisaremos dos limites inferior e superior que definem a região crı́tica para prosseguir com o
teste.

5.9 Teste de Hipóteses para Comparações de Médias Populacionais


Suponha duas populações X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 ) independentes, em que obtivemos
uma amostra aleatória X1 , X2 , . . . , Xn1 de tamanho n1 da população 1 e uma amostra aleatória
Y1 , Y2 , . . . , Yn2 de tamanho n2 da população 2.

O objetivo é testar se as duas médias populacionais são iguais, ou seja, H0 : µ1 = µ2 vs


H1 : µ1 6= µ2 . Podemos também testar H0 : µ1 − µ2 = d vs H1 : µ1 − µ2 6= d. Porém o mais
comum é de fato testar se as duas médias populacionais são iguais.

Sabemos que as médias amostrais X̄ e Ȳ referentes às populações 1 e 2, respectivamente,


possuem distribuição normal: X̄ ∼ N (µ1 , σ12 /n1 ) e Ȳ ∼ N (µ2 , σ22 /n2 ). Isso e a hipótese de
independência implicam que:
σ12 σ22
 
X̄ − Ȳ ∼ N µ1 − µ2 , +
n1 n2

Vamos analisar três casos:


1. Variâncias conhecidas: procedimento padrão.
2. Variâncias desconhecidas porém iguais: ou seja, não conhecemos as variâncias σ12 e
σ22 , mas sabemos que σ12 = σ22 = σ 2 . Denote por σ̂k2 o estimador não viesado da variância
populacional, para k = 1, 2. É possı́vel mostrar que a estatı́stica
(X̄ − Ȳ ) − d
t= q ,
σ̂ × n11 + n12
em que
(n − 1)σ̂12 + (n − 2)σ̂22
σ̂ = ,
n1 + n2 − 2
possui distribuição t de Student com n1 + n2 − 2 graus de liberdade. Uma vez selecionado
o nı́vel de significância do teste, comparamos a estatı́stica do teste t com o valor tabelado.

22
3. Variâncias desconhecidas e diferentes: ou seja, não conhecemos as variâncias σ12 e σ22
nem sabemos se são iguais ou não. Denote por σ̂k2 o estimador não viesado da variância
populacional, para k = 1, 2. É possı́vel mostrar que a estatı́stica

(X̄ − Ȳ ) − d
t= q 2 ,
σ̂1 σ̂22
n1
+ n2

possui distribuição t de Student com ν graus de liberdade, em que ν é dado por:


 2 2
σ̂1 σ̂22
n1
+ n2
ν= 2 2 2
(σ̂1 /n1 ) (σ̂22 /n2 )
n1 −1
+ n2 −1

(se ν não for um inteiro, arredondamos para o inteiro mais próximo). Uma vez selecionado
o nı́vel de significância do teste, comparamos a estatı́stica do teste t com o valor tabelado.

EXERCÍCIOS ANPEC

RESOLVER: QUESTÕES 5 e 9, EXAME 2018; QUESTÃO 8, EXAME 2017; QUESTÃO 11,


EXAME 2014; QUESTÃO 3, EXAME 2013; QUESTÕES 1 e 2, EXAME 2012; QUESTÕES
1 e 6, EXAME 2011; QUESTÃO 9, EXAME 2009; QUESTÃO 4, EXAME 2008; QUESTÃO
11, EXAME 2007.

QUESTÕES DE EXAMES MAIS ANTIGOS: QUESTÕES 4 e 14, EXAME 2006;


QUESTÕES 4 e 6, 2005; QUESTÕES 2, 6 e 8, EXAME 2004.QUESTÃO 5, EXAME 2003;
QUESTÃO 5, EXAME 2002; QUESTÕES 3, 6 e 7, EXAME 2001; QUESTÕES 5 e 9, EXAME
2000; QUESTÕES 7 e 10, EXAME 1999; QUESTÃO 9, EXAME 1998; QUESTÕES 11 e
12, EXAME 1997; QUESTÃO 8, EXAME 1996; QUESTÕES 9, 13 e 14, EXAME 1995;
QUESTÕES 7, 8 e 10, EXAME 1994.

Leitura Sugerida

• Meyer, capı́tulos 14 (Estimação de Parâmetros), seções 14.7 (Intervalos de Confiança),


14.8 (A Distribuição t de Student) e 14.9 (Mais sobre Intervalos de Confiança); e 15
(Testes de Hipóteses).

• Casella e Berger, capı́tulos 8 (Hypothesis Testing) e 9 (Interval Estimation) – apenas as


seções de interesse.

23

Você também pode gostar