Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatı́stica
Curso Cecı́lia Menon
1 Definições Iniciais
1.1 Revisão Conceitual
Nessa subseção reapresentaremos alguns conceitos básicos de estatı́stica.
A população, objeto de estudo, é uma coleção de itens, sobre a qual necessita-se obter in-
formações. A população pode ser chamada também universo de estudo, universo para o qual
procuramos obter informações.
Em muitas pesquisas, seleciona-se uma amostra da população para inferirmos resultados para
a população inteira.
Variáveis quantitativas podem ser medidas em uma escala numérica ou quantitativa. Exemplos:
número da população, altura, idade, tempo de duração de uma lâmpada.
Amostragem é o campo da estatı́stica que estuda como extrair amostras de modo a fazer
inferências válidas sobre toda a população. Em certas situações, podemos trabalhar com a
população inteira, obtendo dados de toda a população. Nesse caso, estamos fazendo um censo.
A pesquisa pode ser classificada então como censitária ou como amostral.
1
1.2 Amostras Aleatórias
Definição. Seja X uma variável aleatória com distribuição de probabilidade qualquer. Sejam
n v.a.s X1 , . . . , Xn independentes e com a mesma distribuição de X. Nesse caso dizemos que
(X1 , . . . , Xn ) é uma amostra aleatória de tamanho n da v.a. X.
1.3 Estatı́sticas
Uma vez obtida uma amostra aleatória de X, queremos utilizar os valores amostrais para
realizar inferências sobre alguma ou algumas caracterı́sticas da população representada pela
amostra. Para isso, vamos definir o seguinte conceito.
Uma estatı́stica nada mais é do que uma função de valores reais da amostra e, portanto, é
também uma variável aleatória. É comum se referir à distribuição de probabilidade de Y por
distribuição amostral, já que a estatı́stica Y é uma função de amostras aleatórias. Mais ainda,
apesar de comum, não é correto dizer “a estatı́stica y = H(x1 , . . . , xn )”. Temos que y é o valor
que a estatı́stica Y = H(X1 , . . . , Xn ) assume quando a amostra X1 , . . . , Xn toma os valores
(x1 , . . . , xn ).
2
Teorema. Seja X uma variável aleatória com valor esperado EX = µ e variância σ 2 . Seja X̄
a média amostral de uma amostra aleatória de tamanho n. Então:
i) E(X̄) = µ;
Note que o teorema acima mostra que, quanto maior o tamanho n da amostra, a média amostral
varia cada vez menos (Var(X̄) → 0 quando n → ∞). Além disso, se n for suficientemente
grande, podemos aproximar a distribuição de X̄ pela distribuição normal de valor esperado√µ
e variância σ 2 /n (o Teorema Central do Limite garante que a distribuição de (X̄ − µ)/(σ/ n)
pode ser aproximada pela distribuição normal padrão, para n suficientemente grande). Se n não
for grande, essa aproximação pode não ser boa e podemos então tentar calcular a distribuição
exata de X̄.
2 Estimação Pontual
2.1 Introdução
Exemplo 1: Suponha que temos 1.000.000 de lâmpadas produzidas e queremos determinar a
proporção p de lâmpadas defeituosas. A verificação de lâmpada por lâmpada pode ser muito
custosa. Neste caso, podemos usar amostragem para estimar o parâmetro p.
Denote por Xi a v.a. que toma o valor 1 se a i-ésima lâmpada for defeituosa, 0 caso contrário.
Considere X1 , . . . , Xn uma amostra aleatória da v.a. X, cuja distribuição é p(X = 1) = p e
p(X = 0) = 1 − p.
Não é esperado que a estimativa p̂ de p seja igual a p. Mais ainda, p̂ é uma variável aleatória,
que depende da amostra considerada. Duas questões:
Os exemplos acima são problemas clássicos em inferência estatı́stica clássica, que assume que
θ é um parâmetro desconhecido, mas fixo. Já a estatı́stica Bayesiana assume que θ é uma v.a
não observável com uma distribuição conhecida (antes de se obter quaisquer observações). A
distribuição a priori é então atualizada com os dados de modo a constituir uma distribuição a
posteriori, que é usada para se fazer a inferência estatı́stica.
Ao longo dessa seção, X denota uma variável aleatória, X1 , . . . , Xn uma amostra aleatória de
X, e x1 , . . . , xn os valores amostrais correspondentes.
3
Definição: Estimador. Seja X uma v.a cuja função de distribuição dependa de um parâmetro
θ desconhecido. Se H(X1 , . . . , Xn ) for uma estatı́stica da amostra que será usada para a
estimação de θ, dizemos que H é um estimador pontual de θ. O valor que H assume em
(x1 , . . . , xn ) é uma estimativa de θ, que será denotada por θ̂ = H(x1 , . . . , xn ).
Há um abuso de notação muito comum em livros de estatı́stica, que algumas vezes é replicado
nos exames da ANPEC. A notação θ̂ é usada também para denotar o estimador de θ, apesar
de que na definição acima θ̂ é uma estimativa de θ, enquanto o estimador é H(X1 , . . . , Xn ).
Adotaremos essa terminologia, apesar de não ser inteiramente correta.
θ̂ = a1 X1 + a2 X2 + · · · + an Xn ,
Logo, um estimador não viesado de um parâmetro qualquer é tal que o seu valor esperado é
igual ao parâmetro que se deseja estimar.
Se o estimador θ̂ for não tendencioso, então E(θ̂) = θ e basta verificar se Var(θ̂) → 0 quando
n → ∞ para concluirmos que θ̂ é consistente.
Var(θ̂) ≤ Var(θ̃) ,
4
Definição: Estimador BLUE. Dizemos que θ̂ é o melhor estimador linear não-tendencioso
(no inglês, Best Linear Unbiased Estimate – BLUE ) do parâmetro θ se:
i) θ̂ é linear;
ii) θ̂ é não-tendencioso (E(θ̂) = θ);
iii) θ̂ possui a menor variância entre todos os estimadores lineares não-tendenciosos de θ (ou
seja, Var(θ̂) ≤ Var(θ̃), para todo θ̃ linear e não-tendencioso).
O estimador com menor MSE é dito o mais eficiente do grupo. Observe que se o estimador
for não tendencioso, então o MSE será igual à variância do estimador. Logo, o MSE estende o
conceito de eficiência para estimadores tendenciosos.
2.2 Resultados
Teorema. Seja X uma variável aleatória com esperança finita µ e variância σ 2 . A média
amostral X̄ calculada a partir de uma amostra aleatória de tamanho n é um estimador não-
tendencioso e consistente de µ.
Note então que a média amostral X̄ = (1/n) ni=1 Xi é um estimador linear e não-tendencioso
P
do valor esperado µ. Além disso, X̄ tem a menor variância entre todos os estimadores lineares
não-tendenciosos de µ (logo, X̄ é BLUE).
é tal que:
i) E(S 2 ) = σ 2 ; e
ii) Se X ∼ N (µ, σ 2 ), então (n − 1)S 2 /σ 2 ∼ χ2n−1 .
5
Logo, S 2 definido no teorema acima é um estimador não-tendencioso da variância σ 2 .
n−1
E(σ̂) = σ2
n
Além disso, o viés se torna cada vez menor com o aumento do tamanho da amostra.
EXERCÍCIOS ANPEC
6
3 Estimação de Máxima Verossimilhança
Vamos denotar a função de densidade de probabilidade (fdp) de X por f (x; θ), onde θ denota
um vetor de parâmetros que define a distribuição de X (por exemplo, se X ∼ N (µ, σ 2 ), então
θ = (µ, σ 2 )).
É comum log-linearizar a FV, que neste caso será denotada por L(X1 , . . . , Xn ; θ):
n
X
L(X1 , . . . , Xn ; θ) = ln(L(X1 , . . . , Xn ; θ)) = ln(f (Xi ; θ)) .
i=1
A estimação de máxima verossimilhança consiste em, dada uma amostra aleatória qualquer,
encontrar o estimador que maximiza a função de verossimilhança. A definição abaixo conceitua
esse estimador.
onde estamos considerando a estimativa θ̂M V para os valores amostrais observados x = (x1 , . . . , xn ).
∂L(x; θ)
=0
∂θ
Essas CPOs são denominadas equações de máxima verossimilhança. As CPOs não são sufi-
cientes (nem necessárias, caso de solução de canto, a não ser que algumas condições sejam
satisfeitas) para uma solução.
7
Podemos mostrar que os estimadores de MV, quando existirem, satisfazem as seguintes propri-
edades (importante para a ANPEC ):
a) podem ser tendenciosos. Muitas vezes o viés do estimador pode ser eliminado multipli-
cando o estimador por uma constante.
b) são assintoticamente não-tendenciosos. Ou seja, o valor esperado do estimador de MV
de θ tende a θ quando o tamanho da amostra aumenta.
c) são consistentes.
d) possuem distribuição assintótica normal. Logo, a distribuição do estimador de MV tende
a uma distribuição normal quando o tamanho da amostra aumenta.
e) são assintoticamente eficientes.
f) satisfazem a seguinte propriedade de invariância: Seja θ̂M V o estimador de MV de θ. O
estimador de MV de g(θ), onde g é uma função monótona contı́nua, é g(θ̂M V ).
estimador de MV de σ 2 é tendencioso.
EXERCÍCIOS ANPEC
Leitura Sugerida
• Meyer, capı́tulo 13 (Amostras e Distribuições Amostrais), seções 13.1 a 13.4; capı́tulo 14
(Estimação de Parâmetros), seções 14.1-14.4.
8
4 Intervalos de Confiança
As questões da ANPEC sobre intervalo de confiança (IC) referem-se sempre a uma v.a. X
com distribuição normal N (µ, σ 2 ), em que o objetivo é estimar um intervalo de confiança para
a média populacional µ, usando uma amostra aleatória X1 , . . . , Xn de X e a média amostral
X̄. As questões dividem-se em dois tipos: 1) estimar o intervalo de confiança com variância
conhecida e 2) estimar o intervalo de confiança com variância desconhecida.
Sabemos que 2Φ(z) − 1 = p(−z ≤ Z ≤ z), com Z ∼ N (0, 1). Desenvolvendo essa expressão,
obtemos:
X̄ − µ √
zσ zσ
p −z ≤ n ≤ z = p X̄ − √ ≤ µ ≤ X̄ + √
σ n n
√ √
O intervalo aleatório (X̄ − (σ/ n) × z; X̄ + (σ/ n) × z) é chamado intervalo de confiança da
média aleatória µ.
Não é correto dizer que a “probabilidade de µ cair dentro do intervalo acima especificado é
2Φ − 1”, pois µ é um parâmetro fixo: ou ele está ou não está dentro do intervalo. O intervalo
é que é aleatório: a cada amostra obtida, será obtido um intervalo diferente. O correto então é
dizer que “se repertimos a estimação muitas vezes, os intervalos de confiança obtidos conterão
µ em 95% das vezes”.
Podemos escolher z de tal modo que 2Φ(z) − 1 = 1 − α, ou seja, Φ(z) = 1 − α/2. Esse valor
de z, denotado
√ por K1−α/2 , é tabelado,
√ de tal modo que Φ(K1−α/2 ) = 1 − α/2. Dizemos que
(X̄ − (σ/ n) × K1−α/2 ; X̄ + (σ/ n) × K1−α/2 ) é um intervalo de confiança do parâmetro µ,
com coeficiente de confiança 1 − α (ou um intervalo de confiança 100(1 − α)%).
Exemplo: Suponha que X ∼ N (µ, 16) representa a duração da vida de uma peça de equipa-
mento em horas. Suponha que foi obtida uma amostra aleatória de tamanho n = 100 dessa
variável, em que X̄ = 501,2 horas. O intervalo de confiança de 95% para a média µ é:
4 4
501,2 − √ × 1,96 ; 501,2 + √ × 1,96 = (500,4 ; 502,0)
100 100
Note novamente que isto não significa que a média amostral cairá neste intervalo com 95% de
probabilidade. Ou µ está ou não está no intervalo (500,4 ; 502,0).
Logo, se a amostra for diferente (mas de mesmo tamanho), então o comprimento do IC será o
mesmo, apenas os pontos extremos do intervalo serão distintos.
9
4.2 Variância Desconhecida
Suponha que X ∼ N (µ, σ 2 ), com µ desconhecido e σ 2 desconhecido. Sejam X1 , . . . , Xn uma
amostra aleatória de X e X̄ a média amostral.
3. Z e V são independentes,
Exemplo: Suponha que X ∼ N (µ, σ 2 ) represente a duração da vida de uma peça de equi-
pamento em horas. Suponha que foi obtida uma amostra aleatória de tamanho n = 9 dessa
variável, em que X̄ = 10,50 horas e σ̂ = 1,50 horas. Para calcularmos o intervalo de confiança
de 95% para a média µ, primeiro obtemos de uma tabela da distribuição t de Student o va-
lor t8;0,95 = 2,31 (em que os 5% restantes são repartidos pela metade em cada uma das duas
caudas). Temos então que o intervalo de confiança associada a esta amostra aleatória é:
1,50 1,50
10,50 − √ × 2,31 ; 10,50 + √ × 2,31 = (10,50 − 1,155; 10,50 + 1,155) = (9,345 ; 11,655)
9 9
Novamente isto não significa que a média populacional cairá neste intervalo 95% das vezes. O
intervalo é aleatório: cada amostra aleatória gera um intervalo diferente.
10
5 Teste de Hipóteses
5.1 Introdução
Vimos como obter uma estimativa de um parâmetro desconhecido, associado a uma distribuição
de probabilidade, baseado em uma amostra aleatória.
Considere então uma v.a. X em que não conhecemos o valor de um parâmetro θ associado à
sua distribuição e que temos uma amostra aleatória X1 , . . . , Xn de X.
Um teste de hipóteses é outro método estatı́stico que utiliza dados amostrais para realizar
inferências sobre a população de interesse. É um dos métodos mais usados.
Portanto, no lugar de obter uma estimativa para θ, vamos fazer um teste de hipótese, que
consiste em admitir um valor hipotético para θ e então usar a informação da amostra para
confirmar ou rejeitar esse valor hipotético.
Vamos testar uma hipótese base H0 (ou hipótese nula ou de nulidade ou hipótese básica) versus
uma hipótese alternativa H1 . O termo hipótese nula refere-se que na maioria das aplicações
de testes de hipóteses, deseja-se verificar se um determinado tratamento alterou a média po-
pulacional (sem alterar a variância ou a distribuição populacional). A hipótese nula assume
que não ocorre mudança e a hipótese alternativa que ocorre mudança. Parece estranho dar
tanta atenção à hipótese nula, já que o interesse na maioria dos casos consiste em verificar se
o tratamento teve efeito.
O motivo para isso é que é mais fácil mostrar que uma determinada hipótese universal é falsa
do que verdadeira. Considere testar a seguinte afirmação: “todos os cisnes são brancos”. Se
coletamos uma amostra em que todos os cisnes são brancos, isso não prova a afirmação. Porém
se na nossa amostra obtivermos um cisne negro, isso mostra que a afirmação é falsa. Ou seja,
é mais fácil mostrar que algo é falso do que verdadeiro.
Testes de hipóteses seguem essa lógica: se a hipótese base fosse “tratamento tem efeito”, seria
mais difı́cil de lidar. Logo, se estabelece que a hipótese base é “tratamento não tem efeito”
e tentamos mostrar que ela é falsa (ou seja, encontramos evidência de que o tratamento tem
efeito).
H0 : θ = θ0 vs H1 : θ 6= θ0 ,
11
é chamado bicaudal (ou bilateral ou não-direcional ). Neste teste rejeitaremos a hipótese nula
se encontrarmos evidência convincente de que θ 6= θ0 (ou seja, ou de que θ > θ0 ou de que
θ < θ0 .
Se a v.a. X não tiver distribuição normal, podemos utilizar o Teorema Central do Limite, que
assegura que a distribuição das médias amostrais será (aproximadamente) normal quando n
for grande. Logo, mesmo neste caso podemos proceder de modo análogo ao que é feito a seguir
(ver subseção 5.7 abaixo).
Vamos analisar o teste bicaudal para média, supondo o set-up acima. O teste pode ser descrito
então por:
H0 : µ = µ0 vs H1 : µ 6= µ0 ,
em que µ0 é o valor que assumimos para a média populacional.
H0 : µ = 520 vs H1 : µ 6= 520 .
Vamos assumir que o efeito do tratamento é apenas adicionar um valor constante na duração
de cada amortecedor, de modo que não altera a distribuição nem o desvio-padrão populacional.
12
Note que não existe teste perfeito, pois nunca estaremos certos de que a nova média popula-
cional é igual ou diferente a 520 usando amostras aleatórias. Podemos apenas comparar um
teste com outro, determinar propriedades desejadas, etc, de modo parecido ao que é feito numa
estimação pontual.
Queremos por meio da média amostral determinar se a hipótese nula é válida ou não. Preci-
samos definir limites para separar amostras muito prováveis das pouco prováveis. Para fazer
isso, precisamos definir o que é “muito” e “pouco” provável. Isto é feito selecionando um valor
especı́fico chamado nı́vel de significância (ou nı́vel -α ou valor -α) para o teste de hipóteses.
Os valores mais comuns para α são 0,10 = 10%, 0,05 = 5%, 0,01 = 1% e 0,001 = 0, 1%. Um
α = 0,05 significa que iremos separar os 5% menos prováveis valores para a média amostral
dos 95% valores mais prováveis (valores centrais).
Definição: Região Crı́tica. A região crı́tica de um teste de hipóteses é dada pelos va-
lores amostrais extremos que são muito improváveis de serem obtidos (onde agora “muito
improvável” é definido pelo nı́vel de significância do teste) se a hipótese nula for verdadeira.
Os limites da região crı́tica são definidos pelo nı́vel de significância α selecionado para o teste.
Portanto, a região crı́tica define valores para resultados amostrais muito improváveis de ocor-
rerem se o tratamento não tiver efeito. De modo inverso, podemos ver a região crı́tica como
definindo os valores para resultados amostrais que fornecem evidência convincente de que o
tratamento tem efeito.
Para determinar exatamente os limites da região crı́tica, usamos o valor α selecionado e a tabela
da normal padrão (para o caso do exemplo acima e de situações em que se deseja testar a média
populacional quando a variância populacional é conhecida). Se α = 0,05, precisamos encontrar
os limites que separam os 5% extremos dos 95% centrais. Como a distribuição normal padrão é
simétrica ao redor de zero, temos 2,5% em cada cauda. Na tabela da normal padrão, obtemos
z0,025 = 1,96. Portanto, para qualquer distribuição normal, os 5% extremos possuem valores
acima de z = 1,96 ou abaixo de z = −1,96.
13
A Figura 1 evidencia que a região crı́tica é definida pelos extremos da distribuição. Os valores
da distribuição que definem os dois extremos são denominados valores crı́ticos do teste e deter-
minados pelo nı́vel de significância adotado (e, evidentemente, pela distribuição considerada).
Para o caso da distribuição normal padrão, como ela é simétrica em torno de zero, os dois
valores que determinam a região crı́tica são iguais em valor absoluto. Se α = 5%, então o valor
crı́tico |zc | associado, que delimita os dois extremos da distribuição com probabilidade 2,5% de
ocorrer, é igual a 1,96.
Uma vez estabelecido o nı́vel de significância do teste de hipótese, obtemos a amostra aleatória
e estabelecemos o critério de decisão para o teste. Para o exemplo dado, calculamos a média
amostral da duração dos amortecedores que compõem a amostra. Esse é o ponto central do
procedimento: comparar os dados com a hipótese.
Calculada a média amostral X̄, computamos o valor da estatı́stica do teste, denotada por z,
usando a hipótese nula:
Uma vez calculado a estatı́stica do teste z acima, devemos tomar uma decisão entre duas
possı́veis: rejeitar a hipótese nula ou falhar em rejeitar a hipótese nula.
• Se −zc < z < zc (ou seja, se |z| < |zc |), então não rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de aceitação do teste.
• Se z < −zc ou z > zc (ou seja, se |z| > |zc |), então rejeitamos a hipótese nula (valor da
estatı́stica do teste caiu na região de crı́tica do teste).
Voltemos ao Exemplo 1 acima. Suponha que obtivemos uma amostra aleatória com 100 ob-
servações.
√ A média
√ amostral calculada é X̄ = 528. O desvio-padrão da média amostral é
σX̄ = σ/ n = 20/ 100 = 2. O valor da estatı́stica z é:
X̄ − µ0 528 − 520
z= = = 4.
σX̄ 2
A um nı́vel de significância de 0,05 = 5%, esse valor obtido para a estatı́stica z é distante do
valor limite de 1,96. Como a estatı́stica amostral z está na região crı́tica, rejeitamos a hipótese
nula e concluı́mos que o novo método de produção alterou o valor esperado da duração dos
amortecedores.
Suponha agora que a amostra aleatória com 100 observações resultou em uma média amostral
de X̄ = 522. O valor da estatı́stica z agora é:
X̄ − µ0 522 − 520
z= = =1
σX̄ 2
Este valor de z não está na região crı́tica (podemos então dizer que ele está na região de
aceitação da hipótese nula). Portanto, falhamos em rejeitar a hipótese nula e concluı́mos que
o novo método de produção não alterou o valor esperado da duração dos amortecedores.
14
Resumindo, temos então dois possı́veis resultados:
2) A evidência coletada (obtida da amostra aleatória) não é convincente para inferir que o
tratamento tem efeito (falhamos em rejeitar a hipótese nula).
Note que a amostra aleatória foi usada para obter um único valor especı́fico, a estatı́stica z que
define a região crı́tica do teste de hipóteses, ou seja, que é usado para a tomada de decisão do
teste (se aceitamos ou rejeitamos a hipótese nula).
Para o valor z = 4 obtido no exemplo acima, usando a tabela da distribuição normal padrão
temos que p = 0,0003, ou seja, a probabilidade de que o resultado tenha ocorrido por chance
(assumindo H0 verdadeira) é 0,0003 = 0,03%. Este é o p-valor do teste de hipóteses (também
chamado valor -p, nı́vel descritivo, probabilidade de significância).
Portanto, se o p-valor do teste for menor do 0,05, pode-se rejeitar a hipótese nula ao nı́vel de
significância de 0,05 = 5%. Para o outro caso acima, em que a estatı́stica do teste é z = 1,
temos que p = 0,3374. Neste caso, aceitamos a hipótese nula ao nı́vel de significância de 5%.
Logo, quanto menor o p-valor, maior a incompatibilidade estatı́stica dos dados amostrais com
a hipótese nula. Podemos usar o p-valor para a tomada de decisão:
Atualmente ocorre uma grande discussão entre estatı́sticos sobre o abuso que se faz do p-valor
(ver “The ASA Statement on Statistical Significance and p-Values” de 2016). Ressaltamos que:
1) O p-valor não é a probabilidade da hipótese nula de um teste ser verdadeira; 2) O p-valor não
é a probabilidade da hipótese nula ter sido rejeitada erroneamente (ou seja, a probabilidade
de um erro do tipo I, que veremos abaixo); 3) A magnitude do p-valor não indica o tamanho
ou a importância de um efeito observado; 4) p-valor e nı́vel de significância não são sinônimos:
o p-valor é sempre computado a partir da amostra, enquanto o nı́vel de significância é fixado
antes de se obter a amostra.
15
5.3 Erros em Testes de Hipóteses
Testes de hipóteses são procedimentos de inferência estatı́stica, que usam informação limitada
(amostra) para chegar a uma conclusão geral (população). Logo, existe a possibilidade de que
a conclusão obtida seja incorreta. Existem dois tipos de erros que podem ocorrer.
Definição: Erro Tipo I. Um erro tipo I ocorre quando a hipótese nula é válida, mas é
rejeitada pelo teste. Tipicamente, conclui-se que o tratamento teve efeito quando na verdade
não teve.
O erro tipo I ocorre porque a informação obtida da amostra aleatória coletada é enganadora.
Para que ele ocorra, a média amostral deve estar na região crı́tica. A região crı́tica deve então
ser estruturada de modo que seja muito improvável obter uma média amostral nela quando H0
for verdadeira.
Note que se fixassemos α = 0, um erro tipo I nunca ocorreria. Mas isso implicaria em sempre
aceitar a hipótese nula, o que por sua vez implicaria nunca aceitar a possibilidade de ela ser
falsa. Logo, não faz sentido realizar testes de hipóteses com α = 0.
O erro tipo II consiste no outro tipo de erro que pode ocorrer em um teste de hipóteses, que
consiste em não rejeitar a hipótese nula quando ela é falsa. Ou seja, o teste de hipóteses falhou
em observar que o tratamento de fato teve efeito.
Definição: Erro Tipo II. Um erro tipo II ocorre quando não se rejeita uma hipótese nula
falsa. Tipicamente, conclui-se que o tratamento não teve efeito quando na verdade teve.
No exemplo acima, um erro tipo II ocorrerá quando a média amostral não estiver na região
crı́tica, mas o tratamento obteve efeito (a nova média populacional é diferente da antiga).
Frequentemente, o erro tipo II ocorre quando o efeito do tratamento é muito pequeno.
Resumo: Erro Tipo I e Tipo II. Definimos os erros tipo I e II como os seguintes eventos
(ver Figura 2 abaixo):
Erro Tipo I Rejeitar H0 quando H0 verdadeira (“falso positivo”).
Erro Tipo II Aceitar H0 quando H0 for falsa (“falso negativo”).
16
Figura 2: H0 : “pessoa não grávida”, H1 : “pessoa grávida”
A Figura 3 abaixo ilustra todas as possibilidades que podem ocorrer em um teste de hipóteses.
17
O Exemplo 2 abaixo evidencia que a probabilidade de um erro tipo II depende da verdadeira
média populacional µ. Logo, o poder de um teste também depende de µ.
X̄ − µ0
−1,96 ≤ ≤ 1,96 ⇒ 516,08 ≤ X̄ ≤ 523,92
σX̄
já que µ0 = 520 e σX̄ = 2. Logo, a probabilidade do erro tipo II é:
β = p 516,08 ≤ X̄ ≤ 523,92 | µ 6= 520
Agora precisamos calcular os valores crı́ticos da estatı́stica z quando µ 6= 520. Para fazer isso,
precisamos assumir algum valor para a verdadeira média populacional. Suponha que µ = 525,
então temos que:
516,08 − 525 523,92 − 525
β(µ) = p 516,08 ≤ X̄ ≤ 523,92 | µ = 525 = p ≤z≤
2 2
= p (−4,46 ≤ z ≤ −0,54) = Φ(−0,54) − Φ(−4,46) = 0,29460 − 0,00003 = 0,29457
Logo, a probabilidade de cometer um erro tipo II quando a verdadeira média populacional for
µ = 525 é 29,46%. Então o poder do teste, para µ = 525, é 1 − 0,29457 = 0,70543 = 70,54%.
Note que não conhecemos a média populacional µ verdadeira. Podemos “plotar” o poder de
um teste em função do valor µ considerado como verdadeiro para média populacional. Para
cada µ que assumirmos como verdadeiro, temos um valor para a probabilidade do erro tipo II
e para o poder do teste. Quanto mais distante for o valor assumido como verdadeiro do valor
tomado na hipótese nula, menor a probabilidade de aceitar a hipótese nula quando ela for falsa
e, portanto, maior o poder do teste. A Figura 4 abaixo ilustra graficamente a probabilidade
do erro tipo II.
18
Para aumentar o poder de um teste, podemos:
• Aumentar o tamanho n da amostra aleatória;
• Aumentar o tamanho do efeito (ou seja, a distância entre o valor do parâmetro real e o
considerado verdadeiro em H0 ).
Apesar de não ser necessário saber o poder de um teste antes de conduzir o teste de hipóteses,
é adequado tentar simulá-lo para obter uma noção do tamanho da amostra n necessário para
manter a probabilidade de um erro tipo II em um certo patamar.
Portanto, um teste unicaudal faz uma afirmação sobre a direção do efeito do tratamento.
Quando o tratamento define uma direção especı́fica, é aconselhado o teste unicaudal.
Exemplo 3. Suponha que um laboratório está testando em ratos um remédio para abrir o
apetite. Sabe-se que o consumo médio de comida de cada rato por dia é de 26 gramas, com
distribuição normal com desvio-padrão σ = 4. O efeito esperado do remédio é aumentar o
consumo de comida. O propósito do teste é verificar se o remédio de fato funciona ou não.
Então as duas hipóteses serão:
Portanto,
H0 : µ ≤ 26 vs H1 : µ > 26
A região crı́tica novamente é definida pelos resultados amostrais muito improváveis de ocorre-
rem se a hipótese nula for verdadeira (isto é, se o tratamento não tiver efeito). Como espera-se
que o tratamento aumente o consumo de comida, o teste é unicaudal à direita. Se o efeito do
tratamento fosse reduzir a média populacional, o teste seria unicaudal à esquerda.
19
Figura 5: Teste Unicaudal
Daı́ procede-se exatamente como antes: calculamos a estatı́stica z e tomamos a decisão sobre
aceitar ou rejeitar H0 se a estatı́stica z estiver fora ou dentro da região crı́tica.
X̄ − µ0 29,5 − 26 3,5
z= = = = 1,75 .
σX̄ 2 2
O valor da estatı́stica z maior do que o tabelado indica que a média amostral obtida está na
região crı́tica. Logo, como isso é um resultado muito improvável de ocorrer se H0 for verdadeira,
a decisão é rejeitar H0 . Ou seja, o remédio tem efeito e aumenta o apetite de ratos.
H0 : µ = 26 vs H1 : µ 6= 26
Note que se o teste for unicaudal como no Exemplo 2 acima, os mesmos dados amostrais levam
a rejeitar H0 . Evidentemente, podemos concluir que os dois tipos de testes são diferentes.
Porém, existem diversos modos de interpretar essa diferença.
Alguns autores argumentam que testes bicaudais são mais rigorosos, pois sempre que se rejeitar
H0 no teste bicaudal, rejeita-se também H0 em um teste unicaudal, mas o contrário não é válido.
Daı́ concluem que testes bicaudais são mais “convincentes”.
20
Outros autores argumentam que testes unicaudais são preferı́veis por serem mais sensı́veis, no
sentido de que um efeito relativamente pequeno do tratamento pode ser significante no teste
unicaudal mas falhar em ser significante no teste bicaudal. Além disso, esse tipo de teste é
mais preciso sobre a hipótese feita sobre o tratamento.
Em geral, testes bicaudais devem ser utilizados quando não se tem uma expectativa forte sobre
a direção do tratamento ou quando há duas predições alternativas (diminuir e aumentar a
média populacional, por exemplo). Por outro lado, testes unicaudais devem ser usados apenas
em situações em que exista uma forte justificativa para a direção a ser assumida do tratamento
no teste de hipóteses.
Como fazemos agora? Se utilizarmos a variância amostral σ̂ 2 = (1/(n − 1)) ni=1 (Xi − X̄)2 ,
P
em que X̄ denota a média amostral, podemos proceder exatamente do mesmo modo que antes
(seja um teste bicaudal, seja um teste unicaudal), usando a variância amostral no lugar da
variância populacional para calcular a estatı́stica do teste.
Porém, agora devemos comparar a estatı́stica obtida com uma estatı́stica t com n − 1 graus de
liberdade. A justificativa para isso é similar à que vimos com intervalos de confiança.
Exemplo 4. Uma fábrica afirma que a probabilidade de uma peça produzida por ela ser
defeituosa é 0,1. Suponha que obtivemos uma amostra aleatória com 100 peças e verificamos
que 19 são defeituosas. Queremos realizar o seguinte teste de hipóteses:
H0 : p = 0,1 vs H1 : p 6= 0,1 ,
onde p denota a proporção de peças defeituosas. Vamos adotar o nı́vel de significância de 0,1%.
Como procedemos para realizar o teste? Sob a hipótesep nula, temos √ que a variância amostral
é p0 (1 − p0 )/n. Então o desvio-padrão amostral é p0 (1 − p0 )/ n. Nesse tipo de teste, o
correto seria utilizar a distribuição binomial. Mas se n for grande, o Teorema Central do
Limite permitepusar a distribuição
√ normal para calcular de modo aproximado a estatı́stica do
teste, usando p0 (1 − p0 )/ n como desvio padrão:
p̄ − p0
z=p √ ,
p0 (1 − p0 )/ n
onde p̄ é a proporção obtida na amostra.
21
5.8 Teste de Hipóteses para Variâncias
Considere a v.a. X ∼ N (µ, σ 2 ) e uma amostra aleatória de tamanho n de X. Suponha que
queremos realizar um teste de hipóteses bicaudal (o caso unicaudal é similar) sobre a variância
σ 2 de X:
H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02 .
É possı́vel mostrar que a estatı́stica q possui distribuição qui-quadrada com n−1 graus de liber-
dade. Logo, selecionado o nı́vel de significância α do teste, procedemos como antes, definindo
a região crı́tica, que dependerá de o teste ser unicaudal ou bicaudal.
Se o teste for bicaudal, lembre-se que a distribuição qui-quadrada não é simétrica. Logo,
precisaremos dos limites inferior e superior que definem a região crı́tica para prosseguir com o
teste.
22
3. Variâncias desconhecidas e diferentes: ou seja, não conhecemos as variâncias σ12 e σ22
nem sabemos se são iguais ou não. Denote por σ̂k2 o estimador não viesado da variância
populacional, para k = 1, 2. É possı́vel mostrar que a estatı́stica
(X̄ − Ȳ ) − d
t= q 2 ,
σ̂1 σ̂22
n1
+ n2
(se ν não for um inteiro, arredondamos para o inteiro mais próximo). Uma vez selecionado
o nı́vel de significância do teste, comparamos a estatı́stica do teste t com o valor tabelado.
EXERCÍCIOS ANPEC
Leitura Sugerida
23