Você está na página 1de 109

Sumário

I Inferência Estatística 6
1 Estimadores 7
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Estatísticas e parâmetros . . . . . . . . . . . . . . . . . . 10
1.2 Distribuição amostral . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Distribuição amostral de uma proporção . . . . . . . . . . 14
1.2.2 Determinação do tamanho de uma amostra . . . . . . . . 16
1.3 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . 17
1.4 Méodos de estimação . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.1 Estimadores de momentos . . . . . . . . . . . . . . . . . 23
1.4.2 Estimadores de mínimos quadrados . . . . . . . . . . . . 24
1.4.3 Estimadores de máxima verossimilhança . . . . . . . . . 27
1.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2 Intervalos de confiança 30
2.1 Estimação intervalar . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.1 Definições formais . . . . . . . . . . . . . . . . . . . . . 34
2.2 Construção do intervalo de confiança . . . . . . . . . . . . . . . . 35
2.2.1 Estimação da média sob normalidade . . . . . . . . . . . 37
2.3 Estimação da proporção populacional . . . . . . . . . . . . . . . 39
2.4 Intervalo de confiança para variância populacional . . . . . . . . . 40
2.4.1 µ desconhecido . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.2 µ desconhecido . . . . . . . . . . . . . . . . . . . . . . . 41
2.5 Estimação intervalar para duas populações . . . . . . . . . . . . . 42
2.5.1 Intervalo de confiança para amostras pareadas . . . . . . . 43
2.5.2 Exemplo e exercícios . . . . . . . . . . . . . . . . . . . . 44

1
2.6 IC para a diferença de médias em populações independentes . . . 46
2.6.1 IC para µ1 − µ2 com σ12 e σ22 conhecidas . . . . . . . . . . 46
2.6.2 IC para as variâncias populacionais . . . . . . . . . . . . 50
2.6.3 IC para proporções . . . . . . . . . . . . . . . . . . . . . 53
2.7 Tamanho da amostra sob normalidade . . . . . . . . . . . . . . . 55
2.7.1 Tamanho da amostra para estimar duas populações inde-
pendentes . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.7.2 Tamanho da amostra para estimar a proporção populacional 56

3 Teste de Hipóteses 58
3.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.1 Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2 Teste da razão de verossimilhança . . . . . . . . . . . . . . . . . 65
3.2.1 Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.2 Passos para a construção de um teste de hipóteses . . . . . 68
3.3 Teste de hipóteses sob normalidade . . . . . . . . . . . . . . . . . 69
3.3.1 Teste de hipóteses sobre µ com σ 2 conhecida . . . . . . . 69
3.3.2 Teste de hipóteses sobre µ com σ 2 desconhecido . . . . . 72
3.3.3 Teste de hipóteses para uma proporção populacional . . . 74
3.3.4 Teste de hipóteses sobre variâncias com µ conhecida . . . 76
3.3.5 Teste de hipóteses sobre variâncias com µ desconhecida . 77
3.4 Teste de hipóteses para duas populações . . . . . . . . . . . . . . 79
3.4.1 Teste de hipóteses sobre µ, σ12 e σ22 conhecidas . . . . . . 79
3.4.2 Teste de hipóteses sobre µ, σ12 = σ22 = σ 2 desconhecidas . 81
3.4.3 Teste de hipóteses sobre µ, σ12 ̸= σ22 desconhecidas . . . . 84
3.4.4 Teste de hipóteses sobre σ 2 . . . . . . . . . . . . . . . . . 86
3.4.5 Teste de hipóteses sobre p . . . . . . . . . . . . . . . . . 88
3.5 Teste de hipóteses para dados pareados . . . . . . . . . . . . . . . 91

4 Testes qui-quadrado 94
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2 Testes de aderência . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3 Testes de independência . . . . . . . . . . . . . . . . . . . . . . . 96
4.4 Teste de comparação de proporções . . . . . . . . . . . . . . . . 99
4.5 Correção para continuidade de Yates . . . . . . . . . . . . . . . . 101
4.6 Teste para o coeficiente de correlação . . . . . . . . . . . . . . . 103
4.6.1 Caso 1: ρ0 ̸= 0 . . . . . . . . . . . . . . . . . . . . . . . 104
4.6.2 Caso 2: ρ0 = 0 . . . . . . . . . . . . . . . . . . . . . . . 105

2
4.6.3 Intervalo de confiança para ρ . . . . . . . . . . . . . . . . 107

3
Definições e teoremas

Definição 1.1.1 (Inferência estatística) . . . . . . . . . . . . . . . . . . 7


Definição 1.1.2 (População) . . . . . . . . . . . . . . . . . . . . . . . . 7
Definição 1.1.3 (Amostra) . . . . . . . . . . . . . . . . . . . . . . . . . 7
Definição 1.1.4 (Amostra aleatória simples com reposição) . . . . . . . 9
Definição 1.1.5 (Estatística) . . . . . . . . . . . . . . . . . . . . . . . . 10
Definição 1.1.6 (Parâmetro) . . . . . . . . . . . . . . . . . . . . . . . . 10
Definição 1.1.7 (Estimador) . . . . . . . . . . . . . . . . . . . . . . . . 11
Definição 1.1.8 (Estimador) . . . . . . . . . . . . . . . . . . . . . . . . 11
Definição 1.2.1 (Distribuição amostral) . . . . . . . . . . . . . . . . . . 12
Definição 1.2.2 (Distribuição amostral) . . . . . . . . . . . . . . . . . . 12
Teorema 1.2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Teorema 1.2.2 (Limite central) . . . . . . . . . . . . . . . . . . . . . . 13
Definição 1.2.3 (Estatística Z) . . . . . . . . . . . . . . . . . . . . . . 13
Definição 1.3.1 (Acurácia) . . . . . . . . . . . . . . . . . . . . . . . . 18
Definição 1.3.2 (Precisão) . . . . . . . . . . . . . . . . . . . . . . . . . 18
Definição 1.3.3 (Estimador) . . . . . . . . . . . . . . . . . . . . . . . . 18
Definição 1.3.4 (Estimador não-viesado) . . . . . . . . . . . . . . . . . 18
Definição 1.3.5 (Estimativa) . . . . . . . . . . . . . . . . . . . . . . . 19
Definição 1.3.6 (Estimador consistente) . . . . . . . . . . . . . . . . . 21
Definição 1.3.7 (Estimador eficiente) . . . . . . . . . . . . . . . . . . . 21
Definição 1.3.8 (Erro quadrático médio) . . . . . . . . . . . . . . . . . 22
Definição 1.4.1 (Momento populacional) . . . . . . . . . . . . . . . . . 23
Definição 1.4.2 (Momento amostral) . . . . . . . . . . . . . . . . . . . 23
Definição 1.4.3 (Estimador de momentos) . . . . . . . . . . . . . . . . 23
Definição 1.4.4 (Modelo linear) . . . . . . . . . . . . . . . . . . . . . . 24
Definição 1.4.5 (Máxima verossimilhança) . . . . . . . . . . . . . . . . 27

Definição 2.1.1 (Intervalo confidencial) . . . . . . . . . . . . . . . . . 34

4
Definição 2.1.2 (Estimação por intervalo) . . . . . . . . . . . . . . . . 34
Definição 2.1.3 (Intervalo unilateral) . . . . . . . . . . . . . . . . . . . 34
Definição 2.1.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Definição 2.2.1 (Variável aleatória pivotal) . . . . . . . . . . . . . . . . 35
Teorema 2.2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Teorema 2.2.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Definição 2.4.1 (IC para σ 2 com µ conhecido) . . . . . . . . . . . . . . 41
Definição 2.4.2 (IC para σ 2 quando µ não é conhecido) . . . . . . . . . 41
Definição 2.5.1 (IC para µd = µ1 − µ2 , amostras pareadas) . . . . . . . 43
Definição 2.6.1 (IC para µ1 − µ2 com σ12 e σ22 conhecidas) . . . . . . . 47
Definição 2.6.2 (IC para µ1 − µ2 com σ12 e σ22 desconhecidas e iguais) . 48
Definição 2.6.3 (IC para µ1 − µ2 com σ12 e σ22 desconhecidas e diferentes) 49
Definição 2.6.4 (IC para σ12 /σ22 com µ1 e µ2 conhecidas) . . . . . . . . 51
Definição 2.6.5 (IC para σ12 /σ22 com µ1 e µ2 desconhecidas) . . . . . . . 52
Definição 2.6.6 (IC para p1 − p2 ) . . . . . . . . . . . . . . . . . . . . . 54
Definição 2.7.1 (n para estimar µ) . . . . . . . . . . . . . . . . . . . . 55
Definição 2.7.2 (n para estimar µ1 − µ2 ) . . . . . . . . . . . . . . . . . 56
Definição 2.7.3 (n para p) . . . . . . . . . . . . . . . . . . . . . . . . . 56

Definição 3.1.1 (Hipótese estatística) . . . . . . . . . . . . . . . . . . . 58


Definição 3.1.2 (Hipótese nula) . . . . . . . . . . . . . . . . . . . . . . 59
Definição 3.1.3 (Hipótese alternativa) . . . . . . . . . . . . . . . . . . 59
Definição 3.1.4 (Sistema de hipóteses) . . . . . . . . . . . . . . . . . . 59
Definição 3.1.5 (Hipótese simples) . . . . . . . . . . . . . . . . . . . . 59
Definição 3.1.6 (Teste) . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Definição 3.1.7 (Região crítica) . . . . . . . . . . . . . . . . . . . . . . 60
Definição 3.1.8 (Tamanho do teste) . . . . . . . . . . . . . . . . . . . . 61
Definição 3.1.9 (Função característica da operação) . . . . . . . . . . . 64
Definição 3.1.10 (Função poder do teste) . . . . . . . . . . . . . . . . . 64
Definição 3.2.1 (Teste da razão de verossimilhanças) . . . . . . . . . . 65
Definição 3.2.2 (Teste da razão de verossimilhanças generalizado) . . . 65

Definição 4.6.1 (Coeficiente de correlação) . . . . . . . . . . . . . . . . 103


Definição 4.6.2 (Covariância) . . . . . . . . . . . . . . . . . . . . . . . 104
Definição 4.6.3 (Coeficiente de correlação) . . . . . . . . . . . . . . . . 104

5
Parte I

Inferência Estatística

6
1 Estimadores

1.1 Introdução
Definição 1.1.1 (Inferência estatística). Seja X uma variável aletória (v.a.) com
função densidade (ou de probabilidade) f (x | θ), em que θ é um parâmetro des-
conhecido. Chamamos de inferência estatística o problema que consiste em es-
pecificar um ou mais valores para θ, baseado em um conjunto de valores de X.
Parece razoável supor que a distribuição das alturas dos brasileiros adultos
possa ser representada por um modelo normal (embora as alturas não possam as-
sumir valores negativos). Mas essa informação não é suficiente para determinar
qual a distribuição normal correspondente, precisaríamos conhecer os parâmetros
(média e variância) do modelo normal para que ele ficasse completamente espe-
cificado. O propósito seria descobrir (estimar) os parâmetros da distribuição para
sua posterior utilização.

amostra

população

Definição 1.1.2 (População). É o conjunto de todos os elementos ou resultados


sob investigação.
Definição 1.1.3 (Amostra). É qualquer subconjunto da população.

7
amostragem

amostra

população análises
estimativas
inferência

Exemplos:
• Um estudo dos salários de uma companhia.

População Todos os salários de uma companhia


Amostra Tomar alguns salários

• A proporção de indivíduos em uma cidade que são favoráveis a certo projeto


governamental

População Indivíduos favoráveis


Amostra Perguntar a alguns indivíduos.
Obs: temos aqui um problema binomial. Cada indivíduo só dá dois
possíveis resultados. População: todas as binomiais B(n, p).

• A duração de vida de um novo tipo de lâmapada.

População Novo tipo de lâmapada


Amostra Não posso tomar todas as lâmpadas, ou destruiria toda a produ-
ção. Escolhe-se algumas lâmpadas desse novo tipo para submeter a
testes.

• Investigar a honestidade de uma moeda.

População Podemos definir através do modelo probabilístico

8
Amostra Número de experimentos que escolhi para testar a honestidade da
moeda
• Investigar a hipótese de que o tempo Y de reação a certo estímulo visual
dependa da idade do indivíduo.
População Definir interesse: homens, homens e mulheres, crianças etc.
Defina a população interesse com base no que você quer.
Amostra
Repetir um experimento muitas vezes, sob as mesmas condições, nem sempre
é possível (por exemplo, não podemos retirar muito sangue de um mesmo indi-
víduo para amostragem), mas em determinadas condições é possível determinar
teoricamente o comportamento de algumas medidas feitas na amostra, como por
exemplo a média. Mas isso depende, em grande parte, do procedimento (plano)
adotado para selecionar a amostra. Assim, em problemas envolvendo amostras,
antes de tomarmos uma decisão, teríamos de responder a quatro perguntas:
1. Qual a população a ser amostrada;
2. Como obter os dados (amostra);
Deve-se estudar amostragem para determinar qual o plano amostral para ga-
rantir que se tirará conclusões com certo grau de acurácia para sua popula-
ção. Pode acontecer que você tome uma amostra de modo que não consiga
responder algumas hipóteses de interesse.
3. Que informações pertinentes (estatísticas) serão retiradas da amostra?
4. Como se comportam as estatísticas quando o mesmo procedimento de esco-
lher a amostra é usado numa população específica;
Se pudéssemos retirar várias amostras para calcular a mesma estatística, po-
demos perguntar como se comporta essa estatística.
Vamos considerar nesse curso apenas amostras aleatórias simples com reposi-
ção. Pois a reposição garante a independência dos indivíduos, e independência é
muito importante para todos os desenvolvimentos em inferência.
Definição 1.1.4 (Amostra aleatória simples com reposição). Uma amostra aleató-
ria simples com reposição (a.a.s) é uma sequência ou sucessão finita de variáveis
aleatórias independentes e indeticamente distribuídas X1 , X2 , . . . , Xn , em que n
é chamado de tamanho da amostra ou tamanho amostral.

9
Porque é sucessão finita? Quando eu faço o experimento e observo o valor Xk ,
o valor é realizado, ela deixa de ser uma variável aleatória.

1.1.1 Estatísticas e parâmetros


Definição 1.1.5 (Estatística). Uma estatística é uma caracteristica da amostra, ou
seja, uma estatística T é uma função de X1 , X2 , . . . , Xn e não depende de parâ-
metros desconhecidos.
Considere a amostra aletória X1 , . . . , Xn de uma variável aletória X. As esta-
tísticas mais comuns são:
n
1X
X= Xi : média da amostra
n i=1
n
1 X 2
2
S = Xi − X : variância da amostra
n − 1 i=1
X(1) = min (X1 , . . . , Xn ) : o menor valor da amostra
X(n) = max (X1 , . . . , Xn ) : o maior valor da amostra
W = X(n) − X(1) : amplitude amostral
X(i) : a i-ésima maior observação da amostra
Definição 1.1.6 (Parâmetro). Um parâmetro é uma medida usada para descrever
uma caracteristica da população.
Considere uma população indetificada pela v.a. X. Seriam parâmetros a média
E(X) e sua variância Var(X).
Símbolos mais comuns:
População Amostra
Média µ = E(X) X
Mediana Md = Q2 md = q2
Variância σ = Var(X)
2
S2
Nº de elementos N n
Proporção P p̂
Quantil Q(p) q(p)
Quartis Q1 , Q2 , Q3 q1 , q2 , q3
Intervalo inter-quartil dQ = Q3 − Q1 dq = q3 − q1
Função densidade f (x) histograma
Função de distribuição F (x) Fe (x)

10
Definição 1.1.7 (Estimador). Qualquer estatística que assuma valores em Θ é um
estimador de θ, onde Θ é o espaço paramétrico do parâmetro θ.

Exemplo: o espaço paramétrico da variância só inclui valores positivos.


Outra definição é:

Definição 1.1.8 (Estimador). Um estimador é uma estatística cujas realizações


são utilizadas para obter estimações dos parâmetros de um modelo probabilístico
e uma realização ou valor particular se conhece como estimação.

O estimador é a função da amostra que toma valores no espaço paramétrico do


parâmetro de interesse e a estimação é um valor específico, uma realização.

1.2 Distribuição amostral


Gostaríamos de entender o modelo teórico de uma estatística. Qual seria o com-
portamento de uma estatística se eu pudesse repetir o experimento?

análise
conclusiva
sobre a
população

população

Estatística

Para diferentes amostras teremos diferentes médias. Assim, teremos uma amos-
tra das médias. É com essas médias obtidas de diferentes amostras que iremos
estudar o comportamento da estatística. Lembrando que nossas amostras são in-
dependentes e identicamente distribuídas.

11
A distribuição amostral é a distribuição da minha estatística de interesse. Te-
oricamente, supondo que podemos tirar várias amostras da população, é possível
especificar essa estatística.
Nosso principal objetivo é identificar um modelo que explique bem distribui-
ção amostral da estatística T . É evidente que a distribuição de T irá depender da
distribuição de X e do plano amostral. Aqui, considera-se a a.a.s.

Definição 1.2.1 (Distribuição amostral). A distribuição amostral de uma estatís-


tica ou estimador é o modelo probabilístico que governa o comportamento da dita
estatística ou estimador.

Outra definição é:

Definição 1.2.2 (Distribuição amostral). A distribuição amostral de uma esta-


tística T é a função de densidade (ou probabilidade) de T ao longo de todas as
possíveis amostras.

Exemplo 1.2.1. Calcular as possíveis estimativas de


n
1X
X= Xi ,
n i=1

obtidas com as amostras de tamanho n = 2 com reposição das seguintes respostas


da população
{2, 4, 6, 8}.
Solução.
Nossas amostras seriam {2, 4, 6, 8}×{2, 4, 6, 8}. Após calcular as médias de todas
as mostras, eu posso calcular a distribuição amostral da média para esta população
obtida com todas as amostras de tamanho 2, com reposição. □

Por isso se diz que a distribuição amostral vai depender da distribuição de X


e do plano amostral.

Teorema 1.2.1. Seja X uma variável aleatória com média µ e variância σ 2 , e seja
X1 , . . . , Xn uma a.a.s. de X. Então

σ2
E(X) = µ e Var(X) = .
n

12
Demonstração. ! !
n n
1X 1X
E(X) =E Xi Var(X) = Var Xi
n i=1 n i=1
n n
1X 1 X
= E(Xi ) = 2 Var(Xi )
n i=1 n i=1
1 1
= (E(X1 ) + · · · + E(Xn )) = 2 (Var(X1 ) + · · · + Var(Xn ))
n n
1 1
= nµ = µ = 2 nσ 2 = σ 2 /n
n n

Teorema 1.2.2 (Limite central). Para amostras aleatórias X1 , . . . , Xn retiradas de


uma população com média µ e variância σ 2 finita, a distribuição amostral da mé-
dia X aproxima-se, para n grande, de uma distribuição normal, com média µ e
2
variância σn .
σ2
 
2
Xi ∼ N (µ, σ ) ⇒ X ∼ N µ,
n
Definição 1.2.3 (Estatística Z). Seja X1 , . . . , Xn uma a.a.s. da população X, com
média µ e variância σ 2 finita, e X = (X1 + · · · + Xn )/n, então

X −µ n(X − µ)
Z= √ = ∼ N (0, 1).
σ/ n σ

Exemplo 1.2.2. Uma máquina enche pacotes com um determinado peso, o peso
segue uma distribuição normal N (500, 100). Se colhe uma amostra de n = 100
pacotes e se pesam, sabe-se que X tem uma distribuição N (500, 100/100 = 1).
Logo, se a máquina estiver regulada, a probabilidade de encontrarmos 100 pacotes
diferindo de 500 g de menos de 2 gramas será

P ( X − 500 < 2) = P (498 < X < 502) = P (−2 < Z < 2) ≈ 95%.

Ou seja, dificilmente 100 pacotes terão uma média fora do intervalo (498, 502).
Caso 100 pacotes apresentem média fora desse intervalo, podemos considerar
como um evento raro, e será razoável supor que a máquina esteja desregulada.

13
1.2.1 Distribuição amostral de uma proporção
Considere uma população em que a proporção de elementos portadores de certa
característica é p. Pode-se definir uma v.a. X da seguinte maneira:
1, se o indivíduo for portador da característica

X=
0, se o individuo não for portador da característica.
Logo,
µ = E(X) = p e σ 2 = Var(x) = p(1 − p)
Proposição 1.2.3. Para amostras aleatórias simples X1 , . . . , Xn , em que Xi tem
distribuição de Bernoulli com média µ = p e variância σ 2 = p(1 − p). Seja
Yn = X1 + · · · + Xn o total de indivíduos portadores da característica na amostra,
Yn ∼ B(n, p). Seja
Yn 1 1
pb = = Xi + · · · + X n ,
n n n
a proporção amostral de indivíduos portadores da característica, pelo teorema do
limite central (1.2.2)  
p(1 − p)
pb ∼ N p, .
n
Exemplo 1.2.3. Suponha que p = 30% dos estudantes de uma escola sejam mu-
lheres. Colhemos uma a.a.s. de n = 10 estudantes e se calcula p̂ a proporção de
mulheres na amostra. Qual a probabilidade de que p̂ difira de p em menos de 0.01?

Essa probabilidade é
P (|p̂ − p| < 0.01) = P (−0.01 < p̂ − p < 0.01).
Vimos que p̂ segue uma distribuição normal, logo
!
−0.01 p̂ − p 0.01
P (−0.01 < p̂ − p < −0.01) = P p <p <p
p(1 − p)/n p(1 − p)/n p(1 − p)/n
 
−0.01 0.01
=P √ <Z< √
0.0021 0.0021
= P (−0.07 < Z < 0.07)
= 0.056
Exercício 1.2.1. Qual é a distribuição da estatística
n
1 X
S2 = (Xi − X)2 ?
n − 1 i=1

14
Solução:
Considere uma a.a.s. X1 , . . . , Xn de uma v.a. X com distribuição N (µ, σ 2 ).
Assim,
X −µ
Z= ∼ N (0, 1),
σ
logo,
 2
2 X −µ
Z = ∼ χ21
σ
e n n  2
X
2
X Xi − µ
Q= Z = ∼ χ2n .
i=1 i=1
σ

Podemos somar e subtrair X:


n n  2
X
2
X Xi − µ
Q= Z =
i=1 i=1
σ
n  2
X Xi − µ − X + X
=
i=1
σ
n  2
X Xi − X + X − µ
=
i=1
σ
n  2 X n  2   n
X Xi − X X −µ X −µ X
= + +2 (Xi − X).
i=1
σ i=1
σ σ2 i=1

Uma vez que − X) = nX − nX = 0, Q se reduz a


Pn
i=1 (Xi

n  2 n  2
X Xi − X X X −µ
Q= +
i=1
σ i=1
σ
Pn 2
Xi − X
n  2
i=1
X X −µ
= +
σ2 i=1
σ
Pn 2
2 X −µ
i=1 (Xi − X)
2
= Q − n .
σ } |{z} σ2 }
χ2
| {z | {z
n
χ2(n−1) χ21

15
Note que Pn
i=1 (Xi − X)2 (n − 1)S 2
= ∼ χ2n−1 .
σ2 σ 2

Exercício 1.2.2. Determine a distribuição amostral da estatística

X −µ
t= √ .
S/ n

Solução: Suponha Z uma v.a. com distribuição normal padrão com média zero
e variância um e V uma variável aleatória com distribuição qui-quadrado com ν
graus de liberdade (χ2ν ). Se Z e V são independentes, então a variável
Z
t= p
V /ν
tem distribuição t-Student com ν graus de liberdade.
Considere uma a.a.s. X1 , . . . , Xn de uma Pv.a. X, em que X tem distribuição
N (µ, σ 2 ). Se X = (X1 , . . . , Xn )/n e S 2 = ni=1 (Xi − X)2 /(n − 1) é a variância
amostral,
X −µ

σ/ n
(n−1)S 2
tem distribuição normal padrão e σ2
∼ χ2n−1 , logo
X−µ

σ n
t= q
(n−1)S 2
(n−1)σ 2

(X − µ)σ
= √
Sσ/ n
X −µ
= √
S/ n
tem distribuição t-Student com n − 1 graus de liberdade.

1.2.2 Determinação do tamanho de uma amostra


Em certas ocasiões podemos querer determinar o tamanho da amostra a ser es-
colhida de uma população, de modo a obter um erro de estimação previamente
estipulado, com determinado grau de confiança.

16
Suponha que se queira determinar o tamanho n da amostra de modo que

P ( X − µ ≤ ε) ≥ γ,

com 0 < γ < 1 e ε é o erro amostral máximo que podemos suportar, ambos
valores fixados.
Sabemos que X −µ ∼ N (0, σ 2 /n) e portanto a equação acima pode ser escrita
 √ √ 
− nε nε
P (−ε ≤ X − µ ≤ ε) = P ≤Z≤ ≈ γ,
σ σ

com Z = (X − µ) n/σ. Dado γ, podemos obter zγ da N (0, 1), tal que P (−zγ <
Z < zγ ) = γ, de modo que

nε σ 2 zγ2
=⇒ n = 2 .
σ = zγ ε

Note que conhecemos zγ e ε, mas σ 2 é a variância desconhecida da população.


Para podermos ter uma ideia sobre n devemos ter alguma informação prévia sobre
σ 2 ou, então, usar uma pequena amostra piloto para estimar σ 2 .

1.3 Propriedades dos estimadores


A inferência estatística tem por objetivo fazer generalizações sobre uma população,
com base nos dados de uma amostra. O primeiro passo é realizar a estimação dos
parâmetros do modelo.

Exemplo 1.3.1. Desejamos comprar um rifle e, após algumas seleções, restaram


quatro alternativas que chamaremos de rifle A, B, C e D. Foi feito um teste com
cada rifle, que consistiu em fixá-lo num cavalete, mirar o centro de um alvo e
disparar 15 tiros.
Para analisar qual a melhor arma, podemos fixar critérios. Por exemplo,

• em média acertar o alvo.

• não ser muito dispersivo.

• menor preço.

Muitas vezes a solução deve ser um compromisso entre as propriedades.

17
A. B.

C. D.

Definição 1.3.1 (Acurácia). A acurácia mede a proximidade de cada observação


do valor alvo que se procura atingir.
Definição 1.3.2 (Precisão). A precisão mede a proximidade de cada observação
da média de todas as observações.
Considere uma amostra X1 , ..., Xn de uma v.a. que descreve uma característica
de interesse de uma população. Seja θ um parâmetro que desejamos estimar, como
por exemplo a média µ = E(X) ou a variância σ 2 = Var(X).
Definição 1.3.3 (Estimador). Um estimador T do parâmetro θ é qualquer função
das observações da amostra, ou seja, T = g(X1 , . . . , Xn ).

Estimador não-viesado
O problema de estimação é, então, determinar uma função T = g(X1 , . . . , Xn )
que seja próxima de θ segundo algum critério.
Definição 1.3.4 (Estimador não-viesado). Um estimador T é não-viesado para θ
se
E(T ) = θ
para todo θ. Se E(T ) ̸= θ, diz-se que T é viesado e E(T ) − θ é o viés de T .
Exemplo 1.3.2. Considere uma a.a.s. X1 , . . . , Xn de uma v.a. X. A média amos-
tral X é um estimador não-viesado de µ = E(X). A proporção amostral pb é um

18
estimador não-viesado da proporção p de indivíduos de uma população que tem
certa característica em comum. Assim, a média amostral e a proporção amostral
são bons estimadores em relação ao critério de não serem viesados.

Definição 1.3.5 (Estimativa). Estimativa é o valor assumido pelo estimador numa


amostra particular.

Exemplo 1.3.3. Uma amostra de n = 500 pessoas de uma cidade é escolhida. A


cada pessoa da amostra se pergunta se ela é favorável ou não a uma determinada
solução. Deseja-se estimar a proporção de pessoas na cidade favoráveis à solução
apresentada.
Se 300 pessoas responderam “sim” à pergunta, uma estimativa natural seria
300
p̂ = = 0.6.
500
Xi é um estimador de p, enquanto 0.6 ou 60% é uma estima-
Pn
p̂ = (1/n) i=1
tiva de p.

Exercício 1.3.1. Considere uma população com N elementos e a variância popu-


lacional n
1 X
σ2 = (Xi − µ)2 ,
N i=1
em que µ = (1/N ) ni=1 Xi é a média populacional. Um possível estimador para
P
σ 2 , baseado numa a.a.s. de tamanho n extraída dessa população, é
n
1X
2
σ
b = (Xi − X)2 .
n i=1

Esse estimador é não-viesado?

Solução. Temos que


n
X 2
b2 = (1/n)
σ Xi2 − X ,
i=1

logo,
n
2 1X 2
E[b
σ ]= E[Xi2 ] − E[X ].
n i=1

19
Mas, pela definição de a.a.s. e de variâmncia de uma v.a., E[Xi2 ] = Var(Xi ) +
2
(E[Xi ])2 = σ 2 + µ2 . Temos também pelo teorema 1.2.1 que E[X ] = Var(X) +
2
(E[X])2 = σn + µ2 .
Segue que
n  2 
2 1X 2 2 σ 2
E[b σ ]= (σ + µ ) − +µ ,
n i=1 n
ou seja,
σ2 σ2
 
2 1 2 2 2 2 2 1
σ ] = (n(σ + µ )) −
E[b −µ =σ − =σ 1− .
n n n n
Finalmente,  
2 n−1
E[b
σ ]= σ2.
n
Vemos que σ
b2 é viesado para σ 2 e o viés é dado por
σ2
σ 2 ) = E[b
V = V (b σ2] − σ2 = − .
n
Como esse viés é negativo, o estimador σ b2 em geral subestima o verdadeiro pa-
râmetro σ 2 . Por outro lado, o viés diminui com n, ou seja, formalmente, para
n → ∞, o viés de σ b2 tende a zero. Note também que o viés de σb2 é uma função
de σ 2 . Uma estimativa do viés seria dada por
2
σ
Vb = − ,
b
n
ou seja, substituímos o valor desconhecido de σ 2 por uma estimativa.
É fácil ver que para obter um estimador não-viesado de σ 2 basta considerar
(n(n − 1))bσ 2 , pois temos que
 
n
E b = σ2;
σ 2
n−1
Logo, se definirmos
n
2 1 X
S = (Xi − X)2 ,
n − 1 i=1
então E[S 2 ] = σ 2 e S 2 é um estimador não-viesado para σ 2 . Essa é a razão para
se usar n − 1 em vez de n como denominador da variância da amostra.

20
Estimador consistente
Definição 1.3.6 (Estimador consistente). Uma sequência {Tn } de estimadores de
um parâmetro θ é consistente se, para todo ε > 0,

P {|Tn − θ| > ε} → 0, n → ∞.

Exemplo 1.3.4. Considere a média X calculada para diversos tamanhos amostrais.


Obtemos uma sequência de estimadores {X, n = 1, 2, . . . }. À medida que n
cresce, a distribuição de X n torna-se mais concentrada ao redor da verdadeira
média µ.
Proposição 1.3.1. Uma sequência {Tn } de estimadores de θ é consistente se

lim E(Tn ) = θ,
n→∞

lim Var(Tn ) = 0.
n→∞

Exemplo 1.3.5. Considerando o resultado da proposição 1.3.1, vemos que X n e pb


são estimadores consistentes de µ e p, respectivamente. Observe que Var(X) =
σ 2 /n.

σ2
lim Var(X) = lim
n→∞ n→∞ n
= 0.

Exercício 1.3.2. Considere uma a.a.s. X1 , . . . , Xn , com Xi tendo distribuição


N (µ, σ 2 ). Seja
n
2 1 X
S = (Xi − X)2 ,
n − 1 i=1
este estimador é consistente para σ 2 ?

Estimador eficiente
Definição 1.3.7 (Estimador eficiente). Se T1 e T2 são dois estimadores não-viesados
de um mesmo parâmetro θ e ainda

Var(T1 ) < Var(T2 ),

então se diz que T1 é mais eficiente que T2 .

21
Exemplo 1.3.6. Considere uma população normal X, com parâmetros µ e σ 2 .
Deseja-se estimar a mediana da população. Por ser uma distribuição simétrica,
sabemos que µ = Md(X). Sendo X e md a média e a mediana de uma amos-
tra de tamanho n, qual dos dois estimadores é o melhor para estimar a mediana
população?

Solução: Sabemos que


X ∼ N (µ, σ 2 /n).
Pode-se demonstrar que

md ∼ N (Md(X), πσ 2 /2n).

Os dois estimadores são não-viesados, mas X é mais eficiente, pois


Var(md) πσ 2 /2n π
= 2
= > 1.
Var(X) σ /n 2
Conclui-se que para estimar a mediana dessa população, é preferível utilizar a
média da amostra como estimador.

Erro quadrático médio


Definição 1.3.8 (Erro quadrático médio). Considere uma a.a.s. X1 , . . . , Xn de
uma v.a. X, e seja T = g(X1 , . . . , Xn ) um estimador de θ. Chama-se de erro
quadrático médio (EQM) do estimador T o valor

EQM(T ; θ) = E[(T − θ)2 ].

Após alguns cálculos, pode-se mostrar que

EQM(T ; θ) = Var(T ) + (E[T ] − θ)2 .

Um menor erro quadrático médio indica um viés pequeno ou uma variância


pequena.

1.4 Méodos de estimação


Temos usado certos estimadores de parâmetros populacionais, como a média e va-
riância, simplesmente tentando “imitar” na amostra o que acontece na população.
Foi assim que se construiu X, por exemplo.

22
1.4.1 Estimadores de momentos
Definição 1.4.1 (Momento populacional). Se X for uma v.a. contínua com densi-
dade
f (x ; θ1 , . . . , θr ) dependendo de r parâmetros, então
Z ∞
µ1 = xf (x ; θ1 , . . . , θr )dx,
−∞

é o primeiro momento populacional. Essa medida dependerá geralmente dos


parâmetros θ1 , . . . , θr desconhecidos. De forma geral, o k-ésimo momento de X
é dado por
Z ∞
k
µk = E[X ] = xk f (θ1 , . . . , θr )dx, k = 1, 2, . . . .
−∞

Definição 1.4.2 (Momento amostral). Considere uma a.a.s. X1 , . . . , Xn de tama-


nho n da população. Definimos o k-ésimo momento amostral por
n
1X k
mk = X , k = 1, 2, . . . .
n i=1 i

O primeiro e segundo momento amostrais são m1 = X e m2 =


Pn
i=1 Xi2 /n.

Definição 1.4.3 (Estimador de momentos). Dizemos que θb1 , . . . , θbr são estimado-
res obtidos pelo método dos momentos se eles forem soluções das equações

mk = µk , k = 1, 2, . . . , r.

O procedimento consiste em substituir os momentos teóricos pelos respectivos


momentos amostrais.

Exemplo 1.4.1. Se X ∼ N (µ, σ 2 ), teremos as seguintes relações válidas para os


dois primeiros momentos populacionais:

E[X] = µ, E[X 2 ] = σ 2 + µ2 ,

do que obtemos
µ = E[X], σ 2 = E[X 2 ] − E 2 [X].

23
Os dois primeiros momentos amostrais são
n n
1X 1X 2
m1 = Xi = X e m2 = X .
n i=1 n i=1 i
Os estimadores obtidos pelo método dos momentos são
n
1X 2 2
bM = m1 = X e
µ σ
bM2
= m2 − m21 = b2 .
Xi − X = σ
n i=1
Algumas vezes os momentos populaconais envolvem o cálculo de funções
complicadas, o que dificulta a obtenção de fórmulas fechadas para estimadores
pelo método dos momentos.
Às vezes, pode-se ter mais de um estimador de momentos.
Exemplo 1.4.2. Considere uma v.a. Y que tem distribuição de Poisson com parâ-
metro λ > 0.
E[Y ] = Var(Y ) = λ,
logo,
bM = X ou λ
λ b2 .
bM = σ

1.4.2 Estimadores de mínimos quadrados


Método introduzido por Gauss em 1974, é uma técnica de otimização matemática
que procura encontrar o melhor ajuste para um conjunto de dados tentando mi-
nimizar a soma dos quadrados das diferenças entre o valor estimado e os dados
observados (tais diferenças são chamadas resíduos).
O método consiste em adotar como estimador a função que minimniza a soma
de quadrados dos desvios entre valores estimados e valores observados na amostra.
Definição 1.4.4 (Modelo linear). Considere y uma variável resposta e x uma
variável explicativa. y pode ser escrita como um modelo linear da varíavel ex-
plicativa x:
yi = α + βxi .
O modelo estimado é dado por
ybi = α
b + βx
b i,

onde se deve minimizar


X n n
X n
X
S(α, β) = e2i = (yi − ybi )2 = (yi − α b i )2 .
b − βx
i=1 i=1 i=1

24
Para minimizar a função S(α, β) derivamos em relação a cada um dos pa-
râmetros, igualamos a zero de modo a obter o valor das raízes e posterioremnte
derivamos uma segunda vez para conferir se os pontos encontrados são realmente
pontos de mínimo.

∂ ni=1 (yi − α b i )2
P
∂S(α, β) b − βx
=0⇒ =0
∂αb ∂αb
Pn b i )2
∂S(α, β) ∂ i=1 (yi − α b − βx
=0⇒ =0
∂ βb ∂ βb
Desenvolvendo as derivadas, tem-se
n
X n
X
yi = nb
α + βb xi
i=1 i=1
n
X n
X n
X
y i xi = α
b xi + βb x2i .
i=1 i=1 i=1

Assim,
αb = y − βx
b
Pn
(x − x)(yi − y)
βb = i=1Pn i 2
.
i=1 (xi − x)

Considere agora y um vetor de variáveis reposta e x uma matriz de variáveis


explicativas. y pode ser escrito como um modelo linear das variáveis explicativas
x.
y = xβ.
O modelo estimado é dado por
y
b = xβ.
b
Se deve minimizar
S(β) = eT e = (y − xβ)T (y − xβ) = yT y − yT xβ − β T xT y + β T xT xβ.
O mínimo é obtido ao se derivar S(β) em relação a β e igualar a zero:
∂S(β)
= 2xT y + 2xT xβ.
∂β
Assim,
βb = (xT x)−1 xT y.

25
Exercício 1.4.1. Um engenheiro está estudando a resistência y de uma fibra em
função de seu diâmetro x e notou que as variáveis são aproximadamente propor-
cionais. Isto é, elas obedecem à relação

y = θx,

em que θ é o coeficiente de proporcionalidade. Ele deseja estimar o parâmetro θ


baseado numa amostra de cinco unidades que, submetida a mensuração e testes,
produz os resultados:

x 1.2 1.5 1.7 2.0 2.6


y 3.9 4.7 5.6 5.8 7.0

Encontre a estimativa de mínimos quadrados de θ.

Solução. Inspecionando os resultados, conclui-se que θb = 3 parece ser um valor


razoável. Como verificar a qualidade dessa estimativa? Podemos utilizar o modelo
yb = 3x e ver como esse prevê os valores de y para os dados valores de x, e como
são as discrepâncias entre os valores observados e os estimados pelo modelo. Isso
nos sugere procurar a estimativa que torne mínima a soma dos quadrados dessas
discrepâncias. Matematicamente, o problema passa a ser o de encontrar o valor de
θ que minimize a função
5
X
S(θ) = (yi − θxi )2 .
i=1

O mínimo dessa função é obtido derivando-a em relação a θ e igualando o resultado


a zero, o que resulta
5
dS(θ) X
= (yi − θxi )(−2xi ) = 0.
dθ i=1

Resolvendo essa equação, obtemos


P5
xi yi
θbMQ = Pi=1
5 2
.
x
i=1 i

Usando os dados acima encontramos θb = 2.94, que conduz a um valor mínimo


para S(θ) de 0.94. Observe que esse valor é realmente menor do que o observado
para θ = 3, ou seja, 1.06.

26
1.4.3 Estimadores de máxima verossimilhança
O princípio da verossimilhança afirma que devemos escolher aquele valor do pa-
râmetro desconhecido que maximiza a probabilidade de obter a amostra particular
observada, ou seja, o valor que torna aquela amostra a “mais provável.”
Exemplo 1.4.3. Suponha que temos n provas de Bernoulli com P (sucesso) = p,
0 < p < 1 e X = número de sucessos. Devemos tomar como estimador aquele
valor de p que torna a amostra observada a mais provável de ocorrer.
Suponha, por exemplo, que n = 3 e obtemos dois sucessos e um fracasso. A
função de verossimilhança é
L(p) = P (2 sucessos e 1 fracasso) = p2 (1 − p).
Maximizando essa função em relação a p, obtemos
L′ (p) = 2p(1 − p) − p2 = 0 =⇒ p(2 − 3p) = 0,
do que seguem p = 0 ou p = 2/3. É fácil ver que o ponto máximo é pb = 2/3, que
é o estimador de máxima verossimilhança (EMV) de p.
De modo geral, o EMV do parâmetro p de uma distribuição binomial é
X
pbMV = .
n
O procedimento, pois, é obter a função de verossimilhança, que depende dos
parâmetros desconhecidos e dos valores amostrais, e depois maximizar essa função
ou o logaritmo dela, o que pode ser mais conveniente em determinadas situações.
Definição 1.4.5 (Máxima verossimilhança). A função de verossimilhança é defi-
nida por
L(θ; x1 , . . . , xn ) = f (x1 ; θ) . . . f (xn ; θ),
que deve ser encarada como uma função de θ. O estimador de máxima verossimi-
lhança de θ é o valor θbMV que maximiza L(θ; x1 , . . . , xn ).
Se denotarmos por x = (x1 , . . . , xn )T o vetor contendo a amostra, é costume
denotar a verossimilhança por L(θ; x).
Exemplo 1.4.4. Suponha que a v.a. X tenha distribuição exponencial, com parâ-
metro α > 0, desconhecido, e queremos obter a EMV desse parâmetro. A densi-
dade de X é dada por
, se x ≥ 0
 1 −x/α
α
e
f (x; α) =
0, se x < 0.

27
Considere uma a.a.s. X1 , . . . , Xn de X. A verossimilhança é dada por

n
Y
L(α; x) = f (xi ; α)
i=1
n
Y 1 −xi /α
= e
i=1
α
 n P
1 n
= e− i=1 xi /α
α

e a log-verossimilhança fica
n
X xi
ℓ(α; x) = log L(α | x) = −n log α − .
i=1
α

Derivando e igualando a zero obtemos que o EMV de α é


Pn
xi
bMV = i=1 = X,
α
n
que nada mais é do que a média amostral. Lembremos que, na distribuição expo-
nencial, E[X] = α, e portanto o estimador obtido é o esperado pelo senso comum.

No caso discreto, a função de verossimilhança pode ser escrita na forma

L(θ; x1 , . . . , xn ) = P (X1 = x1 | θ) . . . P (Xn = xn | θ).

1.5 Exercícios
Exercício 1.5.1. Observa-se uma sequência de ensaios de Bernoulli, independen-
tes, com parâmetro p, até a ocorrência do primeiro sucesso. Se X indica o número
de ensaios necessários:

i. Mostre que P (X = x) = (1 − p)x−1 p (distribuição geométrica).

ii. Repetiu-se o experimento n vezes, e em cada um deles o númnero de ensaios


necessário foi x1 , . . . , xn . Encontre o estimador de máxima verossimilhança
(MV) para p.

28
iii. Usando uma moeda, repetiu-se o experimento 5 vezes, e o número de ensaios
necessários até a ocorrência da primeira coroa foi 2, 3, 1, 4, 1, respectiva-
mente. Qual a estimativa de MV para p: “probabilidade de ocorrência de
coroa nessa moeda”? Existiria outra forma de estimar p?

Exercício 1.5.2. Seja X uma variável aleatória com distribuição de Poisson, com
parâmetro λ > 0. Obtenha o estimador de MV de λ, baseado em uma amostra de
tamanho n.

Exercício 1.5.3. Seja X uma v.a. com distribuição normal, com média µ e va-
riância 1. Obtenha o estimador de MV de µ, para uma amostra de tamanho n
X1 , . . . , X n .

29
2 Intervalos de confiança

2.1 Estimação intervalar


Na estimação pontual, os estimadores apresentados somente especificam um único
valor para o estimador. Esse procedimento não permite julgar qual a possível mag-
nitude do erro que se está cometendo. Desta necessidade, surge a construção de
intervalos de confiança, que são baseados na distribuição amostral do estimador
pontual.
Suponha que se deseja estimar a média µ de uma população qualquer e que para
tal é utilizada a média amostral X de uma amostra de tamanho n. Do teorema do
limite central 1.2.2:
X − µ ∼ N(0, σx2 ),
σ2
em que Var(X) = σX 2
= . Daqui, pode-se determinar qual a probabilidade de
n
se cometer erros de determinadas magnitudes. Por exemplo,

P (|X − µ| < 1.96σx ) =0, 95


P (−1.96σx < X − µ < 1.96σx ) =0, 95
P (X − 1.96σx < µ < X + 1.96σx ) =0, 95

Interpretação
Lembre que µ não é uma variável aleatória, e sim um parâmetro. Os intervalos de
confiança devem ser interpretados da seguinte forma:
Se se constrói um grande número de intervalos (aleatórios) da forma
 
X − 1.96σX ; X + 1.96σX ,

todos baseados em amostras de tamanho n, 95% deles conteriam o parâmetro µ.


Dizemos que γ = 0.95 é o coeficente de confiança.

30
Se T for um estimador do parâmetro θ e for conhecida a distribuição amostral
de T , sempre será possível achar dos valores t1 e t2 tais que
P (t1 < θ < t2 ) = γ,
a probabilidade interpretada como ateriormente, γ um valor fixo, 0 < γ < 1. Para
uma dada amostra, existirão dois valores fixos t1 e t2 e um intervalo de confiança
para θ com coeficiente de confiança γ será indicado como
IC(µ; γ) = (t1 ; t2 )
Para um coeficiente de confiança qualquer γ = 1 − α, se deve usar o valor
z1− α2 tal que P (−z1− α2 < Z < z1− α2 ) = γ, com z ∼ N(0, 1). O intervalo fica
IC(µ; γ) = (X − z1− α2 σX ; X + z1− α2 σX )
A amplitude to intervalo é L = 2z1− α2 √σn , que é uma constante, independente
de X. Se se constrói vários intervalos de confiança com o mesmo valor de n, σ e
γ, estes terão extremos aleatórios, mas todos terão a mesma amplitude L.
Exemplo 2.1.1. Considere uma população com distribuição binomial B(n, p). Ob-
tenha um intervalo de confiança para o parâmetro p. Seja X o “número de sucessos
nos n experimentos.” Pelo teorema do limite central (1.2.2),
X √
n
−p p − p)
n(b
Z=r = √ ∼ N(0, 1).
p(1 − p) pq
n

31
Se γ = 0.95, tem-se que

P (−1.96 ≤ Z ≤ 1.96) =0.95


 √ 
n(bp − p)
P −1.96 ≤ √ ≤ 1.96 =0.95
pq
 p p 
P −1.96 pq/n ≤ pb − p ≤ 1.96 pq/n =0.95
 p p 
P pb − 1.96 pq/n ≤ p ≤ pb + 1.96 pq/n =0.95

O valor de p é desconhecido, pode-se proceder de duas maneiras.


• usar o fato de que pq < 1/4.

 
1 1
P pb − 1.96 √ ≤ p ≤ pb + 1.96 √ = 0.95.
4n 4n
Para um γ qualquer, 0 < γ < 1,
z1− α2 z1− α2
 
P pb − √ ≤ p ≤ pb + √ = γ.
4n 4n

Conhecido como intervalo conservador.

32
• Substituir pq por pbqb, assim
r r !
pbqb pbqb
P pb − z1− α2 ≤ p ≤ pb + z1− α2 =γ
n n

Conhecido como intervalo otimista.


Observe que o intervalo otimista tem amplitude menor que o conservador.
Outra observação importante é que para intervalos conservadores e γ fixo, os
intervalos que se obtem para amostras diferentes (mas de mesmo tamanho n) terão
a mesma amplitude, dada por 2z1− α2 /4n.
Por outroplado, para intervalos de confiança otimistas, a amplitude do intervalo
será 2z1− α2 / pbqb/n que é variável de amostra para amostra, pois pb, e consequen-
temente qb, variará de amostra para amostra.
Exemplo 2.1.2. Numa pesquisa de mercado, n = 400 pessoas foram entrevistadas
sobre determinado produto e 60% delas preferiram a marca A. Aqui, pb = 0.6 e um
intervalo de confiança conservador para p com coeficiente de confiança γ = 0.95
será
 
1
IC(p; 0.95) = 0.6 ± 1.96 √
1600
=(0.6 ± 0.049)
=(0.551 ; 0.649)
Um intervalo de confiança otimista para p com coeficiente de confiança γ =
0.95 será

r !
0.6 × 0.4
IC(p; 0.95) = 0.6 ± 1.96
400
=(0.6 ± 0.048)
=(0.552 ; 0.648)
Observe que o intervalo otimista tem amplitude menor que o conservador.
Outra observação importante é que para intervalos conservadores e γ fixo, os
intervalos se obtem para amostras diferentes (mas de mesmo tamanho n) terão a
mesma amplitude, dada por 2z1− α2 /4n.
Por outroplado, para intervalos de confiança otimistas, a amplitude do intervalo
será 2z1− α2 / pbqb/n que é variável de amnostra para amostra, pois pb e, consequen-
temente qb variará de amostra para amostra.

33
2.1.1 Definições formais
Definição 2.1.1 (Intervalo confidencial). Seja X1 , . . . , Xn uma a.a.s. de uma po-
pulação com f.d.p. fx (x; θ), θ ∈ Θ e T1 = t1 (X1 , . . . , Xn ), T2 = t2 (X1 , . . . , Xn )
duas estatisticas tais que Pθ (T1 < T2 ) = 1, r(θ) uma função do parâmetro. O
intervalo aleatório (T1 ; T2 ) se denomina intervalo confidencial para a imagem de
θ sob r de 100(1 − α)% de confiança se

Pθ (T1 < r(θ) < T2 ) = 1 − α,

probabilidade que não depende de θ. T1 e T2 recebem os nomes de limite de confi-


ança infeior e limite de confiança superior, respectivamente, e o valor γ = 1 − α
recebe o nome de nível de confiança.
Definição 2.1.2 (Estimação por intervalo). O intervalo (t1 ; t2 ) como intervalo
particular do intervalo de confiança (T1 ; T2 ) se denomina estimação por intervalo
de 100(1 − α)% de confiança para a imagem de θ sob r.
Definição 2.1.3 (Intervalo unilateral). Seja X1 . . . Xn uma a.a.s. de uma população
com f.d.p. fx (x; θ), r(θ) uma função do parâmetro com δ < r(θ) < β.
• Se T1 = t1 (X1 . . . Xn ) é uma estatística, o intervalo aleatório (T1 , β) é um
intervalo unilateral de 100(1 − α)% de confiança para a imagem de θ sob r
se Pθ (T1 < r(θ)) = 1 − α, probabilidade que não depende de θ.

• Se T2 = t2 (X1 . . . Xn ) é uma estatística, o intervalo aleatório (δ, T2 ) é um


intervalo unilateral de 100(1 − α)% de confiança para a imagem de θ sob r,
se Pθ (r(θ) < T2 ) = 1 − α, probabilidade que não depende de θ.
Definição 2.1.4. Seja X1 . . . Xn uma a.a.s. de uma população com f.d.p. fx (x; θ)
e Ti = ti (X1 , . . . , Xn ), i = 1, 2, estatísticas tais que (T1 ; T2 ) é um intervalo de
confiança para θ. Se r(θ) é uma função estritamente monótona com domínio Θ e
imagem um subconjunto dos reais,

(r(T1 ) ; r(T2 ))

é um intervalo de confiança para a imagem de θ sob r quando a função r é estrita-


mente crescente e
(r(T2 ) ; r(T1 ))
é um intervalo de confiança para a imagem de θ sob r quando a função r é estrita-
mente decrescente.

34
2.2 Construção do intervalo de confiança
Definição 2.2.1 (Variável aleatória pivotal). Seja X1 . . . Xn uma a.a.s. de uma po-
pulação com f.d.p. fx (x; θ). Seja Qx = q(θ; X1 . . . Xn ) uma função das variáveis
aleatórias que pertencem à a.a.s. e do parâmetro θ. Qx é uma variável aleatória
pivotal para o parâmetro θ se a distribução de Qx não depende de θ.
Exemplo 2.2.1. Se X1 . . . Xn é uma a.a.s. de uma população N(µ, σ 2 ), X e S 2 a
média e a variância amostral, então

n(X − µ)
Qx =
S
é uma variável pivotal para µ.
Lembrando que a distribuição de Qx é t-Student com n − 1 graus de liberdade.
Qx é uma função de X1 . . . Xn através de X e S.

n(X − µ)
• ∼ N (0, 1)
σ
Pn 2
(n − 1)S 2 i=1 (Xi − X)
• = ∼ χ2(n−1)
σ2 σ2
• X e S 2 são estatisticamente independentes,

n(X − µ) (n − 1)S 2
e
σ σ2
também são independentes, e
√ √
n(X−µ)
σ n(X − µ)
Qx = q = ∼ t(n−1) .
(n−1)S 2 S
(n−1)σ 2

Uma vez definido 1 − α,


Pθ (a < Qx < b) = 1 − α,
continue com os passos intermediários que consistem em considerar eventos equi-
valentes até determinar o evento tal que
Pθ (T1 < r(θ) < T2 ) = 1 − α
e como consequência, o intervalo aleatório (T1 ; T2 ) será um intervalo de confiança
de 100(1 − α)% para r(θ).

35
Exemplo 2.2.2. Construa um intervalo de confiança para θ baseado em uma a.a.s.
X1 . . . Xn de uma população com f.d.p.
fx (x; θ) = θe−θx I(0,∞) (x).
Solução.
A variável aleatória Yi = 2θXi tem distribuição exponencial com parâmetro 1/2,
do que segue
FYi (y) =P (2θXi ≤ y)
 y
=P xi ≤
 y 2θ
=FXi , i = 1, . . . , n.

Z y

F Yi = θe−θxi dx
0
1 − θy
fYi =θ e 2θ

1 y
= e− 2 I(0,∞) (y).
2
Com base no resultadoo acima,
n
X n
X
Qx = Yi = 2θ Xi ∼ χ22n
i=1 i=1

é uma variável aleatória pivotal, que tem distribuição qui-quadrado com parâmetro
2n.
Considere o evento aleatório {a < Qx < b}. Tem-se que
n
!  
X a b
P0 = a < 2θ X i < b = P0 Pn < θ < Pn = 1 − α.
i=1
2 i=1 X i 2 i=1 X i

Para escolher a e b tal que tenhamos intervalos simétricos da distribuição, lem-


brando a figura do exemplo 2.1. Tomando os valores a = χ2α/2 e b = χ21− α , o
2
intervalo aleatório
χ21− α
!
χ2α/2
IC(θ, γ) = < θ < Pn 2
2 ni=1 Xi
P
2 i=1 Xi

é um intervalo de confiança 100(1 − α)% para o parâmetro θ. □

36
Teorema 2.2.1. Sob um caso regular de estimação, se T = t(X1 , . . . , Xn ) é um
estimador não-viesado para a imagem de θ sob uma função r cuja variância coin-
cide com o limite inferior de Cramer-Rao, baseado em uma a.a.s. X1 , . . . , Xn de
uma população com f.d.p. fx (x; θ), então a variável aleatória
p
nI(θ)
(T − θ) ∼ N(0, 1).
r′ (θ)

2.2.1 Estimação da média sob normalidade


Seja X1 , . . . , Xn uma a.a.s. de uma população com distribuição N(µ, σ 2 ). Se a
variância σ 2 é conhecida, um intervalo de confiança de 100(1 − α)% para µ é
obtido considerando a quantidade pivotal

n(X − µ)
Qx = ∼ N(0, 1),
σ
o ponto de partida é
 √ 
n(X − µ)
Pµ a < < b =1 − α
σ
√ 
Pµ aσ < n(X − µ) < bσ =1 − α
 
bσ aσ
Pµ X − √ < µ < X − √ =1 − α.
n n
O intervalo de confiança é
 
bσ aσ
IC(µ; γ) = X − √ ; X − √ .
n n
Qualquer escolha de a e b deve satisfazer a relação
Z b
fQx (q)dq = 1 − α ou FQx (b) − FQx (a) = 1 − α.
a

O intervalo de confiança de 100(1 − α)% para µ de longitude mínima sob a supo-


sição de que σ 2 é conhecida é
 
σ σ
IC(µ; γ) = X − z1− α2 √ ; X + z1− α2 √ .
n n

37
Exemplo 2.2.3. Uma máquina enche pacotes de café com uma variância igual a
100g2 . Ela estava regulada para encher os pacotes com 500g, em média. Agora,
ela se desregulou, e se quer saber qual é a nova média µ. Uma amostra de 25
pacotes apresentou uma média igual a 485g. Construa um intervalo de 95% de
confiança para µ.

 
σ σ
IC(µ; 0.95) = X − z1− α2 √ ; X + z1− α2 √
n n

Um intervalo de confiança de 100(1−α)% para µ de longitude mínima quando


a variância é desconhecida que considera a variável pivotal

n(X − µ)
Qx = ∼ t(n−1)
S
é dado por
 
S S
IC(µ; γ) = X − t1− α2 ;(n−1) √ ; X + t1− α2 ;(n−1) √ .
n n

Exemplo 2.2.4. Uma máquina enche pacotes de café. Ela estava regulada para
encher os pacotes com 500g, em média. Agora, ela se desregulou, e se quer saber
qual é a nova média µ. Uma amostra de 25 pacotes apresentou uma média igual a
485g e uma variância de 95g2 . Construa um intervalo de 95% de confiança para
µ.
Solução.

 
S S
IC(µ; 0.95) = X − t1− 0.05 ;(25−1) √ ; X + t1− 0.05 ;(25−1) √
2 n 2 n
r r !
95 95
= 485 − 2.064 ; 485 + 2.064
25 25

38
Teorema 2.2.2. Seja T um estimador de máxima verossimilhança não-viesado
para θ, cuja variância coincide com o limite inferior de Cramer-Rao e que satisfaz
as condições de regularidade. Então, para uma amostra suficientemente grande,
um intervalo de confiança de 100(1 − α)% de confiança para θ é
!
1 1
IC(θ; γ) = T − z1− α2 p ; T + z1− α2 p .
nI(T ) nI(T )

2.3 Estimação da proporção populacional


Seja X1 , . . . , Xn uma a.a.s. de uma população com distribuição de Bernoulli de
parâmetro p, um intervalo de confiança 100(1 − α)% para p é
r r !
pb(1 − pb) pb(1 − pb)
IC = pb − z1− α2 ; pb + z1− α2
n n

Levando em consideração que


1 1
I(p) = e I(T ) = I(b
p) = ,
p(1 − p) pb(1 − pb)
e considerando o teorema sobre os estimadores de máxima verossimilhança,
 
 z1− α2 z1− α2 
IC = pb − r ; p
b + r 
 1 1 
n n
pb(1 − pb) pb(1 − pb)
é, para uma amostra suficientemente grande, um intervalo de confiança de 100(1−
α)% de confiança para p.
Exemplo 2.3.1. Suponha que em n = 400 provas obtemos 80 sucessos. Calcule
um intervalo de confiança para p com γ = 0.90.
Solução.
80
Como pb = = 0.2 e qb = 1 − pb = 0.8, um intervalo de 90% de confiança é
400
r r !
0.2 · 0.8 0.2 · 0.8
IC(p; 90) = 0.2 − 1.645 ; 0.2 + 1.645
400 400

39
= (0.167 ; 0.233).
Considerando o intervalo conservador, se obtem:
IC(p; 90) = (0.159 ; 0.241).

Uma recomendação prática no caso do intervalo de confiança assintótico é ve-
rificar se nb
p > 5 e n(1
p − pb) > 5. Um outro intervalo de confiança para p baseado
na variável pivotal nI(p)(b p − p) é
 q q 
z1−α/2 pb(1−bp) z1−α/2 z1−α/2 pb(1−bp) z1−α/2
pb + 2n n
+ 4n2 pb + 2n n
+ 4n2
z1−α/2 − z1−α/2 z1−α/2 ; z1−α/2 + z1−α/2 z1−α/2
 
1+ n 1+ n 1+ n 1+ n

2.4 Intervalo de confiança para variância populaci-


onal
2.4.1 µ desconhecido
Seja X1 , . . . , Xn uma amostra aleatória de uma população com distribuição normal
de valor esperado µ e variância σ 2 . Se a média populacional µ é desconhecida, o
intervalo de 100(1 − α)% de confiança se baseia na variável pivotal
Pn
(Xi − X)2
Qx = i=1 2 ∼ χ2n−1
σ
(n − 1)S 2
=
σ2
A construção do intervalo de confiança é dada por
 Pn 2

i=1 (Xi − µ)
Pσ 2 a < < b =1 − α
σ2
σ2
 
1 1
Pσ 2 < Pn 2
< =1 − α
b i=1 (Xi − µ) a
 Pn 2
Pn 2

i=1 (Xi − µ) 2 i=1 (Xi − µ)
Pσ 2 <σ < =1 − α
b a
em que a = χ2α ;n e b = χ21− α ;n .
2 2

40
Definição 2.4.1 (IC para σ 2 com µ conhecido). O intervalo de 100(1 − α)% de
confiança para a variância populacional σ 2 quando a média populacional µ é co-
nhecida é dado por
Pn Pn !
2 2
(X i − µ) (X i − µ)
IC(σ 2 ; γ) = i=1
; i=1 2
χ1− α2 ;n χ α ;n
2

Exemplo 2.4.1. Uma das maneiras de manter sob controle a qualidade de um pro-
duto é controlar sua variabilidade. Uma máquina de encher pacotes de café está
regulada para enchê-los com média de 500g e desvio padrão de 10g. O peso de
cada pacote X segue uma distribuição N (µ, σ 2 ).
Colheu-se uma amostra de 16 pacotes considerando µ = 500g e calculou-se a
variância, obtendo-se 169g2 . Com esse resultado, você diria que a máquina está
desregulada com relação à variância com uma confiança de 95%?
Solução.

Pn Pn !
2 2
i=1 (Xi − µ) i=1 (Xi − µ)
IC(σ 2 ; γ) = ;
χ1− α2 ;n χ2α ;n
2
!
(16 − 1)169 (16 − 1)169
= ;
χ21− 0.05 ;16 χ20.05 ;16
2 2

=(87.8835 ; 366, 9658)


2.4.2 µ desconhecido
Seja X1 , . . . , Xn uma amostra aleatória de uma população com distribuição normal
de valor esperado µ e variância σ 2 . Se a média populacional µ é desconhecida, o
intervalo de 100(1 − α)% de confiança se baseia na variável pivotal
Pn
(Xi − X)2
Qx = i=1 2 ∼ χ2n−1 .
σ
Definição 2.4.2 (IC para σ 2 quando µ não é conhecido). Um intervalo de 100(1 −
α)% de confiança para σ 2 quando µ é desconhecido é dado por
Pn Pn !
2 2
(X i − X) (X i − X)
IC(σ 2 ; γ) = i=1
; i=1 2
χ21− α ;n−1 χ α ;n−1
2 2

41
!
(n − 1)S 2 (n − 1)S 2
= ;
χ21− α ;n−1 χ2α ;n−1
2 2

Exemplo 2.4.2. Uma das maneiras de manter sob controle a qualidade de um pro-
duto é controlar sua variabilidade. Uma máquina de encher pacotes de café está
regulada para enchê-los com média de 500g e desvio padrão de 10g. O peso de
cada pacote X segue uma distribuição N (µ, σ 2 ).
Colheu-se uma amostra de 16 pacotes e calculou-se a variância S 2 = 169g2 .
Com esse resultado, você diria que a máquina está desregulada com relação à va-
riância com uma confiança de 95%?
Solução.

Pn Pn !
2 2
i=1 (Xi − X) i=1 (Xi − X)
IC(σ 2 ; γ) = ;
χ21− α ;n−1 χ2α ;n−1
2 2
 
(16 − 1)169 (16 − 1)169
= ;
χ21−0.05;2;15 χ20.05;2;15
 
(16 − 1)169 (16 − 1)169
= ;
27.488 6.262
=(92.2221 ; 404.8227)

2.5 Estimação intervalar para duas populações


Considere duas populações P1 e P2 . Baseados em dados fornecidos por amostras
dessas populações X1 , . . . , Xn e Y1 , . . . , Yn as duas populações serão comparadas.
Uma pergunta que aparece frequentemente é a seguinte: o método A é melhor
do que o B? Em termos estatísticos ela equivale a comparar dois conjuntos de
informações, resultantes de medidas obtidas da aplicação de dois métodos a dois
conjuntos de objetos ou indivíduos.
Uma das dificuldades é a de caracterizar adequadamente a “igualdade” ou
“equivalência” de duas populações. Por exemplo, suponha que se deseja saber se
alunos de duas regiões, A e B, tiveram desempenhos iguais em um mesmo teste
nacional.

42
Suponha que se tem o resultado do teste para todos os alunos das duas regiões,
isto é, se conhecem as duas populações. Suponha que cálculos posteriores revela-
ram que
µA = µB e σA = σB .
Isso equivale a dizer que o desempenho nas duas regiões é equivalente?

µA = µB e σA2 = σB2 :

Este fato remete à necessidade de também mencionarmos a forma da distri-


buição. Especificada a forma, a igualdade dos parâmetros que identificam a curva
implica a igualdade ou coincidência das duas populações.

2.5.1 Intervalo de confiança para amostras pareadas


não são independentes
Quando as variáveis aleatórias X e Y representam variáveis nas mesmas uni-
dades de medida e que quantificam o mesmo aspecto da unidade estatística em
circunstâncias diferentes, considere a variável aleatória Xi − Yi , i = 1, 2, . . . , n, a
amostra aleatória (X1 , Y1 ), . . . , (Xn , Yn ) se denomina amostra pareada.
A amostra (X1 , Yn ), . . . , (Xn , Yn ) é uma amostra aleatória bivariada de uma
população cm distribuição normal bivariada, cuja função de densidade fX,Y (x, y)
é
  2  2   
1 x−µ1 y−µ2 x−µ1 y−µ2
fX,Y (x, y) ∝ exp − 2(1−ρ) σ1
− σ2
− 2ρ σ1 σ2

Definição 2.5.1 (IC para µd = µ1 − µ2 , amostras pareadas). Um intervalo de


100(1 − α)% de confiança para a diferença de médias

µd = µ1 − µ2 ,

43
com amplitude mínima é
 
Sd Sd
IC(µd ; γ) = D − t1− α2 ;n−1 √ ; D + t1− α2 ;n−1 √ ,
n n
em que
1. Di = Xi − Yi (D = X − Y )
2. D ∼ N (µ1 − µ2 , σ12 + σ22 − 2ρσ1 σ2 )
n n
1 X 1X
3. Sd2 = (Di − D)2 e D = Di .
n − 1 i=1 n i=1

D − µd
Qx = ∼ tn−1
Sd
D1 =X1 − Y1
.. ..
. .
Dn =Xn − Yn
1X
D= Di
n
n
2 1 X
Sd = (Di − D)
n − 1 i=1

Var(Xi − Yi ) ̸= Var(Xi ) + Var(Yi ), porque as amostras não são independentes.


A construção deste intervalo de confiança corresponde a um intervalo de 100(1−
α)% de confiança para µd = µ1 − µ2 sob normalidade e assumindo que a variância
σ12 + σ22 − 2ρσ1 σ2 é desconhecida. Portanto, constitui um caso particular de um
intervalo já desenvolvido.
IC para a média quando a variância é desconhecida.

2.5.2 Exemplo e exercícios


Exemplo 2.5.1. Em um estudo foram selecionados seis locais do rio e a concen-
tração de zinco (mg/L) determinada para a água da superfície e para a água mais
profunda em cada local.
Os dados sugerem que a concentração média verdadeira na água profunda ex-
cede a da água superficial com um nível de significância de 5%?

44
1 2 3 4 5 6
Profundo 0.430 0.266 0.567 0.531 0.707 0.716
Superficial 0.415 0.238 0.390 0.410 0.605 0.609
Diferença 0.015 0.028 0.177 0.121 0.102 0.107

Solução.
Um intervalo de 95% de confiança para a diferença de médias é
 
Sd Sd
IC(µd ; 0.95) = D − t1− 0.05 ;6−1 √ ; D + t1− 0.05 ;6−1 √
2 n 2 n
 
0.0607 0.0607
= 0.0917 − 2.571 √ ; 0.0917 + 2.571 √
6 6
= (0.0280 ; 0.1554)


Exercício 2.5.1. Considere t uma variável aleatória com 10 graus de liberdade.
Calcule:
(a) P (t < 2.228)

= 0.975

(b) P (t < a) = 0.90

a = 1.372

(c) P (t > b) = 0.01

b = 2.764

(d) P (t ≤ c) = 0.025

c = −2.228

Exercício 2.5.2. Considere t uma variável aleatória com 19 graus de liberdade.


Calcule:
(a) P (a < t < b) = 0.95, tal que P (t < a) = 0.025

a = −2.093. Resta apenas 0.025 de probabilidade de t > b, ou seja,


P (t > b) = 0.025. Assim, b = 2.093.

45
(b) P (a < t < b) = 0.90, tal que P (t > b) = 0.05
a = −1.729 ; b = 1.729.
Exercício 2.5.3. Considere uma população com distribuição normal com σ co-
nhecido.

(a) Qual é o coeficiente de confiança para o intervalo X ∓ 2.81σ/ n?
α
2.81 = z0.9975 =⇒ 1 − 2
= 0.9975 =⇒ α = (1 − 0.9975) · 2 =
0.005 =⇒ γ = 0.995.

(b) Qual é o coeficiente de confiança para o intervalo X ∓ 1.44σ/ n?
• 1.44 = z0.9251 =⇒ 1 − α2 = 0.9251 =⇒ α = (1 − 0.9251) · 2 =
0.1498 =⇒ γ = 0.8502.

2.6 IC para a diferença de médias em populações in-


dependentes
Seja X1 , . . . , Xn uma a.a.s. de tamanho n de uma população normal com valor
esperado µ1 e variância σ12 e Y1 , . . . , Ym uma a.a.s. de tamanho m de uma po-
pulação normal com valor esperado µ2 e variância σ22 . As duas populações são
estatisticamente independentes.

2.6.1 IC para µ1 − µ2 com σ12 e σ22 conhecidas


Um intervalo de 100(1 − α)% de confiança para a diferença de médias de duas
populações independentes, de amplitude mínima, quando σ12 e σ22 são conhecidas,
é construído considerando
σ12 σ22
   
X ∼ N µ1 , , Y ∼ µ2 , ,
n m
então
σ12 σ22
 
X − Y ∼ N µ1 − µ2 , + .
n m
Assim,
(X − Y ) − (µ1 − µ2 )
Qx = r ∼ N (0, 1)
σ12 σ22
+
n m

46
é uma variável pivotal para µ1 − µ2 .

Definição 2.6.1 (IC para µ1 −µ2 com σ12 e σ22 conhecidas). Um intervalo de 100(1−
α)% de confiança para a diferença de médias quando σ21 e σ22 são conhecidas é dado
por
r r !
σ12 σ22 σ12 σ22
IC(µ1 −µ2 ; γ) = (X − Y ) − z1− α2 + ; (X − Y ) + z1− α2 +
n m n m

Exemplo 2.6.1. A análise de uma a.a.s. de m = 20 espécies de aço tratado a frio


para determinar a resistência resultou em uma resistância média amostral de x =
20.5GPa. Uma segunda amostra aleatória de n = 25 espécimes de aço galvanizado
dos dois lados forneceu uma resistência média amostral de y = 23.9GPa.
Assumindo que as duas distribuições de resistência de rendimento sejam nor-
mais com σ1 = 2.8 e σ2 = 3.5, os dados indicam que as resistências médias reais
correspondentes µ1 e µ2 são diferentes? Considere α = 0.01.

r !
2.82 3.52
IC(µ1 − µ2 ; 0.99) = (20.5 − 23.9) ∓ 2.575 +
20 25
= (−5.8182, −0.9819)

IC para µ1 − µ2 com σ12 e σ22 desconhecidas e iguais


Um intervalo de 100(1 − α)% de confiança para a diferença de médias de duas
populações independentes, de amplitude mínima, sob a suspeição de que as vari-
âncias são desconhecidas, porém iguais σ12 = σ22 = σ 2 é construído considerando

(X − Y ) − (µ1 − µ2 )
r ∼ N (0, 1).
σ2 σ2
+
n m

Pn 2
(n − 1)S12 i=1 (Xi − X)
2
= 2
∼ χ2(n−1)
σ Pm σ 2
j=1 (Yi − Y )
2
(m − 1)S2
2
= 2
∼ χ2(m−1)
σ σ

47
Como as populações são independentes:
Pn 2
Pm 2
i=1 (Xi − X) + j=1 (Yi − Y )
∼χ2(n+m−2)
σ2
(n − 1)S12 + (m − 1)S22
∼χ2(n+m−2)
σ2
A partir dos resultados anteriores, a variável pivotal para µ1 − µ2 será
(X − Y ) − (µ1 − µ2 )
p
σ 1/n + 1/m (X − Y ) − (µ1 − µ2 )
Qx = s = r ∼ tn+m−2 ,
(n − 1)S12 + (m − 1)S22 1 1
Sp +
σ 2 (n + m − 2) n m
em que
(n − 1)S12 + (m − 1)S22
Sp2 =
n+m−2
é o estimador da variância comum σ .
2

Definição 2.6.2 (IC para µ1 − µ2 com σ12 e σ22 desconhecidas e iguais). Um in-
tervalo de confiança de 100(1 − α)% para a diferença de médias µ1 − µ2 quando
as variâncias são desconhecidas porém iguais σ12 = σ22 = σ 2 tem como limite
inferior r
1 1
(X − Y ) − t1− α2 ;n+m−2 Sp +
n m
e como limite superior
r
1 1
(X − Y ) + t1− α2 ;n+m−2 Sp +
n m
Exemplo 2.6.2. Considere os seguintes dados do acompanhamento de ingestão
de calorias diárias para uma amostra de adolescentes que afirmaram não comer
usualmente fast-food e outra amostra de adolescentes que sim.

fast-food ni xi si
Não 13 2258 1519
Sim 11 2637 1138

Os dados fornecem evidência para concluir que a ingestão calórica média ver-
dadeira para os dois grupos de adolescentes é a mesma considerando um nível de
significância de 0.05?

48
Solução.
Um itervalo de confiança de 95% para a diferença de médias µ1 − µ2 é dada por
r
1 1
IC(µ1 − µ2 ; 0.95) =(X − Y ) ∓ t1− α2 ;n+m−2 Sp +
n m
r r
(12)15192 + (10)11382 1 1
=(2258 − 2637) ∓ 2.074 +
13 + 11 − 2 13 11
=(−1533.7961 ; 775.7961)

IC para µ1 − µ2 com σ12 e σ22 desconhecidas e diferentes


Um intervalo de 100(1 − α)% de confiança para a diferença de médias de duas po-
pulações independentes de amplitude mínima, quando as variâncias populacionais
são desconhecidas e diferentes σ12 ̸= σ22 é baseado na variável pivotal

(X − Y ) − (µ1 − µ2 ) aprox.
T = r ∼ tν ,
S12 S22
+
n m
em que
2
S12 S22

+
n m
ν ≈  2 2  2 2
S1 S2
n m
+
n−1 m−1
aproximado para o menor inteiro.

Definição 2.6.3 (IC para µ1 − µ2 com σ12 e σ22 desconhecidas e diferentes). m


intervalo de 100(1 − α)% de confiança para a diferença de médias de duas popula-
ções independentes de amplitude mínima, quando as variâncias populacionais são
desconhecidas e diferentes σ12 ̸= σ22 é dado por
r r !
S12 S22 S12 S22
IC(µ1 − µ2 ; γ) = (X − Y ) − t1− α2 ;ν + ; (X − Y ) + t1− α2 ;ν +
n m n m

Exemplo 2.6.3. O exemplo 2.6.2, agora supondo que as variâncias são diferentes.

49
Solução.

Para o cálculo do intervalo de confiança, primeiro se devem calcular os graus


de liberdade
 2 2
S1 S22
+
n m
ν ≈  2 2  2 2
S1 S2
n m
+
n−1 m−1
2
2
11382

1519
+
13 11
=  2  2
2
1519 2 1138
13 11
+
13 − 1 11 − 1
=21.7276

assim, ν = 21.
Um intervalo de confiança de 100(1 − α)% de confiança para a diferença de
médias é dado por
r
S12 S22
IC(µ1 − µ2 ; γ) =(X − Y ) ∓ t1− α2 ;ν +
nr m
15192 11382
=(2258 − 2637) ± 2.080 +
13 11
=(−1508.9416, 750.9416)

2.6.2 IC para as variâncias populacionais


Sejam X1 , . . . , Xn uma a.a.s. de tamanho n de uma população normal com valor
esperado µ1 e variância σ12 e Y1 , . . . , Yn uma a.a.s. de tamanho m uma população
normal com média µ2 e variância σ22 . As duas populações são estatisticamente
independentes.

50
IC para σ12 /σ22 com µ1 e µ2 conhecidas
Um intervalo de 100(1 − α)% de confiança para a razão das variâncias σ12 /σ22 de
duas populações independentes, quando µ1 e µ2 são conhecidas, é baseado em
n m
(Yj − µ2 )2
P
(Xi − µ1 )2
P
i=1 j=1
∼ χ2n e ∼ χ2m ,
σ12 σ22
considerando estas variáveis e a independência das populações, se constrói a se-
guinte variável pivotal para a razão das variâncias
Pm 2 2
σ12 m 2
P
j=1 (Yj − µ2 ) /(mσ2 ) j=1 (Yj − µ2 ) /m
Qx = Pn 2 2
= 2 Pn ∼ Fm,n
i=1 (Xi − µ1 ) /(nσ1 ) σ2 i=1 (Xi − µ1 )2 /n
Usando a variável pivotal,

σ12 m
!
2
P
j=1 (Y j − µ 2 ) /m
Pσ12 ,σ22 a < 2 Pn < b =1 − α
σ2 i=1 (Xi − µ1 )2 /n
Pn Pn !
2 2 2
(X i − µ 1 ) /n σ (X i − µ 1 ) /n
Pσ12 ,σ22 i=1
a Pm 2 /m
< 12 < b Pm i=1
2
=1 − α
(Y
j=1 j − µ 2 ) σ 2 (Y
j=1 j − µ 2 ) /m

Definição 2.6.4 (IC para σ12 /σ22 com µ1 e µ2 conhecidas). O intervalo de 100(1 −
α)% de confiança para a razão das variâncias σ12 /σ22 com µ1 e µ2 conhecidas é
dado por
Pn Pn !
2 2
 2 
σ1 i=1 (X i − µ 1 ) /n i=1 (X i − µ 1 ) /n
IC 2 ; γ = Pm 2
F α2 ;m,n ; Pm 2
F1− α2 ;m,n
σ2 j=1 (Yj − µ2 ) /m j=1 (Yj − µ2 ) /m

Observação: Existe uma relação importante entre os quantis das distribuições


F dada por:
1
Fα;n,m = .
F1−α;m,n
Exemplo 2.6.4. Calcular:
1.
1
F0.10;8,10 = = 1/2.54 = 0.3937
F0.90;8,10

51
2.
1
F0.01;8,10 = = 1/4.56 = 0.2193
F0.99;15,10

Exemplo 2.6.5. Uma amostra de 20 veículos que viajam em estradas de cascalho


em um município com um limite de velocidade de 35mph (1mph = 1.6km/h) re-
sultou em um desvio padrão amostral de 8.6mph, enquanto outra amostra aleatória
de 20 veículos em um município com limite de velocidade de 55mph resultou em
um desvio padrão de 9.2mph.
O desvio padrão amostral foi calculado considerando que as velocidades mé-
dias são conhecidas e iguais aos respectivos limites. Calcule um intervalo de 90%
de confiança, pode concluir que as duas variâncias populacionais são idênticas?
Solução.

 2  
(n − 1)S12 /n (n − 1)S12 /n

σ1
IC 2 ; γ = F0.05;20,20 ; F0.95;20,20
σ2 (m − 1)S22 /m (m − 1)S22 /m
(19)8.62 /20 (19)8.62 /20
 
= 2.1241 ; .4708
(19)9.22 /20 (19)9.22 /20
= (0.4114 ; 1.8561)

IC para σ12 /σ22 com µ1 e µ2 desconhecidas


Um intervalo de 100(1 − α)% de confiança para a razão das variâncias σ12 /σ22 de
duas populações independentes quando µ1 e µ2 são desconhecidas é baseado na
variável pivotal

σ12 m 2
P
j=1 (Yj − Y ) /(m − 1)
Qx = 2 Pn ∼ Fm−1,n−1 .
σ2 i=1 (Xi − X)2 /(n − 1)

Definição 2.6.5 (IC para σ12 /σ22 com µ1 e µ2 desconhecidas). Um intervalo de


100(1 − α)% de confiança para a razão das variâncias σ12 /σ22 de duas populações
independentes quando µ1 e µ2 são desconhecidas é dado por
 2   2
S12

σ1 S1
IC 2 ; γ = F α ;m−1,n−1 ; 2 F1− α2 ;m−1,n−1
σ2 S22 2 S2

52
Exemplo 2.6.6. O mesmo de 2.6.5, porém, sem supor que conhecemos as médias.
 2 
8.6
IC ; 0.90 = (0.403 ; 1.8947)
9.22

2.6.3 IC para proporções


Um intervalo de 100(1−α)% de confiança para a diferença das proporções p1 −p2
de duas populações independentes é baseado em
   
p1 (1 − p1 ) p2 (1 − p2 )
pb1 ∼ N p1 , e pb2 ∼ N p2 , .
n m
Considerando estas variáveis e a independência das populações, tem-se
 
p1 (1 − p1 ) p2 (1 − p2 )
pb1 − pb2 ∼ N p1 − p2 , + ,
n m
sugerindo a seguinte variável pivotal
p1 − pb2 ) − (p1 − p2 )
(b
Qx = r ∼ N (0, 1)
pb1 (1 − pb1 ) pb2 (1 − pb2 )
+
n m
Considerando a variável pivotal
 
 p1 − pb2 ) − (p1 − p2 )
(b 
a < r pb (1 − pb ) pb (1 − pb ) < b = 1 − α
Pp1 ,p2  
1 1 2 2
+
n m
r
pb1 (1 − pb1 ) pb2 (1 − pb2 )
Pp1 ,p2 a + ≤ (bp1 − pb2 ) − (p1 − p2 )
n m
r !
pb1 (1 − pb1 ) pb2 (1 − pb2 )
≤b + =1−α
n m
r
pb1 (1 − pb1 ) pb2 (1 − pb2 )
Pp1 ,p2 −(bp1 − pb2 ) + a + ≤ −(p1 − p2 )
n m
r !
pb1 (1 − pb1 ) pb2 (1 − pb2 )
≤ −(b p1 − pb2 ) + b + =1−α
n m

53
r
pb1 (1 − pb1 ) pb2 (1 − pb2 )
Pp1 ,p2 p1 − pb2 ) − b
(b + ≤ (p1 − p2 )
n m
r !
pb1 (1 − pb1 ) pb2 (1 − pb2 )
≤ (b
p1 − pb2 ) − a + =1−α
n m
Definição 2.6.6 (IC para p1 − p2 ). Um intervalo de 100(1 − α)% de confiança para
a diferença das proporções p1 − p2 é dado por
r
pb1 (1 − pb1 ) pb2 (1 − pb2 )
IC(p1 − p2 ; γ) = (bp1 − pb2 ) − z1− α2 + ;
n m
r !
pb1 (1 − pb1 ) pb2 (1 − pb2 )
p1 − pb2 ) + z1− α2
(b +
n m
Exemplo 2.6.7. Para o lançamento da nova embalagem de um sabonete, a divisão
de criação estuda duas propostas:
• A: amarela com letras vermelhas,
• B: preta com letras douradas.
Eles acreditam que a proposta A chama a atenção em pelo menos 5% a mais que
a proposta B. Para verificar a validade de tal informação, conduziu-se o seguinte
experimento: em cada um de dois supermercados “semelhantes” foram colocados
sabonetes com cada tipo de embalagem, e a clientes selecionados aleatoriamente
foi perguntado se tinham notado o sabonete e que descrevessem qual a embalagem.
Construa um intervalo de 95% de confiança para a diferença das proporções. Os

Notaram?
Proposta Total
Sim Não
A 168 232 400
B 180 420 600
Total 348 652 100

resultados justificam ou não as suposições da divisão de criação?


Solução.
Da tabela, pbA = 168/400 = 0.42 e pbB = 180/600 = 0.3, assim
r !
pbA (1 − pbA ) pbB (1 − pbB )
IC(pA − pB ; γ) = (b pA − pbB ) ∓ z1− α2 +
n m

54
r !
0.42(1 − 0.42) 0.3(1 − 0.3)
= (0.42 − 0.3) ∓ 1.96 +
400 600
=(0.0593 ; 0.1807)

2.7 Tamanho da amostra sob normalidade


Para estimar o parâmetro µ, a média populacional, pode-se deduzir o tamanho da
amostra da expressão de um dos seus intervalos de confiança:
 
σ σ
P X − z1− α2 √ ≤ µ ≤ X + z1− α2 √ =1 − α
n n
 
σ σ
P −z1− α2 √ ≤ −X ≤ z1− α2 √ ≤ =1 − α
n n
 
σ
P |X − µ| ≤ z1− α2 √ =1 − α
n

P |X − µ| ≤ ε =1 − α

Fixando previamente como medida de precisão à estimação de µ o valor


σ
z1− α2 √ = ε,
n
o tamanho da amostra pode ser derivado como
 z1− α σ 2
2
n= .
ε
Definição 2.7.1 (n para estimar µ). Para estimar a média populacional µ, o tama-
nho amostral é  z1− α σ 2
2
n= .
ε
ε é chamado de erro máximo permitido na estimação de µ, ou margem de erro.
Com a denominação de confiança se faz referência ao valor 1 − α, e o valor σ
usualmente se estima de uma amostra piloto, caso não seja assumido conhecido.
Exemplo 2.7.1. O monitoramento extensivo de um sistema operacional de com-
putador sugeriu que o tempo de resposta a um comando de edição específico tem

55
distribuição normal com desvio padrão de 25 milissegundos. Um novo sistema
operacional foi instalado e se deseja estimar o tempo de resposta médio real µ do
novo ambiente. Supondo que os tempos de resposta ainda tenham distribuição
normal com σ = 25, que tamanho de amostra é necessário para garantir que o
intervalo de 95% de confiança estime a média com uma margem de erro de no
máximo 10?
 z1− α σ 2  1.96(25) 2
n= 2
= = (4.9)2 = 24.01.
ε 10
Uma vez que n deve ser um número inteiro, é necesário um tamanho de amostra
de 25.

2.7.1 Tamanho da amostra para estimar duas populações inde-


pendentes
Definição 2.7.2 (n para estimar µ1 − µ2 ). Para estimar a diferença de médias
de duas populações independentes, os tamanhos amostrais podem ser calculados
como  z1− α 2
n=m= 2
(σ12 + σ22 ),
ε
ε é chamado de erro máximo permitido na estimação de µ1 − µ2 , ou margem de
erro. Com a denominação de confiança se faz referência ao valor 1−α, e os valores
σ1 e σ2 usualmente se estimam de uma amostra piloto, caso não sejam assumidos
conhecidos.

2.7.2 Tamanho da amostra para estimar a proporção popula-


cional
Definição 2.7.3 (n para p). Para estimar a proporção populacional p, o tamanho
da amostra requerido é
 z1− α 2
n= 2
p(1 − p),
ε
cujo tamanho maior é dado por
 z1− α 2  1 
2
n= .
ε 4
ε é chamado de erro máximo permitido na estimação de p, ou margem de erro.
Com a denominação de confiança se faz referência ao valor 1 − α.

56
Exemplo 2.7.2. Se deseja realizar um estudo para verificar o número de ignições
de um tipo específico de substrato por um cigarro aceso. Uma estimativa pontual
de p é pb = 0.333. Qual deve ser o valor de n necessário para garantir uma margem
de erro de 0.10 com nível de confiança de 95%?
 z1− α 2  1   2
1.96
n= 2
= 0.333(1 − 0.333) = 85.3262.
ε 4 0.10

Uma vez que n deve ser um número inteiro, é necessário um tamanho de amostra
de 86.

57
3 Teste de Hipóteses

3.1 Definições
Será estudado um método de inferência, teste de hipóteses. Uma hipótese e uma
declaração sobre um parâmetro da população.
A definição de hipótese é mais genérica, mas o aspecto importante é que uma
hipótese faz uma declaração sobre a população. O objetivo de um teste de hipó-
tese é decidir, com base em uma amostra da população, qual de duas hipóteses
complementares é verdadeira.

Definição 3.1.1 (Hipótese estatística). Uma hipótese estatística é uma afirmação


ou conjectura sobre a distribuição de uma população, afirmação que usualmente
está associada a um subconjunto do espaço paramétrico Θ correspondente ao mo-
delo paramétrico que representa a população de interesse. Como notação, a afir-
mação é enunciada após as abreviações H0 e H1 .

Exemplo 3.1.1. Uma indústria usa como um dos componentes das máquinas que
produz um parafuso importado, que deve satisfazer algumas exigências. Uma des-
sas é a resistência à tração. Esses parafusos são fabricados por alguns países, e
as especificações técnicas variam de país para país. Por exemplo, o catálogo do
país A afirma que a resistência média à tração de seus parafusos é de 145kg, com
desvio padrão de 12kg. O país B diz que a média é de 155kg e o desvio padrão é
de 20kg.
Um lote desses parafusos, de origem desconhecida, será leiloado a um preço
muito convidativo. Para que a indústria saiba se faz ou não uma oferta, é necessá-
rio saber qual país produziu tais parafusos. O edital do leiloeiro afirma que, pouco
antes do leilão, será divulgada a resistência média X de uma amostra de 25 para-
fusos do lote. Qual a regra de decisão deve ser usada pela indústria para dizer se
os parafusos são do país A ou B?

58
Considerar como país produtor aquele para o qual a média da amostra mais se
aproximar da média da população. Assim, uma possível regra de decisão seria:
Se x ≤ 150 se diz que os parafusos são do país A; caso contrário, isto
é, x > 150, são do país B.
Suponha que, no dia do leilão, fôssemos informados que x = 148; de acordo
com as regras de decisão, os parafusos seriam do país A. Podemos estar enganados
nessa conclusão?
Um teste de hipóteses estatístico é um processo que finaliza com a decisão de
rejeitar ou não uma hipótese com base na informação de uma amostra aleatória
X1 , . . . , Xn de uma população que se supõe segue um modelo probabilístico cuja
função de densidade é fx (x; θ).
Definição 3.1.2 (Hipótese nula). As hipóteses sobre a qual a estrutura do processo
de teste se denomina hipótese nula é denotada por H0 e é enunciada por

H0 : θ ∈ Θ0 , Θ0 ⊆ Θ.

Definição 3.1.3 (Hipótese alternativa). A hipótese elegida como constraste para a


hipótese nula é chamada de hipótese alternativa, e é denotada por H1 , enunciada
por
H1 : θ ∈ Θ1 , Θ1 ⊆ Θ, Θ0 ∩ Θ1 = ∅.
Definição 3.1.4 (Sistema de hipóteses). A hipótese nula e alternativa constituem
o sistema de hipóteses do processo de teste de hipóteses, sistema que se enuncia
como 
 H0 : θ ∈ Θ0 ,
vs
H1 : θ ∈ Θ1 .

Definição 3.1.5 (Hipótese simples). Uma hipótese H : θ ∈ Θ′ , Θ′ ⊂ Θ é uma


hipótese simples se, com a afirmação, a função de densidade fX (x; θ) fica comple-
tamente especificada. Caso contrário o esquema se denomina hipótese composta.
Exemplo 3.1.2. Defina as hipóteses nula e alternativa como:
H0 : os parafusos são de origem B.


A média µ = 155 e desvio padrão σ = 20.




vs
H 1 : os parafusos são de origem A.



A média µ = 145 e o desvio padrão σ = 12.

59
Definição 3.1.6 (Teste). O processo de decidir (julgar) sobre a hipótese que leva a
um procedimento, regra ou norma que permite tomar a decisão adequada é deno-
minado teste.
Definição 3.1.7 (Região crítica). O teste usado dentro do julgamento da hipótese
nula H0 tem vinculado um conjunto do espaço de observações X. Este conjunto é
denotado por RC e está determinado pelo seu respectivo teste da seguinte forma:

Rejeitar a hipótese H0 se (x1 , . . . , xn ) ∈ RC.

O conjunto RC se denomina região crítica ou região de rejeição do teste para


julgar H0 . O conjunto X − RC constitui região de aceitação do teste para julgar
H0 .
Exemplo 3.1.3. Retomando o exemplo anterior, a região crítica é dada por

RC = {x ∈ R : x ≤ 150}.

O teste seria

Rejeita-se H0 se x ≤ 150, caso contrário, não se rejeita H0 .

3.1.1 Erros
Qualquer decisão tomada em uma hipótese estatística tem o risco de ser a opção
equivocada. Considere a seguinte analogia. No julgamento de uma pessoa por um
juiz, é possível concluir o processo com uma decisão que segue todasas normas e a
natureza das provas, mas que na realidade não é acertada em relação à veracidade
dos fatos, verdade que nem sempre o juiz pode conhecer inteiramente, pelo qual
se tem inocentes cumprindo sentenças, ou culpáveis com liberdade plena.
De forma similar aos erros que se podem cometer julgando pessoas, analo-
gamente, no teste de hipóteses estatísticos ocorrem riscos semelhantes. Se pode
rejeitar a hipótese nula quando se tem evidência estatística ou não rejeitar a hipó-
tese nula quando não se tem essa evidência. Qualquer uma das decisões pode levar
a um erro.
• Rejeitar a hipótese nula quando é verdadeira.

• Não rejeitar a hipótese nula quando ela é falsa.

• Erro do tipo I: Rejeitar H0 quando H0 é verdadeira.

60
Rejeitar H0 Não rejeitar H0
H0 verdadeira Erro do tipo I Correto
H0 falsa Correto Erro do tipo II

• Erro do tipo II: Não rejeitar H0 quando H0 é falsa.

Exemplo 3.1.4.

• Erro do tipo I: Dizer que os parafusos são de A quando na realidade são de


B.

• Erro do tipo II: Dizer que os parafusos são de B quando na realidade são
de A.

Definição 3.1.8 (Tamanho do teste). O tamanho do teste, tamanho da região crítica


RC, a probabilidade do erro tipo I ou nível do teste se denota usualmente por α e
está definido como

α = P (erro tipo I) = P (Rejeitar H0 | H0 é verdadeira).

É usual assumir α como um de três valores, α = 0.1, α = 0.05 ou α − 0.01, que


usualmente são referidos como 10%, 5% ou 1%, respectivamente.

A probabilidade de erro de tipo II é usualmente denotada por β.

β = P (erro tipo II) = P (Não rejeitar H0 | H0 é falsa).


Qual dos dois erros é o mais grave? Cada caso particular permitirá quantificar
as implicações de uma decisão errada.

Exemplo 3.1.5. Quando H0 for verdadeira, isto é, os parafusos forem de B, o


teorema do limite central (1.2.2) fornece

X ∼ N (155, 16).

Logo,

α =P (erro tipo I) = P (X ∈ RC | H0 é verdadeira)


=P (X ≤ 150 | X ∼ N (155, 16))

61
 
150 − 155
=P Z ≤
4
=P (Z ≤ −1.25)
=0.10565
=10.56%

Quando H0 for falsa, isto é, os parafusos forem de A, o teorema do limite


central (1.2.2) fornece
X ∼ N (145, 5.76).
Logo,

β =P (erro tipo II) = P (X ∈


/ RC | H0 é falsa)
=P (X ≥ 150 | X ∼ N (145, 5.76))
 
150 − 145
=P Z ≥
2.4
=P (Z ≥ 2.08)
=0.01876
=1.88%.

Com a regra de decisão adotada, se está cometendo o erro do tipo I com maior
probabilidade do que o erro do tipo II. De certo modo, essa regra de decisão pri-
vilegia a afirmação de que os parafusos são de A.

Rejeitar H0 Não rejeitar H0


H0 verdadeira Erro do tipo I
Correto
Os parafusos são de A α = 10.56%
H0 falsa Erro do tipo II
Correto
Os parafusos são de B β = 1.88%

Exercício 3.1.1. Se realizou um estudo com o propósito de substituir um medi-


camento existente por um novo baseando-se em análise da sua eficácia. Pode-se
assumir um modelo de Bernoulli para representar se a aplicação do medicamento
em um tipo de paciente tem o efeito esperado ou não e avaliar a eficácia por meio
de uma amostra de pacientes aos quais foi administrado o medicamento.
Seja θ a probabilidade de que o efeito da aplicação do novo medicamento em
um paciente seja o esperado e θ0 a eficácia quantificada do fármaco existente.

62
Considere o seguinte sistema de hipóteses.

 H0 : θ ≤ θ0
vs
H1 : θ > θ0

A hipótese nula pode ser traduzida como H0 : o novo medicamento é no máximo


tão eficaz quanto o atual. A decisão a ser tomada é: se deve manter o medicamento
vigente ou substituí-lo pelo novo?
• Erro do tipo I: colocar no mercado um medicamento com eficácia menor
ou igual que o atual,
• Erro do tipo II: Não colocar no mercado um medicamento com eficácia
maior que o atual.
Qual dos erros é o mais grave?
A primeira decisão implicaria perdas para o laboratório produtor enquanto o
segundo implicaria perdas de rentabilidade.
Do ponto de vista da saúde públicam as decisões podem ser valorizadas de
forma contrária. É mais grave consumir um fármaco de menor qualidade ou não
ter a possibilidade de consumir um altamente eficaz?
É um medicamento para a gripe ou um medicamento para curar um determi-
nado tipo de câncer?
Se observou que, fixada a região crítica, se obtiveram os valores dos erros tipo I
e tipo II α e β. Mas também se pode proceder de modo inverso: fixar um dos erros,
por exemplo α, e encontrar a regra de decisão que irá corresponder à probabilidade
de erro tipo igual a α.
Retome os dados sobre os parafusos. Considere α = 5%. Para encontrar a
regra de decisão corresponde, considere
erro do tipo I: Rejeitar H0 dado que H0 é verdadeira
5% =P (erro tipo I)
=P (x ≤ xc | X ∼ N (155, 16))
=P (Z ≤ −1.645).
Da transformação para a normal padrão se tem:
x − 155
−1.645 = =⇒ xc = 148.42.
4
A regra de decisão é

63
Rejeitar H0 se x ≤ 148.42.
RC = {x : x ≤ 148.42}
A probabilidade do erro tipo II é
erro tipo II: Não rejeitar H0 dado que H0 é falsa
β =P (erro tipo II)
=P (X > 148.42 | X ∼ N (145; 5.76))
=P (Z > 1.425)
=7.93%.
O procedimento no qual se fixa o erro tipo I, α, é bastante utilizado, porque
usualmente a decisão que se deve tomar não é apenas entre duas possíveis popula-
ções.
Neste caso não se pode especificar os parâmetros sob a hipótese alternativa H1 .
Como os parâmetros sob a hipótese alternativa são muitos, a melhor solução para
construir a regra de decisão é fixar α, a probabilidade de erro tipo I.
Como a hipótese alternativa é mais ampla, não se pode encontrar β, pois não
se tem um único valor para os parâmetros. Então, não se pode encontrar o erro
tipo II.
Definição 3.1.9 (Função característica da operação). A função característica da
operação de um teste de hipóteses é definida como
β(θ) = P (aceitar H0 | θ),
ou seja, β(θ) é a probabilidade de aceitar H0 considerada com função de θ.
Definição 3.1.10 (Função poder do teste). Considere a função
π(θ) = 1 − β(θ),
que é a probabilidade de se rejeitar H0 como função de θ. Essa função é chamada
função poder do teste.

64
3.2 Teste da razão de verossimilhança
Definição 3.2.1 (Teste da razão de verossimilhanças). Seja X1 , . . . , Xn uma a.a.s.
de uma população com função de densidade fX (x; θ). Considere o sistema de
hipóteses simples 
 H0 : θ = θ0
vs
H1 : θ = θ1

um teste definido como Rejeitar H0 se λ < k é denominado teste da razão de


verossimilhanças se
Qn
L(θ0 ; x1 , . . . , xn ) fX (xi ; θ0 )
λ= = Qi=1
n .
L(θ1 ; x1 , . . . , xn ) i=1 fX (xi ; θ1 )

Definição 3.2.2 (Teste da razão de verossimilhanças generalizado). Seja X1 , . . . , Xn


uma a.a.s. de uma população, com função de densidade fx (x; θ). Considere o sis-
tema de hipóteses simples 
 H0 : θ = Θ0
vs
H1 : θ = Θ1 ,

65
com Θ1 = Θ−Θ0 . O teste da razão de verossimilhanças generalizada corresponde
a Qn
supθ∈Θ0 L(θ; x1 , . . . , xn ) fX (xi ; θ0 )
λ= = Qi=1
n
supθ∈Θ L(θ; x1 , . . . , xn ) i=1 fX (xi ; θ1 )

Algumas considerações sobre λ:


• λ ∈ (0 ; 1].
• O numerador corresponde à função de máxima verossimilhança sob a hipó-
tese nula.
• O denominador corresponde à função de máxima verossimilhança avaliada
no estimador de máxima verossimilhança de θ.

Distribuição de λ Sob condições de regularidade e sob a hipótese nula, com


L(θ1 , . . . , θt ; u1 , . . . , uN ) a funçã de máxima verossimilhança das variáveis U1 , . . . , UN
e l0 o número de componentes especificadas na hipótese nula, a variável aleatória
−2 log(λ) converge em distribuição para uma variável aleatória com distribuição
qui-quadrano com ν graus de liberdade ν = l − l0 ,
−2 log(λ) ∼ χ2l−l0 .
Se rejeita H0 se −2 log(λ) > χ21−α;l−l0 .
Exemplo 3.2.1. Se realizou um treinamento com funcionários de um determinado
setor de uma empresa. O objetivo do treinamento foi determinar o menor número
de horas de treinamentos necessários para ocorrência do menor número de erros
de montagem.
A variável dependente Y é o número de erros de montagem e a variável inde-
pendente é a quantidade de horas de treinamento. Estes dados seguem um modelo
binomial e será ajustado a um modelo logístico. O modelo é definido por
 
pi
log = β0 + β1 x1i .
1 − pi
Se deseja verificar se a variável “horas de treinamento” é significativa para explicar
a variável erros de montagem através do teste da razão de verossimilhança. O
sistema de hipóteses é 
 H0 : β = 0
vs
H1 : β ̸= 0.

66
O valor da log-verossimilhança do modelo apenas com o intercepto L0 =
−1064.183 e do modelo com a covariável é L = −1035.089. Assim, o valor
da estatística do teste é

−2 log(λ) = −2(−1064.183 − (−1035.089)) = 58.188.

O quantil da qui-quadrado com um grau de liberdade χ20.95;1 = 3.841, logo, rejeita-


se a hipótese nula H0 . Portanto, a variável horas de treinamento é significativa para
o modelo.

3.2.1 Valor-p
Para realizar um teste de hipóteses, sua forma final deve ser de preferência simples.
Na medida do possível, deve-se conhecer a distribuição da estatística de teste com a
qual foi construído e seus quantis, precisamente para que o uso do teste de hipóteses
seja fácil.
O valor-p trata o valor particular da estatística como um percentil da mesma, é
a probabilidade associada ao valor particular da estatística.
Um teste de nível α pode ser transformado a uma forma equivalente utilizando-
se o recurso do p-valor da seguinte forma.

Rejeite H0 se o valor-p é inferior a α. Esta probabilidade associada


ao valor particular da estatística, o valor-p, corresponde a uma fun-
ção da probabilidade de que a variável aleatória que suporta o teste
seja menor do que o valor específico obtido da informação da amostra
particular.

Exemplo 3.2.2. Considere o exemplo 3.2.1 sobre o treinamento de funcionários


de determinado setor de uma empresa. O teste é dado por

Rejeite H0 se −2 log(λ) > χ20.95;1 = 3.841.

67
x = 140
p-valor= P (x < 140) < 0.05
RC = {x | x ≤ 148.42}
140 ∈ RC α = 0.05 = 5% P -valor< α

O p-valor neste caso é


p = P (−2 log λ > −2 log λc ) = P (−2 log λ > 58.148) < 0.0005.
Se o valor calculado da estatística é maior que o quantil χ21−α;1 , então p < α e,
como consequência, o teste pode ser expressado como
Rejeitar H0 se p < α.

3.2.2 Passos para a construção de um teste de hipóteses


1. Fixe qual a hipótese H0 a ser testada e qual a hipótese alternativa H1 .
2. Use a teoria estatística e as informações disponíveis para decidir qual estatís-
tica (estimador) será usada para testar a hipótese H0 . Obter as propriedades
dessa estatística (distribuição, média, desvio padrão).
3. Fixar a probabilidade de α de cometer erro tipo I e usar este valor para cons-
truir a região crítica (regra de decisão). Lembre que essa região é construída
para estatística definida no item anterior usando os valores do parâmetro hi-
potetizados por H0 .
4. Use as observações da amostra para calcular o valor da estatística de teste.
5. Se o valor calculado com os dados da amostra não pertencer à região crítica,
não rejeite H0 . Caso contrário, rejeite H0 .
Sempre que forem feitos testes de hipóteses, se deve tomar como a hipótese nula
H0 aquela que, rejeitada, conduza a um erro tipo I mais importante de evitar.

68
H0 : θ = Θ0
H1 : θ > Θ0

RC = {Zobs | Zobs > Zα }


p-valor < α =⇒ rejeita H0 .
p-valor > α =⇒ Não rejeita H0 .

3.3 Teste de hipóteses sob normalidade


Utilizar o modelo normal como assistente na tomada de decisões é uma prática
comum. Esta consideração deve ser entendida como caso particular dos conceitos
prévios da construção de testes de hipóteses e sua aplicação está sujeita a resultados
favoráveis de normalidade dentro do processo de teste de hipóteses.

3.3.1 Teste de hipóteses sobre µ com σ 2 conhecida


Seja X1 , . . . , Xn uma a.a.s. de tamanho n de uma população com distribuição
normal de valor esperado µ e variância σ 2 conhecida. Pode-se considerar três
sistemas de hipóteses:
  
 H0 : µ = µ0  H0 : µ = µ0  H0 : µ = µ0
vs vs vs
H1 : µ < µ0 H1 : µ > µ0 H1 : µ ̸= µ0
  
unilateral à esquerda unilateral à direita bilateral

Considere a estatística
X −µ
Z= √ ∼ N (0, 1).
σ/ n

69
H0 : θ = Θ0
̸ Θ0
H1 : θ =

p-valor < α =⇒ rejeita H0 .


p-valor > α =⇒ Não rejeita H0 .

A distribuição da estatística Z é sob H0 . Seja zc o valor da estatística avaliada


nos dados da amostra. Considere um nível de significância α. As regiões críticas
são

A) RC = {zc | zc ≤ zα }.

B) RC = {zc | zc ≥ z1−α }.

C) RC = {zc | |zc | ≥ z1− α2 }.

O valor-p pode ser calculado como

A) p = ϕ(zc ).

B) p = 1 − ϕ(zc ).

C) p = 2(1 − ϕ(|zc |)).

Exemplo 3.3.1. Uma máquina automática para encher pacotes de café os enche
segundo uma distribuição normal com média µ e variância sempre igual a 400g2 .
A máquina foi regulada para µ = 500g. Deseja-se colher periodicamente uma
amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se µ =
500g ou não. Se uma dessas amostras apresentasse uma média de x = 492g, você
pararia ou não a produção para regular a máquina?

70
Solução.
Seja X o peso de cada pacote. Então X ∼ (µ, 400). O sistema de hipóteses é

 H0 : µ = 500
vs
H1 : µ ̸= 500,

pois a máquina pode se desregular para mais ou para menos. Dos dados do pro-
blema se tem que X ∼ N (µ; 400/16), em particular, sob H0 , se H0 for verdadeira,
X ∼ N (500, 400/16). A estatística de teste é

X − 500 X − 500
Z= √ = ∼ N (0, 1).
20/ 16 5

Considere α = 0.01 = 1%. A região crítica é

RC = {zc | |zc | ≥ z1− 0.01 = 2.575}.


2

O valor observado da estatística é


492 − 500
zc = = −1.6.
5
Como zc ∈ / RC, não se rejeita H0 a um nível de significância de 1%. O valor-p
da estatítica zc é 0.0548 × 2 = 0.1096. Como o valor-p é maior que o nível de
significância 1%, não se rejeita H0 .
Uma forma equivalente é
xc1 − 500
z1 = −2.575 = =⇒ xc1 = 487.1
5
xc − 500
z2 = 2.575 = 2 =⇒ xc2 = 512.9
5
assim,
RC = {x ∈ R | x ≤ 487.1 ou x ≥ 512.9}.
Como x = 492, a média amostral não pertence à região crítica e não se rejeita
H0 . Ou seja, o desvio da média da amostra para a média proposta por H0 pode ser
considerado como devido apenas ao sorteio aleatório dos pacotes.

71
3.3.2 Teste de hipóteses sobre µ com σ 2 desconhecido
Seja X1 , . . . , Xn uma a.a.s. de tamanho n de uma população com distribuição
normal de valor esperado µ e variância σ 2 desconhecida. Pode-se considerar três
sistemas de hipóteses:
  
 H0 : µ = µ0  H0 : µ = µ0  H0 : µ = µ0
vs vs vs
H1 : µ < µ0 H1 : µ > µ0 H1 : µ ̸= µ0
  
unilateral à esquerda unilateral à direita bilateral

Considere a estatística
X −µ
T = √ ∼ tn−1 .
S/ n
A distribuição da estatística T é sob H0 . Seja tc o valor da estatística avaliada
nos dados da amostra. Considere um nível de significância α. As regiões críticas
são
A) RC = {tc | tc ≤ tα;n−1 }.
B) RC = {tc | tc ≥ t1−α;n−1 }.
C) RC = {tc | |tc | ≥ t1− α2 ;n−1 }.
O valor-p pode ser calculado como
A) p = ϕ(tc ).
B) p = 1 − ϕ(tc ).
C) p = 2(1 − ϕ(|tc |)).
Exemplo 3.3.2. Um fabricante afirma que seus cigarros contém não mais que
30mg de nicotina. Uma amostra de 25 cigarros fornece média de 31.5mg e des-
vio padrão de 3mg. No nível de 5%, os dados refutam ou não a afirmação do
fabricante?
Solução.
O sistema de hipóteses é 
 H0 : µ = 30
vs
H1 : µ ≥ 30,

72
erro tipo I: dizer que os cigarros tem mais de 30mg de nicotina quando na verdade
tem menos de 30mg.

 H0 : µ = 30
vs
H1 : µ ≤ 30,

erro tipo I: dizer que os cigarros tem menos de 30mg de nicotina quando na verdade
tem mais de 30mg.
Supondo que X : “a quantidade de nicotina por cigarro” tenha distribuição
N (µ, σ 2 ), a estatística

X −µ X − 30
T = √ = √ ∼ t24 .
S/ n 3/ 25

Por ser um teste unilateral, se deve procurar o quantil 0.95 da distribuição t-Student,
t0.95;24 = 1.711. A região crítica é

RC = {tc | tc ≥ t1−α;n−1 = 1.711}.

O valor observado a estatística é


31.5 − 30
tc = √ = 2.5.
3/ 25

Como tc pertence à região crítica, rejeita-se H0 , ou seja, há evidências de que os


cigarros contenham mais de 30g de nicotina. O valor-p da estatística tc é 0.0098.
Como o valor-p é menor que o nível de significância 5%, rejeita-se H0 .
Uma forma equivalente é
x1 − 30
t = 1.711 = √ =⇒ x1 = 31.0266.
3/ 25

Assim,
RC = {X | X ≥ 31.0266}.
Como x = 31.5, a média amostral pertence à região crítica, portanto, rejeita-se H0 ,
ou seja, há evidências de que os cigarros contenham mais de 30g de nicotina. □

73
3.3.3 Teste de hipóteses para uma proporção populacional
Seja X1 , . . . , Xn uma a.a.s. deX
uma população com distribuição de Bernoulli de
parâmetro p. A estatística pb = Xi /n, a proporção amostral, é um estimador de
máxima verossimilhança não-viesado para p. Considere os sistemas de hipóteses
  
 H0 : p = p0  H0 : p = p0  H0 : p = p0
vs vs vs
H1 : p < p0 H1 : p > p0 H1 : p ̸= p0
  
unilateral à esquerda unilateral à direita bilateral

Pelo teorema do limite central (1.2.2), tem-se que


 
assi p(1 − p)
pb = X ∼ N p ; .
n

Sob H0 , considere a estatística


pb − p0
Z=q ∼ N (0, 1).
p0 (1−p0 )
n

Seja zc o valor da estatística avaliada nos dados da amostra. Considerando-se um


nível de significância α, as regiões críticas são:

A) RC = {zc | zc < zα }.

B) RC = {zc | zc > z1−α }.

C) RC = {zc | |zc | > z1− α2 }.

Observação: Alguns autores sugerem verificar que np > 5 e n(1 − p) > 5 para
garantir o correto uso do teste.

Exemplo 3.3.3. Uma estação de televisão afirma que 60% dos televisores estavam
ligados no seu programa especial da última segunda-feira. Uma rede competidora
deseja contestar essa afirmação e decide usar uma amostra de 200 famílias para
um teste. Qual deve ser o procedimento adotado para avaliar a veracidade dessa
afirmação?

74
Solução.
A afirmação pode ser refletida no seguinte sistema de hipóteses:

 H0 : p = 0.60
vs
H1 : p < 0.60.

A estatística a ser usada é pb, a proporção de 200 famílias que assistiram ao pro-
grama na última segunda-feira, e sabe-se que
pb − p pb − p
q =q ∼ N (0, 1)
p(1−p) p(1−p)
n 200

Por ser um teste unilateral, se deve procurar o quantil α da distribuição normal


padrão. Considerando α = 0.05, a região crítica será

RC = {zc | zc < zα = −1.645}


Uma forma equivalente é considerar
( r )
p0 (1 − p0 )
RC = pb pb ≤ zα + p0 .
n
Considerando α = 0.05,
( r )
0.24
RC = pb pb ≤ −1.645 + 0.60 = 0.5430 .
200
Admita que, da pesquisa feita com 200 famílias, 104 pessoas estavam assistindo
ao programa. A proporção amostral é
104
pb = = 0.52.
200
A estatística calculada com os dados da amostra é (sob H0 )
pb − p 0.52 − 0.60 −0.08
zc = q =q = = −2.3094.
p(1−p) 0.60(1−0.60) 0.0346
200 200

Como pb = 0.52 < 0.5430 ∈ RC ou tomado a outra alternativa, como zc =


−2.3094 < −1.645 ∈ RC, portanto, rejeita-se H0 . Isto é, há evidências de que
a audiência do programa de segunda-feira não foi de 60%, e sim inferior a esse
número.
p-valor: P (Z < −2.3094) Z ∼ N (0, 1). □

75
3.3.4 Teste de hipóteses sobre variâncias com µ conhecida
Seja X1 , . . . , Xn uma a.a.s. de tamanho n com distribuição normal de valor espe-
rado µ e variância σ 2 . Considere o sistema de hipóteses
  
 H0 : σ 2 = σ02  H0 : σ 2 = σ02  H0 : σ 2 = σ02
vs vs vs
2 2 2 2
H1 : σ < σ0 H1 : σ > σ0 H1 : σ 2 ̸= σ02
  
unilateral à esquerda unilateral à direita bilateral

Considere a estatística
Pn
2 i=1 (Xi − µ)2
Q = ∼ χ2n .
σ2
A distribuição da estatística Q2 é sob H0 . Seja Q2c o valor da estatística avaliada
nos dados da amostra. Considere um nível de significância α. As regiões críticas
são:

A) RC = {Q2c | Q2c ≤ χ2α;n }.

B) RC = {Q2c | Q2c ≥ χ21−α;n }.

C) RC = {Q2c | Q2c ≤ χ2α ;n ou Q2c ≥ χ21− α ;n }.


2 2

Uma forma equivalente é


χ2α;n σ02
 
1. RC = S S ≤
2 2
n
χ21−α;n σ02
 
2. RC = S S ≥
2 2
n
χ2α ;n σ02 χ21− α ;n σ02
( )
3. RC = S 2 S 2 ≤ 2 ou S 2 ≥ 2

n n

Exemplo 3.3.4. Uma das maneiras de manter sob controle a qualidade de um pro-
duto é controlar a sua variabilidade. Uma máquina de encher pacotes de café está
regulada para enchê-los com média de 500g e desvio padrão de 10g. O peso de
cada pacote de X segue uma distribuição N (µ, σ 2 ). Colheu-se uma amostra de 16
pacotes e observou-se uma variância de S 2 = 169g2 . Com esse resultado, você
diria que a máquina está desregulada com relação à variância?

76
Solução.
O sistema de hipóteses de interesse é

 H0 : σ 2 = 100
vs
H1 : σ 2 =
̸ 100.

Como X: “peso de cada pacote” é tal que X ∼ N (µ, σ 2 ) e considerando µ conhe-


cida, a estatística a ser considerada é
Pn
2 (Xi − X)2 (n − 1)S 2
Q = i=1 2 = ∼ χ216
σ σ2
O sistema de hipóteses consiste de uma hipótese bilateral, portanto, tem-se inte-
resse nos quantis χ2α ;16 e χ21− α ;16 . Considerando α = 5%, χ20.025;16 = 6.9077 e
2 2
χ20.975;16 = 28.8454, assim
RC = {Q2 | Q2 ≤ χ20.025;16 = 6.9077 ou Q2 ≥ χ20.975;16 = 28.8454}.
O valor observado da estatística é
15(169)
Q2c = = 25.35.
100
Como Q2c ∈ / RC, não se rejeita H0 , isto é, a máquina está sob controle quanto à
variância. □

3.3.5 Teste de hipóteses sobre variâncias com µ desconhecida


Seja X1 , . . . , Xn uma a.a.s. de tamanho n com distribuição normal de valor espe-
rado µ e variância σ 2 . Considere o sistema de hipóteses:
  
 H0 : σ 2 = σ02  H0 : σ 2 = σ02  H0 : σ 2 = σ02
vs vs vs
2 2 2 2
H1 : σ < σ0 H1 : σ > σ0 H1 : σ 2 ̸= σ02
  
unilateral à esquerda unilateral à direita bilateral

Considere a estatística
n
(Xi − X)2
P
i=1
Q2 = ∼ χ2n−1 .
σ2
A distrbuição da estatística Q2 é sob H0 . Seja Q2c o valor da estatística avaliada
nos dados da amostra. Considere um nível de significância α. As regiões críticas
serão:

77
A) RC = {Q2c | Q2c ≤ χ2α;n−1 }.

B) RC = {Q2c | Q2c ≥ χ21−α;n−1 }.

C) RC = {Q2c | Q2c ≤ χ2α ;n−1 ou Q2c ≥ χ21− α ;n−1 }.


2 2

Uma forma equivalente é


χ2α;n−1 σ02
 
1. RC = S S ≤
2 2
n−1
χ21−α;n−1 σ02
 
2. RC = S S ≥
2 2
n−1
χ2α ;n−1 σ02 χ21− α ;n−1 σ02
( )
3. RC = S S ≤
2 2 2
ou S ≥
2 2

n−1 n−1

Exemplo 3.3.5. Uma das maneiras de manter sob controle a qualidade de um pro-
duto é controlar a sua variabilidade. Uma máquina de encher pacotes de café está
regulada para enchê-los com média de 500g e desvio padrão de 10g. O peso de
cada pacote de X segue uma distribuição N (µ, σ 2 ). Colheu-se uma amostra de 16
pacotes e observou-se uma variância de S 2 = 169g2 . Com esse resultado, você
diria que a máquina está desregulada com relação à variância?
Solução.
O sistema de hipóteses de interesse é

 H0 : σ 2 = 100
vs
H1 : σ 2 =
̸ 100.

Como X: “peso de cada pacote” é tal que X ∼ N (µ, σ 2 ), a estatística a ser consi-
derada é Pn 2
2 i=1 (Xi − X) (n − 1)S 2
Q = 2
= 2
∼ χ216−1
σ σ
O sistema de hipóteses consiste de uma hipótese bilateral, portanto, tem-se inte-
resse nos quantis χ2α ;16−1 e χ21− α ;16−1 . Considerando α = 5%, χ20.025;15 = 6.2621
2 2
e χ20.975;15 = 27.4884, temos

RC = {Q2 | Q2 ≤ χ20.025;15 = 6.2621 ou Q2 ≥ χ20.975;15 = 27.4884}.

78
O valor observado da estatística é
15(169)
Q2c = = 25.35.
100
Como Q2c ∈ / RC, não se rejeita H0 , isto é, a máquina está sob controle quanto à
variância. □

3.4 Teste de hipóteses para duas populações


Seja X1 , . . . , Xn uma a.a.s. de tamanho n com distribuição normal de valor espe-
rado µ1 e variância σ12 . Da mesma forma seja Y1 , . . . , Ym uma a.a.s. de tamanho
m com distribuição normal de valor esperado µ2 e variância σ22 . Considere que as
duas populações são independentes. Podemos considerar os sistemas de hipóteses:
  
 H0 : µ1 − µ2 = δ0  H0 : µ1 − µ2 = δ0  H0 : µ1 − µ2 = δ0
vs vs vs
H1 : µ1 − µ2 < δ0 H1 : µ1 − µ2 > δ0 H1 : µ1 − µ2 ̸= δ0
  
unilateral à esquerda unilateral à direita bilateral

3.4.1 Teste de hipóteses sobre µ, σ12 e σ22 conhecidas


Considere a estatística
(X − Y ) − δ0
Z= r ∼ N (0, 1).
σ12 σ22
+
n m
A distribuição de Z é sob H0 . Considerando um nível de significância α, as
regiões críticas são
A) RC = {zc | zc ≤ zα }.
B) RC = {zc | zc ≥ z1−α }.
C) RC = {zc | |zc | ≥ z1− α2 }.
Exemplo 3.4.1. Duas técnicas de venda são aplicadas por dois grupos de vende-
dores: a técnica A, por 12 vendedores, e a técnica B, por 15 vendedores. Espera-se
que a técnica B produza melhores resulttados. No final de um mês, obtiveram-se
os resultados a seguir: Considere um nível de significância de 5% para verificar se
existem diferenças significativas nas vendas. Assuma que σ 2 = 64 é conhecida.

79
Vendas
Dados
Técnica A Técnica B
Média 68 76
Variância 50 75
Vendedores 12 15

Solução.
O sistema de hipóteses considerado é
 
 H0 : µA = µB  H0 : µA − µB = 0
vs ou vs
H1 : µA < µB , H1 : µA − µB < 0.
 

Do enunciado tem-se que n = 12, m = 15 e σ12 = σ22 = 64.


A estatística avaliada nos dados é
68 − 76 −8
zc = r = = −2.56.
642 642 3.0984
+
12 15

80
A um nível de significância de 5%, a região crítica é
RC = {zc | zc ≤ z0.05 = −1.645}.
Como zc = −2.56 < −1.645, rejeita-se H0 , ou seja, existe evidência de que a
técnica B produz melhores resultados do que a técnica A. □

3.4.2 Teste de hipóteses sobre µ, σ12 = σ22 = σ 2 desconhecidas


Os sistemas de hipóteses de interesse são:
  
 H0 : µ1 − µ2 = δ0  H0 : µ1 − µ2 = δ0  H0 : µ1 − µ2 = δ0
vs vs vs
H1 : µ1 − µ2 < δ0 H1 : µ1 − µ2 > δ0 H1 : µ1 − µ2 ̸= δ0
  
unilateral à esquerda unilateral à direita bilateral

Para a construção da estatística de teste, lembre-se que


(X − Y ) − δ0
r ∼ N (0, 1).
σ12 σ22
+
n m
e Pn Pm
2 2
i=1 (Xi − X) + j=1 (Yj − Y )
∼ χ2n+m−2 .
σ2
2
(n − 1)SX + (m − 1)SY2
∼ tn+m−2
σ2

Considerando os resultados anteriores e dado que as populações são indepen-


dentes,
(X − Y ) − δ0
q
σ n1 + m1 (X − Y ) − δ0
T = Pn 2
P m 2
= r ∼ tn+m−2 ,
i=1 (Xi − X) + j=1 (Yj − Y ) 1 1
Sp +
σ 2 (n + m − 2) n m
em que
Pn 2
Pm 2
2 i=1 (Xi − X) + j=1 (Yj − Y ) (n − 1)S12 + (m − 1)S22
Sp = = ∼ tn+m−2 .
n+m−2 n+m−2
Seja Tc o valor da estatística avaliada nos dados da amostra. Considere um
nível de significância α. As regiões críticas serão

81
A) RC = {Tc | Tc ≤ tα;n+m−2 }

B) RC = {Tc | Tc ≥ t1−α;n+m−2 }

C) RC = {Tc | |Tc | ≥ t1− α2 ;n+m−2 }

Exemplo 3.4.2. Duas técnicas de venda são aplicadas por dois grupos de vende-
dores: a técnica A, por 12 vendedores, e a técnica B, por 15 vendedores. Espera-se
que a técnica B produza melhores resulttados. No final de um mês, obtiveram-se
os resultados a seguir: Considere um nível de significância de 5% para verificar

Vendas
Dados
Técnica A Técnica B
Média 68 76
Variância 50 75
Vendedores 12 15

se existem diferenças significativas nas vendas. Assuma σ12 = σ22 = σ 2 constantes


desconhecidas.
Solução.
O sistema de hipóteses considerado é
 
 H0 : µA = µB  H0 : µA − µB = 0
vs ou vs
H1 : µA < µB , H1 : µA − µB < 0.
 

Do exercício, tem-se que n = 12, m = 15 e σ12 = σ22 = σ 2 constantes desconhe-


cidas.
O sistema de hipóteses consiste de uma hipótese unilateral. Considerando um
nível de significância de 5%, a região crítica é

RC ={Tc | Tc ≤ tα;n+m−2 }
={Tc | Tc ≤ t0.05;25 }
={Tc | Tc ≤ −1.708}.

O estimador de variância comum é


11SA2 + 14SB2 11(50) + 14(75)
Sp2 = = = 64
25 25

82
e
(X − Y ) − δ0 (68 − 76)
Tc = r = r = −2.56.
1 1 1 1
Sp + 8 +
n m 12 15
Como Tc = −2.56 < −1.708 ∈ RC, rejeita-se H0 , isto é, existe evidência de que
a técnica B produz melhores resultados do que a técnica A. □
Resolução em Python:
Solução.

from scipy . stats import t

mA = 68

mB = 76

s2A = 50

s2B = 75

n = 12

m = 15

Sp2 = (( n - 1) * s2A + ( m - 1) * s2B ) / ( n + m - 2)

import numpy as np

Sp = np . sqrt ( Sp2 )

Sp
Out [10]: 8.0

Tc = ( mA - mB ) / ( Sp * np . sqrt (1 / n + 1/ m ) )

Tc
Out [13]: -2.581988897471611

t . ppf (0.05 , n + m - 2)
Out [14]: -1.708140761251899

Tc <= t . ppf (0.05 , n + m - 2)

83
Out [15]: True

3.4.3 Teste de hipóteses sobre µ, σ12 ̸= σ22 desconhecidas


Considere os seguintes sistemas de hipóteses:
  
 H0 : µ1 − µ2 = δ0  H0 : µ1 − µ2 = δ0  H0 : µ1 − µ2 = δ0
vs vs vs
H1 : µ1 − µ2 < δ0 H1 : µ1 − µ2 > δ0 H1 : µ1 − µ2 ̸= δ0
  
unilateral à esquerda unilateral à direita bilateral

Considere a estatística
(X − Y ) − δ0
T′ = r .
S12 S22
+
n m
Sob H0 , a variável aleatória T ′ se aproxima de uma distribuição t de Student
com o número de graus de liberdade dado aproximadamente por
2
S12 S22

+
n m
ν ≈  2 2  2 2
S1 S2
n m
+
n−1 m−1
aproximado para o menor inteiro (Welch).
Seja Tc′ o valor da estatística avaliado nos dados da amostra. Considere um
nível de significância α. As regiões críticas são

A) RC = {Tc′ | Tc′ ≤ tα;ν }

B) RC = {Tc′ | Tc′ ≥ t1−α;ν }

C) RC = {Tc′ | |Tc′ | ≥ t1− α2 ;ν }

Exemplo 3.4.3. Se deseja testar as resistências de dois tipos de vigas de aço, A e B.


Tomando-se n = 15 vigas do tipo A e m = 20 vigas do tipo B, se obtiveram os va-
lores reportados na tabela abaixo. Considere que as variâncias são desconhecidas
e diferentes (σ12 ̸= σ22 ).

84
Tipo Média Variância
A 70.5 81.6
B 84.3 161.5

Solução.
O sistema de hipóteses considerado é
 
 H0 : µA = µB  H0 : µA − µB = 0
vs ou vs
H1 : µA ̸= µB , H1 : µA − µB ̸= 0.
 

Primeiro, devem ser calculados os graus de liberdade.


 2
81.6 161.5
+
15 20
ν≈ 2
81.6 161.5 2
 
15 20
+
15 − 1 20 − 1
≈32.9.

Aproximando para o menor inteiro, ν = 32.


Considerando um nível de significância α = 5%, a região crítica é
 
′ ′
RC = Tc |Tc | ≥ t1− 0.05 ;32 = {Tc′ | |Tc′ | ≥ 2.0369}.
2

A estatística avaliada nos dados da amostra é


(X − Y ) − δ0 (70.5 − 84.3) −13.8
Tc′ = r =r = = −3.75.
2
S1 2
S2 81.6 161.5 3.68
+ +
n m 15 20
Como |Tc′ | = 3.75 > 2.0369, rejeita-se H0 , ou seja, há evidências de que os dois
tipos de vigas tem resistências médias diferentes. □
Resolução em Python:
Solução.

85
meA = 70.5

meB = 84.3

s2A = 81.6

s2B = 161.5

n = 15

m = 20

nu = ( s2A / n + s2B / m ) **2 / ( ( s2A / n ) **2 / ( n - 1) + (


s2B / m ) **2 / ( m - 1) )

nu
Out [8]: 32.936348408710224

import math

nu = math . floor ( nu )

nu
Out [11]: 32

Tc = ( meA - meB ) / math . sqrt ( s2A / n + s2B / m )

Tc
Out [14]: -3.7537994071208995

from scipy . stats import t

t . ppf (1 - 0.05/2 , nu )
Out [16]: 2.036933343460101

abs ( Tc ) >= t . ppf (1 - 0.05/2 , nu )


Out [18]: True

3.4.4 Teste de hipóteses sobre σ 2


Seja X1 , . . . , Xn uma a.a.s. de tamanho n com distribuição normal de valor espe-
rado µ1 e variância σ12 . Da mesma forma seja Y1 , . . . , Ym uma a.a.s. de tamanho

86
m com distribuição normal de valor esperado µ2 e variância σ22 . Considere que as
duas populações são independentes. Podemos considerar os sistemas de hipóteses:
  
 H0 : σ12 = σ22  H0 : σ12 = σ22  H0 : σ12 = σ22
vs vs vs
H1 : σ12 < σ22 H1 : σ12 > σ22 H1 : σ12 ̸= σ22
  
unilateral à esquerda unilateral à direita bilateral

Para a estatística de teste, considere que

(n − 1)S12
2
∼ χ2n−1
σ
e
(m − 1)S22
2
∼ χ2m−1 ,
σ
portanto,
(n − 1)S12
/(n − 1) S12
F = σ2 = ∼ fn−1,m−1 .
(m − 1)S22 S22
/(m − 1)
σ2
A distribuição da estatística de teste é sob H0 .
Fixando α, considere fc o valor da estatística avaliada nos dados da amostra,
as regiões críticas são

A) RC = {fc | fc ≤ Fα;n−1;m−1 }

B) RC = {fc | fc ≥ F1−α;n−1;m−1 }

C) RC = {fc | fc ≤ F α2 ;n−1;m−1 ou fc ≥ F1− α2 ;n−1;m−1 }

Exemplo 3.4.4. Se deseja verificar se as máquinas produzem peças com a mesma


homogeneidade quanto à resistência à tensão. Para isso, foram sorteadas duas
amostras de seis peças de cada máquina. Obtiveram-se os resultados listados na
tabela a seguir. Considere um nível de significância de 10%.

Máquina A 145 127 136 142 141 137


Máquina B 143 128 132 138 142 132

87
Solução.
O sistema de hipóteses de interesse é
 
 H0 : σ12 = σ22  H0 : σA2 = σB2 = σ 2
vs ou vs
H1 : σ12 ̸= σ22 H1 : σA2 =
̸ σB2
 

Sob a suposição de normalidade das medidas de resistância à tensão, para aas


duas máquinas e sob H0 , a estatística de teste tem distribuição F5,5 . A estatística
de teste avaliada nos dados é
S12 40
fc = 2
= = 1.08.
S2 37
A um nível de significância α = 0.1, a região crítica é
RC = {fc | fc ≤ 0.1980 ou fc ≥ 5.05}.
Como fc = 1.08 ∈
/ RC, não se rejeita H0 , ou seja, as máquinas produzem com a
mesma homogeneidade quanto à variabilidade. □

3.4.5 Teste de hipóteses sobre p


Seja X1 , . . . , Xn uma a.a.s. de tamanho n de uma população com distribuição de
Bernoulli de parâmetro p1 e uma a.a.s. Y1 , . . . , Ym uma a.a.s. de tamanho m de
uma população com distribuição de Bernoulli de parâmetro p2 . Considere que as
duas populações são independentes. As hipóteses de interesse são:

  
 H0 : p1 − p2 = δ0  H0 : p1 − p2 = δ0  H0 : p1 − p2 = δ0
vs vs vs
H1 : p1 − p2 < δ0 H1 : p1 − p2 > δ0 H1 : p1 − p2 ̸= δ0
  
unilateral à esquerda unilateral à direita bilateral

Considere
   
p1 (1 − p1 ) p2 (1 − p2 )
pb1 ∼ N p1 ; e pb2 ∼ N p2 ; .
n m
A estatística de teste é
p1 − pb2 ) − δ0
(b
Z=r ∼ N (0 ; 1).
p1 (1 − p1 ) p2 (1 − p2 )
+
n m

88
Como os valores dos parâmetros são desconhecidos, substituem-se as variâncias
pelos seus estimadores:

p1 − pb2 ) − δ0
(b
Z=r ∼ N (0 ; 1).
pb1 (1 − pb1 ) pb2 (1 − pb2 )
+
n m
Se algum dos sistemas de hipóteses considera a hipótese nula H0 : p1 −p2 = 0,
a estatística de teste apropriada é

pb1 − pb2
Z= r ∼ N (0 ; 1),
 1 1
pb 1 − pb +
n m
nbp1 + mb p2
em que pb = , um estimador comum de p = p1 = p2 .
n+m
Fixando α, seja zc a estatística avaliada nos dados da amostra, as regiões críticas
são

A) RC = {zc | zc ≤ Zα }.

B) RC = {zc | zc ≥ Z1−α }.

C) RC = {zc | |zc | ≥ Z1− α2 }.

Exemplo 3.4.5. Para o lançamento da nova embalagem de um sabonete, a divisão


de criação estuda duas propostas:

A: amarela com letras vermelhas

B: preta com letras douradas

Eles acreditam que a proposta A chama a atenção em pelo menos 5% a mais do que
a proposta B. Para verificar a validade de tal informação, conduziu-se o seguinte
experimento: em cada um de dois supermercados “semelhantes” foram colocados
sabonetes com cada tipo de embalagem, e, a clientes selecionados aleatoriamente,
foi perguntado se tinham notado o sabonete e que descrevessem qual a embala-
gem. Construa um teste de hipóteses de 95% de confiança para a diferença das
proporções. Os resultados da pesquisa justificam ou não as suposições da divisão
de criação?

89
Notaram?
Proposta Total
Sim Não
A 168 232 400
B 180 420 600
Total 348 652 1000

Solução.
O sistema de hipóteses de interesse é

 H0 : pA − pB = 0.05
vs
H1 : pA − pB > 0.05

Fixado α = 0.05, a região crítica é

RC = {zc | zc ≥ 1.645}.

Dos dados da amostra, tem-se que pbA = 0.42 e pbB = 0.30. O valor da estatística é

(0.42 − 0.30) − (0.05)


zc = r = 2.26.
0.42(0.58) 0.30(0.70)
+
400 600
Como zc = 2.26 > 1.645 ∈ RC, rejeita-se H0 , ou seja, a proposta A chama a
atenção em pelo menos 5% a mais do que a proposta B. □

Exemplo 3.4.6. Considere novamente o problema do sabonete. Suponha que eles


não sabem se uma embalagem é ou não mais atraente do que a outra e a pesquisa
foi feita para responder essa questão.
Solução.
O sistema de hipóteses de interesse é
 
 H0 : pA − pB = 0  H0 : pA = pB
vs ou vs
H1 : pA − pB ̸= 0 ̸ pB
H1 : pA =
 

Fixando α = 0.05, a região crítica é

RC = {zc | |zc | ≥ 1.96}.

90
Dos dados da amostra,
nb
p1 + mb
p2 348
pb = = = 0.348
n+m 1000
é o estimador comum de p = pA = pB . O valor da estatística avaliada nos dados é
pb1 − pb2 0.42 − 0.30
zc = r = r = 8.1933.
1 1 1 1
p(1 − p) + 0.348(1 − 0.348) +
n m 400 600
Como zc = 8.1933 > 1.96 ∈ RC, rejeita-se H0 , ou seja, a proposta A chama a
atenção de forma diferente da proposta B. □

3.5 Teste de hipóteses para dados pareados


Considere duas amostras, X1 , . . . , Xn e Y1 , . . . , Yn , só que as amostras são pa-
readas, isto é, na realidade se tem uma amostra de pares (X1 , Y1 ), . . . , (Xn , Yn ).
Defina a variável aleatória D = X − Y . Tem-se uma amostra D1 , . . . , Dn , resul-
tante das diferenças entre os valores de cada par. O problema foi reduzido de duas
populações para uma população.
Suponha que a população das diferenças segue uma distribuição normal, D ∼
2
N (µD ; σD ).
Defina n n
1X 1X
D= Di = (Xi − Yi ) = X − Y .
n i=1 n i=1
e n
2 1 X
SD = (Di − D)2 .
n − 1 i=1
Podem ser considerados três sistemas de hipóteses:
  
 H0 : µD = δ0  H0 : µD = δ0  H0 : µD = δ0
vs ou vs ou vs
H1 : µD < δ0 H1 : µD > δ0 ̸ δ0
H1 : µD =
  

A estatística de teste é

(D − δ0 ) n(D − µD )
T = √ = ∼ tn−1 ,
SD / n SD

91
sob H0 .
Como

µD = E(D) = E(X − Y ) = E(X) − E(Y ) = µ1 − µ2 ,

qualquer afirmação sobre µ1 −µ2 corresponde a uma afirmação sobre µD . Fixando


α, seja tc o valor da estatística avaliada nos dados, as regiões críticas são

A) RC = {tc | tc ≤ tα;n−1 }

B) RC = {tc | tc ≥ t1−α;n−1 }

C) RC = {tc | |tc | ≥ t1− α2 ;n−1 }.

Exemplo 3.5.1. Cinco operadores de certo tipo de máquina são treinados em má-
quinas de duas marcas diferentes, A e B. Mediu-se o tempo que cada um deles
gasta na realização de uma mesma tarefa. Seguem os resultados.

Operador Marca A Marca B


1 80 75
2 72 70
3 65 60
4 78 72
5 85 78

Com o nível de significância α = 0.1, pode-se afirmar que a tarefa realizada


na máquina A demora mais que na máquina B?
Solução.
Como é o mesmo operador que realiza a tarefa nas duas máquinas, estamos em um
caso de variáveis emparelhadas. O sistema de hipóteses de interesse é
 
 H0 : µA = µB  H0 : µD = 0
vs ou vs
H1 : µA > µB H1 : µD > 0
 

Admita que, sob H0 , a diferença de tempo segue uma distribuição normal N (0, σD
2
).
Fixando α = 0.10, a região crítica é

RC = {tc | tc ≥ t1−0.10;5−1 = 1.54}

92
A estatística avaliada nos dados da amostra é
√ √
(D − δ0 ) n(D − µD ) (5 − 0) 5(5 − 0)
tc = √ = =√ √ = = 5.98.
SD / n SD 3.5/ 5 1.87

Como tc = 5.98 > 1.54 ∈ RC, rejeita-se H0 , ou seja, demora-se mais a realizar a
tarefa comum na máquina A. □

93
4 Testes qui-quadrado

4.1 Introdução
Os testes qui-quadrado englobam os testes de aderência, em que se tem tabelas de
uma única entrada, uma única variável, e testes de independência, em que se tem
tabelas de dupla entrada, duas variáveis.

Testes de aderência (Bondade de ajuste)

• Testar se um modelo probabilístico é adequado para um conjunto de dados


observados.

• Um teste de aderência serve para ajudar um pesquisador a decidir se os dados


que ele colheu (distribuição observada) se ajustam bem a uma distribuição
teórica (observada).

Testes de independência e/ou heterogeneidade

• Verificar se exiiste independência entre duas variáveis qualitativas medidas


nas mesmas unidades experimentais.

• Comparar duas ou mais populações com relação a uma variável categórica.

4.2 Testes de aderência


Considere uma variável aleatória X, que pode assumir k ≥ 2 categorias com
frequências esperadas ei , para i = 1, . . . , k, e deseja-se verificar a adequação ou
não de um certo modelo probabilístico baseados nas frequências observadas oi ,
pra i = 1, . . . , k.

94
Categoria 1 2 3 ... k Total
F. esperada e1 e2 e3 ... ek n
F. observada o1 o2 o3 ... ok n

Hipóteses do teste

• H0 : X segue o modelo proposto (H0 : oi = ei ∀i)

• H1 : X não segue o modelo proposto (H1 : oi ̸= ei para algum i)

Estatística do teste
k
2
X (oi − ei )2
Q = ,
i=1
ei
em que Q2 ∼ χ2k−1 supondo H0 verdadeira.

Observação: A amostra aleatória obtida é independente e identicamente distri-


buída, n é relativamente grande e ei ≥ 5, para todo i = 1, . . . , k.

Região crítica
RC = {Q2 | Q2 ≥ χ21−α;k−1 }.

Nível de significância

α = P (Q2 ≥ χ2(1−α;k−1) | H0 verdadeira).

Exemplo 4.2.1. Deseja-se verificar se o número de acidentes em uma estrada muda


conforme o dia da semana com um nível de significância de 5%. O número de aci-
dentes observados para cada dia de uma semana escolhida aleatoriamente foram:

Dia da semana Seg Ter Qua Qui Sex Sab Dom


Nº de acidentes 20 10 10 15 30 20 35

Solução.

95
Hipóteses do teste

• H0 : O número de acidentes não muda conforme o dia da semana.

• H1 : Pelo menos um dos dias tem número diferente dos demais.

Ou, equivalentemente:
1
• H0 : pi = para todo i = 1, . . . , 7
7
1
• H1 : pi ̸= para pelo menos um valor de i
7

Dia da semana Seg Ter Qua Qui Sex Sab Dom


Observados (oi ) 20 10 10 15 30 20 35
Esperados (ei ) 20 20 20 20 20 20 20

Cálculo da estatística do teste


k
2
X (oi − ei )2
Q =
i=1
ei
(20 − 20)2 (10 − 20)2 (35 − 20)2
= + + ··· +
20 20 20
=27.5

Região crítica Como χ20.95;6 = 12.59, temos que

RC = {Q2 | Q2 ≥ 12.59}.

Como Q2 ∈ RC, rejeitamos H0 , então, pelo menos um dos dias tem número
diferente dos demais.

4.3 Testes de independência


Os testes de independência são utilizados para testar a correlação entre variáveis
categóricas. Os indivíduos de uma amostra são estudados quanto a duas variáveis

96
qualitativas e os dados organizados em uma tabela de contingência. O único total
fixo (controlado pelo pesquisador) é o total de indivíduos estudados.

Classe i de Classe j da outra variável Total


uma variável 1 2 ... s
1 o11 (e11 ) o12 (e12 ) . . . o1s (e1s ) o1. = e1.
2 o21 (e21 ) o22 (e22 ) . . . o2s (e2s ) o2. = e2.
.. .. .. .. .. ..
. . . . . .
r or1 (er1 ) or2 (er2 ) ... ors (ers ) or. = er.
Total o.1 = e.1 o.2 = e.2 ... o.s = e.s n

Hipóteses do teste

• H0 : oij = eij , ∀i, j supondo indenpendência (as variáveis são independen-


tes).

• H1 : As variáveis não são independentes.

Estatística do teste r X s
X (oij − eij )2
Q2 = ,
i=1 j=1
eij

em que r e s representam o número de linhas e de colunas, respectivamente. Adi-


cionalmente, Q2 ∼ χ2(r−1)(s−1) , supondo H0 verdadeira.

Região crítica
RC = {Q2 | Q2 ≥ χ21−α;(r−1)(s−1) }.

Nível de significância

α = P (Q2 ≥ χ21−α;(r−1)(s−1) | H0 verdadeira).

Exemplo 4.3.1. Deseja-se verificar se existe dependência entre a renda e o número


de filhos em famílias de uma cidade.

97
Número de filhos
Renda 0 1 2 +2 Total
Menos de 2000 15 27 50 43 135
2000 a 5000 25 30 12 8 75
5000 ou mais 8 13 9 10 40
Total 48 70 71 61 250

Solução.

Hipóteses do teste
• H0 : As variáveis são independentes
• H1 : As variáveis não são independentes

Estatística do teste r X s
2
X (oij − eij )2
Q = ,
i=1 j=1
eij
em que r e s representam o número de linhas e de colunas, respectivamente. Adi-
cionalmente, Q2 ∼ χ2(r−1)(s−1) , supondo H0 verdadeira.

Cálculo da estatística do teste


α = 0.05, P (A ∩ B) = P (A)P (B)

P (R < 2 ∩ #0) =P (R < 2)P (#0) sob H0


135 48
= ·
250 250
135 48 135 · 48
E(R < 2 ∩ #0) = 250 · = = 25.92 = e11
250 250 250

Número de filhos
Renda 0 1 2 +2 Total
Menos de 2000 15(25.92) 27(37.80) 50(38.34) 43(32.94) 135
2000 a 5000 25(14.40) 30(21.00) 12(21.30) 8(18.30) 75
5000 ou mais 8(7.68) 13(11.20) 9(11.36) 10(9.76) 40
Total 48 70 71 61 250

98
r X s
2
X (oij − eij )2
Q =
i=1 j=1
eij
(15 − 25.92)2 (10 − 9.76)2
= + ··· +
25.92 9.76
=36.62.

Região crítica
RC = {Q2 | Q2 ≥ χ21−α;(r−1)(s−1) }.
Como χ20.95;(3−1)(4−1) = 12.59, temos que

RC = {Q2 | Q2 ≥ 12.59}.

Como Q2 ∈ RC, rejeitamos H0 , então, rejeitamos a independência entre o número


de filhos e renda familiar. □

4.4 Teste de comparação de proporções


Os testes de comparação de proporções são usados para comparar duas ou mais
populações quanto a uma variável qualitativa. Os tamanhos das amostras são fi-
xos. O pesquisador decide, para cada amostra, quando termina o levantamento
dos dados. Não são controladas as frequências categóricas, sendo estas variáveis
aleatórias.

Classe i da População j
Total
variável 1 2 ... s
1 o11 (e11 ) o12 (e12 ) . . . o1s (e1s ) o1. = e1.
2 o21 (e21 ) o22 (e22 ) . . . o2s (e2s ) o2. = e2.
.. .. .. .. .. ..
. . . . . .
r or1 (er1 ) or2 (er2 ) ... ors (ers ) or. = er.
Total o.1 = e.1 o.2 = e.2 ... o.s = e.s n

Hipóteses do teste

99
• H0 : A proporção de indivíduos em cada categoria é a mesma nas diferentes
populações amostradas (as populações não diferem com relação à variável
estudada)

• H1 : A proporção de indivíduos em cada categoria difere em ao menos uma


população.

Estatística do teste r X s
2
X (oij − eij )2
Q = ,
i=1 j=1
eij

em que r e s representam o número de linhas e de colunas, respectivamente. Adi-


cionalmente, Q2 ∼ χ2(r−1)(s−1) supondo H0 verdadeira.

Região crítica
RC = {Q2 | Q2 ≥ χ21−α;(r−1)(s−1) }.

Nível de significância

α = P (Q2 ≥ χ21−α;(r−1)(s−1) | H0 verdadeira).

Exemplo 4.4.1. Os pesquisadores de marketing sabem que a música de fundo pode


influenciar a disposição e o comportamento de consumo dos clientes. Um estudo
feito em um supermercado na Irlanda do Norte comparou três tratamentos: ne-
nhuma música, música francesa com acordeão e música italiana de cordas. Sob
cada condição, os pesquisadores registraram as quantidades de garrafas de vinho
francês, italiano e de outras nacionalidades que foram compradas. Os dados estão
na tabela a seguir

Música
Vinho Total
Nenhuma Francesa Italiana
Francês 30 (34.22) 39 (30.56) 30 (34.22) 99
Italiano 11 (10.72) 1 (9.57) 19 (10.72) 31
Outros 43 (39.06) 35 (34.88) 35 (39.07) 113
Total 84 75 84 243

Solução.

100
Hipóteses do teste
• H0 : O tipo de música não influencia na compra do vinho.

• H1 : O tipo de música influencia na compra do vinho.

Estatística do teste
r X s
2
X (oij − eij )2
Q =
i=1 j=1
eij
(30 − 34.22)2 (39 − 30.56)2 (35 − 39.07)2
= + + ··· +
34.22 30.56 39.07
=17.9646.

Região crítica
RC = {Q2 | Q2 ≥ χ21−α;(r−1)(s−1) }
Como χ20.95;(3−1)(3−1) = 9.49,

RC = {Q2 | Q2 ≥ 9.49}.

Q2 ∈ RC, logo, rejeita-se H0 , isto é, o tipo de música influencia na compra do


vinho.

Observação: As caselas que mais distorcem da suposição feita em H0 são as


correspondentes às vendas de vinho italiano com música francesa, no qual se ven-
deu uma unidade e o esperado eram 9.57 e do vinho italiano com música italiana,
no qual se venderam 19 vinhos e o esperado eram 10.72. □

4.5 Correção para continuidade de Yates


Quando o número esperado de observações for menor que 5, ei < 5, ou os graus de
liberdade forem iguais a um, é necessário fazer o uso de uma correção para garantir
que a distribuição assintótica seja efetivamente uma qui-quadrado. A correção de
continuidade de Yates consiste em subtrair 0.5 de cada diferença absoluta entre
números esperados e observados, antes de calcular o quadrado da diferença.
X (|o − e| − 0.5)2
Q2Y =
e
101
Exemplo 4.5.1. Em virtude dos protestos feitos sobre as más condições de trabalho
em certas fábricas de roupa tanto dentro quanto fora dos Estados Unidos, em 1998
uma comissão conjunta do governo e da indústria daquele país recomendou que as
empresas que monitoram e executam os padrões apropriados de produção tenham
a permissão de utilizar uma etiqueta “No Sweat” em seus produtos. Será que a
presença dessas etiquetas influencia o comportamento dos consumidores?
Uma pesquisa feita com residentes dos Estados Unidos e com idade igual ou
superior a 18 anos perguntou-lhes que chance haveria de eles comprarem uma
roupa, sob uma série de condições. Em algumas dessas condições, haveria na
roupa a etiqueta “No Sweat”, enquanto em outras, não. Com base nas respostas
dadas, cada entrevistado foi classificado como um “valorizador da etiqueta” ou um
“não-valorizador da etiqueta”. A tabela fornece o número n de sujeitos por sexo.

Valorizador Sexo Total


de etiqueta Mulheres Homens
Sim 63 27 90
Não 233 224 457
Total 296 251 547

Solução.

Hipóteses do teste
• H0 : Ser valorizador ou não da etiqueta é o mesmo para homens e mulheres.
• H1 : Ser valorizador ou não da etiqueta é diferente para homens e mulheres.

Valorizador Sexo Total


de etiqueta Mulheres Homens
Sim 63 (48.70) 27 (41.30) 90
Não 233 (247.30) 224 (209.70) 457
Total 296 251 547

Estatística do teste
r X s
X
2 (oij − eij )2
Q =
i=1 j=1
eij

102
(63 − 48.70)2 (224 − 209.70)2
= + ··· +
48.70 209.70
=10.9524.

Região crítica
RC = {Q2 | Q2 ≥ χ2(r−1)(s−1) }.
Como χ20.95;(2−1)(2−1) = 3.84, como os graus de liberdade são iguais a um, temos
que aplicar a correção de Yates. Portanto, a estatística fica dada por
r X s
2
X (|oij − eij | − 0.5)2
Q =
i=1 j=1
eij
(|63 − 48.70| − 0.5)2 (|224 − 209.70| − 0.5)2
= + ··· +
48.70 209.70
=10.1998.

Portanto,
RC = {Q2 | Q2 ≥ 3.84}.
Como Q2 ∈ RC, rejeita-se H0 , isto é, existe diferença entre ser valorizador da
etiqueta entre homens e mulheres.

4.6 Teste para o coeficiente de correlação


Quando se investiga a associação entre duas variáveis quantitativas, o artifício de
agrupar os dados em intervalos (classes) reduz a variável quantitativa a um caso
particular de variável qualitativa, podendo assim ser usada as mesmas técnicas de
análise desta última. Mas esse procedimento pode não ser o melhor possível, e o
uso do coeficiente de correlação como medida de associação entre variáveis quan-
titativas é o caminho mais apropriado. Para variáveis quantitativas o coeficiente
de correlação é uma medida de associação adequada.

Definição 4.6.1 (Coeficiente de correlação). Dados n pares de valores (x1 , y1 ),


. . . , (xn , yn ), o coeficiente de correlação entre as duas variáveis X e Y é definido
por
n   
1 X xi − x yi − y
corr(X, Y ) = ,
n i=1 σx σy

103
ou seja, a média dos produtos dos valores padronizados das variáveis. Escrita de
forma mais conveniente como
P
xi yi − nxy
corr(X, Y ) = p P ,
( xi − nx2 )( yi2 − ny 2 )
2
P

o numerador mede o total da concentração de pontos pelos quatro quadrantes.


Definição 4.6.2 (Covariância). Dados n pares de valores (x1 , y1 ), . . . , (xn , yn ), a
covariância entre duas variáveis X e Y é definida por
Pn
(xi − x)(yi − y)
cov(X, Y ) = i=1 ,
n
ou seja, a média dos produtos dos valores centrados das variáveis.
Definição 4.6.3 (Coeficiente de correlação). O coeficiente de correlação pode ser
escrito como
cov(X, Y )
corr(X, Y ) = .
σX σY
Seja ρ = ρ(X, Y ) o verdadeiro coeficiente de correlação populacional desco-
nhecido. Será apresentada a distribuição amostral de r, o coeficiente de correlação
amostral, para duas condições da população, ρ = 0 e ρ ̸= 0. Em ambos os ca-
sos, a distribuição amostral exige que a distribuição da variável aleatória (X, Y )
na população seja normal bidimensional.

4.6.1 Caso 1: ρ0 ̸= 0
Sejam (X1 , Y1 ), . . . , (Xn , Yn ) n pares de uma a.a.s. de uma população com dis-
tribuição normal bidimensional. Considere ρ0 ̸= 0. Os sistemas de hipótese de
interesse são
  
 H0 : ρ = ρ0  H0 : ρ = ρ0  H0 : ρ = ρ0
vs vs vs
H1 : ρ < ρ0 H1 : ρ > ρ0 H1 : ρ ̸= ρ0
  

Seja r o coeficiente de correlação amostral. Fisher sugeriu a seguinte transfor-


mação para a estatística r,
 
1 1+r
ξ = log ,
2 1−r

104
que tem uma distribuição muito próxima de uma normal N (µξ , σξ2 ), com
 
1 1 + ρ0 1
µξ = log e σξ2 = ,
2 1 − ρ0 n−3

sendo n o tamanho da amostra e ρ0 o valor sob H0 . A aproximação não vale para


ρ = −1 ou ρ = 1. Além disso, para ρ = 0, se tem um teste exato.
Seja ξc o valor da estatística avaliada nos dados da amostra. Considere um
nível de significância α. As regiões críticas serão

A) RC = {ξc | ξc ≤ µξ + zα σξ }

B) RC = {ξc | ξc ≥ µξ + z1−α σξ }

C) RC = {ξc | |ξc | ≥ µξ + z1− α2 σξ }

O valor-p pode ser calculado como

A) p = ϕ(ξc )

B) p = 1 − ϕ(ξc )

C) p = 2(1 − ϕ(|ξc |))

4.6.2 Caso 2: ρ0 = 0
Sejam (X1 , Y1 ), . . . , (Xn , Yn ) n pares de uma população com distribuição normal
bidimensional. Considere os sistemas de hipótese de interesse:
  
 H0 : ρ = 0  H0 : ρ = 0  H0 : ρ = 0
vs vs vs
H1 : ρ < 0 H1 : ρ > 0 H1 : ρ ̸= 0
  

Para amostras retiradas de uma população para a qual, sob H0 : ρ = 0, pode-se


provar que a estatística r
n−2
T =r ∼ tn−2 .
1 − r2
Seja tc o valor da estatística avaliada nos dados da amostra. Considere um nível
de significância α. As regiões críticas são

A) RC = {tc | tc ≤ tα;n−2 }

105
B) RC = {tc | tc ≥ t1−α;n−2 }

C) RC = {tc | |tc | ≥ t1− α2 ;n−2 }


Exemplo 4.6.1. Durante muito tempo, o coeficiente de correlação entre a nota final
num concurso de treinamento de operários e sua produtividade, após seis meses
do curso, resultou ser 0.50. Foram introduzidas modificações no curso, com o
intuito de aumentar a correlação. Se o coeficiente de correlação de uma amostra
de 28 operários submetidos ao novo curso foi 0.65, você diria que os objetivos da
modificação foram atingidos?
Solução.
Sejam X : “resultado no teste” e Y : “produtividade”. Assuma que (X, Y ) tem
distribuição normal bivariada. O sistema de hipóteses de interesse é

 H0 : ρ(X, Y ) = 0.50
vs
H1 : ρ(X, Y ) > 0.50

A estatística de teste é
 
1 1+r
ξ = log ∼ N (µξ , σξ2 ),
2 1−r
em que  
1 1 + 0.5
µξ = log = 0.549
2 1 − 0.5
e
1
σξ2 = = 0.04.
25
Como a hipótese alternativa sugere uma região crítica unilateral à direita, a região
crítica no nível de significância α = 0.05 será

RC = {ξc | ξc > 0.549 + 1.654 0.04} = {ξc | ξc > 0.878}.

Do enunciado, tem-se que r = 0.65. O valor da estatística é


 
1 1 + 0.65
ξc = log = 0.774.
2 1 − 0.65
Como ξc ∈ / RC, não se rejeita H0 , ou seja, não existe evidência de que o coeficiente
de correlação tenha aumentado. □

106
Exemplo 4.6.2. Se quer testar se existe ou não correlação entre o número de cli-
entes e os anos de experiência de agentes de seguros. Se sorteiam cinco agentes
e se observam duas variáveis. Os dados estão na seguinte tabela. Qual seria a
conclusão, baseando-se nesses dados? Considere α = 0.10.

Agente A B C D E
Anos de Experiência 2 4 5 6 8
Número de clientes 48 56 64 60 72

Solução.
Seja X : “número de clientes” e Y : “os anos de experiência de agentes de segu-
ros”. O sistema de hipóteses é:

 H0 : ρ(X, Y ) = 0
vs
H1 : ρ(X, Y ) ̸= 0

A estatística de teste é
r
n−2
T =r ∼ t5−2 .
1 − r2
Por ser um teste bilateral, fixando α = 0.10, a região crítica é

RC = {tc | |tc | ≥ 2.353}.

Calculando o coeficiente de correlação para os dados do exemplo, obtém-se


r = 0.95, logo r
3
tc = 0.95 = 5.269.
1 − 0.952
Como t0 ∈ RC, rejeita-se H0 , isto é, existe dependência entre os anos de experi-
ência e o número de clientes. □

4.6.3 Intervalo de confiança para ρ


Quando ρ = 0, seria conveniente construir um intervalo de confiança. Se deve
usar a estatística  
1 1+r
ε = log .
2 1−r

107
Essa quantidade, quando padronizada por ρ, torna-se uma variável pivotal.
Portanto, tomando como exemplo um coeficiente de confinaça γ, deve-se pro-
curar dois números ε1 e ε2 para ε, tais que
P (ε1 < ε < ε2 ) = γ.
Como ε ∼ N (µε , 1/(n − 3)), pode-se escrever
 
 ε1 − µ ε ε − µε ε2 − µ ε 
P
 r 1 < r 1 < r 1  = γ,

n−3 n−3 n−3


ou seja,
P (−z1− α2 < Z < z1− α2 ) = γ,
com Z ∼ N (0, 1). Logo, o intervalo para µε é
r r !
1 1
IC(ε; γ) = εc − z1− α2 ; εc + z1− α2 .
n−3 n−3
Dado que  
1 1+ρ
µε = log ,
2 1−ρ
pode-se obter as operações inversas para encontrar os extremos do intervalo para
ρ.
e2µε − 1
ρ = 2µε .
e +1
Assim, um intervalo de (1 − α)% de confiança para ρ tem como limites
• Limite inferior
  r 
1
exp 2 εc − z1− α2 −1
n−3
  r 
1
exp 2 εc − z1− 2
α +1
n−3
• Limite superior
  r 
1
exp 2 εc + z1− α2 −1
n−3
  r 
1
exp 2 εc + z1− α2 +1
n−3

108
Exemplo 4.6.3. Retomando o exemplo da relação entre o número e os anos de
experiência (4.6.2), deseja-se construir um intervalo de 95% de confiança para ρ.
 
1 1 + 0.95
εc = log = 1.832,
2 1 − 0.95

logo,
r r !
1 1
IC(µε ; 0.95) = εc − z1− α2 ; εc + z1− α2
n−3 n−3
=(1.832 − 1.384 ; 1.832 + 1.834)
=(0.448 ; 3.216).

Para obter o intervalo de confiança para ρ, avalie

e2µε − 1
ρ=
e2µε + 1
nos limites do intervalo de confiança para µε . Assim, o limite inferior é

e2(0.448) − 1
= 0.4203,
e2(0.448) + 1
e o limite superior é
e2(3.216) − 1
= 0.9968.
e2(3.216) + 1
Finalmente, se obtém

IC(ρ; 0.95) = (0.4203 ; 0.9968).

109

Você também pode gostar