Escolar Documentos
Profissional Documentos
Cultura Documentos
I Inferência Estatística 6
1 Estimadores 7
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Estatísticas e parâmetros . . . . . . . . . . . . . . . . . . 10
1.2 Distribuição amostral . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Distribuição amostral de uma proporção . . . . . . . . . . 14
1.2.2 Determinação do tamanho de uma amostra . . . . . . . . 16
1.3 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . 17
1.4 Méodos de estimação . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.1 Estimadores de momentos . . . . . . . . . . . . . . . . . 23
1.4.2 Estimadores de mínimos quadrados . . . . . . . . . . . . 24
1.4.3 Estimadores de máxima verossimilhança . . . . . . . . . 27
1.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 Intervalos de confiança 30
2.1 Estimação intervalar . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.1 Definições formais . . . . . . . . . . . . . . . . . . . . . 34
2.2 Construção do intervalo de confiança . . . . . . . . . . . . . . . . 35
2.2.1 Estimação da média sob normalidade . . . . . . . . . . . 37
2.3 Estimação da proporção populacional . . . . . . . . . . . . . . . 39
2.4 Intervalo de confiança para variância populacional . . . . . . . . . 40
2.4.1 µ desconhecido . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.2 µ desconhecido . . . . . . . . . . . . . . . . . . . . . . . 41
2.5 Estimação intervalar para duas populações . . . . . . . . . . . . . 42
2.5.1 Intervalo de confiança para amostras pareadas . . . . . . . 43
2.5.2 Exemplo e exercícios . . . . . . . . . . . . . . . . . . . . 44
1
2.6 IC para a diferença de médias em populações independentes . . . 46
2.6.1 IC para µ1 − µ2 com σ12 e σ22 conhecidas . . . . . . . . . . 46
2.6.2 IC para as variâncias populacionais . . . . . . . . . . . . 50
2.6.3 IC para proporções . . . . . . . . . . . . . . . . . . . . . 53
2.7 Tamanho da amostra sob normalidade . . . . . . . . . . . . . . . 55
2.7.1 Tamanho da amostra para estimar duas populações inde-
pendentes . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.7.2 Tamanho da amostra para estimar a proporção populacional 56
3 Teste de Hipóteses 58
3.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.1 Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2 Teste da razão de verossimilhança . . . . . . . . . . . . . . . . . 65
3.2.1 Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.2 Passos para a construção de um teste de hipóteses . . . . . 68
3.3 Teste de hipóteses sob normalidade . . . . . . . . . . . . . . . . . 69
3.3.1 Teste de hipóteses sobre µ com σ 2 conhecida . . . . . . . 69
3.3.2 Teste de hipóteses sobre µ com σ 2 desconhecido . . . . . 72
3.3.3 Teste de hipóteses para uma proporção populacional . . . 74
3.3.4 Teste de hipóteses sobre variâncias com µ conhecida . . . 76
3.3.5 Teste de hipóteses sobre variâncias com µ desconhecida . 77
3.4 Teste de hipóteses para duas populações . . . . . . . . . . . . . . 79
3.4.1 Teste de hipóteses sobre µ, σ12 e σ22 conhecidas . . . . . . 79
3.4.2 Teste de hipóteses sobre µ, σ12 = σ22 = σ 2 desconhecidas . 81
3.4.3 Teste de hipóteses sobre µ, σ12 ̸= σ22 desconhecidas . . . . 84
3.4.4 Teste de hipóteses sobre σ 2 . . . . . . . . . . . . . . . . . 86
3.4.5 Teste de hipóteses sobre p . . . . . . . . . . . . . . . . . 88
3.5 Teste de hipóteses para dados pareados . . . . . . . . . . . . . . . 91
4 Testes qui-quadrado 94
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2 Testes de aderência . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.3 Testes de independência . . . . . . . . . . . . . . . . . . . . . . . 96
4.4 Teste de comparação de proporções . . . . . . . . . . . . . . . . 99
4.5 Correção para continuidade de Yates . . . . . . . . . . . . . . . . 101
4.6 Teste para o coeficiente de correlação . . . . . . . . . . . . . . . 103
4.6.1 Caso 1: ρ0 ̸= 0 . . . . . . . . . . . . . . . . . . . . . . . 104
4.6.2 Caso 2: ρ0 = 0 . . . . . . . . . . . . . . . . . . . . . . . 105
2
4.6.3 Intervalo de confiança para ρ . . . . . . . . . . . . . . . . 107
3
Definições e teoremas
4
Definição 2.1.2 (Estimação por intervalo) . . . . . . . . . . . . . . . . 34
Definição 2.1.3 (Intervalo unilateral) . . . . . . . . . . . . . . . . . . . 34
Definição 2.1.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Definição 2.2.1 (Variável aleatória pivotal) . . . . . . . . . . . . . . . . 35
Teorema 2.2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Teorema 2.2.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Definição 2.4.1 (IC para σ 2 com µ conhecido) . . . . . . . . . . . . . . 41
Definição 2.4.2 (IC para σ 2 quando µ não é conhecido) . . . . . . . . . 41
Definição 2.5.1 (IC para µd = µ1 − µ2 , amostras pareadas) . . . . . . . 43
Definição 2.6.1 (IC para µ1 − µ2 com σ12 e σ22 conhecidas) . . . . . . . 47
Definição 2.6.2 (IC para µ1 − µ2 com σ12 e σ22 desconhecidas e iguais) . 48
Definição 2.6.3 (IC para µ1 − µ2 com σ12 e σ22 desconhecidas e diferentes) 49
Definição 2.6.4 (IC para σ12 /σ22 com µ1 e µ2 conhecidas) . . . . . . . . 51
Definição 2.6.5 (IC para σ12 /σ22 com µ1 e µ2 desconhecidas) . . . . . . . 52
Definição 2.6.6 (IC para p1 − p2 ) . . . . . . . . . . . . . . . . . . . . . 54
Definição 2.7.1 (n para estimar µ) . . . . . . . . . . . . . . . . . . . . 55
Definição 2.7.2 (n para estimar µ1 − µ2 ) . . . . . . . . . . . . . . . . . 56
Definição 2.7.3 (n para p) . . . . . . . . . . . . . . . . . . . . . . . . . 56
5
Parte I
Inferência Estatística
6
1 Estimadores
1.1 Introdução
Definição 1.1.1 (Inferência estatística). Seja X uma variável aletória (v.a.) com
função densidade (ou de probabilidade) f (x | θ), em que θ é um parâmetro des-
conhecido. Chamamos de inferência estatística o problema que consiste em es-
pecificar um ou mais valores para θ, baseado em um conjunto de valores de X.
Parece razoável supor que a distribuição das alturas dos brasileiros adultos
possa ser representada por um modelo normal (embora as alturas não possam as-
sumir valores negativos). Mas essa informação não é suficiente para determinar
qual a distribuição normal correspondente, precisaríamos conhecer os parâmetros
(média e variância) do modelo normal para que ele ficasse completamente espe-
cificado. O propósito seria descobrir (estimar) os parâmetros da distribuição para
sua posterior utilização.
amostra
população
7
amostragem
amostra
população análises
estimativas
inferência
Exemplos:
• Um estudo dos salários de uma companhia.
8
Amostra Número de experimentos que escolhi para testar a honestidade da
moeda
• Investigar a hipótese de que o tempo Y de reação a certo estímulo visual
dependa da idade do indivíduo.
População Definir interesse: homens, homens e mulheres, crianças etc.
Defina a população interesse com base no que você quer.
Amostra
Repetir um experimento muitas vezes, sob as mesmas condições, nem sempre
é possível (por exemplo, não podemos retirar muito sangue de um mesmo indi-
víduo para amostragem), mas em determinadas condições é possível determinar
teoricamente o comportamento de algumas medidas feitas na amostra, como por
exemplo a média. Mas isso depende, em grande parte, do procedimento (plano)
adotado para selecionar a amostra. Assim, em problemas envolvendo amostras,
antes de tomarmos uma decisão, teríamos de responder a quatro perguntas:
1. Qual a população a ser amostrada;
2. Como obter os dados (amostra);
Deve-se estudar amostragem para determinar qual o plano amostral para ga-
rantir que se tirará conclusões com certo grau de acurácia para sua popula-
ção. Pode acontecer que você tome uma amostra de modo que não consiga
responder algumas hipóteses de interesse.
3. Que informações pertinentes (estatísticas) serão retiradas da amostra?
4. Como se comportam as estatísticas quando o mesmo procedimento de esco-
lher a amostra é usado numa população específica;
Se pudéssemos retirar várias amostras para calcular a mesma estatística, po-
demos perguntar como se comporta essa estatística.
Vamos considerar nesse curso apenas amostras aleatórias simples com reposi-
ção. Pois a reposição garante a independência dos indivíduos, e independência é
muito importante para todos os desenvolvimentos em inferência.
Definição 1.1.4 (Amostra aleatória simples com reposição). Uma amostra aleató-
ria simples com reposição (a.a.s) é uma sequência ou sucessão finita de variáveis
aleatórias independentes e indeticamente distribuídas X1 , X2 , . . . , Xn , em que n
é chamado de tamanho da amostra ou tamanho amostral.
9
Porque é sucessão finita? Quando eu faço o experimento e observo o valor Xk ,
o valor é realizado, ela deixa de ser uma variável aleatória.
10
Definição 1.1.7 (Estimador). Qualquer estatística que assuma valores em Θ é um
estimador de θ, onde Θ é o espaço paramétrico do parâmetro θ.
análise
conclusiva
sobre a
população
população
Estatística
Para diferentes amostras teremos diferentes médias. Assim, teremos uma amos-
tra das médias. É com essas médias obtidas de diferentes amostras que iremos
estudar o comportamento da estatística. Lembrando que nossas amostras são in-
dependentes e identicamente distribuídas.
11
A distribuição amostral é a distribuição da minha estatística de interesse. Te-
oricamente, supondo que podemos tirar várias amostras da população, é possível
especificar essa estatística.
Nosso principal objetivo é identificar um modelo que explique bem distribui-
ção amostral da estatística T . É evidente que a distribuição de T irá depender da
distribuição de X e do plano amostral. Aqui, considera-se a a.a.s.
Outra definição é:
Teorema 1.2.1. Seja X uma variável aleatória com média µ e variância σ 2 , e seja
X1 , . . . , Xn uma a.a.s. de X. Então
σ2
E(X) = µ e Var(X) = .
n
12
Demonstração. ! !
n n
1X 1X
E(X) =E Xi Var(X) = Var Xi
n i=1 n i=1
n n
1X 1 X
= E(Xi ) = 2 Var(Xi )
n i=1 n i=1
1 1
= (E(X1 ) + · · · + E(Xn )) = 2 (Var(X1 ) + · · · + Var(Xn ))
n n
1 1
= nµ = µ = 2 nσ 2 = σ 2 /n
n n
■
Exemplo 1.2.2. Uma máquina enche pacotes com um determinado peso, o peso
segue uma distribuição normal N (500, 100). Se colhe uma amostra de n = 100
pacotes e se pesam, sabe-se que X tem uma distribuição N (500, 100/100 = 1).
Logo, se a máquina estiver regulada, a probabilidade de encontrarmos 100 pacotes
diferindo de 500 g de menos de 2 gramas será
P ( X − 500 < 2) = P (498 < X < 502) = P (−2 < Z < 2) ≈ 95%.
Ou seja, dificilmente 100 pacotes terão uma média fora do intervalo (498, 502).
Caso 100 pacotes apresentem média fora desse intervalo, podemos considerar
como um evento raro, e será razoável supor que a máquina esteja desregulada.
13
1.2.1 Distribuição amostral de uma proporção
Considere uma população em que a proporção de elementos portadores de certa
característica é p. Pode-se definir uma v.a. X da seguinte maneira:
1, se o indivíduo for portador da característica
X=
0, se o individuo não for portador da característica.
Logo,
µ = E(X) = p e σ 2 = Var(x) = p(1 − p)
Proposição 1.2.3. Para amostras aleatórias simples X1 , . . . , Xn , em que Xi tem
distribuição de Bernoulli com média µ = p e variância σ 2 = p(1 − p). Seja
Yn = X1 + · · · + Xn o total de indivíduos portadores da característica na amostra,
Yn ∼ B(n, p). Seja
Yn 1 1
pb = = Xi + · · · + X n ,
n n n
a proporção amostral de indivíduos portadores da característica, pelo teorema do
limite central (1.2.2)
p(1 − p)
pb ∼ N p, .
n
Exemplo 1.2.3. Suponha que p = 30% dos estudantes de uma escola sejam mu-
lheres. Colhemos uma a.a.s. de n = 10 estudantes e se calcula p̂ a proporção de
mulheres na amostra. Qual a probabilidade de que p̂ difira de p em menos de 0.01?
Essa probabilidade é
P (|p̂ − p| < 0.01) = P (−0.01 < p̂ − p < 0.01).
Vimos que p̂ segue uma distribuição normal, logo
!
−0.01 p̂ − p 0.01
P (−0.01 < p̂ − p < −0.01) = P p <p <p
p(1 − p)/n p(1 − p)/n p(1 − p)/n
−0.01 0.01
=P √ <Z< √
0.0021 0.0021
= P (−0.07 < Z < 0.07)
= 0.056
Exercício 1.2.1. Qual é a distribuição da estatística
n
1 X
S2 = (Xi − X)2 ?
n − 1 i=1
14
Solução:
Considere uma a.a.s. X1 , . . . , Xn de uma v.a. X com distribuição N (µ, σ 2 ).
Assim,
X −µ
Z= ∼ N (0, 1),
σ
logo,
2
2 X −µ
Z = ∼ χ21
σ
e n n 2
X
2
X Xi − µ
Q= Z = ∼ χ2n .
i=1 i=1
σ
n 2 n 2
X Xi − X X X −µ
Q= +
i=1
σ i=1
σ
Pn 2
Xi − X
n 2
i=1
X X −µ
= +
σ2 i=1
σ
Pn 2
2 X −µ
i=1 (Xi − X)
2
= Q − n .
σ } |{z} σ2 }
χ2
| {z | {z
n
χ2(n−1) χ21
15
Note que Pn
i=1 (Xi − X)2 (n − 1)S 2
= ∼ χ2n−1 .
σ2 σ 2
X −µ
t= √ .
S/ n
Solução: Suponha Z uma v.a. com distribuição normal padrão com média zero
e variância um e V uma variável aleatória com distribuição qui-quadrado com ν
graus de liberdade (χ2ν ). Se Z e V são independentes, então a variável
Z
t= p
V /ν
tem distribuição t-Student com ν graus de liberdade.
Considere uma a.a.s. X1 , . . . , Xn de uma Pv.a. X, em que X tem distribuição
N (µ, σ 2 ). Se X = (X1 , . . . , Xn )/n e S 2 = ni=1 (Xi − X)2 /(n − 1) é a variância
amostral,
X −µ
√
σ/ n
(n−1)S 2
tem distribuição normal padrão e σ2
∼ χ2n−1 , logo
X−µ
√
σ n
t= q
(n−1)S 2
(n−1)σ 2
(X − µ)σ
= √
Sσ/ n
X −µ
= √
S/ n
tem distribuição t-Student com n − 1 graus de liberdade.
16
Suponha que se queira determinar o tamanho n da amostra de modo que
P ( X − µ ≤ ε) ≥ γ,
com 0 < γ < 1 e ε é o erro amostral máximo que podemos suportar, ambos
valores fixados.
Sabemos que X −µ ∼ N (0, σ 2 /n) e portanto a equação acima pode ser escrita
√ √
− nε nε
P (−ε ≤ X − µ ≤ ε) = P ≤Z≤ ≈ γ,
σ σ
√
com Z = (X − µ) n/σ. Dado γ, podemos obter zγ da N (0, 1), tal que P (−zγ <
Z < zγ ) = γ, de modo que
√
nε σ 2 zγ2
=⇒ n = 2 .
σ = zγ ε
• menor preço.
17
A. B.
C. D.
Estimador não-viesado
O problema de estimação é, então, determinar uma função T = g(X1 , . . . , Xn )
que seja próxima de θ segundo algum critério.
Definição 1.3.4 (Estimador não-viesado). Um estimador T é não-viesado para θ
se
E(T ) = θ
para todo θ. Se E(T ) ̸= θ, diz-se que T é viesado e E(T ) − θ é o viés de T .
Exemplo 1.3.2. Considere uma a.a.s. X1 , . . . , Xn de uma v.a. X. A média amos-
tral X é um estimador não-viesado de µ = E(X). A proporção amostral pb é um
18
estimador não-viesado da proporção p de indivíduos de uma população que tem
certa característica em comum. Assim, a média amostral e a proporção amostral
são bons estimadores em relação ao critério de não serem viesados.
logo,
n
2 1X 2
E[b
σ ]= E[Xi2 ] − E[X ].
n i=1
19
Mas, pela definição de a.a.s. e de variâmncia de uma v.a., E[Xi2 ] = Var(Xi ) +
2
(E[Xi ])2 = σ 2 + µ2 . Temos também pelo teorema 1.2.1 que E[X ] = Var(X) +
2
(E[X])2 = σn + µ2 .
Segue que
n 2
2 1X 2 2 σ 2
E[b σ ]= (σ + µ ) − +µ ,
n i=1 n
ou seja,
σ2 σ2
2 1 2 2 2 2 2 1
σ ] = (n(σ + µ )) −
E[b −µ =σ − =σ 1− .
n n n n
Finalmente,
2 n−1
E[b
σ ]= σ2.
n
Vemos que σ
b2 é viesado para σ 2 e o viés é dado por
σ2
σ 2 ) = E[b
V = V (b σ2] − σ2 = − .
n
Como esse viés é negativo, o estimador σ b2 em geral subestima o verdadeiro pa-
râmetro σ 2 . Por outro lado, o viés diminui com n, ou seja, formalmente, para
n → ∞, o viés de σ b2 tende a zero. Note também que o viés de σb2 é uma função
de σ 2 . Uma estimativa do viés seria dada por
2
σ
Vb = − ,
b
n
ou seja, substituímos o valor desconhecido de σ 2 por uma estimativa.
É fácil ver que para obter um estimador não-viesado de σ 2 basta considerar
(n(n − 1))bσ 2 , pois temos que
n
E b = σ2;
σ 2
n−1
Logo, se definirmos
n
2 1 X
S = (Xi − X)2 ,
n − 1 i=1
então E[S 2 ] = σ 2 e S 2 é um estimador não-viesado para σ 2 . Essa é a razão para
se usar n − 1 em vez de n como denominador da variância da amostra.
20
Estimador consistente
Definição 1.3.6 (Estimador consistente). Uma sequência {Tn } de estimadores de
um parâmetro θ é consistente se, para todo ε > 0,
P {|Tn − θ| > ε} → 0, n → ∞.
lim E(Tn ) = θ,
n→∞
lim Var(Tn ) = 0.
n→∞
σ2
lim Var(X) = lim
n→∞ n→∞ n
= 0.
Estimador eficiente
Definição 1.3.7 (Estimador eficiente). Se T1 e T2 são dois estimadores não-viesados
de um mesmo parâmetro θ e ainda
21
Exemplo 1.3.6. Considere uma população normal X, com parâmetros µ e σ 2 .
Deseja-se estimar a mediana da população. Por ser uma distribuição simétrica,
sabemos que µ = Md(X). Sendo X e md a média e a mediana de uma amos-
tra de tamanho n, qual dos dois estimadores é o melhor para estimar a mediana
população?
md ∼ N (Md(X), πσ 2 /2n).
22
1.4.1 Estimadores de momentos
Definição 1.4.1 (Momento populacional). Se X for uma v.a. contínua com densi-
dade
f (x ; θ1 , . . . , θr ) dependendo de r parâmetros, então
Z ∞
µ1 = xf (x ; θ1 , . . . , θr )dx,
−∞
Definição 1.4.3 (Estimador de momentos). Dizemos que θb1 , . . . , θbr são estimado-
res obtidos pelo método dos momentos se eles forem soluções das equações
mk = µk , k = 1, 2, . . . , r.
E[X] = µ, E[X 2 ] = σ 2 + µ2 ,
do que obtemos
µ = E[X], σ 2 = E[X 2 ] − E 2 [X].
23
Os dois primeiros momentos amostrais são
n n
1X 1X 2
m1 = Xi = X e m2 = X .
n i=1 n i=1 i
Os estimadores obtidos pelo método dos momentos são
n
1X 2 2
bM = m1 = X e
µ σ
bM2
= m2 − m21 = b2 .
Xi − X = σ
n i=1
Algumas vezes os momentos populaconais envolvem o cálculo de funções
complicadas, o que dificulta a obtenção de fórmulas fechadas para estimadores
pelo método dos momentos.
Às vezes, pode-se ter mais de um estimador de momentos.
Exemplo 1.4.2. Considere uma v.a. Y que tem distribuição de Poisson com parâ-
metro λ > 0.
E[Y ] = Var(Y ) = λ,
logo,
bM = X ou λ
λ b2 .
bM = σ
24
Para minimizar a função S(α, β) derivamos em relação a cada um dos pa-
râmetros, igualamos a zero de modo a obter o valor das raízes e posterioremnte
derivamos uma segunda vez para conferir se os pontos encontrados são realmente
pontos de mínimo.
∂ ni=1 (yi − α b i )2
P
∂S(α, β) b − βx
=0⇒ =0
∂αb ∂αb
Pn b i )2
∂S(α, β) ∂ i=1 (yi − α b − βx
=0⇒ =0
∂ βb ∂ βb
Desenvolvendo as derivadas, tem-se
n
X n
X
yi = nb
α + βb xi
i=1 i=1
n
X n
X n
X
y i xi = α
b xi + βb x2i .
i=1 i=1 i=1
Assim,
αb = y − βx
b
Pn
(x − x)(yi − y)
βb = i=1Pn i 2
.
i=1 (xi − x)
25
Exercício 1.4.1. Um engenheiro está estudando a resistência y de uma fibra em
função de seu diâmetro x e notou que as variáveis são aproximadamente propor-
cionais. Isto é, elas obedecem à relação
y = θx,
26
1.4.3 Estimadores de máxima verossimilhança
O princípio da verossimilhança afirma que devemos escolher aquele valor do pa-
râmetro desconhecido que maximiza a probabilidade de obter a amostra particular
observada, ou seja, o valor que torna aquela amostra a “mais provável.”
Exemplo 1.4.3. Suponha que temos n provas de Bernoulli com P (sucesso) = p,
0 < p < 1 e X = número de sucessos. Devemos tomar como estimador aquele
valor de p que torna a amostra observada a mais provável de ocorrer.
Suponha, por exemplo, que n = 3 e obtemos dois sucessos e um fracasso. A
função de verossimilhança é
L(p) = P (2 sucessos e 1 fracasso) = p2 (1 − p).
Maximizando essa função em relação a p, obtemos
L′ (p) = 2p(1 − p) − p2 = 0 =⇒ p(2 − 3p) = 0,
do que seguem p = 0 ou p = 2/3. É fácil ver que o ponto máximo é pb = 2/3, que
é o estimador de máxima verossimilhança (EMV) de p.
De modo geral, o EMV do parâmetro p de uma distribuição binomial é
X
pbMV = .
n
O procedimento, pois, é obter a função de verossimilhança, que depende dos
parâmetros desconhecidos e dos valores amostrais, e depois maximizar essa função
ou o logaritmo dela, o que pode ser mais conveniente em determinadas situações.
Definição 1.4.5 (Máxima verossimilhança). A função de verossimilhança é defi-
nida por
L(θ; x1 , . . . , xn ) = f (x1 ; θ) . . . f (xn ; θ),
que deve ser encarada como uma função de θ. O estimador de máxima verossimi-
lhança de θ é o valor θbMV que maximiza L(θ; x1 , . . . , xn ).
Se denotarmos por x = (x1 , . . . , xn )T o vetor contendo a amostra, é costume
denotar a verossimilhança por L(θ; x).
Exemplo 1.4.4. Suponha que a v.a. X tenha distribuição exponencial, com parâ-
metro α > 0, desconhecido, e queremos obter a EMV desse parâmetro. A densi-
dade de X é dada por
, se x ≥ 0
1 −x/α
α
e
f (x; α) =
0, se x < 0.
27
Considere uma a.a.s. X1 , . . . , Xn de X. A verossimilhança é dada por
n
Y
L(α; x) = f (xi ; α)
i=1
n
Y 1 −xi /α
= e
i=1
α
n P
1 n
= e− i=1 xi /α
α
e a log-verossimilhança fica
n
X xi
ℓ(α; x) = log L(α | x) = −n log α − .
i=1
α
1.5 Exercícios
Exercício 1.5.1. Observa-se uma sequência de ensaios de Bernoulli, independen-
tes, com parâmetro p, até a ocorrência do primeiro sucesso. Se X indica o número
de ensaios necessários:
28
iii. Usando uma moeda, repetiu-se o experimento 5 vezes, e o número de ensaios
necessários até a ocorrência da primeira coroa foi 2, 3, 1, 4, 1, respectiva-
mente. Qual a estimativa de MV para p: “probabilidade de ocorrência de
coroa nessa moeda”? Existiria outra forma de estimar p?
Exercício 1.5.2. Seja X uma variável aleatória com distribuição de Poisson, com
parâmetro λ > 0. Obtenha o estimador de MV de λ, baseado em uma amostra de
tamanho n.
Exercício 1.5.3. Seja X uma v.a. com distribuição normal, com média µ e va-
riância 1. Obtenha o estimador de MV de µ, para uma amostra de tamanho n
X1 , . . . , X n .
29
2 Intervalos de confiança
Interpretação
Lembre que µ não é uma variável aleatória, e sim um parâmetro. Os intervalos de
confiança devem ser interpretados da seguinte forma:
Se se constrói um grande número de intervalos (aleatórios) da forma
X − 1.96σX ; X + 1.96σX ,
30
Se T for um estimador do parâmetro θ e for conhecida a distribuição amostral
de T , sempre será possível achar dos valores t1 e t2 tais que
P (t1 < θ < t2 ) = γ,
a probabilidade interpretada como ateriormente, γ um valor fixo, 0 < γ < 1. Para
uma dada amostra, existirão dois valores fixos t1 e t2 e um intervalo de confiança
para θ com coeficiente de confiança γ será indicado como
IC(µ; γ) = (t1 ; t2 )
Para um coeficiente de confiança qualquer γ = 1 − α, se deve usar o valor
z1− α2 tal que P (−z1− α2 < Z < z1− α2 ) = γ, com z ∼ N(0, 1). O intervalo fica
IC(µ; γ) = (X − z1− α2 σX ; X + z1− α2 σX )
A amplitude to intervalo é L = 2z1− α2 √σn , que é uma constante, independente
de X. Se se constrói vários intervalos de confiança com o mesmo valor de n, σ e
γ, estes terão extremos aleatórios, mas todos terão a mesma amplitude L.
Exemplo 2.1.1. Considere uma população com distribuição binomial B(n, p). Ob-
tenha um intervalo de confiança para o parâmetro p. Seja X o “número de sucessos
nos n experimentos.” Pelo teorema do limite central (1.2.2),
X √
n
−p p − p)
n(b
Z=r = √ ∼ N(0, 1).
p(1 − p) pq
n
31
Se γ = 0.95, tem-se que
1 1
P pb − 1.96 √ ≤ p ≤ pb + 1.96 √ = 0.95.
4n 4n
Para um γ qualquer, 0 < γ < 1,
z1− α2 z1− α2
P pb − √ ≤ p ≤ pb + √ = γ.
4n 4n
32
• Substituir pq por pbqb, assim
r r !
pbqb pbqb
P pb − z1− α2 ≤ p ≤ pb + z1− α2 =γ
n n
r !
0.6 × 0.4
IC(p; 0.95) = 0.6 ± 1.96
400
=(0.6 ± 0.048)
=(0.552 ; 0.648)
Observe que o intervalo otimista tem amplitude menor que o conservador.
Outra observação importante é que para intervalos conservadores e γ fixo, os
intervalos se obtem para amostras diferentes (mas de mesmo tamanho n) terão a
mesma amplitude, dada por 2z1− α2 /4n.
Por outroplado, para intervalos de confiança otimistas, a amplitude do intervalo
será 2z1− α2 / pbqb/n que é variável de amnostra para amostra, pois pb e, consequen-
temente qb variará de amostra para amostra.
33
2.1.1 Definições formais
Definição 2.1.1 (Intervalo confidencial). Seja X1 , . . . , Xn uma a.a.s. de uma po-
pulação com f.d.p. fx (x; θ), θ ∈ Θ e T1 = t1 (X1 , . . . , Xn ), T2 = t2 (X1 , . . . , Xn )
duas estatisticas tais que Pθ (T1 < T2 ) = 1, r(θ) uma função do parâmetro. O
intervalo aleatório (T1 ; T2 ) se denomina intervalo confidencial para a imagem de
θ sob r de 100(1 − α)% de confiança se
(r(T1 ) ; r(T2 ))
34
2.2 Construção do intervalo de confiança
Definição 2.2.1 (Variável aleatória pivotal). Seja X1 . . . Xn uma a.a.s. de uma po-
pulação com f.d.p. fx (x; θ). Seja Qx = q(θ; X1 . . . Xn ) uma função das variáveis
aleatórias que pertencem à a.a.s. e do parâmetro θ. Qx é uma variável aleatória
pivotal para o parâmetro θ se a distribução de Qx não depende de θ.
Exemplo 2.2.1. Se X1 . . . Xn é uma a.a.s. de uma população N(µ, σ 2 ), X e S 2 a
média e a variância amostral, então
√
n(X − µ)
Qx =
S
é uma variável pivotal para µ.
Lembrando que a distribuição de Qx é t-Student com n − 1 graus de liberdade.
Qx é uma função de X1 . . . Xn através de X e S.
√
n(X − µ)
• ∼ N (0, 1)
σ
Pn 2
(n − 1)S 2 i=1 (Xi − X)
• = ∼ χ2(n−1)
σ2 σ2
• X e S 2 são estatisticamente independentes,
√
n(X − µ) (n − 1)S 2
e
σ σ2
também são independentes, e
√ √
n(X−µ)
σ n(X − µ)
Qx = q = ∼ t(n−1) .
(n−1)S 2 S
(n−1)σ 2
35
Exemplo 2.2.2. Construa um intervalo de confiança para θ baseado em uma a.a.s.
X1 . . . Xn de uma população com f.d.p.
fx (x; θ) = θe−θx I(0,∞) (x).
Solução.
A variável aleatória Yi = 2θXi tem distribuição exponencial com parâmetro 1/2,
do que segue
FYi (y) =P (2θXi ≤ y)
y
=P xi ≤
y 2θ
=FXi , i = 1, . . . , n.
2θ
Z y
2θ
F Yi = θe−θxi dx
0
1 − θy
fYi =θ e 2θ
2θ
1 y
= e− 2 I(0,∞) (y).
2
Com base no resultadoo acima,
n
X n
X
Qx = Yi = 2θ Xi ∼ χ22n
i=1 i=1
é uma variável aleatória pivotal, que tem distribuição qui-quadrado com parâmetro
2n.
Considere o evento aleatório {a < Qx < b}. Tem-se que
n
!
X a b
P0 = a < 2θ X i < b = P0 Pn < θ < Pn = 1 − α.
i=1
2 i=1 X i 2 i=1 X i
36
Teorema 2.2.1. Sob um caso regular de estimação, se T = t(X1 , . . . , Xn ) é um
estimador não-viesado para a imagem de θ sob uma função r cuja variância coin-
cide com o limite inferior de Cramer-Rao, baseado em uma a.a.s. X1 , . . . , Xn de
uma população com f.d.p. fx (x; θ), então a variável aleatória
p
nI(θ)
(T − θ) ∼ N(0, 1).
r′ (θ)
37
Exemplo 2.2.3. Uma máquina enche pacotes de café com uma variância igual a
100g2 . Ela estava regulada para encher os pacotes com 500g, em média. Agora,
ela se desregulou, e se quer saber qual é a nova média µ. Uma amostra de 25
pacotes apresentou uma média igual a 485g. Construa um intervalo de 95% de
confiança para µ.
σ σ
IC(µ; 0.95) = X − z1− α2 √ ; X + z1− α2 √
n n
Exemplo 2.2.4. Uma máquina enche pacotes de café. Ela estava regulada para
encher os pacotes com 500g, em média. Agora, ela se desregulou, e se quer saber
qual é a nova média µ. Uma amostra de 25 pacotes apresentou uma média igual a
485g e uma variância de 95g2 . Construa um intervalo de 95% de confiança para
µ.
Solução.
S S
IC(µ; 0.95) = X − t1− 0.05 ;(25−1) √ ; X + t1− 0.05 ;(25−1) √
2 n 2 n
r r !
95 95
= 485 − 2.064 ; 485 + 2.064
25 25
38
Teorema 2.2.2. Seja T um estimador de máxima verossimilhança não-viesado
para θ, cuja variância coincide com o limite inferior de Cramer-Rao e que satisfaz
as condições de regularidade. Então, para uma amostra suficientemente grande,
um intervalo de confiança de 100(1 − α)% de confiança para θ é
!
1 1
IC(θ; γ) = T − z1− α2 p ; T + z1− α2 p .
nI(T ) nI(T )
39
= (0.167 ; 0.233).
Considerando o intervalo conservador, se obtem:
IC(p; 90) = (0.159 ; 0.241).
□
Uma recomendação prática no caso do intervalo de confiança assintótico é ve-
rificar se nb
p > 5 e n(1
p − pb) > 5. Um outro intervalo de confiança para p baseado
na variável pivotal nI(p)(b p − p) é
q q
z1−α/2 pb(1−bp) z1−α/2 z1−α/2 pb(1−bp) z1−α/2
pb + 2n n
+ 4n2 pb + 2n n
+ 4n2
z1−α/2 − z1−α/2 z1−α/2 ; z1−α/2 + z1−α/2 z1−α/2
1+ n 1+ n 1+ n 1+ n
40
Definição 2.4.1 (IC para σ 2 com µ conhecido). O intervalo de 100(1 − α)% de
confiança para a variância populacional σ 2 quando a média populacional µ é co-
nhecida é dado por
Pn Pn !
2 2
(X i − µ) (X i − µ)
IC(σ 2 ; γ) = i=1
; i=1 2
χ1− α2 ;n χ α ;n
2
Exemplo 2.4.1. Uma das maneiras de manter sob controle a qualidade de um pro-
duto é controlar sua variabilidade. Uma máquina de encher pacotes de café está
regulada para enchê-los com média de 500g e desvio padrão de 10g. O peso de
cada pacote X segue uma distribuição N (µ, σ 2 ).
Colheu-se uma amostra de 16 pacotes considerando µ = 500g e calculou-se a
variância, obtendo-se 169g2 . Com esse resultado, você diria que a máquina está
desregulada com relação à variância com uma confiança de 95%?
Solução.
Pn Pn !
2 2
i=1 (Xi − µ) i=1 (Xi − µ)
IC(σ 2 ; γ) = ;
χ1− α2 ;n χ2α ;n
2
!
(16 − 1)169 (16 − 1)169
= ;
χ21− 0.05 ;16 χ20.05 ;16
2 2
2.4.2 µ desconhecido
Seja X1 , . . . , Xn uma amostra aleatória de uma população com distribuição normal
de valor esperado µ e variância σ 2 . Se a média populacional µ é desconhecida, o
intervalo de 100(1 − α)% de confiança se baseia na variável pivotal
Pn
(Xi − X)2
Qx = i=1 2 ∼ χ2n−1 .
σ
Definição 2.4.2 (IC para σ 2 quando µ não é conhecido). Um intervalo de 100(1 −
α)% de confiança para σ 2 quando µ é desconhecido é dado por
Pn Pn !
2 2
(X i − X) (X i − X)
IC(σ 2 ; γ) = i=1
; i=1 2
χ21− α ;n−1 χ α ;n−1
2 2
41
!
(n − 1)S 2 (n − 1)S 2
= ;
χ21− α ;n−1 χ2α ;n−1
2 2
Exemplo 2.4.2. Uma das maneiras de manter sob controle a qualidade de um pro-
duto é controlar sua variabilidade. Uma máquina de encher pacotes de café está
regulada para enchê-los com média de 500g e desvio padrão de 10g. O peso de
cada pacote X segue uma distribuição N (µ, σ 2 ).
Colheu-se uma amostra de 16 pacotes e calculou-se a variância S 2 = 169g2 .
Com esse resultado, você diria que a máquina está desregulada com relação à va-
riância com uma confiança de 95%?
Solução.
Pn Pn !
2 2
i=1 (Xi − X) i=1 (Xi − X)
IC(σ 2 ; γ) = ;
χ21− α ;n−1 χ2α ;n−1
2 2
(16 − 1)169 (16 − 1)169
= ;
χ21−0.05;2;15 χ20.05;2;15
(16 − 1)169 (16 − 1)169
= ;
27.488 6.262
=(92.2221 ; 404.8227)
42
Suponha que se tem o resultado do teste para todos os alunos das duas regiões,
isto é, se conhecem as duas populações. Suponha que cálculos posteriores revela-
ram que
µA = µB e σA = σB .
Isso equivale a dizer que o desempenho nas duas regiões é equivalente?
µA = µB e σA2 = σB2 :
µd = µ1 − µ2 ,
43
com amplitude mínima é
Sd Sd
IC(µd ; γ) = D − t1− α2 ;n−1 √ ; D + t1− α2 ;n−1 √ ,
n n
em que
1. Di = Xi − Yi (D = X − Y )
2. D ∼ N (µ1 − µ2 , σ12 + σ22 − 2ρσ1 σ2 )
n n
1 X 1X
3. Sd2 = (Di − D)2 e D = Di .
n − 1 i=1 n i=1
D − µd
Qx = ∼ tn−1
Sd
D1 =X1 − Y1
.. ..
. .
Dn =Xn − Yn
1X
D= Di
n
n
2 1 X
Sd = (Di − D)
n − 1 i=1
44
1 2 3 4 5 6
Profundo 0.430 0.266 0.567 0.531 0.707 0.716
Superficial 0.415 0.238 0.390 0.410 0.605 0.609
Diferença 0.015 0.028 0.177 0.121 0.102 0.107
Solução.
Um intervalo de 95% de confiança para a diferença de médias é
Sd Sd
IC(µd ; 0.95) = D − t1− 0.05 ;6−1 √ ; D + t1− 0.05 ;6−1 √
2 n 2 n
0.0607 0.0607
= 0.0917 − 2.571 √ ; 0.0917 + 2.571 √
6 6
= (0.0280 ; 0.1554)
□
Exercício 2.5.1. Considere t uma variável aleatória com 10 graus de liberdade.
Calcule:
(a) P (t < 2.228)
= 0.975
a = 1.372
b = 2.764
(d) P (t ≤ c) = 0.025
c = −2.228
45
(b) P (a < t < b) = 0.90, tal que P (t > b) = 0.05
a = −1.729 ; b = 1.729.
Exercício 2.5.3. Considere uma população com distribuição normal com σ co-
nhecido.
√
(a) Qual é o coeficiente de confiança para o intervalo X ∓ 2.81σ/ n?
α
2.81 = z0.9975 =⇒ 1 − 2
= 0.9975 =⇒ α = (1 − 0.9975) · 2 =
0.005 =⇒ γ = 0.995.
√
(b) Qual é o coeficiente de confiança para o intervalo X ∓ 1.44σ/ n?
• 1.44 = z0.9251 =⇒ 1 − α2 = 0.9251 =⇒ α = (1 − 0.9251) · 2 =
0.1498 =⇒ γ = 0.8502.
46
é uma variável pivotal para µ1 − µ2 .
Definição 2.6.1 (IC para µ1 −µ2 com σ12 e σ22 conhecidas). Um intervalo de 100(1−
α)% de confiança para a diferença de médias quando σ21 e σ22 são conhecidas é dado
por
r r !
σ12 σ22 σ12 σ22
IC(µ1 −µ2 ; γ) = (X − Y ) − z1− α2 + ; (X − Y ) + z1− α2 +
n m n m
r !
2.82 3.52
IC(µ1 − µ2 ; 0.99) = (20.5 − 23.9) ∓ 2.575 +
20 25
= (−5.8182, −0.9819)
(X − Y ) − (µ1 − µ2 )
r ∼ N (0, 1).
σ2 σ2
+
n m
Pn 2
(n − 1)S12 i=1 (Xi − X)
2
= 2
∼ χ2(n−1)
σ Pm σ 2
j=1 (Yi − Y )
2
(m − 1)S2
2
= 2
∼ χ2(m−1)
σ σ
47
Como as populações são independentes:
Pn 2
Pm 2
i=1 (Xi − X) + j=1 (Yi − Y )
∼χ2(n+m−2)
σ2
(n − 1)S12 + (m − 1)S22
∼χ2(n+m−2)
σ2
A partir dos resultados anteriores, a variável pivotal para µ1 − µ2 será
(X − Y ) − (µ1 − µ2 )
p
σ 1/n + 1/m (X − Y ) − (µ1 − µ2 )
Qx = s = r ∼ tn+m−2 ,
(n − 1)S12 + (m − 1)S22 1 1
Sp +
σ 2 (n + m − 2) n m
em que
(n − 1)S12 + (m − 1)S22
Sp2 =
n+m−2
é o estimador da variância comum σ .
2
Definição 2.6.2 (IC para µ1 − µ2 com σ12 e σ22 desconhecidas e iguais). Um in-
tervalo de confiança de 100(1 − α)% para a diferença de médias µ1 − µ2 quando
as variâncias são desconhecidas porém iguais σ12 = σ22 = σ 2 tem como limite
inferior r
1 1
(X − Y ) − t1− α2 ;n+m−2 Sp +
n m
e como limite superior
r
1 1
(X − Y ) + t1− α2 ;n+m−2 Sp +
n m
Exemplo 2.6.2. Considere os seguintes dados do acompanhamento de ingestão
de calorias diárias para uma amostra de adolescentes que afirmaram não comer
usualmente fast-food e outra amostra de adolescentes que sim.
fast-food ni xi si
Não 13 2258 1519
Sim 11 2637 1138
Os dados fornecem evidência para concluir que a ingestão calórica média ver-
dadeira para os dois grupos de adolescentes é a mesma considerando um nível de
significância de 0.05?
48
Solução.
Um itervalo de confiança de 95% para a diferença de médias µ1 − µ2 é dada por
r
1 1
IC(µ1 − µ2 ; 0.95) =(X − Y ) ∓ t1− α2 ;n+m−2 Sp +
n m
r r
(12)15192 + (10)11382 1 1
=(2258 − 2637) ∓ 2.074 +
13 + 11 − 2 13 11
=(−1533.7961 ; 775.7961)
(X − Y ) − (µ1 − µ2 ) aprox.
T = r ∼ tν ,
S12 S22
+
n m
em que
2
S12 S22
+
n m
ν ≈ 2 2 2 2
S1 S2
n m
+
n−1 m−1
aproximado para o menor inteiro.
Exemplo 2.6.3. O exemplo 2.6.2, agora supondo que as variâncias são diferentes.
49
Solução.
assim, ν = 21.
Um intervalo de confiança de 100(1 − α)% de confiança para a diferença de
médias é dado por
r
S12 S22
IC(µ1 − µ2 ; γ) =(X − Y ) ∓ t1− α2 ;ν +
nr m
15192 11382
=(2258 − 2637) ± 2.080 +
13 11
=(−1508.9416, 750.9416)
50
IC para σ12 /σ22 com µ1 e µ2 conhecidas
Um intervalo de 100(1 − α)% de confiança para a razão das variâncias σ12 /σ22 de
duas populações independentes, quando µ1 e µ2 são conhecidas, é baseado em
n m
(Yj − µ2 )2
P
(Xi − µ1 )2
P
i=1 j=1
∼ χ2n e ∼ χ2m ,
σ12 σ22
considerando estas variáveis e a independência das populações, se constrói a se-
guinte variável pivotal para a razão das variâncias
Pm 2 2
σ12 m 2
P
j=1 (Yj − µ2 ) /(mσ2 ) j=1 (Yj − µ2 ) /m
Qx = Pn 2 2
= 2 Pn ∼ Fm,n
i=1 (Xi − µ1 ) /(nσ1 ) σ2 i=1 (Xi − µ1 )2 /n
Usando a variável pivotal,
σ12 m
!
2
P
j=1 (Y j − µ 2 ) /m
Pσ12 ,σ22 a < 2 Pn < b =1 − α
σ2 i=1 (Xi − µ1 )2 /n
Pn Pn !
2 2 2
(X i − µ 1 ) /n σ (X i − µ 1 ) /n
Pσ12 ,σ22 i=1
a Pm 2 /m
< 12 < b Pm i=1
2
=1 − α
(Y
j=1 j − µ 2 ) σ 2 (Y
j=1 j − µ 2 ) /m
Definição 2.6.4 (IC para σ12 /σ22 com µ1 e µ2 conhecidas). O intervalo de 100(1 −
α)% de confiança para a razão das variâncias σ12 /σ22 com µ1 e µ2 conhecidas é
dado por
Pn Pn !
2 2
2
σ1 i=1 (X i − µ 1 ) /n i=1 (X i − µ 1 ) /n
IC 2 ; γ = Pm 2
F α2 ;m,n ; Pm 2
F1− α2 ;m,n
σ2 j=1 (Yj − µ2 ) /m j=1 (Yj − µ2 ) /m
51
2.
1
F0.01;8,10 = = 1/4.56 = 0.2193
F0.99;15,10
2
(n − 1)S12 /n (n − 1)S12 /n
σ1
IC 2 ; γ = F0.05;20,20 ; F0.95;20,20
σ2 (m − 1)S22 /m (m − 1)S22 /m
(19)8.62 /20 (19)8.62 /20
= 2.1241 ; .4708
(19)9.22 /20 (19)9.22 /20
= (0.4114 ; 1.8561)
σ12 m 2
P
j=1 (Yj − Y ) /(m − 1)
Qx = 2 Pn ∼ Fm−1,n−1 .
σ2 i=1 (Xi − X)2 /(n − 1)
52
Exemplo 2.6.6. O mesmo de 2.6.5, porém, sem supor que conhecemos as médias.
2
8.6
IC ; 0.90 = (0.403 ; 1.8947)
9.22
53
r
pb1 (1 − pb1 ) pb2 (1 − pb2 )
Pp1 ,p2 p1 − pb2 ) − b
(b + ≤ (p1 − p2 )
n m
r !
pb1 (1 − pb1 ) pb2 (1 − pb2 )
≤ (b
p1 − pb2 ) − a + =1−α
n m
Definição 2.6.6 (IC para p1 − p2 ). Um intervalo de 100(1 − α)% de confiança para
a diferença das proporções p1 − p2 é dado por
r
pb1 (1 − pb1 ) pb2 (1 − pb2 )
IC(p1 − p2 ; γ) = (bp1 − pb2 ) − z1− α2 + ;
n m
r !
pb1 (1 − pb1 ) pb2 (1 − pb2 )
p1 − pb2 ) + z1− α2
(b +
n m
Exemplo 2.6.7. Para o lançamento da nova embalagem de um sabonete, a divisão
de criação estuda duas propostas:
• A: amarela com letras vermelhas,
• B: preta com letras douradas.
Eles acreditam que a proposta A chama a atenção em pelo menos 5% a mais que
a proposta B. Para verificar a validade de tal informação, conduziu-se o seguinte
experimento: em cada um de dois supermercados “semelhantes” foram colocados
sabonetes com cada tipo de embalagem, e a clientes selecionados aleatoriamente
foi perguntado se tinham notado o sabonete e que descrevessem qual a embalagem.
Construa um intervalo de 95% de confiança para a diferença das proporções. Os
Notaram?
Proposta Total
Sim Não
A 168 232 400
B 180 420 600
Total 348 652 100
54
r !
0.42(1 − 0.42) 0.3(1 − 0.3)
= (0.42 − 0.3) ∓ 1.96 +
400 600
=(0.0593 ; 0.1807)
55
distribuição normal com desvio padrão de 25 milissegundos. Um novo sistema
operacional foi instalado e se deseja estimar o tempo de resposta médio real µ do
novo ambiente. Supondo que os tempos de resposta ainda tenham distribuição
normal com σ = 25, que tamanho de amostra é necessário para garantir que o
intervalo de 95% de confiança estime a média com uma margem de erro de no
máximo 10?
z1− α σ 2 1.96(25) 2
n= 2
= = (4.9)2 = 24.01.
ε 10
Uma vez que n deve ser um número inteiro, é necesário um tamanho de amostra
de 25.
56
Exemplo 2.7.2. Se deseja realizar um estudo para verificar o número de ignições
de um tipo específico de substrato por um cigarro aceso. Uma estimativa pontual
de p é pb = 0.333. Qual deve ser o valor de n necessário para garantir uma margem
de erro de 0.10 com nível de confiança de 95%?
z1− α 2 1 2
1.96
n= 2
= 0.333(1 − 0.333) = 85.3262.
ε 4 0.10
Uma vez que n deve ser um número inteiro, é necessário um tamanho de amostra
de 86.
57
3 Teste de Hipóteses
3.1 Definições
Será estudado um método de inferência, teste de hipóteses. Uma hipótese e uma
declaração sobre um parâmetro da população.
A definição de hipótese é mais genérica, mas o aspecto importante é que uma
hipótese faz uma declaração sobre a população. O objetivo de um teste de hipó-
tese é decidir, com base em uma amostra da população, qual de duas hipóteses
complementares é verdadeira.
Exemplo 3.1.1. Uma indústria usa como um dos componentes das máquinas que
produz um parafuso importado, que deve satisfazer algumas exigências. Uma des-
sas é a resistência à tração. Esses parafusos são fabricados por alguns países, e
as especificações técnicas variam de país para país. Por exemplo, o catálogo do
país A afirma que a resistência média à tração de seus parafusos é de 145kg, com
desvio padrão de 12kg. O país B diz que a média é de 155kg e o desvio padrão é
de 20kg.
Um lote desses parafusos, de origem desconhecida, será leiloado a um preço
muito convidativo. Para que a indústria saiba se faz ou não uma oferta, é necessá-
rio saber qual país produziu tais parafusos. O edital do leiloeiro afirma que, pouco
antes do leilão, será divulgada a resistência média X de uma amostra de 25 para-
fusos do lote. Qual a regra de decisão deve ser usada pela indústria para dizer se
os parafusos são do país A ou B?
58
Considerar como país produtor aquele para o qual a média da amostra mais se
aproximar da média da população. Assim, uma possível regra de decisão seria:
Se x ≤ 150 se diz que os parafusos são do país A; caso contrário, isto
é, x > 150, são do país B.
Suponha que, no dia do leilão, fôssemos informados que x = 148; de acordo
com as regras de decisão, os parafusos seriam do país A. Podemos estar enganados
nessa conclusão?
Um teste de hipóteses estatístico é um processo que finaliza com a decisão de
rejeitar ou não uma hipótese com base na informação de uma amostra aleatória
X1 , . . . , Xn de uma população que se supõe segue um modelo probabilístico cuja
função de densidade é fx (x; θ).
Definição 3.1.2 (Hipótese nula). As hipóteses sobre a qual a estrutura do processo
de teste se denomina hipótese nula é denotada por H0 e é enunciada por
H0 : θ ∈ Θ0 , Θ0 ⊆ Θ.
59
Definição 3.1.6 (Teste). O processo de decidir (julgar) sobre a hipótese que leva a
um procedimento, regra ou norma que permite tomar a decisão adequada é deno-
minado teste.
Definição 3.1.7 (Região crítica). O teste usado dentro do julgamento da hipótese
nula H0 tem vinculado um conjunto do espaço de observações X. Este conjunto é
denotado por RC e está determinado pelo seu respectivo teste da seguinte forma:
RC = {x ∈ R : x ≤ 150}.
O teste seria
3.1.1 Erros
Qualquer decisão tomada em uma hipótese estatística tem o risco de ser a opção
equivocada. Considere a seguinte analogia. No julgamento de uma pessoa por um
juiz, é possível concluir o processo com uma decisão que segue todasas normas e a
natureza das provas, mas que na realidade não é acertada em relação à veracidade
dos fatos, verdade que nem sempre o juiz pode conhecer inteiramente, pelo qual
se tem inocentes cumprindo sentenças, ou culpáveis com liberdade plena.
De forma similar aos erros que se podem cometer julgando pessoas, analo-
gamente, no teste de hipóteses estatísticos ocorrem riscos semelhantes. Se pode
rejeitar a hipótese nula quando se tem evidência estatística ou não rejeitar a hipó-
tese nula quando não se tem essa evidência. Qualquer uma das decisões pode levar
a um erro.
• Rejeitar a hipótese nula quando é verdadeira.
60
Rejeitar H0 Não rejeitar H0
H0 verdadeira Erro do tipo I Correto
H0 falsa Correto Erro do tipo II
Exemplo 3.1.4.
• Erro do tipo II: Dizer que os parafusos são de B quando na realidade são
de A.
X ∼ N (155, 16).
Logo,
61
150 − 155
=P Z ≤
4
=P (Z ≤ −1.25)
=0.10565
=10.56%
Com a regra de decisão adotada, se está cometendo o erro do tipo I com maior
probabilidade do que o erro do tipo II. De certo modo, essa regra de decisão pri-
vilegia a afirmação de que os parafusos são de A.
62
Considere o seguinte sistema de hipóteses.
H0 : θ ≤ θ0
vs
H1 : θ > θ0
63
Rejeitar H0 se x ≤ 148.42.
RC = {x : x ≤ 148.42}
A probabilidade do erro tipo II é
erro tipo II: Não rejeitar H0 dado que H0 é falsa
β =P (erro tipo II)
=P (X > 148.42 | X ∼ N (145; 5.76))
=P (Z > 1.425)
=7.93%.
O procedimento no qual se fixa o erro tipo I, α, é bastante utilizado, porque
usualmente a decisão que se deve tomar não é apenas entre duas possíveis popula-
ções.
Neste caso não se pode especificar os parâmetros sob a hipótese alternativa H1 .
Como os parâmetros sob a hipótese alternativa são muitos, a melhor solução para
construir a regra de decisão é fixar α, a probabilidade de erro tipo I.
Como a hipótese alternativa é mais ampla, não se pode encontrar β, pois não
se tem um único valor para os parâmetros. Então, não se pode encontrar o erro
tipo II.
Definição 3.1.9 (Função característica da operação). A função característica da
operação de um teste de hipóteses é definida como
β(θ) = P (aceitar H0 | θ),
ou seja, β(θ) é a probabilidade de aceitar H0 considerada com função de θ.
Definição 3.1.10 (Função poder do teste). Considere a função
π(θ) = 1 − β(θ),
que é a probabilidade de se rejeitar H0 como função de θ. Essa função é chamada
função poder do teste.
64
3.2 Teste da razão de verossimilhança
Definição 3.2.1 (Teste da razão de verossimilhanças). Seja X1 , . . . , Xn uma a.a.s.
de uma população com função de densidade fX (x; θ). Considere o sistema de
hipóteses simples
H0 : θ = θ0
vs
H1 : θ = θ1
65
com Θ1 = Θ−Θ0 . O teste da razão de verossimilhanças generalizada corresponde
a Qn
supθ∈Θ0 L(θ; x1 , . . . , xn ) fX (xi ; θ0 )
λ= = Qi=1
n
supθ∈Θ L(θ; x1 , . . . , xn ) i=1 fX (xi ; θ1 )
66
O valor da log-verossimilhança do modelo apenas com o intercepto L0 =
−1064.183 e do modelo com a covariável é L = −1035.089. Assim, o valor
da estatística do teste é
3.2.1 Valor-p
Para realizar um teste de hipóteses, sua forma final deve ser de preferência simples.
Na medida do possível, deve-se conhecer a distribuição da estatística de teste com a
qual foi construído e seus quantis, precisamente para que o uso do teste de hipóteses
seja fácil.
O valor-p trata o valor particular da estatística como um percentil da mesma, é
a probabilidade associada ao valor particular da estatística.
Um teste de nível α pode ser transformado a uma forma equivalente utilizando-
se o recurso do p-valor da seguinte forma.
67
x = 140
p-valor= P (x < 140) < 0.05
RC = {x | x ≤ 148.42}
140 ∈ RC α = 0.05 = 5% P -valor< α
68
H0 : θ = Θ0
H1 : θ > Θ0
Considere a estatística
X −µ
Z= √ ∼ N (0, 1).
σ/ n
69
H0 : θ = Θ0
̸ Θ0
H1 : θ =
A) RC = {zc | zc ≤ zα }.
B) RC = {zc | zc ≥ z1−α }.
A) p = ϕ(zc ).
B) p = 1 − ϕ(zc ).
Exemplo 3.3.1. Uma máquina automática para encher pacotes de café os enche
segundo uma distribuição normal com média µ e variância sempre igual a 400g2 .
A máquina foi regulada para µ = 500g. Deseja-se colher periodicamente uma
amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se µ =
500g ou não. Se uma dessas amostras apresentasse uma média de x = 492g, você
pararia ou não a produção para regular a máquina?
70
Solução.
Seja X o peso de cada pacote. Então X ∼ (µ, 400). O sistema de hipóteses é
H0 : µ = 500
vs
H1 : µ ̸= 500,
pois a máquina pode se desregular para mais ou para menos. Dos dados do pro-
blema se tem que X ∼ N (µ; 400/16), em particular, sob H0 , se H0 for verdadeira,
X ∼ N (500, 400/16). A estatística de teste é
X − 500 X − 500
Z= √ = ∼ N (0, 1).
20/ 16 5
71
3.3.2 Teste de hipóteses sobre µ com σ 2 desconhecido
Seja X1 , . . . , Xn uma a.a.s. de tamanho n de uma população com distribuição
normal de valor esperado µ e variância σ 2 desconhecida. Pode-se considerar três
sistemas de hipóteses:
H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0
vs vs vs
H1 : µ < µ0 H1 : µ > µ0 H1 : µ ̸= µ0
unilateral à esquerda unilateral à direita bilateral
Considere a estatística
X −µ
T = √ ∼ tn−1 .
S/ n
A distribuição da estatística T é sob H0 . Seja tc o valor da estatística avaliada
nos dados da amostra. Considere um nível de significância α. As regiões críticas
são
A) RC = {tc | tc ≤ tα;n−1 }.
B) RC = {tc | tc ≥ t1−α;n−1 }.
C) RC = {tc | |tc | ≥ t1− α2 ;n−1 }.
O valor-p pode ser calculado como
A) p = ϕ(tc ).
B) p = 1 − ϕ(tc ).
C) p = 2(1 − ϕ(|tc |)).
Exemplo 3.3.2. Um fabricante afirma que seus cigarros contém não mais que
30mg de nicotina. Uma amostra de 25 cigarros fornece média de 31.5mg e des-
vio padrão de 3mg. No nível de 5%, os dados refutam ou não a afirmação do
fabricante?
Solução.
O sistema de hipóteses é
H0 : µ = 30
vs
H1 : µ ≥ 30,
72
erro tipo I: dizer que os cigarros tem mais de 30mg de nicotina quando na verdade
tem menos de 30mg.
H0 : µ = 30
vs
H1 : µ ≤ 30,
erro tipo I: dizer que os cigarros tem menos de 30mg de nicotina quando na verdade
tem mais de 30mg.
Supondo que X : “a quantidade de nicotina por cigarro” tenha distribuição
N (µ, σ 2 ), a estatística
X −µ X − 30
T = √ = √ ∼ t24 .
S/ n 3/ 25
Por ser um teste unilateral, se deve procurar o quantil 0.95 da distribuição t-Student,
t0.95;24 = 1.711. A região crítica é
Assim,
RC = {X | X ≥ 31.0266}.
Como x = 31.5, a média amostral pertence à região crítica, portanto, rejeita-se H0 ,
ou seja, há evidências de que os cigarros contenham mais de 30g de nicotina. □
73
3.3.3 Teste de hipóteses para uma proporção populacional
Seja X1 , . . . , Xn uma a.a.s. deX
uma população com distribuição de Bernoulli de
parâmetro p. A estatística pb = Xi /n, a proporção amostral, é um estimador de
máxima verossimilhança não-viesado para p. Considere os sistemas de hipóteses
H0 : p = p0 H0 : p = p0 H0 : p = p0
vs vs vs
H1 : p < p0 H1 : p > p0 H1 : p ̸= p0
unilateral à esquerda unilateral à direita bilateral
A) RC = {zc | zc < zα }.
Observação: Alguns autores sugerem verificar que np > 5 e n(1 − p) > 5 para
garantir o correto uso do teste.
Exemplo 3.3.3. Uma estação de televisão afirma que 60% dos televisores estavam
ligados no seu programa especial da última segunda-feira. Uma rede competidora
deseja contestar essa afirmação e decide usar uma amostra de 200 famílias para
um teste. Qual deve ser o procedimento adotado para avaliar a veracidade dessa
afirmação?
74
Solução.
A afirmação pode ser refletida no seguinte sistema de hipóteses:
H0 : p = 0.60
vs
H1 : p < 0.60.
A estatística a ser usada é pb, a proporção de 200 famílias que assistiram ao pro-
grama na última segunda-feira, e sabe-se que
pb − p pb − p
q =q ∼ N (0, 1)
p(1−p) p(1−p)
n 200
75
3.3.4 Teste de hipóteses sobre variâncias com µ conhecida
Seja X1 , . . . , Xn uma a.a.s. de tamanho n com distribuição normal de valor espe-
rado µ e variância σ 2 . Considere o sistema de hipóteses
H0 : σ 2 = σ02 H0 : σ 2 = σ02 H0 : σ 2 = σ02
vs vs vs
2 2 2 2
H1 : σ < σ0 H1 : σ > σ0 H1 : σ 2 ̸= σ02
unilateral à esquerda unilateral à direita bilateral
Considere a estatística
Pn
2 i=1 (Xi − µ)2
Q = ∼ χ2n .
σ2
A distribuição da estatística Q2 é sob H0 . Seja Q2c o valor da estatística avaliada
nos dados da amostra. Considere um nível de significância α. As regiões críticas
são:
n n
Exemplo 3.3.4. Uma das maneiras de manter sob controle a qualidade de um pro-
duto é controlar a sua variabilidade. Uma máquina de encher pacotes de café está
regulada para enchê-los com média de 500g e desvio padrão de 10g. O peso de
cada pacote de X segue uma distribuição N (µ, σ 2 ). Colheu-se uma amostra de 16
pacotes e observou-se uma variância de S 2 = 169g2 . Com esse resultado, você
diria que a máquina está desregulada com relação à variância?
76
Solução.
O sistema de hipóteses de interesse é
H0 : σ 2 = 100
vs
H1 : σ 2 =
̸ 100.
Considere a estatística
n
(Xi − X)2
P
i=1
Q2 = ∼ χ2n−1 .
σ2
A distrbuição da estatística Q2 é sob H0 . Seja Q2c o valor da estatística avaliada
nos dados da amostra. Considere um nível de significância α. As regiões críticas
serão:
77
A) RC = {Q2c | Q2c ≤ χ2α;n−1 }.
n−1 n−1
Exemplo 3.3.5. Uma das maneiras de manter sob controle a qualidade de um pro-
duto é controlar a sua variabilidade. Uma máquina de encher pacotes de café está
regulada para enchê-los com média de 500g e desvio padrão de 10g. O peso de
cada pacote de X segue uma distribuição N (µ, σ 2 ). Colheu-se uma amostra de 16
pacotes e observou-se uma variância de S 2 = 169g2 . Com esse resultado, você
diria que a máquina está desregulada com relação à variância?
Solução.
O sistema de hipóteses de interesse é
H0 : σ 2 = 100
vs
H1 : σ 2 =
̸ 100.
Como X: “peso de cada pacote” é tal que X ∼ N (µ, σ 2 ), a estatística a ser consi-
derada é Pn 2
2 i=1 (Xi − X) (n − 1)S 2
Q = 2
= 2
∼ χ216−1
σ σ
O sistema de hipóteses consiste de uma hipótese bilateral, portanto, tem-se inte-
resse nos quantis χ2α ;16−1 e χ21− α ;16−1 . Considerando α = 5%, χ20.025;15 = 6.2621
2 2
e χ20.975;15 = 27.4884, temos
78
O valor observado da estatística é
15(169)
Q2c = = 25.35.
100
Como Q2c ∈ / RC, não se rejeita H0 , isto é, a máquina está sob controle quanto à
variância. □
79
Vendas
Dados
Técnica A Técnica B
Média 68 76
Variância 50 75
Vendedores 12 15
Solução.
O sistema de hipóteses considerado é
H0 : µA = µB H0 : µA − µB = 0
vs ou vs
H1 : µA < µB , H1 : µA − µB < 0.
80
A um nível de significância de 5%, a região crítica é
RC = {zc | zc ≤ z0.05 = −1.645}.
Como zc = −2.56 < −1.645, rejeita-se H0 , ou seja, existe evidência de que a
técnica B produz melhores resultados do que a técnica A. □
81
A) RC = {Tc | Tc ≤ tα;n+m−2 }
B) RC = {Tc | Tc ≥ t1−α;n+m−2 }
Exemplo 3.4.2. Duas técnicas de venda são aplicadas por dois grupos de vende-
dores: a técnica A, por 12 vendedores, e a técnica B, por 15 vendedores. Espera-se
que a técnica B produza melhores resulttados. No final de um mês, obtiveram-se
os resultados a seguir: Considere um nível de significância de 5% para verificar
Vendas
Dados
Técnica A Técnica B
Média 68 76
Variância 50 75
Vendedores 12 15
RC ={Tc | Tc ≤ tα;n+m−2 }
={Tc | Tc ≤ t0.05;25 }
={Tc | Tc ≤ −1.708}.
82
e
(X − Y ) − δ0 (68 − 76)
Tc = r = r = −2.56.
1 1 1 1
Sp + 8 +
n m 12 15
Como Tc = −2.56 < −1.708 ∈ RC, rejeita-se H0 , isto é, existe evidência de que
a técnica B produz melhores resultados do que a técnica A. □
Resolução em Python:
Solução.
mA = 68
mB = 76
s2A = 50
s2B = 75
n = 12
m = 15
import numpy as np
Sp = np . sqrt ( Sp2 )
Sp
Out [10]: 8.0
Tc = ( mA - mB ) / ( Sp * np . sqrt (1 / n + 1/ m ) )
Tc
Out [13]: -2.581988897471611
t . ppf (0.05 , n + m - 2)
Out [14]: -1.708140761251899
83
Out [15]: True
Considere a estatística
(X − Y ) − δ0
T′ = r .
S12 S22
+
n m
Sob H0 , a variável aleatória T ′ se aproxima de uma distribuição t de Student
com o número de graus de liberdade dado aproximadamente por
2
S12 S22
+
n m
ν ≈ 2 2 2 2
S1 S2
n m
+
n−1 m−1
aproximado para o menor inteiro (Welch).
Seja Tc′ o valor da estatística avaliado nos dados da amostra. Considere um
nível de significância α. As regiões críticas são
84
Tipo Média Variância
A 70.5 81.6
B 84.3 161.5
Solução.
O sistema de hipóteses considerado é
H0 : µA = µB H0 : µA − µB = 0
vs ou vs
H1 : µA ̸= µB , H1 : µA − µB ̸= 0.
85
meA = 70.5
meB = 84.3
s2A = 81.6
s2B = 161.5
n = 15
m = 20
nu
Out [8]: 32.936348408710224
import math
nu = math . floor ( nu )
nu
Out [11]: 32
Tc
Out [14]: -3.7537994071208995
t . ppf (1 - 0.05/2 , nu )
Out [16]: 2.036933343460101
86
m com distribuição normal de valor esperado µ2 e variância σ22 . Considere que as
duas populações são independentes. Podemos considerar os sistemas de hipóteses:
H0 : σ12 = σ22 H0 : σ12 = σ22 H0 : σ12 = σ22
vs vs vs
H1 : σ12 < σ22 H1 : σ12 > σ22 H1 : σ12 ̸= σ22
unilateral à esquerda unilateral à direita bilateral
(n − 1)S12
2
∼ χ2n−1
σ
e
(m − 1)S22
2
∼ χ2m−1 ,
σ
portanto,
(n − 1)S12
/(n − 1) S12
F = σ2 = ∼ fn−1,m−1 .
(m − 1)S22 S22
/(m − 1)
σ2
A distribuição da estatística de teste é sob H0 .
Fixando α, considere fc o valor da estatística avaliada nos dados da amostra,
as regiões críticas são
A) RC = {fc | fc ≤ Fα;n−1;m−1 }
B) RC = {fc | fc ≥ F1−α;n−1;m−1 }
87
Solução.
O sistema de hipóteses de interesse é
H0 : σ12 = σ22 H0 : σA2 = σB2 = σ 2
vs ou vs
H1 : σ12 ̸= σ22 H1 : σA2 =
̸ σB2
H0 : p1 − p2 = δ0 H0 : p1 − p2 = δ0 H0 : p1 − p2 = δ0
vs vs vs
H1 : p1 − p2 < δ0 H1 : p1 − p2 > δ0 H1 : p1 − p2 ̸= δ0
unilateral à esquerda unilateral à direita bilateral
Considere
p1 (1 − p1 ) p2 (1 − p2 )
pb1 ∼ N p1 ; e pb2 ∼ N p2 ; .
n m
A estatística de teste é
p1 − pb2 ) − δ0
(b
Z=r ∼ N (0 ; 1).
p1 (1 − p1 ) p2 (1 − p2 )
+
n m
88
Como os valores dos parâmetros são desconhecidos, substituem-se as variâncias
pelos seus estimadores:
p1 − pb2 ) − δ0
(b
Z=r ∼ N (0 ; 1).
pb1 (1 − pb1 ) pb2 (1 − pb2 )
+
n m
Se algum dos sistemas de hipóteses considera a hipótese nula H0 : p1 −p2 = 0,
a estatística de teste apropriada é
pb1 − pb2
Z= r ∼ N (0 ; 1),
1 1
pb 1 − pb +
n m
nbp1 + mb p2
em que pb = , um estimador comum de p = p1 = p2 .
n+m
Fixando α, seja zc a estatística avaliada nos dados da amostra, as regiões críticas
são
A) RC = {zc | zc ≤ Zα }.
B) RC = {zc | zc ≥ Z1−α }.
Eles acreditam que a proposta A chama a atenção em pelo menos 5% a mais do que
a proposta B. Para verificar a validade de tal informação, conduziu-se o seguinte
experimento: em cada um de dois supermercados “semelhantes” foram colocados
sabonetes com cada tipo de embalagem, e, a clientes selecionados aleatoriamente,
foi perguntado se tinham notado o sabonete e que descrevessem qual a embala-
gem. Construa um teste de hipóteses de 95% de confiança para a diferença das
proporções. Os resultados da pesquisa justificam ou não as suposições da divisão
de criação?
89
Notaram?
Proposta Total
Sim Não
A 168 232 400
B 180 420 600
Total 348 652 1000
Solução.
O sistema de hipóteses de interesse é
H0 : pA − pB = 0.05
vs
H1 : pA − pB > 0.05
RC = {zc | zc ≥ 1.645}.
Dos dados da amostra, tem-se que pbA = 0.42 e pbB = 0.30. O valor da estatística é
90
Dos dados da amostra,
nb
p1 + mb
p2 348
pb = = = 0.348
n+m 1000
é o estimador comum de p = pA = pB . O valor da estatística avaliada nos dados é
pb1 − pb2 0.42 − 0.30
zc = r = r = 8.1933.
1 1 1 1
p(1 − p) + 0.348(1 − 0.348) +
n m 400 600
Como zc = 8.1933 > 1.96 ∈ RC, rejeita-se H0 , ou seja, a proposta A chama a
atenção de forma diferente da proposta B. □
A estatística de teste é
√
(D − δ0 ) n(D − µD )
T = √ = ∼ tn−1 ,
SD / n SD
91
sob H0 .
Como
A) RC = {tc | tc ≤ tα;n−1 }
B) RC = {tc | tc ≥ t1−α;n−1 }
Exemplo 3.5.1. Cinco operadores de certo tipo de máquina são treinados em má-
quinas de duas marcas diferentes, A e B. Mediu-se o tempo que cada um deles
gasta na realização de uma mesma tarefa. Seguem os resultados.
Admita que, sob H0 , a diferença de tempo segue uma distribuição normal N (0, σD
2
).
Fixando α = 0.10, a região crítica é
92
A estatística avaliada nos dados da amostra é
√ √
(D − δ0 ) n(D − µD ) (5 − 0) 5(5 − 0)
tc = √ = =√ √ = = 5.98.
SD / n SD 3.5/ 5 1.87
Como tc = 5.98 > 1.54 ∈ RC, rejeita-se H0 , ou seja, demora-se mais a realizar a
tarefa comum na máquina A. □
93
4 Testes qui-quadrado
4.1 Introdução
Os testes qui-quadrado englobam os testes de aderência, em que se tem tabelas de
uma única entrada, uma única variável, e testes de independência, em que se tem
tabelas de dupla entrada, duas variáveis.
94
Categoria 1 2 3 ... k Total
F. esperada e1 e2 e3 ... ek n
F. observada o1 o2 o3 ... ok n
Hipóteses do teste
Estatística do teste
k
2
X (oi − ei )2
Q = ,
i=1
ei
em que Q2 ∼ χ2k−1 supondo H0 verdadeira.
Região crítica
RC = {Q2 | Q2 ≥ χ21−α;k−1 }.
Nível de significância
Solução.
95
Hipóteses do teste
Ou, equivalentemente:
1
• H0 : pi = para todo i = 1, . . . , 7
7
1
• H1 : pi ̸= para pelo menos um valor de i
7
RC = {Q2 | Q2 ≥ 12.59}.
Como Q2 ∈ RC, rejeitamos H0 , então, pelo menos um dos dias tem número
diferente dos demais.
□
96
qualitativas e os dados organizados em uma tabela de contingência. O único total
fixo (controlado pelo pesquisador) é o total de indivíduos estudados.
Hipóteses do teste
Estatística do teste r X s
X (oij − eij )2
Q2 = ,
i=1 j=1
eij
Região crítica
RC = {Q2 | Q2 ≥ χ21−α;(r−1)(s−1) }.
Nível de significância
97
Número de filhos
Renda 0 1 2 +2 Total
Menos de 2000 15 27 50 43 135
2000 a 5000 25 30 12 8 75
5000 ou mais 8 13 9 10 40
Total 48 70 71 61 250
Solução.
Hipóteses do teste
• H0 : As variáveis são independentes
• H1 : As variáveis não são independentes
Estatística do teste r X s
2
X (oij − eij )2
Q = ,
i=1 j=1
eij
em que r e s representam o número de linhas e de colunas, respectivamente. Adi-
cionalmente, Q2 ∼ χ2(r−1)(s−1) , supondo H0 verdadeira.
Número de filhos
Renda 0 1 2 +2 Total
Menos de 2000 15(25.92) 27(37.80) 50(38.34) 43(32.94) 135
2000 a 5000 25(14.40) 30(21.00) 12(21.30) 8(18.30) 75
5000 ou mais 8(7.68) 13(11.20) 9(11.36) 10(9.76) 40
Total 48 70 71 61 250
98
r X s
2
X (oij − eij )2
Q =
i=1 j=1
eij
(15 − 25.92)2 (10 − 9.76)2
= + ··· +
25.92 9.76
=36.62.
Região crítica
RC = {Q2 | Q2 ≥ χ21−α;(r−1)(s−1) }.
Como χ20.95;(3−1)(4−1) = 12.59, temos que
RC = {Q2 | Q2 ≥ 12.59}.
Classe i da População j
Total
variável 1 2 ... s
1 o11 (e11 ) o12 (e12 ) . . . o1s (e1s ) o1. = e1.
2 o21 (e21 ) o22 (e22 ) . . . o2s (e2s ) o2. = e2.
.. .. .. .. .. ..
. . . . . .
r or1 (er1 ) or2 (er2 ) ... ors (ers ) or. = er.
Total o.1 = e.1 o.2 = e.2 ... o.s = e.s n
Hipóteses do teste
99
• H0 : A proporção de indivíduos em cada categoria é a mesma nas diferentes
populações amostradas (as populações não diferem com relação à variável
estudada)
Estatística do teste r X s
2
X (oij − eij )2
Q = ,
i=1 j=1
eij
Região crítica
RC = {Q2 | Q2 ≥ χ21−α;(r−1)(s−1) }.
Nível de significância
Música
Vinho Total
Nenhuma Francesa Italiana
Francês 30 (34.22) 39 (30.56) 30 (34.22) 99
Italiano 11 (10.72) 1 (9.57) 19 (10.72) 31
Outros 43 (39.06) 35 (34.88) 35 (39.07) 113
Total 84 75 84 243
Solução.
100
Hipóteses do teste
• H0 : O tipo de música não influencia na compra do vinho.
Estatística do teste
r X s
2
X (oij − eij )2
Q =
i=1 j=1
eij
(30 − 34.22)2 (39 − 30.56)2 (35 − 39.07)2
= + + ··· +
34.22 30.56 39.07
=17.9646.
Região crítica
RC = {Q2 | Q2 ≥ χ21−α;(r−1)(s−1) }
Como χ20.95;(3−1)(3−1) = 9.49,
RC = {Q2 | Q2 ≥ 9.49}.
Solução.
Hipóteses do teste
• H0 : Ser valorizador ou não da etiqueta é o mesmo para homens e mulheres.
• H1 : Ser valorizador ou não da etiqueta é diferente para homens e mulheres.
Estatística do teste
r X s
X
2 (oij − eij )2
Q =
i=1 j=1
eij
102
(63 − 48.70)2 (224 − 209.70)2
= + ··· +
48.70 209.70
=10.9524.
Região crítica
RC = {Q2 | Q2 ≥ χ2(r−1)(s−1) }.
Como χ20.95;(2−1)(2−1) = 3.84, como os graus de liberdade são iguais a um, temos
que aplicar a correção de Yates. Portanto, a estatística fica dada por
r X s
2
X (|oij − eij | − 0.5)2
Q =
i=1 j=1
eij
(|63 − 48.70| − 0.5)2 (|224 − 209.70| − 0.5)2
= + ··· +
48.70 209.70
=10.1998.
Portanto,
RC = {Q2 | Q2 ≥ 3.84}.
Como Q2 ∈ RC, rejeita-se H0 , isto é, existe diferença entre ser valorizador da
etiqueta entre homens e mulheres.
□
103
ou seja, a média dos produtos dos valores padronizados das variáveis. Escrita de
forma mais conveniente como
P
xi yi − nxy
corr(X, Y ) = p P ,
( xi − nx2 )( yi2 − ny 2 )
2
P
4.6.1 Caso 1: ρ0 ̸= 0
Sejam (X1 , Y1 ), . . . , (Xn , Yn ) n pares de uma a.a.s. de uma população com dis-
tribuição normal bidimensional. Considere ρ0 ̸= 0. Os sistemas de hipótese de
interesse são
H0 : ρ = ρ0 H0 : ρ = ρ0 H0 : ρ = ρ0
vs vs vs
H1 : ρ < ρ0 H1 : ρ > ρ0 H1 : ρ ̸= ρ0
104
que tem uma distribuição muito próxima de uma normal N (µξ , σξ2 ), com
1 1 + ρ0 1
µξ = log e σξ2 = ,
2 1 − ρ0 n−3
A) RC = {ξc | ξc ≤ µξ + zα σξ }
B) RC = {ξc | ξc ≥ µξ + z1−α σξ }
A) p = ϕ(ξc )
B) p = 1 − ϕ(ξc )
4.6.2 Caso 2: ρ0 = 0
Sejam (X1 , Y1 ), . . . , (Xn , Yn ) n pares de uma população com distribuição normal
bidimensional. Considere os sistemas de hipótese de interesse:
H0 : ρ = 0 H0 : ρ = 0 H0 : ρ = 0
vs vs vs
H1 : ρ < 0 H1 : ρ > 0 H1 : ρ ̸= 0
A) RC = {tc | tc ≤ tα;n−2 }
105
B) RC = {tc | tc ≥ t1−α;n−2 }
A estatística de teste é
1 1+r
ξ = log ∼ N (µξ , σξ2 ),
2 1−r
em que
1 1 + 0.5
µξ = log = 0.549
2 1 − 0.5
e
1
σξ2 = = 0.04.
25
Como a hipótese alternativa sugere uma região crítica unilateral à direita, a região
crítica no nível de significância α = 0.05 será
√
RC = {ξc | ξc > 0.549 + 1.654 0.04} = {ξc | ξc > 0.878}.
106
Exemplo 4.6.2. Se quer testar se existe ou não correlação entre o número de cli-
entes e os anos de experiência de agentes de seguros. Se sorteiam cinco agentes
e se observam duas variáveis. Os dados estão na seguinte tabela. Qual seria a
conclusão, baseando-se nesses dados? Considere α = 0.10.
Agente A B C D E
Anos de Experiência 2 4 5 6 8
Número de clientes 48 56 64 60 72
Solução.
Seja X : “número de clientes” e Y : “os anos de experiência de agentes de segu-
ros”. O sistema de hipóteses é:
H0 : ρ(X, Y ) = 0
vs
H1 : ρ(X, Y ) ̸= 0
A estatística de teste é
r
n−2
T =r ∼ t5−2 .
1 − r2
Por ser um teste bilateral, fixando α = 0.10, a região crítica é
107
Essa quantidade, quando padronizada por ρ, torna-se uma variável pivotal.
Portanto, tomando como exemplo um coeficiente de confinaça γ, deve-se pro-
curar dois números ε1 e ε2 para ε, tais que
P (ε1 < ε < ε2 ) = γ.
Como ε ∼ N (µε , 1/(n − 3)), pode-se escrever
ε1 − µ ε ε − µε ε2 − µ ε
P
r 1 < r 1 < r 1 = γ,
108
Exemplo 4.6.3. Retomando o exemplo da relação entre o número e os anos de
experiência (4.6.2), deseja-se construir um intervalo de 95% de confiança para ρ.
1 1 + 0.95
εc = log = 1.832,
2 1 − 0.95
logo,
r r !
1 1
IC(µε ; 0.95) = εc − z1− α2 ; εc + z1− α2
n−3 n−3
=(1.832 − 1.384 ; 1.832 + 1.834)
=(0.448 ; 3.216).
e2µε − 1
ρ=
e2µε + 1
nos limites do intervalo de confiança para µε . Assim, o limite inferior é
e2(0.448) − 1
= 0.4203,
e2(0.448) + 1
e o limite superior é
e2(3.216) − 1
= 0.9968.
e2(3.216) + 1
Finalmente, se obtém
109