Métodos Estatísticos II-Rev2020

Fundação Centro de Ciências e Educação Superior a Distância do Estado do Rio de Janeiro
Centro de Educação Superior a Distância do Estado do Rio de Janeiro
Métodos Estatísticos II
Ana Maria Lima de Farias
Universidade Federal Fluminense
Departamento de Estatística
Maio 2020
Conteúdo
1 Variáveis Aleatórias Contínuas 1
2 A Distribuição Normal 23
3 A Distribuição Normal: Conclusão 43
4 Inferência Estatística – Conceitos Básicos 65
5 Distribuição Amostral da Média 87
6 O Teorema Limite Central 99
7 Distribuição Amostral da Proporção 105
8 Intervalos de Confiança 117
9 Intervalos de Confiança Para Proporções – Amostras Grandes 133
10 Testes de Hipóteses – Conceitos Básicos 143
11 Testes de Hipóteses sobre a Média 157
12 Teste de Hipótese sobre Proporções – Amostras Grandes 175
A Tabelas 185
i
Aula 1
Variáveis Aleatórias Contínuas
Nesta aula, iremos estudar as variáveis aleatórias contínuas, e você aprenderá os seguintes
conceitos:
• função densidade de probabilidade;
• função de distribuição acumulada de variáveis aleatórias contínuas;
• esperança e variância de variáveis aleatórias contínuas;
• a distribuição uniforme contínua.
Noções Básicas
No estudo das distribuições de frequência para variáveis quantitativas contínuas, vimos que,
para resumir os dados, era necessário agrupar os valores em classes. O histograma e o polígono de
frequências eram os gráficos apropriados para representar tal distribuição.
Para apresentar os conceitos básicos relativos às variáveis aleatórias contínuas, vamos

considerar os histogramas e respectivos polígonos de frequência apresentados na Figura 1.1. Esses
gráficos representam as distribuições de frequências de um mesmo conjunto de dados, cada uma com
um número de classes diferente − no histograma superior, há menos classes do que no histograma
inferior.
Suponhamos, também, que as áreas de cada retângulo sejam iguais às frequências relativas
das respectivas classes (essa é a definição mais precisa de um histograma). Pelos resultados vistos
2 AULA 1. VARIÁVEIS ALEATÓRIAS CONTÍNUAS
anteriormente, sabemos que a soma das áreas dos retângulos é 1 (as frequências relativas devem
somar 1 ou 100%) e que cada frequência relativa é uma aproximação para a probabilidade de um
elemento pertencer à respectiva classe.
Analisando atentamente os dois gráficos, podemos ver o seguinte: à medida que aumentamos o
número de classes, diminui a diferença entre a área total dos retângulos e a área abaixo do polígono
de frequência.
Figura 1.1 – Histogramas e respectivos polígonos de frequência
A divisão em classes se fez pelo simples motivo de que uma variável contínua poder assumir
infinitos (não-enumeráveis) valores. Faz sentido, então, pensarmos em reduzir, cada vez mais, o
comprimento de classe δ, até a situação limite em que δ → 0. Nessa situação limite, o polígono de
frequências se transforma em uma curva na parte positiva (ou não-negativa) do eixo vertical, tal que
a área sob ela é igual a 1. Essa curva será chamada curva de densidade de probabilidade.
Considere, agora, a Figura 1.2, em que é apresentado o histograma superior da figura anterior,
mas agora ilustramos um fato visto anteriormente: para estimar a frequência de valores da distribuição
entre os pontos a e b, podemos usar a área dos retângulos sombreados de cinza-claro.
Figura 1.2 – Cálculo da frequência entre dois pontos a e b
Conforme ilustrado na Figura 1.3, a diferença entre essa área e a área sob o polígono de
frequências tende a diminuir à medida que se aumenta o número de classes. Essa diferença é a parte
sombreada de cinza mais escuro. Isso nos permite concluir o seguinte: no limite, quando δ → 0,
podemos estimar a probabilidade de a variável de interesse estar entre dois valores A e B pela área
3
Figura 1.3 – Diferença entre as áreas dos retângulos e a área sob o polígono de frequência
sob a curva de densidade de probabilidade, delimitada pelos pontos A e B.
Variável Aleatória Contínua
Embora já visto anteriormente, voltamos a apresentar o conceito de variável aleatória, por ser
esse um dos conceitos mais importantes deste curso.
Definição 1.1 Uma variável aleatória é uma função real (isto é, que assume valores em R)
definida no espaço amostral Ω de um experimento aleatório. Dito de outra forma, uma variável
aleatória é uma função que associa, a cada evento de Ω, um número real.
Já estudamos também as variáveis aleatórias discretas e agora vamos introduzir as variáveis

aleatórias contínuas e, para isso, apresentamos novamente esses conceitos.
Definição 1.2 Uma variável aleatória é discreta se sua imagem (ou conjunto de valores que
ela assume) for um conjunto finito ou enumerável. Se a imagem for um conjunto não-enumerável,
dizemos que a variável aleatória é contínua.
Função Densidade de Probabilidade
Os valores de uma variável aleatória contínua são definidos a partir do espaço amostral de
um experimento aleatório. Sendo assim, é natural o interesse na probabilidade de obtenção de
diferentes valores dessa variável. O comportamento probabilístico de uma variável aleatória contínua
será descrito pela sua função densidade de probabilidade.
Definição 1.3 Uma função densidade de probabilidade é uma função f(x) que satisfaz as
seguintes propriedades:
1. f(x) ≥ 0
2. A área total sob o gráfico de f(x) tem que ser igual a 1.
Dada uma função f(x) satisfazendo as propriedades acima, então f(x) representa alguma variável
aleatória contínua X , de modo que P(a ≤ X ≤ b) é a área sob a curva limitada pelos pontos a
e b (veja a Figura 1.4).
Figura 1.4 – Probabilidade como área
A definição anterior usa argumentos geométricos; no entanto, uma definição mais precisa
envolve o conceito de integral de uma função de uma variável. Apresentamos a seguir essa definição,
mas, neste curso, usaremos basicamente a interpretação geométrica da integral, que está associada
à área sob uma curva.
Definição 1.4 Uma função densidade de probabilidade é uma função f(x) que satisfaz as
seguintes propriedades:
1. f(x) ≥ 0
R
2. f(x)dx = 1.
Dada uma função f(x) satisfazendo as propriedades acima, então f(x) representa alguma variável
aleatória contínua X , de modo que
Z b
P(a ≤ X ≤ b) = f(x)dx
a
Para deixar clara a relação entre a função densidade de probabilidade e a respectiva variável
aleatória X , usaremos a notação fX (x).
5
Uma primeira observação importante que resulta da interpretação geométrica de probabilidade

como área sob a curva de densidade de probabilidade é a seguinte: se X é uma variável aleatória
contínua, então a probabilidade do evento X = a é zero, ou seja, a probabilidade de X ser exatamente
igual a um valor específico é nula. Isso pode ser visto na Figura 1.4: o evento X = a corresponde a um
segmento de reta, e tal segmento tem área nula. Como consequência, temos as seguintes igualdades:
P(a ≤ X ≤ b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a < X < b)
Função de Distribuição Acumulada
Da mesma forma que a função de probabilidade de uma variável aleatória discreta, a função
densidade de probabilidade nos dá toda a informação sobre a variável aleatória X , ou seja, a partir
da dela, podemos calcular qualquer probabilidade associada à variável aleatória X . Também como
no caso discreto, podemos calcular probabilidades associadas a uma variável aleatória contínua X a
partir da função de distribuição acumulada.
Definição 1.5
Dada uma variável aleatória X , a função de distribuição acumulada de X é definida por
FX (x) = P (X ≤ x) ∀x ∈ R (1.1)
A definição é a mesma vista para o caso discreto; a diferença é que, para variáveis contínuas,
a função de distribuição acumulada é uma função contínua, sem saltos. Veja a Figura 1.5 para um
exemplo.
Figura 1.5 – Exemplo de função de distribuição acumulada de uma variável aleatória contínua
Como no caso discreto, valem as seguintes propriedades para a função de distribuição

acumulada de uma variável aleatória contínua:
0 ≤ FX (x) ≤ 1
lim FX (x) = 1
x→∞
lim FX (x) = 0
x→−∞
a < b ⇒ FX (a) ≤ FX (b)
Da interpretação de probabilidade como área, resulta que FX (x) é a área à esquerda de x sob
a curva de densidade fX . Veja a Figura 1.6:
Figura 1.6 – Função de distribuição acumulada - cálculo a partir da área sob a curva de densidade
Existe uma relação entre a função de densidade de probabilidade e a função de distribuição

acumulada, que é resultante do Teorema Fundamental do Cálculo. Essa relação será dada aqui para
fins de completitude das definições, mas não será cobrado do aluno tal conhecimento, uma vez que
os conceitos de integral e derivada podem ainda não ter sido devidamente assimilados.
Por definição, temos o seguinte resultado:

Z x
FX (x) = P(X ≤ x) = fX (u)du,
−∞
e do Teorema Fundamental do Cálculo resulta que
d
fX (x) = FX (x),
dx
isto é, a função densidade de probabilidade é a derivada da função de distribuição acumulada.
Esperança e Variância de Variáveis Aleatórias Contínuas
Nas distribuições de frequências agrupadas em classes de variáveis quantitativas contínuas,

vimos que a média e a variância da distribuição, medidas de centro e de dispersão, respectivamente,
7
podiam ser calculadas como

X
x= fi xi
X
σ2 = fi (xi − x)2
onde fi era a frequência relativa da classe i e xi era o ponto médio da classe i. Continuando com
a ideia inicial da aula de tomar classes de comprimento cada vez menor, isto é, fazendo δ → 0,
chegamos às seguintes definições de esperança e variância de uma variável aleatória contínua.
Definição 1.6 Seja X uma variável aleatória contínua com função densidade de probabilidade
fX . A esperança (ou média ou valor esperado) de X é definida como
Z +∞
E(X ) = xfX (x)dx
−∞
e a variância de X é definida como

Z +∞
V ar(X ) = [x − E(X )]2 fX (x)dx
−∞
O desvio padrão é definido como

p
DP(X ) = V ar(X )
Como já dito antes, não entraremos em detalhes de cálculo dessas fórmulas; nosso enfoque
será na interpretação da média e da variância como medidas de centro e de dispersão. Para algumas
distribuições específicas, apresentaremos os valores de E(X ) e Var(X ), mostrando a sua influência
sobre a distribuição.
As mesmas propriedades vistas para variáveis aleatórias discretas continuam valendo no caso
contínuo:
Esperança Variância Desvio Padrão

E(a) = a V ar (a) = 0 DP(a) = 0
E(X + a) = E(X ) + a V ar (X + a) = V ar (X ) DP (X + a) = DP (X )
E(bX ) = bE(X ) V ar (bX ) = b2 V ar (X ) DP (bX ) = |b| DP (X )
xmin ≤ E(X ) ≤ xmax V ar(X ) ≥ 0 DP(X ) ≥ 0
Se interpretamos a função densidade de probabilidade de X como uma distribuição de massa na

reta real, então E(X ) é o centro de massa desta distribuição. Essa interpretação nos permite concluir,
por exemplo, que se fX é simétrica, então E(X ) é o valor central, que define o eixo de simetria.
Exemplo 1.1 Distribuição uniforme

Considere a função fX apresentada na Figura 1.7:
(a) Encontre o valor de k para que fX seja uma função densidade de probabilidade de uma variável
aleatória X .
Figura 1.7 – Função densidade de probabilidade
(b) Determine a equação que define fX .
(c) Calcule P(2 ≤ X ≤ 3).
(d) Encontre E(X ).
(e) Determine o valor de k tal que P(X ≤ k) = 0, 6.
(f) Encontre a função de distribuição acumulada de X .
Solução:
(a) Como a área tem que ser 1, temos que ter
1
1 = (5 − 1) × k ⇒ k = = 0, 25
4
(b) Temos que 




1
4 se 1 ≤ x ≤ 5
fX (x) =


 0 caso contrário
(c) A probabilidade pedida é a área sombreada na Figura 1.8. Logo,
1 1
P(2 ≤ X ≤ 3) = (3 − 2) × =
4 4
(d) Por argumentos de simetria, a esperança é o ponto médio, ou seja, E(X ) = 3.
(e) O primeiro ponto a observar é o seguinte: o ponto x = 3 divide a área ao meio, ou seja, x = 3 é
a mediana da distribuição. Como temos que P(X ≤ k) = 0, 6, resulta que k tem que ser maior
que 3, uma vez que abaixo de 3 temos área igual a 0,5. Veja a Figura 1.9:
Temos que ter
1
0, 1 = (k − 3) × ⇒ k = 3, 4
4
9
Figura 1.8 – Cálculo de P(2 ≤ X ≤ 3)
Figura 1.9 – Cálculo de k tal que P(X ≤ k) = 0, 6.
(f) Para x < 1, temos que FX (x) = 0 e para x > 5, temos que FX (x) = 1. Para 1 ≤ x ≤ 5, FX (x) é
a área de um retângulo de base (x − 1) e altura 1/4 (veja a Figura 1.10). Logo,
x −1
FX (x) =
4
Figura 1.10 – Cálculo de FX

e a expressão completa de FX é


 0
 , se x < 1
FX (x) = x−1
4 , se 1 ≤ x < 5


 1 , se x ≥ 5
cujo gráfico está ilustrado na Figura 1.11.
Figura 1.11 – Função de distribuição acumulada

Exemplo 1.2 Função linear

Considere a função fX apresentada na Figura 1.12:
Figura 1.12 – Função densidade de probabilidade.
(a) Encontre o valor de k para que fX seja uma função densidade de probabilidade de uma variável
aleatória contínua X .
(b) Determine a equação que define fX .
(c) Calcule P(2 ≤ X ≤ 3).
(d) Encontre a função de distribuição acumulada de X .
(e) Determine o valor de k tal que P(X ≤ k) = 0, 6.

11
Solução:
(a) Podemos decompor a área sob a reta como a área de um triângulo e a área de um retângulo
(na verdade, o resultado é a área de um trapézio - veja a Figura 1.13). Então, temos que ter
1
1 = (6 − 1) × 0, 1 + (6 − 1) × (k − 0, 1) ⇒
2
5
0, 5 = (k − 0, 1) ⇒ k = 0, 3
2
Figura 1.13 – Cálculo de k
(b) fX é uma função linear e a reta passa pelos pontos (1; 0, 1) e (6; 0, 3), o que nos dá o seguinte
sistema de equações:

 0, 1 = a + b




 0, 3 = a + 6b
Subtraindo a primeira equação da segunda, obtemos
0, 3 − 0, 1 = 5b ⇒ b = 0, 04
Substituindo este valor na primeira equação, obtemos que

a = 0, 1 − 0, 04 = 0, 06. Logo,
(
0, 06 + 0, 04x se 1 ≤ x ≤ 6
fX (x) =
0 caso contrário
(c) Veja a Figura 1.14, em que a área sombreada corresponde à probabilidade pedida. Vemos que
essa é a área de um trapézio de altura 3 − 2 = 1, base maior igual a
fX (3) = 0, 06 + 0, 04 × 3 = 0, 18
e base menor igual a

f(2) = 0, 06 + 0, 04 × 2 = 0, 14.
Logo,
0, 18 + 0, 14
P(2 ≤ X ≤ 3) = × 1 = 0, 16
2
Figura 1.14 – Cálculo de P(2 ≤ X ≤ 3).
(d) Veja a Figura 1.15; nela podemos ver que, para x ∈ [1, 6], FX (x) é a área de um trapézio de
altura x − 1, base maior igual a fX (x) e base menor igual a fX (1).
Figura 1.15 – Função de distribuição acumulada como área
Logo,
(0, 06 + 0, 04x) + 0, 1
FX (x) = × (x − 1)
2
= (0, 08 + 0, 02x)(x − 1)
ou seja,



 0 , se x < 1
FX (x) = 0, 02x 2 + 0, 06x − 0, 08 , se 1 ≤ x < 6


 1 , se x ≥ 6
13
(e) Queremos determinar k tal que FX (k) = 0, 6. Logo,
0, 6 = 0, 02k 2 + 0, 06k − 0, 08 ⇒
0, 02k 2 + 0, 06k − 0, 68 = 0 ⇒
k 2 + 3k − 34 = 0 ⇒
√
−3 ± 9 + 4 × 34
k = = 4, 5208
2
A raiz que fornece resultado dentro do domínio de variação de X é k = 4, 5208

Distribuição Uniforme
Função de Densidade de Probabilidade
Uma variável aleatória contínua X tem distribuição uniforme no intervalo [a, b] (finito) se sua
função densidade de probabilidade constante nesse intervalo, ou seja, temos que ter
f(x) = k ∀x ∈ [a, b] .
Então, o gráfico da função densidade de probabilidade. de X é como o ilustrado na Figura

1.16.
Figura 1.16 – Densidade da distribuição uniforme no intervalo [a, b].
Para que tal função seja uma função densidade de probabilidade, temos que ter k > 0 e a área
do retângulo tem que ser 1, ou seja,
1
(b − a) × k = 1 ⇒ k =
b−a
Logo, a função de densidade de uma variável aleatória uniforme no intervalo [a, b] é dada por




1
b−a se x ∈ [a, b]
f(x) = (1.2)


Os valores a e b são chamados parâmetros da distribuição uniforme; note que ambos têm que
ser finitos para que a área sob a curva seja igual a 1. Quando a = 0 e b = 1 temos a uniforme
padrão, denotada por U(0, 1).
Por definição, temos que

FX (x) = Pr (X ≤ x)
e essa probabilidade é dada pela área sob a curva de densidade à esquerda de x, conforme ilustrado
na Figura 1.17.
Figura 1.17 – Cálculo da função de distribuição acumulada da densidade uniforme
1
Essa área é a área de um retângulo com base (x − a) e altura . Logo,
b−a


 0 se x < a
 x −a
F (x) = se a ≤ x ≤ b (1.3)

 b−a
se x > b

1
O gráfico dessa função é dado na Figura 1.18.
Esperança e Variância
Das propriedades da esperança e das características da densidade uniforme, sabemos que E(X )
é o ponto médio do intervalo [a, b] :
a+b
E (X ) =
2
15
Figura 1.18 – Função de distribuição acumulada da distribuição uniforme no intervalo [a, b]
O cálculo da variância requer cálculo integral, e pode-se mostrar
(b − a)2
V ar (X ) =
12
Resumo
Nesta aula você iniciou o estudo sobre variáveis aleatórias contínuas, aprendendo os seguintes
conceitos:
• Função densidade de probabilidade é uma função f(x) que satisfaz as seguintes propriedades:
? f(x) ≥ 0
? a área total sob o gráfico de f(x) tem que ser igual a 1.
• Dada uma função de densidade f(x) referente a uma variável aleatória X , então P(a ≤ X ≤ b)
é a área sob a curva limitada pelos pontos a e b.
• A função de distribuição acumulada é definida como
F (x) = Pr(X ≤ x) ∀x ∈ R
• A densidade uniforme no intervalo (a, b) é definida como





1
b−a se x ∈ [a, b]
f(x) = (1.4)


a+b
E(X ) =
2
(b − a)2
V ar(X ) =
2
Exercícios
1. Considere a seguinte função:

(
K (2 − x) se 0 ≤ x ≤ 1
g(x) =
0 se x < 0 ou x > 1
(a) Esboce o gráfico de g(x).
(b) Encontre o valor de K para que g(x) seja uma função densidade de probabilidade.
(c) Encontre a função de distribuição acumulada.
(d) Calcule os quartis da distribuição.
2. A demanda diária de arroz num supermercado, em centenas de quilos, é uma variável aleatória
com função densidade de probabilidade dada por

3x se 0 ≤ x < 1
 2


f(x) = − x3 + 1 se 1 ≤ x < 3


 0 se x < 0 ou x > 3
(a) Qual é a probabilidade de se vender mais de 150kg de arroz num dia escolhido ao acaso?
(b) Qual a quantidade de arroz que deve ser deixada à disposição dos clientes diariamente
para que não falte arroz em 95% dos dias?
3. Seja X uma variável aleatória com função densidade de probabilidade dada por
(
2x se 0 ≤ x ≤ 1
fX (x) =
0 caso contrário

Calcule Pr X ≤ 1
2 | 1
3 ≤X ≤ 2
3 .
4. Latas de coca-cola são enchidas num processo automático segundo uma distribuição uniforme
no intervalo (em ml) [345,355].
(a) Qual é a probabilidade de uma lata conter mais de 353 ml?
(b) Qual é a probabilidade de uma lata conter menos de 346 ml?
(c) Qualquer lata com volume 4 ml abaixo da média pode gerar reclamação do consumidor
e com volume 4 ml acima da média pode transbordar no momento de abertura, devido à
pressão interna. Qual é a proporção de latas problemáticas?
5. Seja X uma variável aleatória com distribuição uniforme no intervalo [a,b], com a < b. Se E(X)
= 7,5 e Var(X) = 6,75, determine os valores de a e b.
17
Solução dos Exercícios
1. (a) Veja a Figura 1.19. Note que g(0) = 2K e g(1) = K e g(x) é uma função linear.
Figura 1.19 – Gráfico de g(x)
(b) A área total, que deve ser igual a 1, é a área de um trapézio com altura h = 1, base maior
igual a 2K e base menor igual a K . Logo,
K + 2K 2
1= ×1⇒K =
2 3
(c) Para cada x ∈ [0, 1], FX (x) é a área de um trapézio de altura x, base menor igual a
fX (x) = 23 (2 − x) e base maior igual a 43 . Veja a Figura 1.20. Logo,
4
+ 23 (2 − x) 2 1
FX (x) = 3
x = x + (2 − x)x 0≤x≤1
2 3 3
Resulta que



 0 , se x < 0
FX (x) = 3x
4
− 13 x 2 , se 0 ≤ x < 10


 1 , se x > 1
(d) Sejam Q1 , Q2 e Q3 os três quartis:

Figura 1.20 – Cálculo da função de distribuição acumulada
FX (Q1 ) = 0, 25 ⇒
4 1 1
Q1 − Q12 = ⇒
3 3 4
16Q1 − 4Q1 2 = 3 ⇒
4Q12 − 16Q1 + 3 = 0 ⇒
Q12 − 4Q1 + 0, 75 = 0 ⇒
√ √
4± 16 − 4 × 0, 75 4 ± 13
Q1 = =
2 2
A raiz que fornece solução no domínio de X é:

√
4− 13
Q1 = = 0, 19722
2
FX (Q2 ) = 0, 5 ⇒
4 1 1
Q2 − Q22 = ⇒
3 3 2
8Q2 − 2Q2 = 3 ⇒
2
2Q22 − 8Q2 + 3 = 0 ⇒
Q22 − 4Q2 + 1, 5 = 0 ⇒
√ √
4± 16 − 4 × 1, 5 4 ± 10
Q2 = =
2 2
19

√
4− 10
Q2 = = 0, 41886
2
FX (Q3 ) = 0, 75 ⇒
4 1 3
Q3 − Q32 = ⇒
3 3 4
16Q3 − 4Q3 = 9 ⇒
2
4Q32 − 16Q3 + 9 = 0 ⇒
9
Q32 − 4Q3 + = 0 ⇒
√4 √
4 ± 16 − 4 × 2.25 4± 7
Q3 = =
2 2

√
4− 7
Q3 = = 0, 67712
2
2. Seja X a variável aleatória que representa a demanda diária de arroz, em centenas de quilos.
(a) Na Figura 1.21, temos o gráfico da função densidade de X , onde a área do triângulo
sombreado representa Pr(X ≥ 1, 5). Nesse triângulo, a base é 3 − 1, 5 = 1, 5, e a altura é
−1,5
f(1, 5) = 3 + 1. Logo,
1 1 3 1 3
Pr(X ≥ 1, 5) = × 1, 5 × 0, 5 = × × =
2 2 2 2 8
Figura 1.21 – Demanda de arroz – P(X > 1, 5)
(b) Seja k o valor a estocar. Para que a demanda seja atendida, é necessário que a quantidade
demandada seja menor que a quantidade em estoque. Logo, queremos encontrar o valor
de k tal que Pr(X ≤ k) = 0, 95.
Como P(X ≤ 1) = 31 , k tem que ser maior que 1, ou seja, k está no triângulo superior. Veja
a Figura 1.22.
Figura 1.22 – Demanda de arroz - Cálculo do estoque.
Mas P(X ≤ k) = 0, 95 é equivalente a P(X > k) = 0, 05. Logo,

1 k
0, 05 = (3 − k) − + 1 ⇒
2 3

−k + 3
0, 1 = (3 − k) ⇒
3
0, 3 = 9 − 6k + k 2 ⇒
k 2 − 6k + 8, 7 = 0 ⇒
√
6 ± 36 − 4 × 8.7
k=
2
A raiz que dá a solução dentro do domínio de X é:

√
6− 36 − 4 × 8.7
k= = 2, 45 centenas de quilos
2
P(A ∩ B)
3. Sabemos que Pr(A|B) = . Assim,
P(B)

1 1 2
P X≤ ∩ ≤X ≤
1 1 2
P X ≤ | ≤X ≤
2 3 3
=
1 2
≤X ≤
2 3 3
P
3 3

1 1
P ≤X ≤
3 2
=
1 2
Pr ≤X ≤
3 3
Veja a Figura 1.23.
Ambos os termos referem-se a áreas de trapézios. O numerador refere-se à área do trapézio

sombreado de cinza-escuro e o denominador refere-se ao trapézio correspondente a toda a área
sombreada (cinza-claro e cinza-escuro).

1 1 1 1 1
O trapézio cinza-escuro tem altura − = , base maior igual a f = 2 × = 1 e base
2 3 6 2 2
1 1 2
menor igual a f =2× = .
3 3 3
21
Figura 1.23 – Solução do Exercício 1.3.

2 1 1 2 2 4
O trapézio sombreado completo tem altura − = , base maior igual a f = 2× =
3 3 3 3 3 3
1 1 2
e base menor igual a f = 2 × = . Logo,
3 3 3
2
1 1+
5 1

1 1 2
3 × ×
P X ≤ | ≤X ≤ = 2 6 = 3 6 = 5
4 2 1
2×
2 3 3 12
+ 1
3 3 × 3
2 3
4. Seja X = “conteúdo da lata de coca-cola” . Então, X ∼ U[345, 355]
(a) Pede-se
355 − 353
P(X > 353) = = 0, 2
355 − 345
(b) Pede-se
346 − 345
P(X < 346) = P(X ≤ 346) = = 0, 1
355 − 345
(c) A média é 350. Então, as latas sem problemas têm volume entre 350 − 4 = 346 e 350 + 4 =
354 ml.
354 − 346
P(346 < X < 354) = = 0, 8
355 − 345
Logo, a proporção de latas problemáticas é 1 − 0, 8 = 0, 2, ou seja, 20% das latas são

problemáticas. Note que essa é uma proporção bastante alta!
5. É dado que
a+b
E(X ) = = 7, 5
2
(b − a)2
V ar(X ) = = 6, 75
12
Da primeira equação resulta que a = 15 − b. Substituindo na segunda equação:
(b − 15 + b)2
= 6, 75 ⇒
12
(2b − 15)2 = 81 ⇒
|2b − 15| = 9 ⇒
2b − 15 = ±9
As soluções são b = 12 e b = 3. Mas b = 3 implica que a = 12; como b > a, essa não é uma
solução possível. Assim, a = 3 e b = 12.
Aula 2
A Distribuição Normal
Nesta aula, você estudará a distribuição normal, que é uma das mais importantes distribuições
contínuas. Você verá a definição geral dessa distribuição, mas nos concentraremos, nesse primeiro
momento, na distribuição normal padrão, com ênfase no cálculo de probabilidades associadas a tal
variável. Assim, você verá os seguintes tópicos nesta aula:
• definição da distribuição normal;
• média e variância da distribuição normal;
• a distribuição normal padrão;
• tabela da distribuição normal padrão.
Função Densidade de Probabilidade
Uma variável aleatória contínua X tem distribuição normal se sua função de densidade de
probabilidade é dada por

(x − µ)2
fX (x) = √
1
exp − , −∞ < x < ∞ (2.1)
2πσ 2 2σ 2
Analisando essa expressão, podemos ver que ela está definida para todo x ∈ R e depende de dois
parâmetros: µ e σ . Outras características importantes dessa função são as seguintes:
24 AULA 2. A DISTRIBUIÇÃO NORMAL
1. ela é simétrica em torno do ponto x = µ;
2. o gráfico da função tem forma de sino;
3. quando x → ±∞, fX (x) → 0;
4. o ponto x = µ é o ponto de máximo e, nesse ponto, fX (µ) = √ 1 ;

2πσ 2
5. os pontos x = µ − σ e x = µ + σ são pontos de inflexão, ou seja, nesses pontos, a curva

muda de concavidade. Para x < µ − σ ou x > µ + σ , a função é côncava para cima e para
µ − σ < x < µ + σ , a função é côncava para baixo.
Na Figura 2.1 ilustram-se essas características da densidade normal.
Figura 2.1 – Ilustração das principais características da densidade normal
Pode-se mostrar, usando técnicas de cálculo integral, que a área sob a curva de densidade
normal é igual a 1 e, como a função exponencial é sempre não negativa, resulta que a função fX dada
na equação (2.1) realmente define uma função densidade de probabilidade.
Esperança e Variância
Os parâmetros µ e σ da densidade normal definem a média e o desvio padrão da distribuição,

respectivamente:

 E(X ) = µ



X ∼ N µ; σ 2 ⇒ Var(X ) = σ 2


 DP(X ) = σ
Vamos usar a seguinte notação: indicaremos o fato de uma variável aleatória X ter distribuição

normal com média µ e variância σ 2 pela notação X ∼ N µ; σ 2 .
Na Figura 2.2a, temos os gráficos das seguintes distribuições normais: N(0; 1) e N(3; 1), ou
seja, duas distribuições normais com médias diferentes e variâncias iguais. Note que o efeito de se
mudar a média é simplesmente deslocar o gráfico, mudando o seu eixo de simetria.
25
Na Figura 2.2b, temos duas distribuições normais com a mesma média µ = 3, mas com
variâncias diferentes – σ 2 = 1 e σ 2 = 4. Note que a distribuição continua em forma de sino, mas
a dispersão muda – lembre-se de que variância e desvio padrão são medidas de dispersão. Como o
máximo da função é √ 1 , inversamente proporcional ao desvio padrão, quanto maior a variância,
2πσ 2
“mais baixa” é a curva; para compensar esse fato e continuar com área sob a curva igual a 1, a curva
fica mais “espalhada” , ou seja, mais dispersa.
(a) Variâncias iguais, médias diferentes (b) Médias iguais, variâncias diferentes
Figura 2.2 – Efeito dos parâmetros sobre a forma da densidade normal
Como antes, a função de distribuição acumulada é definida como F (x) = Pr(X ≤ x). Na Figura
2.3 temos as distribuições acumuladas para as densidades N(0; 1), N(3; 1) e N(3; 4). Note que, pela
simetria da curva em torno da média, qualquer que seja a densidade normal, F (µ) = 0, 5, ou seja, o
eixo de simetria divide a área em duas partes iguais. Vemos, então, que para a densidade N(0; 1),
F (0) = 0, 5 e para as densidades N(3; 1) e N(3; 4), F (3) = 0, 5.
Figura 2.3 – Função de distribuição da N(0; 1), N(3; 1) e N(3; 4)

A Densidade Normal Padrão
Quando µ = 0 e σ 2 = 1, temos a densidade normal padrão, cuja função densidade de

probabilidade é usualmente representada pela letra grega fi:

φ(z) = √
1 1 2
exp − z , −∞ < z < +∞
2π 2
É comum também representar uma variável aleatória com distribuição normal padronizada pela letra
Z . Além de ser um caso especial, a densidade normal padrão tem papel importante no cálculo de
probabilidades associadas às densidades normais, como veremos na próxima aula.
A Tabela da Normal Padrão – P(0 ≤ Z ≤ z)
Na última aula, você aprendeu que o cálculo de probabilidades associadas a variáveis aleatórias
contínuas envolve cálculo de áreas sob a curva de densidade (mais precisamente, cálculo de integral
da função densidade). Isso, obviamente, continua valendo para a densidade normal. A diferença está
no fato de que o cálculo de áreas sob a curva normal envolve métodos numéricos mais complexos
e, para facilitar esses cálculos, podemos usar uma tabela em que alguns valores já se encontram
calculados.
A Tabela 1 dada ao final dessa aula será usada para calcular probabilidades associadas a uma
variável aleatória normal padrão Z . Assim, com essa tabela, poderemos calcular probabilidades do
tipo P(Z > 1), P(Z ≤ 3), P(−1 ≤ Z ≤ 2) etc.
Vamos analisar cuidadosamente esta tabela. A partir do cabeçalho e do gráfico na tabela,

podemos ver que as entradas no corpo da tabela fornecem probabilidades do tipo P(0 ≤ Z ≤ z). Para
facilitar a resolução dos problemas, vamos adotar a seguinte notação para as entradas da Tabela 1:
P(0 ≤ Z ≤ z) = tab(z).
Com relação à abscissa z, seus valores são apresentados na tabela ao longo da coluna lateral à
esquerda em conjunto com a linha superior. Na coluna à esquerda, temos a casa inteira e a primeira
casa decimal; na linha superior, temos a segunda casa decimal. Por exemplo, ao longo da primeira
linha da tabela, temos probabilidades associadas às abscissas 0,00; 0,01; 0,02, . . . , 0,09; na segunda
linha da tabela, temos probabilidades associadas às abscissas 0,10; 0,11; 0,12; . . . , 0,19; na última
linha da tabela, temos probabilidades associadas às abscissas 4,00; 4,01; 4,02; . . . ; 4,09.
A entrada 0,0000 no canto superior esquerdo da tabela dá a seguinte probabilidade: P(0 ≤ Z ≤

0, 00), ou seja, P(Z = 0) e, como visto, essa probabilidade é nula, uma vez que, para qualquer variável
aleatória contínua X , P(X = x0 ) = 0. A segunda entrada na primeira linha, 0,0040, corresponde a
P(0 ≤ Z ≤ 0, 01), que é a área sob a curva de densidade normal padronizada compreendida entre os
27
valores 0 e 0,01 (veja o gráfico na tabela).
Note que esta tabela apresenta probabilidades correspondentes a abscissas positivas. Para
calcular probabilidades associadas a abscissas negativas, teremos que usar o fato de a curva da
densidade normal ser simétrica. Sempre faça um esboço do gráfico da função densidade, sombreando
a área correspondente à probabilidade desejada; isso lhe ajudará no cálculo da probabilidade. Vamos
terminar esta seção apresentando vários exemplos de cálculos de probabilidades para uma variável
aleatória Z com distribuição normal padrão, ou seja, no que segue, Z ∼ N(0; 1). Os exemplos
apresentados cobrem todas as situações possíveis. Assim, é importante que você entenda bem a
situação ilustrada em cada um dos exemplos, para poder aplicar o método de solução adequado.
Exemplo 2.1
A partir da Tabela 1 calcule P(0 ≤ Z ≤ 1, 22).
Solução:
Veja a Figura 2.4. Essa probabilidade é dada diretamente na Tabela 1, utilizando a entrada
correspondente à linha 1,2 e à coluna com o valor 2. O resultado é
P(0 ≤ Z ≤ 1, 22) = tab(1, 22) = 0, 3888
Casa inteira 2a. casa decimal

e 1a. decimal 0 1 2 3
0,0 0,0000 0,0040 0,0080 0,0120
1,0 0,3413 0,3438 0,3461 0,3485
1,1 0,3643 0,3665 0,3686 0,3708
1,2 0,3849 0,3869 0,3888 0,3907
1,3 0,4032 0,4049 0,4066 0,4082
Figura 2.4 – P(0 ≤ Z ≤ 1, 22)

Exemplo 2.2
A partir da Tabela 1, calcule P(1 ≤ Z ≤ 2).
Solução:
Note que este exemplo trata da probabilidade entre duas abscissas positivas. Na Figura 2.5 ilustra-
se a probabilidade desejada como a área sombreada no gráfico da primeira linha; essa probabilidade
pode ser obtida pela diferença entre a área da figura na segunda linha, P(0 ≤ Z ≤ 2), e a área da
figura na terceira linha, P(0 ≤ Z ≤ 1), cujos valores são encontrados na Tabela 1, conforme ilustram
as respectivas tabelas. Logo,
P(1 ≤ Z ≤ 2) = P(0 ≤ Z ≤ 2) − P(0 ≤ Z < 1) = tab(2, 0) − tab(1, 0) = 0, 4772 − 0, 3413 = 0, 1359.


0,0 0,0000 0,0040 0,0080 0,0120
0,1 0,0398 0,0438 0,0478 0,0517
1,9 0,4713 0,4719 0,4726 0,4732
2,0 0,4772 0,4778 0,4783 0,4788
2,1 0,4821 0,4826 0,4830 0,4834
0,0 0,0000 0,0040 0,0080 0,0120
0,1 0,0398 0,0438 0,0478 0,0517
0,9 0,3159 0,3186 0,3212 0,3238
1,0 0,3413 0,3438 0,3461 0,3485
1,1 0,3643 0,3665 0,3686 0,3708
Figura 2.5 – P(1 ≤ Z ≤ 2)
Exemplo 2.3
A partir da Tabela 1, calcule P(Z ≥ 1).
Solução:
Note que este exemplo trata da probabilidade de Z ser maior que uma abscissa positiva. Na Figura
2.6, ilustra-se essa probabilidade como a área sombreada do gráfico da primeira linha, que pode ser
obtida pela diferença entre a área da figura à esquerda na segunda linha, P(Z ≥ 0), e a área da
figura à direita na segunda linha, P(0 ≤ Z ≤ 1). Concluímos, então, que
P(Z ≥ 1) = P(Z ≥ 0) − P(0 ≤ Z ≤ 1) = 0, 5 − tab(1, 0) = 0, 5 − 0, 3413 = 0, 1587
Figura 2.6 – Cálculo de P(Z ≥ 1)

Exemplo 2.4
29
A partir da Tabela 1, calcule P(Z ≤ 1).
Solução:
Note que este exemplo trata da probabilidade de Z ser menor que uma abscissa positiva. Na Figura
2.7 ilustra-se a probabilidade desejada como a área sombreada na figura da linha superior, que
pode ser obtida pela soma das áreas das figuras na segunda linha, que representam P(Z ≤ 0) e
P(0 ≤ Z ≤ 1). Concluímos, então, que
P(Z ≤ 1) = P(Z ≤ 0) + P(0 ≤ Z ≤ 1) = 0, 5 + tab(1, 0) = 0, 5 + 0, 3413 = 0, 8413
Figura 2.7 – Cálculo de P(Z ≤ 1)

Exemplo 2.5
A partir da Tabela 1, calcule P(Z ≤ −0, 5)
Solução:
Note que este exemplo trata da probabilidade de Z ser menor que uma abscissa negativa e, agora,
começamos a trabalhar com abscissas negativas. Na Figura 2.8, ilustra-se a probabilidade desejada
como a área sombreada no gráfico à esquerda. Pela simetria da curva de densidade normal, essa
área é igual à área sombreada na figura à direita, que corresponde a P(Z ≥ 0, 5), que já foi estudada
no Exemplo 2.3. Concluímos, então, que
P(Z ≤ −0, 5) = P(Z ≥ 0, 5) = 0, 5 − P(0 ≤ Z < 0, 5) = 0, 5 − tab(0, 5) = 0, 5 − 0, 1915 = 0, 3085
Figura 2.8 – Cálculo de P(Z ≤ −0, 5)

Exemplo 2.6
A partir da Tabela 1, calcule P(Z ≥ −0, 5)
Solução:
Note que este exemplo trata da probabilidade de Z ser maior que uma abscissa negativa. Na Figura
2.9 ilustra-se essa probabilidade como a área sombreada no gráfico da primeira linha. Essa área é a
soma das áreas sombreadas nas duas primeiras figuras da segunda linha, que representam P(Z ≥ 0)
e P(−0, 5 ≤ Z ≤ 0). Essa última área, por sua vez, é igual à área representada na figura mais á
direita da segunda linha, pela simetria da curva de densidade. Concluímos, então, que
P(Z ≥ −0, 5) = P(−0, 5 ≤ Z ≤ 0) + P(Z ≥ 0) = P(0 ≤ Z < 0, 5) + 0, 5 = tab(0, 5) + 0, 5 = 0, 6915
Figura 2.9 – P(Z ≥ −0, 5)

Exemplo 2.7
A partir da Tabela 1, calcule calcule P(−1, 85 ≤ Z ≤ −0, 53).
Solução:
Note que este exemplo trata da probabilidade de Z estar entre duas abscissas negativas. Na Figura
2.10 ilustra-se a probabilidade desejada como a área sombreada no gráfico à esquerda. Por simetria,
essa área é igual à área ilustrada na figura à direita, já analisada no Exemplo 2.2. Concluímos, então,
que
P(−1, 85 ≤ Z ≤ −0, 53) = P(0, 53 ≤ Z ≤ 1, 85) = tab(1, 85) − tab(0, 53) = 0, 4678 − 0, 2019 = 0, 2659
Figura 2.10 – Cálculo de P(−1, 85 ≤ Z ≤ −0, 53)

31
Exemplo 2.8
A partir da Tabela calcule P(−1, 85 ≤ Z ≤ 0, 53).
Solução:
Note que este exemplo trata da probabilidade de Z estar entre duas abscissas, uma negativa e outra
positiva. Na Figura 2.11 ilustra-se a probabilidade como a área do gráfico à esquerda na primeira
linha. Essa área é a soma das áreas sombreadas na figura à direita da primeira linha, tab(0, 53), e
na figura à esquerda da segunda linha, P(−1, 85 ≤ Z ≤ 0). Por simetria, essa última área é igual à
área sombreada na figura à direita da segunda linha, o que nos leva à conclusão de que
P(−1, 85 ≤ Z ≤ 0, 53) = P(0 ≤ Z ≤ 0, 53) + P(−1, 85 ≤ Z ≤ 0) = P(0 ≤ Z ≤ 0, 53) + P(0 ≤ Z ≤ 1, 85)

= tab(0, 53) + tab(1, 85) = 0, 4678 + 0, 2019 = 0, 6697
Figura 2.11 – P(−1, 85 ≤ Z ≤ 0, 53)

Encontrando a abscissa da normal padrão para uma probabilidade

específica
Nos exemplos vistos até o momento, consideramos situações em que tínhamos uma abscissa
de uma distribuição normal padronizada e queríamos alguma probabilidade associada a tal
abscissa. Agora, vamos lidar com a situação inversa: dada uma probabilidade, qual é a abscissa
correspondente? Posto de outra forma, vamos calcular separatrizes da distribuição normal padrão.
Exemplo 2.9
Se Z ∼ N(0; 1), determine o valor de k tal que P(Z ≤ k) = 0, 90.
Solução:
Vamos “traduzir” esse problema em termos probabilísticos: queremos encontrar a abscissa k da
normal padrão tal que a probabilidade à esquerda dela seja 0,90, ou seja, queremos encontrar o 90o
percentil da N(0; 1). Como 0,90 é a área à esquerda de k, resulta que k tem que ser maior que zero,
pois, para qualquer abscissa negativa, a área à esquerda dela será menor que 0,5, que é P(Z ≤ 0).
Então, temos que ter k > 0. Veja o gráfico à esquerda na Figura 2.12. No gráfico à direita, temos a
decomposição da área total em duas partes: a parte mais escura é P(Z ≤ 0) = 0, 5 e a parte mais
clara é 0, 40 = tab(k).
Figura 2.12 – Cálculo do 90o percentil da N(0; 1)
Escrevendo essas observações em termos de probabilidades, temos:
P(Z ≤ k) = 0, 90 ⇔
P(Z ≤ 0) + P(0 < Z ≤ k) = 0, 90 ⇔
0, 5 + P(0 < Z ≤ k) = 0, 90 ⇔
P(0 < Z ≤ k) = 0, 40 ⇔
tab(k) = 0, 40
Esta última igualdade nos diz que k é a abscissa correspondente ao valor 0,40 na Tabela 1. Para
identificar k, temos que buscar, no corpo dessa tabela, o valor mais próximo de 0,40. Na linha
correspondente ao valor 1,2 encontramos as entradas 0,3997 e 0,4015. Veja a tabela a seguir. Como
a primeira está mais próxima de 0,40, olhamos qual é a abscissa correspondente: a linha é 1,2 e a
coluna é 8, o que nos dá a abscissa de 1,28, ou seja, k = 1, 28 e, portanto, P(Z ≤ 1, 28) = 0, 90,
completando a solução.

e 1a.decimal 0 1 2 3 4 5 6 7 8 9
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
É importante notar que esse exemplo ilustra situações em que buscamos abscissas da normal
padrão tais que, à esquerda delas, a área é maior que 0,5. Essas são abscissas positivas!

Exemplo 2.10
Se Z ∼ N(0; 1), determine o valor de k tal que P(Z ≤ k) = 0, 05.
33
Solução:
Aqui queremos encontrar a abscissa k da normal padrão tal que a probabilidade à esquerda dela
seja 0,05, ou seja, temos que encontrar o 5o percentil da N(0; 1). Como 0,05 é a área à esquerda de k,
resulta que k tem que ser menor que zero, isto é, temos que ter k < 0. Qualquer valor k > 0 resultaria
em probabilidade à esquerda maior que 0,5, uma vez que P(Z ≤ 0) = 0, 5. Isso está ilustrado no
gráfico à esquerda na Figura 2.13. Como a Tabela 1 lida com abscissas positivas apenas, temos que
transpor usando a simetria: se à esquerda de k temos área 0,05, por simetria, à direita de −k temos
também área 0,05. Logo, entre 0 e −k temos área 0,45. Veja o gráfico à direita na Figura 2.13.
Figura 2.13 – Cálculo do 5o percentil da N(0; 1)
Escrevendo essas observações em termos de probabilidades, temos:
P(Z ≤ k) = 0, 05 ⇔ P(Z ≥ −k) = 0, 05 ⇔

P(0 < Z ≤ −k) = 0, 45 ⇔ tab(−k) = 0, 45
Esta última igualdade nos diz que −k é a abscissa correspondente ao valor 0,45 na Tabela 1. Para
identificar −k, temos que buscar, no corpo dessa tabela, o valor mais próximo de 0,45. Na linha
correspondente ao valor 1,6 encontramos as entradas 0,4495 e 0,4505, ambas equidistantes de 0,45,
conforme ilustrado na tabela a seguir. Qualquer uma das abscissas correspondentes pode ser solução,
ao utilizar a Tabela 1; no entanto, quando trabalhamos com mais casas decimais, a abscissa 1,64
fornece resultado mais próximo. Sendo assim, nesse curso, sempre adotaremos a abscissa 1,64 como
a abscissa que deixa área 0,05 acima dela na densidade normal padrão. Sendo assim, −k = 1, 64 e
k = −1, 64, ou seja, P(Z ≤ −1, 64) = 0, 05, completando a solução.

e 1a.decimal 0 1 2 3 4 5 6 7 8 9
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
É importante notar que esse exemplo ilustra situações em que buscamos abscissas da normal
padrão tais que, à esquerda delas, a área é menor que 0,5. Essas são abscissas negativas!

Exemplo 2.11
Se Z ∼ N(0; 1), determine o valor de k tal que P(Z ≥ k) = 0, 025.
Solução:
Aqui queremos encontrar a abscissa k da normal padrão tal que a área à direita dela seja 0,025.
Essa abscissa tem que ser positiva, já que a área à direita dela é menor que 0,5. Veja o gráfico à
esquerda na Figura 2.14. Conforme pode ser visto no gráfico à direita, temos a seguinte equivalência:
P(Z ≥ k) = 0, 025 ⇔ P(Z < k) = 0, 975
e assim recaímos no Exemplo 2.9. Temos que buscar na Tabela 1 a abscissa k tal que tab(k) =
0, 5 − 0, 025 = 0, 475. Resulta que k = 1, 96.
Figura 2.14 – Cálculo de k tal que P(Z ≥ k) = 0, 025

Exemplo 2.12
Se Z ∼ N(0; 1), determine o valor de k tal que P(Z ≥ k) = 0, 99.
Solução:
Aqui queremos encontrar a abscissa k da normal padrão tal que a área à direita dela seja 0,99. Então
temos que ter k < 0. Mas temos a seguinte equivalência:
P(Z ≥ k) = 0, 99 ⇔ P(Z < k) = 0, 01
e assim recaímos no Exemplo 2.10. Temos que buscar na Tabela 1 a abscissa −k tal que tab(−k) =
0, 5 − 0, 01 = 0, 49. Resulta que −k = 2, 33 e, portanto, k = −2, 33.

Desigualdades com módulo
Na Figura 2.15a, temos o gráfico da função módulo, que é definida por


 x se x >= 0


f(x) = |x| =


 −x se x < 0
35
(a) f(x) = |x| (b) Propriedades de f(x) = |x|
Figura 2.15 – A função módulo
Duas das principais propriedades da função módulo são as seguintes:
• |x| ≥ 0
• a função é simétrica, isto é, |x| = | − x|.
A primeira propriedade implica que o gráfico da função está nos dois quadrantes superiores,
que correspondem a ordenadas positivas. A segunda propriedade está ilustrada para x = −4 e x = 4
na Figura 2.15b. Note aí que | − 4| = |4| = 4.
Uma outra propriedade importante envolve desigualdades com módulo. Volte à Figura 2.15b
e observe que, para qualquer valor de x no intervalo (−4, 4), o valor do seu módulo será menor que
4. Por exemplo, para x = −2, 5, as linhas pontilhadas em cinza indicam que | − 2, 5| = 2, 5 < 4. De
forma geral, temos o seguinte resultado, ilustrado na Figura 2.16:
|x| ≤ k ⇔ −k ≤ x ≤ k segmentos em vermelho (2.2)

|x| ≥ k ⇔ x ≤ −k ou x ≥ k segmentos em azul (2.3)
Figura 2.16 – Desigualdades com módulo
Exemplo 2.13
Se Z ∼ N(0; 1), determine o valor de k tal que P(|Z | ≤ k) = 0, 95.
Solução:
Uma observação importante é que k > 0! É impossível ter módulo negativo! Vamos usar a propriedade
(2.2), assim como o fato de a densidade normal ser simétrica (veja os gráficos na Figura 2.17:
P(|Z | ≤ k) = 0, 95 |{z}
⇔ P(−k ≤ Z ≤ k) = 0, 95 |{z}
⇔ 2 · tab(k) = 0, 95 ⇔ tab(k) = 0, 475
(2.2) simetria
Figura 2.17 – Cálculo de k tal que P(|Z Z ≤ k) = 0, 95
Temos, então, que buscar no corpo da Tabela 1 o valor mais próximo de 0,475 e identificar a abscissa
correspondente. Vemos que a solução é k = 1, 96.

Exemplo 2.14
Se Z ∼ N(0; 1), determine o valor de k tal que P(|Z | ≥ k) = 0, 2.
Solução:
Como antes, temos que ter k > 0! Vamos usar a propriedade (2.3), assim como o fato de a densidade
normal ser simétrica (veja os gráficos na Figura 2.18:
P(|Z | ≥ k) = 0, 20 |{z}
⇔ P(Z ≤ −k) + P(Z ≥ k) = 0, 20 |{z}
⇔ 2 · P(| > k) = 0, 20
(2.3) simetria
⇔ P(Z ≥ k) = 0, 10 ⇔ tab(k) = 0, 40
Figura 2.18 – Cálculo de k tal que P(|Z | ≥ k) = 0, 02
Temos, então, que buscar no corpo da Tabela 1 o valor mais próximo de 0,4 e identificar a abscissa
correspondente. Vemos que a solução é k = 1, 28. Esse exemplo poderia ser resolvido de forma
análoga ao exemplo anterior, apenas observando que
P(|Z | ≥ k) = 0, 20 ⇐⇒ P(|Z | ≤ k) = 0, 80.

37

Exemplo 2.15
Se Z ∼ N(0; 1), calcule P(|Z | < 1, 0).
Solução:
P(|Z | < 1, 0) = P(−1, 0 < Z < 1, 0) = 2 · P(0 < Z < 1, 0)

= 2 · tab(1, 0) = 2 · 0, 3413 = 0, 6826

Exemplo 2.16
Se Z ∼ N(0; 1), calcule P(|Z | ≥ 2, 33).
Solução:
P(|Z | ≥ 2, 33) = P(Z ≥ 2, 33) + P(Z ≤ −2, 33) = 2 · P(Z > 2, 33)
= 2 · [0, 5 − tab(2, 33)] = 2 · (0, 5 − 0, 4901) = 0, 0198 ≈ 0, 02

Você pode usar o seguinte resultado, decorrente da lei do complementar da probabilidade, para
resolver problemas envolvendo desigualdades com módulo:
P(|Z | > k) = 1 − P(|Z | ≤ k) (2.4)
Sendo assim, veja qual par de exemplos lhe parece maís fácil de entender: exemplos 2.13 e 2.15 ou
exemplos 2.14 e 2.16. Entenda bem e resolva o outro tipo usando o resultado (2.4).
A título de ilustração, o Exemplo 2.16 poderia ser resolvido como
P(|Z | > 2, 33) = 1 − P(|Z | < 2, 33) = 1 − 2 · tab(2, 33) = 1 − 2 · 0, 4901 = 0, 0198.
Tabela da Distribuição Acumulada da Normal Padrão – Φ(z) = P(Z ≤ z)
Muitos livros trabalham com a tabela da função de distribuição da normal padrão Φ, definida
por:
Φ(z) = P(Z ≤ z).
que é apresentada como Tabela 2 ao final desta aula. A título de completitude do estudo sobre a
distribuição normal, vamos usar essa tabela para refazer os exemplos vistos anteriormente, que serão
apresentados em uma ordem diferente, mais didaticamente apropriada para o novo contexto. No
entanto, nas provas será utilizada a Tabela 1. Sendo assim, o estudo desta seção é opcional.
Exemplo 2.17
A partir da Tabela 2, calcule P(Z ≤ 1)
Solução:
Essa probabilidade resulta diretamente da definição de distribuição acumulada:
P(Z ≤ 1) = Φ(1, 0) = 0, 8413

Exemplo 2.18
A partir da Tabela 2, calcule P(Z ≥ 1)
Solução:
Pela lei do complementar, temos que
P(Z ≥ 1) = 1 − P(Z < 1)
Mas, como Z é uma variável aleatória contínua, sabemos que P(Z = z) = 0. Logo
P(Z < z) = P(Z ≤ z)
Logo,
P(Z ≥ 1) = 1 − P(Z < 1) = 1 − P(Z ≤ 1) = 1 − Φ(1, 0) = 1 − 0, 8413 = 0, 1587

Exemplo 2.19
A partir da Tabela 2, calcule P(Z ≤ −0, 5)
Solução:
Vimos, no Exemplo 2.5, que
P(Z ≤ −0, 5) = P(Z ≥ 0, 5)
Logo,
P(Z ≤ −0, 5) = P(Z ≥ 0, 5) = 1 − P(Z < 0, 5) = 1 − P(Z ≤ 0, 5) = 1 − Φ(0, 5) = 1 − 0, 6915 = 0, 3085

39
Exemplo 2.20
A partir da Tabela 2, calcule P(Z ≥ −0, 5).
Solução:
Veja os gráficos na Figura 2.19.
P(Z ≥ −0, 5) = 1 − P(Z < −0, 5) = 1 − P(Z > 0, 5) = P(Z ≤ 0, 5) = Φ(0, 5) = 0, 6915
Figura 2.19 – Cálculo de P(Z ≥ −0, 5)

Exemplo 2.21
A partir da Tabela 2, calcule P(0 ≤ Z ≤ 1, 22).
Solução:
Na Figura 2.20, a probabilidade é a área sombreada no gráfico da primeira linha. Essa área pode
ser obtida como a diferença das áreas sombreadas nos dois gráficos da segunda linha, ou seja:.
P(0 ≤ Z ≤ 1, 22) = P(Z ≤ 1, 22) − P(Z ≤ 0) = Φ(1, 22) − Φ(0) = 0, 8888 − 0, 5 = 0, 3888
Figura 2.20 – Cálculo de P(0 ≤ Z ≤ 1, 22)

Exemplo 2.22
A partir da Tabela 2, calcule P(1 ≤ Z ≤ 2).
Solução:
Na Figura 2.21, a probabilidade é a área sombreada no gráfico da primeira linha. Essa área pode
ser obtida como a diferença das áreas sombreadas nos dois gráficos da segunda linha, ou seja:.
P(1 ≤ Z ≤ 2) = P(Z ≤ 2) − P(Z < 1) = P(Z ≤ 2) − P(Z ≤ 1) = Φ(2, 0) − Φ(1, 0)

= 0, 9772 − 0, 8413 = 0, 1359
Figura 2.21 – Cálculo de P(1 ≤ Z ≤ 2)

Exemplo 2.23
A partir da Tabela 2, calcule P(−2, 1 ≤ Z ≤ −1, 4)
Solução:
Usando os resultados do Exemplo 2.22, temos que
P(−2, 1 ≤ Z ≤ −1, 4) = P(1, 4 ≤ Z ≤ 2, 1) = Φ(2, 1) − Φ(1, 4) = 0, 9821 − 0, 9192 = 0, 0629

Exemplo 2.24
A partir da Tabela 2, calcule P(−2, 1 ≤ Z ≤ 1, 4)
Solução:
Usando os resultados do Exemplo 2.19, temos que
P(−2, 1 ≤ Z ≤ 1, 4) = Φ(1, 4) − P(Z < −2, 1) = Φ(1, 4) − Φ(−2, 1)

= Φ(1, 4) − [1 − Φ(2, 1)] = 0, 9192 − [1 − 0, 9821] = 0, 9013

41
Exercícios propostos
1. Usando a Tabela 1, calcule as seguintes probabilidades:
(a) P(−2, 34 ≤ 1, 02)

(b) P(1, 36 ≤ Z ≤ 4, 50)
(c) P(Z ≥ −2, 35)
(d) P(Z > 4, 80)
(e) P(Z ≤ −4, 89)
(f) P(1, 54 ≤ Z < 3, 12)
(g) P(−1, 22 < Z < −0, 89)
(h) P(Z < −2)
(i) P(Z > −2)
(j) P(−2, 56 < Z < 5, 00)
(k) P(|Z | < 2, 05)
(l) P(|Z | ≤ 2, 54)
(m) P(|Z | ≥ 1, 28)
(n) P(|Z | > 2, 18)
2. Usando a Tabela 1, determine o valor de k que satisfaz cada uma das condições a seguir.
(a) P(Z > k) = 0, 25

(b) P(Z > k) = 0, 70
(c) P(Z < k) = 0, 35
(d) P(|Z | < k) = 0, 60
(e) P(|Z | > k) = 0, 01
Na solução dos exercícios, é fundamental que você faça desenhos do gráfico da normal,
sombreando a área correspondente à probabilidade pedida.
1. (a) P(−2, 34 ≤ Z ≤ 1, 02) = tab(1, 02) + tab(2, 34) = 0, 3461 + 0, 4904 = 0, 8365
(b) P(1, 36 ≤ Z ≤ 4, 50) = tab(4, 50) − tab(1, 36) = 0, 5 − 0, 4131 = 0, 0869
(c) P(Z ≥ −2, 35) = 0, 5 + tab(2, 35) = 0, 5 + 0, 4906 = 0, 9906
(d) P(Z > 4, 80) = 0, 5 − tab(4, 80) = 0, 5 − 0, 5 = 0
(e) P(Z ≤ −4, 89) = P(Z ≥ 4, 89) = 0, 5 − tab(4, 89) = 0, 5 − 0, 5 = 0

(f) P(1, 54 ≤ Z < 3, 12) = tab(3, 12) − tab(1, 54) = 0, 4991 − 0, 4382 = 0, 0609
(g) P(−1, 22 < Z < −0, 89) = P(0, 89 < Z < 1, 22) = tab(1, 22) − tab(0, 89) = 0, 3888 −
0, 3133 = 0, 0755
(h) P(Z < −2) = P(Z > 2) = 0, 5 − tab(2, 0) = 0, 5 − 0, 4772 = 0, 0228
(i) P(Z > −2) = 0, 5 + tab(2, 0) = 0, 5 + 0, 4772 = 0, 9772
(j) P(−2, 56 < Z < 5, 00) = tab(5, 00) + tab(2, 56) = 0, 5 + 0, 4948 = 0, 9948 = 0, 9596
(k) P(|Z | < 2, 05) = P(−2, 05 < Z < 2, 05) = 2 · tab(2, 05) = 2 · 0, 4798 =
(l) P(|Z | ≤ 2, 54) = P(−2, 54 ≤ Z ≤ 2, 54) = 2 · tab(2, 54) = 2 · 0, 4945 = 0, 9890
(m) P(|Z | ≥ 1, 28) = 1 − P(|Z | < 1, 28) = 1 − 2 · tab(1, 28 = 1 − 2 · 0, 3997 = 0, 2006
(n) P(|Z | > 2, 18) = 1 − P(|Z | ≤ 2, 18) = 1 − 2 · tab(2, 18 = 1 − 2 · 0, 4854 = 0, 0292
2. (a) P(Z > k) = 0, 25 ⇔ tab(k) = 0, 25 ⇔ k = 0, 68

(b) P(Z > k) = 0, 7 ⇔ P(Z < −k) = 0, 7 ⇔ tab(−k) = 0, 2 ⇔ −k = 0, 52 ⇔ k = −0, 52
(c) P(Z < k) = 0, 35 ⇔ P(Z > −k) = 0, 35 ⇔ tab(−k) = 0, 15 ⇔ −k = 0, 39 ⇔ k = −0, 39
(d) P(|Z | < k) = 0, 60 ⇔ 2 · tab(k) = 0, 60 ⇔ tab(k) = 0, 30 ⇔ k = 0, 84
(e) P(|Z | > k) = 0, 01 ⇔ P(|Z | ≤ k) = 0, 99 ⇔ 2 · tab(k) = 0, 99 ⇔ tab(k) = 0, 495 ⇔
k = 2, 57 ou k = 2, 58
Aula 3
A Distribuição Normal: Conclusão
Nesta aula, serão apresentados resultados básicos sobre a distribuição normal, que permitirão
que você calcule probabilidades associadas a qualquer variável aleatória normal, e isso ampliará o
escopo de aplicações práticas.
Cálculos com a Distribuição Normal
Na aula anterior, você viu como usar a tabela da distribuição normal padrão para calcular
probabilidades associadas à variável normal padronizada. Essa tabela é necessária para fazer os
cálculos, pois não é “fácil” calcular áreas sob a curva da densidade normal padrão.
Aquela tabela faz referência ao caso em que µ = 0 e σ 2 = 1. Será que teremos que usar
uma tabela diferente para outros valores de µ e σ ? Felizmente, a resposta é NÃO, graças a uma
propriedade muito interessante da distribuição normal que estabelece o seguinte resultado:
X −µ
X ∼ N µ; σ 2 =⇒ Z = ∼ N(0; 1) (3.1)
σ
X −µ
Note que a transformação σ é uma transformação linear, que é uma transformação biunívoca.
Como na aula anterior, vamos apresentar vários exemplos para fixar os conceitos e procedimentos.
Nesses exemplos apresentaremos os cálculos apenas em termos da Tabela 1, que será a tabela a ser
dada nas provas, lembrando a notação definida anteriormente: tab(z) = P(0 ≤ Z ≤ z).
44 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
É importante que você faça um esboço do gráfico da N(0; 1) sombreando a área desejada.
Exemplo 3.1
Se X ∼ N(1; 4), calcule P(X ≤ 3).
Solução:
Temos que X é uma variável aleatória normal com média 1 e variância 4 e a seguinte equivalência
de eventos:
X −1 3−1
X ≤3 ⇐⇒ √ ≤ √
4 4
Veja que subtraímos a mesma constante e dividimos pela mesma constante em ambos os lados
X√−1
da desigualdade. Mas, pelo resultado acima, Z = 4
∼ N(0; 1). Logo,

X −1 3−1 3−1
P(X ≤ 3) = P √ ≤ √ =P Z ≤ √ = P(Z ≤ 1)
4 4 4
Essa equivalência de probabilidades é ilustrada na Figura 3.1: no gráfico à esquerda, a área

sombreada corresponde a P(X ≤ 3) e, no gráfico à direita, a área sombreada corresponde a P(Z ≤ 1).
Pelo resultado acima, essas duas áreas são iguais.
Figura 3.1 – Resolução do Exemplo 3.1
Vemos, assim, que o cálculo da probabilidade recai no cálculo de probabilidades da Normal

padrão, que é feito com auxílio da Tabela 1, apresentada na aula anterior. Completando o cálculo,
obtemos:

3−1
P(X ≤ 3) = P Z ≤ √
4
= P(Z ≤ 1)
= 0, 5 + tab(1)
= 0, 84134

É interessante lembrar que a transformação dada na equação (3.1) corresponde a calcular o

45
escore padronizado associado à abscissa x. Assim, cálculos de probabilidades de variáveis aleatórias

normais sempre envolverão o cálculo do escore padronizado da(s) abscissa(s) de interesse.
Exemplo 3.2
Se X ∼ N(3; 9), calcule P(−1 ≤ X ≤ 4).
Solução:
Esse exemplo trata da probabilidade entre uma abscissa menor que a média e outra maior que a
média. Em termos dos escores padronizados, isso se traduz em um escore negativo e outro positivo.
Veja os gráficos na Figura 3.2.

−1 − 3 X −3 4−3
P(−1 ≤ X ≤ 4) = P √ ≤ √ ≤ √
9 9 9
= P (−1, 33 ≤ Z ≤ 0, 33) = tab(0, 33) + tab(1, 33)
= 0, 12930 + 0, 40824 = 0, 53754

Exemplo 3.3
Se X ∼ N(2; 5), calcule P(−1 ≤ X ≤ 1).
Solução:
Esse exemplo trata da probabilidade entre duas abscissas menores que a média. Na normal
padronizada, isso corresponderá a dois escores negativos. Veja os gráficos na Figura 3.3.

−1 − 2 X −2 1−2
P(−1 ≤ X ≤ 1) = P √ ≤ √ ≤ √
5 5 5
= P (−1, 34 ≤ Z ≤ −0, 45) = P (0, 45 ≤ Z ≤ 1, 34)
= tab(1, 34) − tab(0, 45) = 0, 4099 − 0, 1736 = 0, 2363

Exemplo 3.4
Se X ∼ N(5, 4), calcule P(X > 7).
Solução:
Esse exemplo trata da probabilidade à direita de uma abscissa maior que a média; na normal padrão,
teremos uma probabilidade à direita de um escore positivo. Veja os gráficos na Figura 3.4.

X −5 7−5
P(X > 7) = P >
2 2
= P(Z > 1) = 0, 5 − tab(1, 0) = 0, 5 − 0, 3413 = 0, 1587

Exemplo 3.5
Se X ∼ N(4; 6, 25), calcule P(X < 7).
Solução:
Esse exemplo trata da probabilidade à esquerda de uma abscissa maior que a média; na normal
padrão, teremos uma probabilidade à esquerda de um escore positivo. Veja os gráficos na Figura 3.5.
47

X −4 7−5
P(X < 7) = P √ > = P(Z < 1, 2)
6, 25 2
= 0, 5 + tab(1, 2) = 0, 5 + 0, 3849 = 0, 8849

Exemplo 3.6 A regra 68-95-99,7

Seja X ∼ N(µ; σ 2 ). Calcule P(µ − kσ < X < µ + kσ ) , para k = 1, 2, 3.
Solução:
Note que essa probabilidade corresponde à probabilidade de X estar a uma distância de k desvios-
padrão da média.

µ − kσ − µ X −µ µ + kσ − µ
P(µ − kσ ≤ X ≤ µ + kσ ) = P ≤ ≤ = P(−k ≤ Z ≤ k)
σ σ σ
É importante observar que chegamos a uma probabilidade que não depende de µ ou σ , ou seja, esse
resultado vale, qualquer que seja a distribuição normal.
• k =1
P(µ − σ ≤ X ≤ µ + σ ) = P(−1 ≤ Z ≤ 1) = 2 × tab(1, 0) = 2 × 0, 3414 = 0, 6828
Em uma distribuição normal, a probabilidade no intervalo compreendido entre 1 desvio-padrão

abaixo e acima da média é de 0,6828.
• k =2
P(µ − 2σ ≤ X ≤ µ + 2σ ) = P(−2 ≤ Z ≤ 2) = 2 × tab(2, 0) = 2 × 0, 4772 = 0, 9544
Em uma distribuição normal, a probabilidade no intervalo compreendido entre 2 desvios-padrão

• k =3
P(µ − 3σ ≤ X ≤ µ + 3σ ) = P(−3 ≤ Z ≤ 3) = 2 × tab(3, 0) = 2 × 0, 4987 = 0, 9974
Em uma distribuição normal, a probabilidade no intervalo compreendido entre 3 desvios-padrão

Essas probabilidades nos dizem que, para qualquer distribuição normal,
• 68,28% dos valores estão a um desvio-padrão da média;
• 95,44% estão a dois desvios-padrão;
• 99,73% dos valores estão a três desvios-padrão da média e, portanto, apenas 0,27% dos valores
estão acima de três desvios-padrão da média.
Veja a Figura 3.6 para uma ilustração desses resultados.
Figura 3.6 – Ilustração da regra 68-95-99,7

Encontrando a abscissa da normal para uma probabilidade específica
Nos exemplos vistos até o momento, consideramos situações em que tínhamos uma abscissa
de uma distribuição normal e queríamos alguma probabilidade associada a essa abscissa. Agora,
vamos lidar com a situação inversa: dada uma probabilidade, qual é a abscissa correspondente? Eis
algumas situações que envolvem esse tipo de problema: (i) Em uma turma de Estatística, os 10%
melhores alunos receberão um livro de presente. Qual a menor nota que dá direito a um livro de
presente? (ii) Em uma comunidade, as famílias com as 15% piores rendas irão receber um auxílio da
prefeitura. Qual a renda familiar máxima que garante o auxílio da prefeitura?
Como no caso da normal padrão, isso corresponde ao cálculo de separatrizes de uma distribuição
normal.
49
Exemplo 3.7
Se X ∼ N(3; 4), determine o valor de k tal que P(X ≤ k) = 0, 90.
Solução:
Como a probabilidade à esquerda de k é maior que 0,5, k tem que ser maior que a média – k > 3. O
primeiro passo na solução é escrever a probabilidade dada em termos da normal padrão.

X −3 k −3 k −3
P(X ≤ k) = 0, 90 ⇔ P ≤ = 0, 90 ⇔ P Z ≤ = 0, 90 ⇔
2 2 2

k −3 k −3
P(Z ≤ 0) + P 0 ≤ Z ≤ = 0, 90 ⇔ 0, 5 + tab = 0, 90 ⇔
2 2

k −3 k −3
tab = 0, 40 ⇔ = 1, 28 ⇔ k = 5, 56
2 2
De maneira mais direta, temos o seguinte: qualquer que seja a forma de solução, temos que
k−3
padronizar a abscissa. Padronizando, resulta em 2 . Veja o gráfico à esquerda na Figura a 3.7.
Como acima dela temos 0,10, temos que procurar, na Tabela 1, o valor 0,40 e isso nos leva à abscissa
1,28. Veja o gráfico à direita na mesma figura. Logo,
k −3
= 1, 28 ⇒ k = 5, 56.
2

Exemplo 3.8
Se X ∼ N(3; 4), determine o valor de k tal que P(X ≤ k) = 0, 05.
Solução:
À esquerda de k temos 5% da área total; logo, k tem que ser menor que a média, ou seja, temos que
ter k < 3 e a abscissa padronizada correspondente tem que ser negativa (menor que a média 0).

X −3 k −3 k −3
P(X ≤ k) = 0, 05 ⇔ P ≤ = 0, 05 ⇔ P Z ≤ = 0, 05
2 2 2
k−3 k−3
Como a área (probabilidade) à esquerda de 2 é menor que 0, 5, isso significa que 2 tem que
ser negativo. Veja o gráfico à esquerda na Figura 3.8. Para nos adequarmos à Tabela 1, temos que
trabalhar com abscissas positivas, ou seja, temos que usar a simetria da curva. Veja o gráfico à direita
k −3 k −3 3−k
na Figura 3.8 e note que a abscissa simétrica a é− = .
2 2 2
Temos, então, a seguinte equivalência de probabilidades:

k −3 k −3 k −3
P Z≤ = 0, 05 ⇔ P Z ≥ − = 0, 05 ⇔ tab = 0, 45 ⇔
2 2 2
k −3
− = 1, 64 ⇒ k = −0, 28
2
Uma outra forma de resolver o exercício é a seguinte: como a abscissa padronizada tem
que ser negativa, buscamos a abscissa positiva na tabela e depois trocamos seu sinal a equação
correspondente. Veja a Figura 3.9.
Figura 3.9 – Outra solução do Exemplo 3.8
Sendo assim, temos

k −3
= −1, 64 ⇒ k − 3 = −3, 28 ⇒ k = −0, 28
2

Exemplo 3.9
Se X ∼ N(3; 4), determine o valor de k tal que P(| X − 3 | ≤ k) = 0, 95.
Solução:
51
Pelas propriedades da função módulo, sabemos que
P(| X − 3 | ≤ k) = 0, 95 ⇔ P(−k ≤ X − 3 ≤ k) = 0, 95 ⇔
P (3 − k ≤ X ≤ k + 3) = 0, 95 ⇔

3−k −3 X −3 k +3−3 k k
P ≤ ≤ = 0, 95 ⇔ P − ≤ Z ≤ = 0, 95 ⇔
2 2 2 2 2

k k k
2 · tab = 0, 95 ⇔ tab = 0, 475 ⇔ = 1, 96 ⇔ k = 3, 92
2 2 2
Note que, de forma mais direta, podemos fazer

|X − 3| k
P(| X − 3 | ≤ k) = 0, 95 ⇔ P ≤ = 0, 95 ⇔
2 2

k k
P |Z | ≤ = 0, 95 ⇔ 2 · tab = 0, 95 ⇔
2 2

k k
tab = 0, 475 ⇔ = 1, 96 ⇔ k = 3, 92
2 2
Na desigualdade inicial | X − 3 | ≤ k, a média µ = 3 já está subtraída; assim, só falta dividir

ambos os lados da desigualdade pelo desvio-padrão para completar a operação de padronização.

Exemplos de aplicação da distribuição normal
A distribuição normal é um modelo probabilístico que se aplica a diversas situações práticas.

Assim, vamos finalizar este capítulo com alguns exemplos práticos.
Exemplo 3.10 Saldo bancário

O saldo médio dos clientes de um banco é uma variável aleatória com distribuição normal com média
R$ 2.000, 00 e desvio-padrão R$ 250,00. Os clientes com os 5% maiores saldos médios recebem
tratamento VIP, enquanto aqueles com os 10% menores saldos médios receberão propaganda extra
para estimular maior movimentação da conta.
(a) Quanto você precisa de saldo médio para se tornar um cliente VIP?
(b) Abaixo de qual saldo médio o cliente receberá a propaganda extra?
Solução:
Seja X = “saldo médio”; é dado que X ∼ N(2000; 2502 ).
(a) Temos que determinar o valor de k tal que P(X ≥ k) = 0, 05. Note que isso equivale a calcular
o 95o percentil da distribuição. A área à esquerda de k tem que ser 0,95; logo, k tem que ser
Figura 3.10 – Solução do Exemplo 3.10(a)
maior que a média e a abscissa padronizada tem que ser positiva. Veja o gráfico à esquerda
na Figura 3.10. Buscando na Tabela 1, encontramos a abscissa 1,64; veja o gráfico à direita.
Temos que ter, então,

k − 2000
= 1, 64 ⇒ k = 2410.
250
Os clientes com saldo médio maior ou igual a R$ 2.410, 00 terão tratamento VIP.
(b) Temos que determinar o valor de k tal que P(X ≤ k) = 0, 1. A área à esquerda de k tem que
ser 0,1; logo, k tem que ser menor que a média e a abscissa padronizada, negativa. Usando
a simetria da distribuição, temos que procurar, na Tabela 1, o valor 0,40, o que dá a abscissa
1,28. Veja a Figura 3.11.
Figura 3.11 – Solução do Exemplo 3.10(b)
Temos que ter, então,

k − 2000
= −1, 28 ⇒ k = 1680.
250
Os clientes com saldo médio menor ou igual a R$ 1.680, 00 receberão a propaganda.

Exemplo 3.11 Regulagem de máquinas

Uma máquina de empacotar determinado produto oferece variações de peso que se distribuem
segundo uma distribuição normal com desvio-padrão de 20 gramas. Em quanto deve ser regulado o
peso médio desses pacotes para que apenas 10% deles tenham menos que 500 gramas?
Solução:
Esse é um exemplo clássico de aplicação da distribuição normal. Seja X o peso dos pacotes em
gramas. Então, X ∼ N(µ; 400). Temos que ter P(X ≤ 500) = 0, 10 e, portanto, o peso médio tem que
53
Figura 3.12 – Solução do Exemplo 3.11
ser superior a 500g. Então, 500 está abaixo da média µ e a abscissa padronizada correspondente é
negativa. Veja a Figura 3.12
Do exemplo anterior, sabemos que 1,28 é a abscissa correspondente à cauda de 0,10. Logo,
temos que ter
500 − µ
= −1, 28 ⇒ 500 − µ = −25, 6 ⇔ µ = 525, 6
20
A máquina tem que ser regulada com um peso médio de 525,6g para que apenas 10% dos
pacotes tenham peso inferior a 500g.

Exemplo 3.12 Mais sobre regulagem de máquinas

Uma máquina fabrica tubos metálicos cujos diâmetros podem ser considerados uma variável aleatória
normal com média 200mm e desvio-padrão 2mm. Verifica-se que 15% dos tubos estão sendo rejeitados
como grandes e 10% como pequenos.
(a) Quais são as tolerâncias de especificação para esse diâmetro?
(b) Mantidas essas especificações, qual deverá ser a regulagem média da máquina para que a
rejeição por diâmetro grande seja praticamente nula? Nesse caso, qual será a porcentagem de
rejeição por diâmetro pequeno?
Solução:
Seja D = diâmetro dos tubos. Então D ∼ N(200, 22 ).
(a) Sejam ki e ks as especificações inferior e superior, respectivamente. Isso significa que tubos
com diâmetro menor que ki são rejeitados como pequenos e tubos com diâmetro maior que ks
são rejeitados como grandes. Dos dados do problema, sabemos que a área à esquerda de ki é
0,10 e à direita de ks , 0,15. Veja a Figura 3.13.
Logo,
ki − 200
= −1, 28 ⇒ ki = 197, 44
20
e
ks − 200
= 1, 03 ⇒ ks = 202, 06
20
Figura 3.13 – Solução do Exemplo 3.12(a)
Logo, tubos com diâmetro menor que 197,44 cm são rejeitados como pequenos e tubos com
diâmetros maiores que 202,06 cm são rejeitados como grandes.
(b) Com a nova regulagem, temos que D ∼ N(µ; 22 ) e µ deve ser tal que P(D > 202, 06) = 0. Veja
a Figura 3.14 para entender que a nova média tem que ser menor que 200, como mostram os
cálculos a seguir.

D−µ 202, 06 − µ
P(D > 202, 06) = 0 ⇒ P > =0⇒
2 2

202, 06 − µ 202, 06 − µ
P Z > = 0 ⇒ tab = 0, 5 ⇒
2 2
202, 06 − µ
' 4, 5 ⇒ µ ' 193, 06
2
Figura 3.14 – Solução do Exemplo 3.12(b)
Com essa média, a porcentagem de rejeição por diâmetro pequeno é

D − 193, 06 197, 44 − 193, 06
P(D < 197, 44) = P <
2 2
= P(Z < 2, 19) = P(Z ≤ 0) + P(0 < Z < 2, 19) = 0, 9857
Vemos, assim, que a nova regulagem proporciona rejeição nula por diâmetro grande com o custo
de uma grande proporção de peças rejeitadas por diâmetro pequeno.

Exemplo 3.13 Troca de lâmpadas

Em um grande complexo industrial, o departamento de manutenção tem instruções para substituir
55
as lâmpadas antes que se queimem. Os registros indicam que a duração das lâmpadas, em horas,
tem distribuição normal, com média de 900 horas e desvio-padrão de 75 horas. Quando devem ser
trocadas as lâmpadas, de modo que no máximo 5% delas queimem antes de serem trocadas?
Solução:
Seja T = “tempo de duração (em horas) das lâmpadas”; então, T ∼ N(900; 752 ). Temos que determinar
t tal que P(T ≤ t) = 0, 05. Então, t tem que ser menor que a média 900 e a abscissa padronizada,
negativa. Dos exemplos anteriores, sabemos que a abscissa padronizada que deixa 5% acima dela é
1,64. Logo, temos que ter
t − 900
= −1, 64 ⇔ t = 777
75
As lâmpadas devem ser trocadas com 777 horas de uso para que apenas 5% se queimem antes da
troca.

Aqui cabe a seguinte observação: em geral, não é apropriado utilizar-se a distribuição normal
para modelar o tempo de sobrevivência de lâmpadas ou equipamentos em geral. Modelos tipo
exponencial ou gama são mais adequados, pois atribuem probabilidade alta de sobrevivência no
início da vida do equipamento e probabilidade decrescente à medida que o equipamento envelhece.
Exemplo 3.14 Regulagem de máquinas – controle da variabilidade

Uma enchedora automática enche garrafas de acordo com uma distribuição normal de média 100 ml.
Deseja-se que no máximo uma garrafa em cada 100 saia com menos de 90ml. Qual deve ser o maior
desvio-padrão tolerável?
Solução:
Se X = “conteúdo da garrafa (em ml)”, então X ∼ N(100; σ 2 ) e queremos que P(X < 90) ≤ 0, 01.
Seja σ0 o valor do desvio padrão de X tal que P(X < 90) = 0, 01. Então, qualquer valor de σ
tal que σ < σ0 resulta em P(X < 90) < 0, 01. Veja a Figura 3.15.
Figura 3.15 – Solução do Exemplo 3.14
A área sombreada corresponde a P(X < 90) = 0, 01 quando X ∼ N(100; σ02 ) (curva de densidade
mais espessa). As duas outras densidades correspondem a distribuições normais com desvios-padrão
menores. Note que para essas distribuições, P(X < 90) < 0, 01. Assim, o desvio-padrão máximo
90 − 100
tolerável é σ0 tal que tal que P(X < 90) = 0, 01. A abscissa padronizada é e tem que
σ0
ser negativa. Olhando na Tabela 1, vemos que a abscissa 2,33 deixa área 0,01 acima dela, isto é,
tab(2, 33) = 0, 49. Logo, temos que ter
10 10
− = −2, 33 ⇒ σ0 = = 4, 2918
σ0 2, 33

Exercícios Propostos
1. Na distribuição normal X ∼ N(µ, σ 2 ), encontre:
(a) Pr(X ≤ µ + 2σ )
(b) Pr(|X − µ| ≤ σ )
(c) Pr(|X − µ| ≤ 1, 96σ )
(d) o número k tal que Pr(µ − kσ ≤ X ≤ µ + kσ ) = 0, 99
(e) o número k tal que Pr(X > k) = 0, 90.
2. Suponha que os tempos de vida de duas marcas de aparelhos elétricos sejam variáveis aleatórias
D1 e D2 , onde D1 ∼ N(42, 36) e D2 ∼ N(45, 9). Se o aparelho deve ser usado por um período
de 45 horas, qual marca deve ser preferida? E se for por um período de 49 horas?
3. Numa distribuição normal, 31% dos elementos são menores que 45 e 8% são maiores que 64.
Calcular os parâmetros que definem a distribuição, ou seja, calcule a média e o desvio-padrão.
4. As vendas de um determinado produto têm distribuição aproximadamente normal, com média

de 500 unidades e desvio padrão de 50 unidades. Se a empresa decide fabricar 600 unidades
no mês em estudo, qual a probabilidade de que não possa atender a todos os pedidos desse
mês, por estar com a produção esgotada?
5. Um produto alimentício é ensacado automaticamente, sendo o peso médio de 50kg por saco,
com desvio padrão de 1,6kg. Os clientes exigem que, para cada saco fornecido com menos de
48kg, o fornecedor pague uma indenização de 5 u.m.
(a) Para 200 sacos fornecidos, qual o custo médio com indenização?
(b) Para que o custo calculado no item anterior caia para 50 u.m., qual deveria ser a nova
regulagem média da máquina?
(c) Como o fornecedor acha que, no custo global, é desvantajoso aumentar a regulagem da
máquina, ele quer comprar uma nova máquina. Qual deveria ser o desvio padrão dessa
máquina para que, trabalhando com peso médio de 50kg, em apenas 3% dos sacos se pague
indenização?
6. Um teste de aptidão para o exercício de certa profissão exige uma sequência de operações
a serem executadas rapidamente uma após a outra. Para passar no teste, o candidato deve
completá-lo em, no máximo, 80 minutos. Admita que o tempo, em minutos, para completar a
prova seja uma variável aleatória normal com média 90 minutos e desvio padrão 20 minutos.
57
(a) Que porcentagem dos candidatos tem chance de ser aprovada?
(b) Os 5% melhores receberão um certificado especial. Qual o tempo máximo para fazer jus a
tal certificado?
7. O diâmetro X de rolamentos de esfera fabricados por certa fábrica tem distribuição normal com
média 0,6140 e desvio padrão 0,0025. O lucro L de cada esfera depende do seu diâmetro:
• L = 0, 10 se a esfera é boa, isto é, 0, 6100 < X < 0, 6180
• T L = 0, 05 se a esfera é recuperável, isto é, 0, 6080 < X < 0, 6100 ou 0, 6180 < X < 0, 6200
• L = −0, 10 se a esfera é defeituosa, isto é, X < 0, 6080 ou X > 0, 6200
Calcule as probabilidades de as esferas serem boas, recuperáveis e defeituosas, e o lucro médio.
8. Uma empresa produz televisores e garante a restituição da quantia paga se qualquer televisor
apresentar algum defeito grave no prazo de 6 meses. Ela produz televisores do tipo A, comum,
e do tipo B, de luxo, com um lucro respectivo de 1.000 u.m. e 2.000 u.m. caso não haja
restituição, e com prejuízo de 3.000 u.m. e 8.000 u.m., se houver restituição. Suponha que o
tempo para ocorrência de algum defeito grave seja, em ambos os casos, uma variável aleatória
com distribuição normal com médias de 9 meses e 12 meses e desvios-padrão de 2 meses e 3
meses. Se tivesse que planejar uma estratégia de marketing para a empresa, você incentivaria
as vendas dos aparelhos tipo A ou tipo B?
9. A distribuição dos pesos de coelhos criados em uma granja pode ser representada por uma
distribuição normal com média de 5kg e desvio padrão de 0,8 kg. Um abatedouro comprará
5.000 coelhos e pretende classificá-los de acordo com o peso da seguinte forma: 20% dos leves
como pequenos, os 55% seguintes como médios, os 15% seguintes como grandes e os 10% mais
pesados como extras. Quais os limites de peso para cada classificação?
10. Considere uma variável aleatória X ∼ N(3, 25).
(a) Calcule P (−3 ≤ X ≤ 3)
(b) Calcule P (−2 ≤ X ≤ 8)
(c) Encontre o valor de k tal que P(X > k) = 0, 05.
(d) Encontre o valor de k tal que P(X > k) = 0, 80.

11. Seja X ∼ N µ, σ 2 . Encontre a mediana e o intervalo interquartil de X .

12. O 90o percentil de uma variável aleatória N µ, σ 2 é 50, enquanto o 15o percentil é 25.
Encontre os valores dos parâmetros da distribuição.
1. (a)

X −µ µ + 2σ − µ
P(X ≤ µ + 2σ ) = Pr ≤
σ σ
= P(Z ≤ 2) = 0, 5 + tab(2) = 0, 97725
(b)

σ X −µ σ
P(|X − µ| ≤ σ ) = P(−σ ≤ X − µ ≤ σ ) = P − ≤ ≤
σ σ σ
= P(−1 ≤ Z ≤ 1) = 2 × P(0 ≤ Z ≤ 1) = 2 × tab(1) = 0, 68268
(c)
P(|X − µ| ≤ 1, 96σ ) = P(−1, 96σ ≤ X − µ ≤ 1, 96σ )

σ X −µ σ
= P −1, 96 ≤ ≤ 1, 96
σ σ σ
= P(−1, 96 ≤ Z ≤ 1, 96)
= 2 × P(0 ≤ Z ≤ 1, 96) = 2 × tab(1, 96) = 0, 95
(d)
P(µ − kσ ≤ X ≤ µ + kσ ) = 0, 99 ⇔

µ − kσ − µ X −µ µ + kσ − µ
P ≤ ≤ = 0, 99 ⇔ P(−k ≤ Z ≤ k) = 0, 99 ⇐⇒
σ σ σ
P(0 ≤ Z ≤ k) = 0, 495 ⇐⇒ tab(k) = 0, 495 ⇐⇒ k = 2, 58
(e) Como a probabilidade à direita de k é 0,90, então a probabilidade à esquerda é 0,10, menor
que 0,5. Logo, k tem que ser menor que a média e a abscissa padronizada tem que ser
negativa. Para encontrar a abscissa da normal padrão que deixa 0,10 na cauda superior,
temos que procurar na Tabela 1 o vlaor 0,40, o que nos dá a abscissa 1,28. Assim,
k −µ
= −1, 28 ⇔ k = µ − 1, 28σ
σ
2. O aparelho a ser usado tem que ser aquele que apresenta a maior probabilidade de funcionar
pelo menos durante o tempo necessário.
Caso 1: O tempo necessário é de 45 horas.

D1 − 42 45 − 42
P(D1 ≥ 45) = P ≥ = P(Z ≥ 0, 5)
6 6
= 0, 5 − P(0 ≤ Z ≤ 0, 5) = 0, 5 − tab(0, 5) = 0, 3085
59

D2 − 45 45 − 45
P(D2 ≥ 45) = P ≥ = P(Z ≥ 0) = 0, 5
3 3
Logo, o aparelho 2 tem maior probabilidade de funcionar durante as 45 horas necessárias e,

por isso, nesse caso, deve ser o escolhido.
Caso 2: O tempo necessário é de 49 horas.

D1 − 42 49 − 42
P(D1 ≥ 49) = P ≥ = P(Z ≥ 1, 17)
6 6
= 0, 5 − P(0 ≤ Z ≤ 1, 17) = 0, 5 − tab(1, 17) = 0, 1210

D2 − 45 49 − 45
P(D2 ≥ 49) = P ≥ = P(Z ≥ 1, 33)
3 3
= 0, 5 − P(0 ≤ Z ≤ 1, 33) = 0, 5 − tab(1, 33) = 0, 0918
Logo, o aparelho 1 tem maior probabilidade de funcionar durante as 49 horas necessárias e,

portanto, deve ser o escolhido nesse caso.
3. X ∼ N(µ, σ 2 )
45 − µ
P(X < 45) = 0, 31 ⇒ P Z < = 0, 31
σ
45−µ
Como a área à esquerda é menor que 0,5, a abscissa σ tem que ser negativa. Para encontrar
a abscissa da normal padrão correspondente, temos que procurar, na Tabela 1, o valor 0, 19 =
0, 5 − 0, 31. O valor mais próximo é 0,1915, correspondente à abscissa 0,50. Logo,
45 − µ
= −0, 50 ⇒ 45 − µ = −0, 50σ ⇒ µ − 0, 50σ = 45 (3.2)
σ
Da segunda informação dada, temos que

64 − µ
P(X > 64) = 0, 08 ⇒ P Z > = 0, 08
σ
64−µ
Como a área à esquerda é 0,90, maior que 0,5, a abscissa σ tem que ser positiva. Para
encontrar a abscissa da normal padrão correspondente, temos que procurar, na Tabela 1, o
valor 0, 42 = 0, 5 − 0, 08. O valor mais próximo é 0,4207, correspondente à abscissa 1,41. Logo,
64 − µ
= 1, 41 ⇒ 64 − µ = 1, 41σ ⇒ µ + 1, 41σ = 64 (3.3)
σ
Temos duas equações e duas incógnitas. Subtraindo (3.2) de (3.3), resulta
1, 41σ − (−0, 50σ ) = 64 − 45 ⇒ 1, 91σ = 19 ⇒ σ ≈ 10
Substituindo o valor de σ em (3.2), obtemos
µ − 0, 50 × 10 = 45 ⇒ µ = 50.
4. Seja X = número de unidades vendidas. Então, X ∼ N(500, 502 ). Se a empresa fabricou 600
unidades no mês em estudo, a probabilidade de não poder atender à demanda é

X − 500 600 − 500
P(X > 600) = P > = P(Z > 2)
50 50
= 0, 5 − P(0 ≤ Z ≤ 2) = 0, 5 − tab(2) = 0, 0228
5. Seja X = peso do saco em kg. Então, X ∼ N(50; 1, 62 ) e paga-se indenização se X < 48.
(a) Para um saco qualquer, a probabilidade de pagar indenização é

X − 50 48 − 50
P(X < 48) = P < = P(Z < −1, 25)
1, 6 1, 6
= P(Z > 1, 25) = 0, 5 − P(0 ≤ Z ≤ 1, 25) = 0, 5 − tab(1, 25) = 0, 1056
Seja Y = número de sacos, em um conjunto de 200, com peso menor que 48kg. Então,
Y ∼ bin(200; 0, 1056).
O número médio de sacos com peso menor que 48 é 200 × 0, 1056. O custo médio com
indenização será de 5 × 200 × 0, 1056 = 105, 6 u.m.
(b) Para reduzir o custo para 50 u.m. sem alterar o desvio-padrão , temos que ter

48 − µ
5 × 200 × P(X < 48) = 50 ⇒ P(X < 48) = 0, 05 ⇒ P Z < = 0, 05
1, 6
48−µ
A abscissa 1,6 tem que ser negativa. A abscissa da normal padrão que deixa área 0,05
acima é 1,64. Logo,
48 − µ
= −1, 64 ⇒ µ = 50, 624 kg
1, 6
(c) Com a média fixada em 50, o que se pretende agora é controlar a variabilidade do processo,
medida pelo desvio-padrão, ou seja, o peso dos pacotes agora é X ∼ N(50, σ 2 ). A regra
para indenização continua a mesma; logo,

48 − 50 2
P(X < 48) = 0, 03 ⇔ P Z < = 0, 03 ⇔ P Z < − = 0, 03
σ σ
A abscissa − σ2 tem que ser negativa e temos que buscar na Tabela 1 o valor mais próximo
de 0, 47 = 0, 5 − 0, 03, o que nos leva à abscissa 1,88. Logo,
2
− = −1, 88 ⇒ σ = 1, 064.
σ
6. Seja T = tempo de execução, em minutos. Então, T ∼ N(90, 202 ).
(a)

T − 90 80 − 90
P(T ≤ 80) = P ≤ = P(Z ≤ −0, 5) = P(Z ≥ 0, 5)
20 20
= 0, 5 − P(0 ≤ Z ≤ 0, 5) = 0, 5 − tab(0, 5) = 0, 3085
61
(b) Os melhores têm que ter tempo menor, ou seja, queremos determinar k tal que P(T ≤ k) =
0, 05.
k tem que ser menor que a média e a abscissa padronizada tem que ser negativa. A
abscissa da normal padrão que deixa 0,05 na cauda superior é 1,64. Logo,
k − 90
= −1, 64 ⇒ k = 57, 2.
20
Então, para fazer jus ao certificado especial, o candidato tem que executar a tarefa em, no
máximo, 57,2 minutos.
7. Seja D = diâmetro dos rolamentos de esfera. Então,

D ∼ N(0, 6140; 0, 00252 ). Vamos denotar por B, R e F os eventos “esfera boa”, “esfera
recuperável” e “esfera defeituosa”, respectivamente.

0, 610 − 0, 614 0, 618 − 0, 614
P(B) = P(0, 610 < D < 0, 618) = P <Z <
0, 0025 0, 0025
= P(−1, 6 < Z < 1, 6) = 2 × P(0 ≤ Z < 1, 6)
= 2 × tab(1, 6) = 0, 8904
P(R) = P [(0, 608 < D < 0, 610) ∪ (0, 618 < D < 0, 620)]
= P (0, 608 < D < 0, 610) + P (0, 618 < D < 0, 620)

0, 608 − 0, 614 0, 610 − 0, 614 0, 618 − 0, 614 0, 620 − 0, 614
=P <Z < +P <Z <
0, 0025 0, 0025 0, 0025 0, 0025
= P(−2, 4 < Z < −1, 6) + P(1, 6 < Z < 2, 4)
= 2 × P(1, 6 < Z < 2, 4) = 2 × [tab(2, 4) − tab(1, 6)]
= 2 × [0, 4918 − 0, 4452] = 0, 0932
P(F ) = P[(D < 0, 608) ∪ (D > 0, 620)] = P(D < 0, 608) + P(D > 0, 620)

0, 608 − 0, 614 0, 620 − 0, 614
=P Z < +P Z >
0, 0025 0, 0025
= P(Z < −2, 4) + P(Z > 2, 4) = 2 × P(Z > 2, 4)
= 2 × [0, 5 − P(0 ≤ Z ≤ 2, 4)] = 2 × [0, 5 − tab(2, 4)] = 0, 0164
Com relação ao lucro, temos as seguintes probabilidades
` 0,10 0,05 -0,10

P(L = `) 0,8904 0,0932 0,0164
Logo,
E(L) = 0, 10 × 0, 8904 + 0, 05 × 0, 0932 − 0, 10 × 0, 0164 = 0, 09206
8. Defina as seguintes variáveis aleatórias:
TA : tempo, em meses, para ocorrência de defeito nos televisores tipo A

TB : tempo, em meses, para ocorrência de defeito nos televisores tipo B
LA : lucro com televisores tipo A
LB : lucro com televisores tipo B
Temos que
TA ∼ N(9, 22 ) TB ∼ N(12, 32 )

6−9
P (TA ≤ 6) = P Z ≤ = P(Z ≤ −1, 5) = 0, 5 − tab(1, 5) = 0, 0668
2
Logo, para os televisores do tipo A, a probabilidade de restituição por defeito grave é 0,0668.

6 − 12
P (TB ≤ 6) = P Z ≤ = P(Z ≤ −2, 0) = 0, 5 − tab(2, 0) = 0, 0228
3
Logo, para os televisores do tipo B, a probabilidade de restituição por defeito grave é 0,0228.
Com esses resultados, obtemos as seguintes distribuições para os lucros:
` 1000 -3000 ` 2000 -8000

P(LA = `) 0,9332 0,0668 P(LB = `) 0,9772 0,0228
Logo, os lucros médios são:
E(LA ) = 1000 × 0, 9332 − 3000 × 0, 0668 = 732, 8

E(LB ) = 2000 × 0, 9772 − 8000 × 0, 0228 = 1772
Como o lucro esperado (lucro médio) com os televisores do tipo B é maior, deve-se investir nas
vendas desse tipo de televisor.
9. Defina a variável aleatória X = peso dos coelhos. Então, X ∼ N(5; 0, 82 ). Vamos denotar por
a, b e c os limites para as classes de peso.

a−5
P(X < a) = 0, 20 ⇔ P Z < = 0, 20
0, 8
a−5
A abscissa 0,8 tem que ser negativa e buscamos na Tabela 1 o valor mais próximo de 0, 30 =
0, 5 − 0, 2. Isso nos leva à abscissa 0,84 e, portanto,
a−5
d = −0, 84 ⇒ a = 4, 328
0, 8

b−5
P(X < b) = 0, 75 ⇔ P Z < = 0, 75
0, 8
b−5
A abscissa 0,8 tem que ser positiva e buscamos na Tabela 1 o valor mais próximo de 0, 25 =
63
b−5
d = 0, 67 ⇒ b = 5, 536
0, 8

c−5
P(X < c) = 0, 90 ⇔ P Z < = 0, 90 ⇔
0, 8
c−5
A abscissa 0,8 tem que ser positiva e buscamos na Tabela 1 o valor mais próximo de 0, 40 =
c−5
d = 1, 28 ⇒ c = 6, 024
0, 8
Os coelhos são classificados como pequenos se o peso for menor que 4,328kg; como médios se
o peso estiver entre 4,328 e 5,536kg; como grandes se o peso estiver entre 5,536 e 6,024kg e
como extra grandes se o peso for maior que 6,024kg.
10. X ∼ N(3, 25) :
(a)

−3 − 3 3−3
P (−3 ≤ X ≤ 3) = P ≤Z ≤ = P(−1, 2 ≤ Z ≤ 0)
5 5
= P(0 ≤ Z ≤ 1, 2) = tab(1, 2) = 0, 38493
(b)

−2 − 3 8−3
P (−2 ≤ X ≤ 8) = P ≤Z ≤ = P(−1 ≤ Z ≤ 1)
5 5
= P(−1 ≤ Z ≤ 0) + P(0 ≤ Z ≤ 1) = 2 × P(0 ≤ Z ≤ 1) = 2 × tab(1, 0) = 0, 68268
(c) Queremos k tal que P(X > k) = 0, 05. Então, k tem que ser maior que a média e a
abscissa padronizada, positiva. Temos que buscar na Tabela 1 o valor mais próximo de
0, 45 = 0, 5 − 0, 05, o que nos leva à abscissa 1,64. Logo,
k −3
= 1, 64 ⇒ k = 11, 2
5
(d) Queremos k tal que P(X > k) = 0, 80, o que equivale a P(X ≤ k) = 0, 20. Então, k tem que
ser menor que a média e a abscissa padronizada, negativa. Temos que buscar na Tabela
1 o valor mais próximo de 0, 30 = 0, 5 − 0, 20, o que nos leva à abscissa 0,84. Logo,
k −3
= −0, 84 ⇒ k = −1, 2
5
11. Como a distribuição normal é simétrica, resulta que Q2 = µ (a média, a mediana e a moda
sempre coincidem numa distribuição simétrica unimodal).
Q1 é tal que P(X < Q1 ) = 0, 25. Logo, Q1 é menor que a média e a abscissa padronizada,
negativa. Temos que buscar na Tabela 1 o valor mais próximo de 0, 25 = 0, 5 − 0, 25, o que nos
leva à abscissa 0,67. Logo,
Q1 − µ
= −0, 67 ⇒ Q1 = µ − 0, 67σ
σ
Q3 é tal que P(X > Q3 ) = 0, 25. Logo, Q3 é simétrico a Q1 em relação à média, ou seja,
Q3 = µ + 0, 67σ .
O intervalo interquartil de qualquer normal é, então,
IQ = Q3 − Q1 = 1, 34σ .
12. Sejam P90 e P15 os percentis de ordem 90 e 15, respectivamente. Então, P(X < P90 ) = 0, 90
e P(X < P15 ) = 0, 15. Resulta que P90 = 50 e P15 = 25 estão acima e abaixo da média,
respectivamente. Logo, a média tem que estar entre 25 e 50.
Para encontrar P90 , temos que buscar na Tabela 1 o valor mais próximo de 0,40, o que nos leva
à abscissa 1,28. Logo,

50 − µ 50 − µ
P(X < 50) = 0, 90 ⇒ P(X > 50) = 0, 10 ⇒ P Z > = 0, 10 ⇒ = 1, 28 ⇒
σ σ
50 − µ = 1, 28σ (3.4)
Para encontrar P15 , temos que buscar na Tabela 1 o valor mais próximo de 0,35, o que nos leva
à abscissa 1,04. Logo,

25 − µ 25 − µ
P(X < 25) = 0, 15 ⇒ P Z < = 0, 15 ⇒ = −1, 04 ⇒
σ σ
25 − µ = −1, 04σ (3.5)
Temos um sistema com duas equações e duas incógnitas. Subtraindo (3.4) de (3.5), resulta que
(25 − 50) = −1, 04σ − 1, 28σ ⇒ −25 = −2, 32σ ⇒ σ = 10, 78
A substituição do valor de σ em (3.4) nos dá
50 − µ = 1, 28 × 10, 78 ⇒ µ = 36, 2
Aula 4
Inferência Estatística – Conceitos Básicos
Na primeira parte do curso foi visto como resumir um conjunto de dados por meio de tabelas
de frequências, gráficos e medidas de posição e dispersão. Depois, foram estudados modelos
probabilísticos, discretos ou contínuos, para descrever determinados fenômenos. Agora, essas
ferramentas serão utilizadas no estudo de um importante ramo da Estatística, conhecido como
Inferência Estatística, que busca métodos de fazer afirmações sobre características de uma população,
conhecendo-se apenas resultados de uma amostra.
• população e amostra;
• amostra aleatória simples;
• estatísticas e parâmetros;
• estimador;
• distribuição amostral de um estimador.
Introdução
No estudo da estatística descritiva na primeira parte do curso, vimos que população é o conjunto
de elementos para os quais se deseja estudar determinada(s) característica(s). Vimos também que
uma amostra é um subconjunto da população.
No estudo da inferência estatística, o objetivo principal é obter informações sobre uma

população a partir das informações de uma amostra e aqui vamos precisar de definições mais formais
66 AULA 4. INFERÊNCIA ESTATÍSTICA – CONCEITOS BÁSICOS
de população e amostra. Para facilitar a compreensão desses conceitos, iremos apresentar alguns
exemplos a título de ilustração.
Exemplo 4.1
Em um estudo antropométrico em nível nacional, uma amostra de 5000 adultos é selecionada dentre
os adultos brasileiros com objetivo de se estimara a altura média do brasileiro.
Solução:
Neste exemplo, a população é o conjunto de todos os brasileiros adultos. No entanto, o interesse (um
deles, pelo menos) está na altura dos brasileiros. Assim, nesse estudo, a cada sujeito da população,
associamos um número correspondente à sua altura. Se determinado sujeito é sorteado para entrar
na amostra, o que nos interessa é esse número, ou seja, sua altura.
Como vimos, essa é a definição de variável aleatória: uma função que associa a cada ponto do
espaço amostral um número real. Dessa forma, a nossa população pode ser representada pela variável
aleatória X = “altura do adulto brasileiro”. Como essa é uma variável aleatória contínua, a ela está
associada uma função densidade de probabilidade f e da literatura, sabemos que é razoável supor
que essa densidade seja a densidade normal. Assim, nossa população, nesse caso, é representada

por uma variável aleatória X ∼ N µ; σ 2 . Conhecendo os valores de µ e σ , teremos informações
completas sobre a nossa população.
Uma forma de obtermos os valores de µ e σ é medindo as alturas de todos os brasileiros

adultos. Mas esse seria um procedimento caro e demorado. Uma solução, então, é retirar uma
amostra (subconjunto) da população e estudar essa amostra. Suponhamos que essa amostra seja
retirada com reposição e que os sorteios sejam feitos de forma independente, isto é, o resultado
de cada extração não altere o resultado das demais extrações. Ao sortearmos o primeiro elemento,
estamos realizando um experimento que dá origem à variável aleatória X1 = “altura do primeiro
elemento”; o segundo elemento dá origem à variável aleatória X2 = “ altura do segundo elemento” e
assim por diante. Como as extrações são feitas com reposição, todas as variáveis aleatórias X1 , X2 , . . .
têm a mesma distribuição, que reflete a distribuição da altura de todos os brasileiros adultos. Para
uma amostra específica, temos os valores observados x1 , x2 , . . . dessas variáveis aleatórias.

Exemplo 4.2
Consideremos, agora, um exemplo baseado em pesquisas eleitorais, em que estamos interessados no
resultado do segundo turno de uma eleição presidencial brasileira. Vamos considerar uma situação
simplificada em que não estamos considerando votos nulos, indecisos etc. Nosso interesse é estimar
a proporção de votos no candidato A.
Solução:
Mais uma vez, nossos sujeitos de pesquisa são pessoas com 16 anos ou mais, aptas a votar. O
interesse final é saber a proporção de votos de um e outro candidato. Nesta situação simplificada,
cada sujeito de pesquisa dá origem a uma variável aleatória binária, isto é, uma variável aleatória
que assume apenas dois valores. Como visto, podemos representar esses valores por 1 (candidato A)
67
e 0 (candidato B), o que define uma variável aleatória de Bernoulli, ou seja, essa população pode ser
representada pela variável aleatória X ∼ Bern(p).
O parâmetro p representa a probabilidade de um sujeito dessa população votar no candidato

A. Uma outra interpretação é que p representa a proporção populacional de votantes no candidato
A.
Para obtermos informação sobre p, retira-se uma amostra da população e, como antes, vamos
supor que essa amostra seja retirada com reposição. Ao sortearmos o primeiro elemento, estamos
realizando um experimento que dá origem à variável aleatória X1 = “voto do primeiro elemento”;
o segundo elemento dá origem à variável aleatória X2 = “voto do segundo elemento” e assim por
diante. Como as extrações são feitas com reposição, todas as variáveis aleatórias X1 , X2 , . . . têm a
mesma distribuição de Bernoulli populacional, isto é, Xi ∼ Bern(p), i = 1, 2, . . ..

População
A inferência estatística trata do problema de se obter informação sobre uma população a partir
de uma amostra. Embora a população real possa ser constituída por pessoas, empresas, animais
etc., as pesquisas estatísticas buscam informações sobre determinadas características dos sujeitos,
características essas que podem ser representadas por números. Sendo assim, a cada sujeito da
população está associado um número, o que nos permite apresentar a seguinte definiçõa, ilustrada
nos dois exemplos acima.
Definição 4.1
A população de uma pesquisa estatística pode ser representada por uma variável aleatória X
que descreve a característica de interesse.
Os métodos de inferência nos permitirão obter estimativas dos parâmetros da distribuição de

tal variável aleatória, que pode ser contínua ou discreta.
Amostra Aleatória Simples
Como já dito, é bastante comum o emprego da amostragem em pesquisas estatísticas. Nas

pesquisas por amostragem, uma amostra é selecionada da população de interesse e todas as
conclusões serão baseadas apenas nessa amostra. Para que seja possível inferir resultados para
a população a partir da amostra, é necessário que esta seja “representativa” da população.
Embora existam vários métodos de seleção de amostras, vamos nos concentrar, aqui, no caso
mais simples, que é a amostragem aleatória simples. Segundo tal método, toda amostra de mesmo
tamanho n tem igual chance (probabilidade) de ser sorteada. É possível extrair amostras aleatórias
simples com ou sem reposição.
Quando estudamos as distribuições binomial e hipergeométrica, vimos que a distribuição

binomial correspondia a extrações com reposição e a distribuição hipergeométrica correspondia a
extrações sem reposição. No entanto, para populações grandes – ou infinitas – extrações com e sem
reposição não levam a resultados muito diferentes.
Assim, no estudo da Inferência Estatística, vamos sempre lidar com amostragem aleatória
simples com reposição. Esse método de seleção atribui a cada elemento da população a mesma
probabilidade de ser selecionado e esta probabilidade se mantém constante ao longo do processo de
seleção da amostra (se as extrações fossem sem reposição isso não aconteceria).
No restante desse curso, vamos omitir a expressão “com reposição”, ou seja, o termo amostragem
(ou amostra) aleatória simples sempre se referirá à amostragem com reposição.
Uma forma de se obter uma amostra aleatória simples é escrever os números ou nomes dos
elementos da população em cartões iguais, colocar esses cartões em uma urna misturando-os bem
e fazer os sorteios necessários, tendo o cuidado de colocar cada cartão sorteado na urna antes
do próximo sorteio. Na prática, em geral, são usados programas de computador, uma vez que as
populações tendem a ser muito grandes.
Agora vamos formalizar o processo de seleção de uma amostra aleatória simples, de forma a
relacioná-lo com os problemas de inferência estatística que você vai estudar.
Seja uma população representada por uma variável aleatória X . De tal população será sorteada
uma amostra aleatória simples com reposição de tamanho n. Como visto nos exemplos anteriores,
cada sorteio dá origem a uma variável aleatória Xi e, como os sorteios são com reposição, todas essas
variáveis têm a mesma distribuição de X . Isso nos leva à seguinte definição.
Definição 4.2
Uma amostra aleatória simples de tamanho n de uma variável aleatória X (população) é um
conjunto de n variáveis aleatórias X1 , X2 , ..., Xn independentes e identicamente distribuídas.
É interessante notar a convenção usual: o valor observado de uma variável aleatória X é

representado pela letra minúscula correspondente. Assim, depois do sorteio de uma amostra de
tamanho n de uma população X , temos valores observados x1 , x2 , . . . , xn de X .
Estatísticas e Parâmetros
Obtida uma amostra aleatória simples, é possível calcular diversas características desta
amostra, como, por exemplo, a média, a mediana, a variância etc. Qualquer uma destas características
69
é uma função de X1 , X2 , ..., Xn e, portanto, o seu valor depende da amostra sorteada.
Sendo assim, cada uma dessas características ou funções é também uma variável aleatória Por
exemplo, a média amostral é a variável aleatória definida por
X1 + X2 + · · · + Xn
X=
n
Isso nos leva à seguinte definição
Definição 4.3
Uma estatística amostral ou estimador T é qualquer função da amostra X1 , X2 , ..., Xn , isto é,
T = g(X1 , X2 , ..., Xn )
onde g é uma função qualquer.
As estatísticas amostrais que consideraremos neste curso são:
• média amostral
X1 + X2 + · · · + Xn
X= (4.1)
n
• variância amostral
n
1 X 2
S2 = Xi − X (4.2)
n−1
i=1
Para uma amostra específica, o valor obtido para o estimador será denominado estimativa
e, em geral, será representado por letras minúsculas. Por exemplo, temos as seguintes notações
correspondentes à média e à variância amostrais: x e s2 .
De forma análoga, temos as características de interesse da população. No entanto, para

diferenciar as duas situações (população e amostra), atribuímos nomes diferentes.
Definição 4.4
Parâmetro é uma característica da população.
Assim, se a população é representada pela variável aleatória X, alguns parâmetros são a

esperança ou média E(X ) e a variância Var(X ) de X .
Com relação às características mais usuais, vamos usar a seguinte notação:
Característica Parâmetro Estatística

(população) (amostra)
Média µ X
Variância σ2 S2
Número de elementos N n
Distribuições Amostrais
Nos problemas de inferência, estamos interessados em estimar um parâmetro θ da população

por meio de uma amostra aleatória simples X1 , X2 , ..., Xn . Para isso, usamos uma estatística T e,
com base no valor obtido para T a partir de uma amostra particular, iremos tomar as decisões que o
problema exige. Já foi dito que T é uma variável aleatória, uma vez que depende da amostra sorteada;
amostras diferentes fornecerão diferentes valores para T . Assim, há variabilidade entre as possíveis
amostras. Conhecendo tal variabilidade, temos condições de saber “quão infelizes” podemos ser no
sorteio da amostra.
Exemplo 4.3
Consideremos a população {1, 3, 6, 8}, isto é, este é o conjunto dos valores da característica de
interesse da população em estudo. Suponha que dessa população iremos extrair uma amostra
aleatória simples de tamanho dois e, com base nessa amostra, iremos estimar a média populacional
µ a partir da média da média amostral. Vamos, então, estudar o comportamento de X ao longo de
todas as 16 possíveis amostras de tamanho n = 2.
Solução:
Consideremos, inicialmente, a população descrita pela variável aleatória X . Como todos os elementos
são igualmente prováveis, temos uma distribuição uniforme discreta:
4/16


 4/16 , se x = 1 3/16
se x = 3


 4/16 ,
pX (x) = se x = 6
2/16
4/16 ,
se x = 8



 4/16 , 1/16

0 , caso contrário.
0
0 2 4 6 8
Figura 4.1 – Distribuição de X - população

71
Para esta população, temos
1
E(X ) = µ = (1 + 3 + 6 + 8) = 4, 5
4
1h i
Var(X ) = σ 2 = (1 − 4, 5)2 + (3 − 4, 5)2 + (6 − 4, 5)2 + (8 − 4, 5)2 = 7, 25
4
Algumas possibilidades de amostra são {1, 1}, {1, 3}, {6, 8}, para as quais os valores da média
amostral são 1, 2 e 7, respectivamente. Podemos ver, então, que há uma variabilidade nos valores
da estatística amostral. As amostras {1, 1} e {8, 8} são as que têm média amostral mais afastada da
verdadeira média populacional. Se esses valores tiverem chance muito mais alta do que os valores
mais próximos de E(X ), podemos ter sérios problemas na estimação da média populacional.
Para conhecer o comportamento da média amostral, temos que conhecer todos os possíveis
valores de X , o que equivaleria a conhecer todas as possíveis amostras de tamanho dois de tal
população. Nesse exemplo, como só temos quatro elementos na população, a obtenção de todas as
amostras aleatórias simples de tamanho dois não é difícil.
Lembre-se do nosso estudo de análise combinatória que, como o sorteio é feito com reposição,
em cada um dos sorteios temos quatro possibilidades. Logo, o número total de amostras aleatórias
simples é 4 × 4 = 16. Por outro lado, em cada sorteio, cada elemento da população tem a mesma
chance de ser sorteado; como são quatro elementos, cada elemento tem probabilidade 1/4 de ser
sorteado.
Finalmente, como os sorteios são independentes, para obter a probabilidade de um par de

elementos pertencer à amostra, basta multiplicar as probabilidades (lembre-se que P(A ∩ B) =
P(A) P(B) quando A e B são independentes). A independência dos sorteios é garantida pela reposição
de cada elemento sorteado. Dessa forma, cada uma das possíveis amostras tem probabilidade 1/16
de ser sorteada.
Na Tabela 4.1 a seguir, listamos todas as possíveis amostras, com suas respectivas
probabilidades e, para cada uma delas, apresentamos o valor da média amostral.
Tabela 4.1 – Distribuição amostral de X – População {1, 3, 6, 8}
Amostra Prob. x Amostra Prob. x

(1,1) 1/16 (1 + 1)/2 = 1 (6,1) 1/16 (6 + 1)/2 = 3, 5
(1,3) 1/16 (1 + 3)/2 = 2 (6,3) 1/16 (6 + 3)/2 = 4, 5
(1,6) 1/16 (1 + 6)/2 = 3, 5 (6,6) 1/16 (6 + 6)/2 = 6
(1,8) 1/16 (1 + 8)/2 = 4, 5 (6,8) 1/16 (6 + 8)/2 = 7
(3,1) 1/16 (3 + 1)/2 = 2 (8,1) 1/16 (8 + 1)/2 = 4, 5
(3,3) 1/16 (13 + 3)/2 = 3 (8,3) 1/16 (8 + 3)/2 = 5, 5
(3,6) 1/16 (3 + 6)/2 = 4, 5 (8,6) 1/16 (8 + 6)/2 = 7
(3,8) 1/16 (3 + 8)/2 = 5, 5 (8,8) 1/16 (8 + 8)/2 = 8
Analisando esta tabela, podemos ver que os possíveis valores X são 1; 2; 3; 3,5; 4,5; 5,5; 6;
7; 8 e podemos construir a sua função de probabilidade, notando, por exemplo, que o valor 2 pode
ser obtido por meio de duas amostras: (1,3) ou (3,1). Como essas amostras correspondem a eventos
mutuamente exclusivos, a probabilidade de se obter uma média amostral igual a 2 é
P(X = 2) = P({1, 3} ∪ {3, 1})

= P({1, 3}) + P({3, 1})
1 1 2
= + =
16 16 16
Com o mesmo raciocínio, obtemos a seguinte função de probabilidade para X :

 1/16 , se x = 1 4/16




 2/16 , se x = 2



 1/16 , se x = 3 3/16



 2/16 , se x = 3, 5
se x = 4, 5
 2/16
pX (x) =
4/16 ,

 2/16 , se x = 6, 5
se x = 6

 1/16

 1/16 ,
se x = 7



 2/16 , 0



 1/16 , se x = 8
 0 2 4 6 8
0 , caso contrário.
Figura 4.2 – Distribuição de X − n=2
Note que a variável aleatória de interesse aqui é X ! Daí segue que
1 2 1 2
E(X ) = 1 × +2× +3× + 3, 5 × +
16 16 16 16
5 2 1 2 1
+ 4, 5 × + 5, 5 × +6× +7× +8×
16 16 16 16 16
= 4, 5 = µ
1 2 1
Var(X ) = (1 − 4, 5)2 × + (2 − 4, 5)2 × + (3 − 4, 5)2 × +
16 16 16
2 5 2
+ (3, 5 − 4, 5)2 × + (4, 5 − 4, 5)2 × + (5, 5 − 4, 5)2 × +
16 16 16
1 2 1
+ (6 − 4, 5)2 × + (7 − 4, 5)2 × + (8 − 4, 5)2 ×
16 16 16
7, 25 σ2 σ2
= 3, 625 = = =
2 2 n
σ2
Neste exemplo, podemos ver que E(X ) = µ e Var(X ) = 2 , onde 2 é o tamanho da amostra.
Esses resultados estão nos dizendo que, em média (esperança), a estatística X é igual à média da
população e que sua variância é igual à variância da população dividida pelo tamanho da amostra.

Exemplo 4.4
73
Consideremos, agora, a mesma situação do exemplo anterior, só que, em vez de estudarmos a média
amostral, uma medida de posição, vamos estudar a dispersão. Como foi visto, a variância populacional
é Var(X ) = 7, 25. Para a amostra, vamos trabalhar com dois estimadores. Um deles é S 2 , definido na
Equação (4.2) e o outro é
n
1X 2
σb =
2
Xi − X (4.3)
n
i=1
Da mesma forma que fizemos para a média amostral, vamos calcular o valor dessas estatísticas
para cada uma das amostras.
Solução:
Na Tabela 4.2, temos os resultados parciais e globais de interesse.
Tabela 4.2 – Distribuição amostral de S 2 e σb 2 – População {1, 3, 6, 8}

2
P
Amostra x (x1 − x)2 (x2 − x)2 (xi − x)2 S2 σb 2
i=1
(1, 1) 1 (1 − 1)2 (1 − 1)2 0 0 0
(1, 3) 2 (1 − 2)2 (3 − 2)2 2 2 1
(1, 6) 3, 5 (1 − 3, 5)2 (6 − 3, 5)2 12, 5 12, 5 6, 25
(1, 8) 4, 5 (1 − 4, 5)2 (8 − 4, 5)2 24, 5 24, 5 12, 25
(3, 1) 2 (3 − 2)2 (1 − 2)2 2 2 1
(3, 3) 3 (3 − 3)2 (3 − 3)2 0 0 0
(3, 6) 4, 5 (3 − 4, 5)2 (6 − 4, 5)2 4, 5 4, 5 2, 25
(3, 8) 5, 5 (3 − 5, 5)2 (8 − 5, 5)2 12, 5 12, 5 6, 25
(6, 1) 3, 5 (6 − 3, 5)2 (1 − 3, 5)2 12, 5 12, 5 6, 25
(6, 3) 4, 5 (6 − 4, 5)2 (3 − 4, 5)2 4, 5 4, 5 2, 25
(6, 6) 6 (6 − 6)2 (6 − 6)2 0 0 0
(6, 8) 7 (6 − 7)2 (8 − 7)2 2 2 1
(8, 1) 4, 5 (8 − 4, 5)2 (1 − 4, 5)2 24, 5 24, 5 12, 25
(8, 3) 5, 5 (8 − 5, 5)2 (3 − 5, 5)2 12, 5 12, 5 6, 25
(8, 6) 7 (8 − 7)2 (6 − 7)2 2 2 1
(8, 8) 8 (8 − 8)2 (8 − 8)2 0 0 0
Podemos ver que a função de probabilidade de S 2 é:
s2 0 2 4, 5 12, 5 24, 5
P(S 2 = s2 ) 4/16 4/16 2/16 4/16 2/16
e a função de probabilidade de σb 2 é:
k 0 1 2, 25 6, 25 12, 25
σ2
P(b = k) 4/16 4/16 2/16 4/16 2/16
Para essas distribuições, temos:
4 4 2 4 2
E(S 2 ) = 0 × +2× + 4, 5 × + 12, 5 × + 24, 5 ×
16 16 16 16 16
116
= = 7, 25 = σ 2 = Var(X )
16
4 4 2 4 2
σ 2) = 0 ×
E(b +1× + 2, 25 × + 6, 25 × + 12, 25 ×
16 16 16 16 16
58
= = 3, 625
16
Vemos que, em média, S 2 é igual à variância populacional, o que não ocorre com σb 2 .

Estes dois exemplos ilustram o fato de que qualquer estatística amostral σb 2 é uma variável
aleatória, que assume diferentes valores para cada uma das diferentes amostras.
Tais valores nos forneceriam, juntamente com a probabilidade de cada amostra, a função de
probabilidades de T , caso fosse possível, obter todas as amostras aleatórias simples de tamanho n
da população.
Isso nos leva à seguinte definição, que é um conceito central na Inferência Estatística.
Definição 4.5
A distribuição amostral de uma estatística T é a função de probabilidade de T ao longo de
todas as possíveis amostras aleatórias simples de tamanho n.
Podemos ver que a obtenção da distribuição amostral de qualquer estatística T é um processo

tão ou mais complicado do que trabalhar com a população inteira. Na prática, o que temos é uma
única amostra e é com base em tal amostra que tomaremos as decisões pertinentes ao problema em
estudo. Esta tomada de decisão, no entanto, será facilitada se conhecermos resultados teóricos sobre
o comportamento da distribuição amostral, assunto que será estudado nas próximas três aulas.
Propriedades de Estimadores
No exemplo anterior, relativo à variância amostral, vimos que E(S 2 ) = σ 2 e E(b

σ 2 ) 6= σ 2 .
Analogamente, vimos também que E(X ) = µ. Vamos explorar um pouco mais o significado desses
resultados antes de passar a uma definição formal da propriedade envolvida.
Dada uma população, existem muitas e muitas amostras aleatórias simples de tamanho n que
podem ser sorteadas. Cada uma dessas amostras resulta em um valor diferente da estatística de
interesse (X e S 2 , por exemplo). O que esses resultados estão mostrando é como esses diferentes
75
valores se comportam em relação ao verdadeiro (mas desconhecido) valor do parâmetro.
Considere a Figura 4.3, em que o alvo representa o valor do parâmetro e os “tiros”, indicados
pelo símbolo x, representam os diferentes valores amostrais da estatística de interesse.
(a) (b)
(c) (d)
Figura 4.3 – Propriedades de estimadores
Nas partes (a) e (b) da figura, os tiros estão em torno do alvo, enquanto nas partes (c) e (d)
isso não acontece. Comparando as partes (a) e (b), podemos ver que na parte (b) os tiros estão mais
concentrados em torno do alvo, isto é, têm menor dispersão. Isso refletiria uma pontaria mais certeira
do atirador em (b). Analogamente, nas partes (c) e (d), embora ambos os atiradores estejam com a
mira deslocada, os tiros do atirador (d) estão mais concentrados em torno de um alvo; o deslocamento
poderia até ser resultado de um desalinhamento da arma. Já o atirador (c), além de estar com o alvo
deslocado, ele tem os tiros mais espalhados, o que reflete menor precisão.
• Nas partes (a) e (b), temos dois estimadores que fornecem estimativas centradas em torno do
verdadeiro valor do parâmetro, ou seja, as diferentes amostras fornecem valores distribuídos
em torno do verdadeiro valor do parâmetro. A diferença é que em (a) esses valores estão mais
dispersos e, assim, temos mais chance de obter uma amostra “infeliz”, ou seja, uma amostra que
forneça um resultado muito afastado do valor do parâmetro. Essas duas propriedades estão
associadas à esperança e à variância do estimador, que são medidas de centro e dispersão,
respectivamente.
• Nas partes (c) e (d), as estimativas estão centradas em torno de um valor diferente do parâmetro
de interesse e, na parte (c), a dispersão é maior.
Temos, assim, ilustrados os seguintes conceitos.
Definição 4.6 Viés de um estimador

Seja X1 , X2 , · · · , Xn uma amostra aleatória simples de uma população X , cuja lei de probabilidade
depende de um parâmetro θ. Se T é um estimador de θ, definimos seu viés ou vício como
Vies(T ) = E(T ) − θ (4.4)
Se Vies(T ) = 0 então E(T ) = θ e dizemos que T é um estimador não-viesado de θ.
Como nos exemplos vistos, a esperança E(T ) é calculada ao longo de todas as possíveis
amostras, ou seja, é a esperança da distribuição amostral de T . Nas partes (a) e (b) da Figura
4.3 os estimadores são não-viesados e nas partes (c) e (d), os estimadores são viesados.
Com relação aos estimadores X , S 2 e σb 2 , pode-se provar, formalmente, que os dois primeiros
são não-viesados para estimar a média e a variância populacionais, respectivamente, enquanto σb 2 é
viesado para estimar a variância populacional.
Definição 4.7 Eficiência de um estimador

Se T1 e T2 são dois estimadores não-viesados do parâmetro θ, diz-se que T1 é mais eficiente
que T2 , se Var(T1 ) < Var(T2 ).
Na Figura 4.3, o estimador da parte (b) é mais eficiente que o estimador da parte (a).
É interessante observar que o conceito de eficiência, que envolve a variabilidade de um

estimador, está associado a estimadores não-viesados. Para analisar estimadores viesados, podemos
usar o erro quadrático médio, definido a seguir.
Definição 4.8 Erro quadrático médio

Seja X1 , X2 , · · · , Xn uma amostra aleatória simples de uma população X , cuja lei de probabilidade
depende de um parâmetro θ. Se T é um estimador de θ, definimos seu erro quadrático médio
como
EQM(T ) = E (T − θ)2 (4.5)
Pode-se mostrar que é válida a seguinte decomposição para o erro quadrático de um estimador
T:
EQM(T ) = Var(T ) + [Vies(T )]2 (4.6)
A equação (4.6) decompõe o erro quadrático médio em termos da variância e do quadrado do

vício do estimador. Para estimadores não-viesados, resulta que EQM(T ) = Var(T ). Estimadores
77
viesados podem ser uma opção interessante para estimar um parâmetro se seu erro quadrático médio
for pequeno.
Esses conceitos estão ilustrados na figura a seguir.
Os pontos dentro do círculo vermelho representam os valores de θ

b ao longo de todas as possíveis
amostras. Vemos que esses valores estão centrados em θ1 = E(θ). b A variabilidade desses valores
em torno da sua média é Var(θ).
b Como o estimador é viesado, há uma diferença entre sua média e
o verdadeiro valor do parâmetro, que é o viés do estimador, representado pela linha em azul. Em
termos de erro quadrático, tomamos esse viés ao quadrado, que é a componente [Vies(θ)]
b 2.
Resumo
• A população de uma pesquisa estatística é descrita por uma variável aleatória X , que descreve
a característica de interesse. Essa variável aleatória pode ser discreta ou contínua.
• O método de amostragem aleatória simples atribui, a cada amostra de tamanho n, igual

probabilidade de ser sorteada.
• Se os sorteios dos elementos da amostra são feitos com reposição, cada sujeito da população tem
a mesma probabilidade de ser sorteado e essa probabilidade se mantém constante. Dessa forma,
uma amostra aleatória simples com reposição (abreviaremos por amostra aleatória simples nesse
texto) de uma população X é um conjunto X1 , X2 , . . . , Xn de variáveis aleatórias independentes
e identicamente distribuídas, todas com a mesma distribuição da população X .
• Uma estatística ou estimador T é qualquer função de X1 , X2 , . . . , Xn , isto é, T =

g(X1 , X2 , . . . , Xn ). Como o estimador depende da amostra sorteada, ele é também uma variável
aleatória.
• Os estimadores descrevem características da amostra.
• Um parâmetro é uma característica da população.

• As características que iremos estudar são a média (µ e X ) e a variância (σ 2 e S 2 ).
• Como cada estimador é uma variável aleatória, ele pode ser descrito pela sua função de
probabilidade, que é chamada distribuição amostral do estimador. A distribuição amostral
de um estimador é a distribuição ao longo de todas as possíveis amostras de mesmo tamanho
n.
• A média e a variância da distribuição amostral de um estimador referem-se à distribuição ao

longo de todas as possíveis amostras. Assim, a média de uma distribuição amostral refere-se à
média dos possíveis valores do estimador ao longo de todas as possíveis amostras e a variância
reflete a dispersão desses valores em torno dessa média.
• Um estimador é não-viesado se a sua média é igual ao parâmetro que ele pretende estimar. Isso
significa que os valores do estimador ao longo de todas as possíveis amostras estão centrados
no parâmetro populacional.
• Dados dois estimadores não-viesados de um mesmo parâmetro, T1 e T2 , diz-se que T1 é mais

eficiente que T2 se sua variância for menor, ou seja, se V ar(T1 ) < V ar(T2 ).
• Se um estimador T é viesado, sua qualidade é medida pelo erro quadrático médio, que pode
ser decomposto como a soma da variância de T e do quadrado do viés de T .
Exercícios
1. Para fixar as ideias sobre os conceitos apresentados nesta aula, você irá trabalhar com amostras
aleatórias simples de tamanho três retiradas da população {1, 2, 4, 6, 8}.
Pelo princípio da multiplicação, o número total de amostras é 5×5×5 = 125 e cada uma dessas
amostras tem probabilidade 1
5 × 1
5 × 1
5 = 125 .
1
Vamos considerar os seguintes estimadores para a média da população:
X1 +X2 +X3
• média amostral: X = 3 ;
X1 +2X2 +X3
• média amostral ponderada: X p = 4 ;
min(X1 ,X2 ,X3 )+max(X1 ,X2 ,X3 )
• ponto médio: ∆ = 2 .
O que você irá mostrar é
(i) X e X p são não-viesados e que X é mais eficiente que X p ;
(ii) ∆ é viesado, mas sua variância é menor que a variância de X e de X p .
Para isso, você irá seguir os seguintes passos:
(a) Calcule a média µ e a variância σ 2 da população.

(b) Nas cinco tabelas a seguir, você tem listadas as 125 amostras. Para cada uma das
amostras, calcule os valores dos estimadores. Para as seis primeiras amostras, os cálculos
79
já estão feitos, a título de ilustração. Você não precisa indicar todas as contas; apenas
use a máquina de calcular e anote o resultado obtido.
Obs.: Na plataforma está disponível a planilha excel com essas tabelas.
(c) Obtenha a função de distribuição de probabilidade, explicitando os diferentes valores de
cada um dos estimadores e suas respectivas probabilidades.
(d) Calcule a esperança e a variância de cada um dos estimadores.
(e) Verifique as afirmativas feitas no enunciado do problema.
Amostra Estimador
X1 X2 X3 X Xp ∆
1+1+1 1+2×1+1 1+1
1 1 1 3 =1 4 =1 2 =1
1+1+2
1 1 2 3 = 34 1+2×1+2
4 = 54 1+2
2 = 3
2
1+1+4 1+2×1+4
1 1 4 3 =2 4 = 74 1+4
2 = 5
2
1+1+6
1 1 6 3 = 38 1+2×1+6
4 = 94 1+6
2 = 7
2
1+1+8
1 1 8 3 = 10
3
1+2×1+8
4 = 11
4
1+8
2 = 9
2
1+2+1 4 1+2×2+1 6 1+2 3
1 2 1 3 = 3 4 = 4 2 = 2
1 2 2
1 2 4
1 2 6
1 2 8
1 4 1
1 4 2
1 4 4
1 4 6
1 4 8
1 6 1
1 6 2
1 6 4
1 6 6
1 6 8
1 8 1
1 8 2
1 8 4
1 8 6
1 8 8
Amostra Estimador
X1 X2 X3 X Xp ∆
2 1 1
2 1 2
2 1 4
2 1 6
2 1 8
2 2 1
2 2 2
2 2 4
2 2 6
2 2 8
2 4 1
2 4 2
2 4 4
2 4 6
2 4 8
2 6 1
2 6 2
2 6 4
2 6 6
2 6 8
2 8 1
2 8 2
2 8 4
2 8 6
2 8 8
81
Amostra Estimador
X1 X2 X3 X Xp ∆
4 1 1
4 1 2
4 1 4
4 1 6
4 1 8
4 2 1
4 2 2
4 2 4
4 2 6
4 2 8
4 4 1
4 4 2
4 4 4
4 4 6
4 4 8
4 6 1
4 6 2
4 6 4
4 6 6
4 6 8
4 8 1
4 8 2
4 8 4
4 8 6
4 8 8
Amostra Estimador
X1 X2 X3 X Xp ∆
6 1 1
6 1 2
6 1 4
6 1 6
6 1 8
6 2 1
6 2 2
6 2 4
6 2 6
6 2 8
6 4 1
6 4 2
6 4 4
6 4 6
6 4 8
6 6 1
6 6 2
6 6 4
6 6 6
6 6 8
6 8 1
6 8 2
6 8 4
6 8 6
6 8 8
83
Amostra Estimador
X1 X2 X3 X Xp ∆
8 1 1
8 1 2
8 1 4
8 1 6
8 1 8
8 2 1
8 2 2
8 2 4
8 2 6
8 2 8
8 4 1
8 4 2
8 4 4
8 4 6
8 4 8
8 6 1
8 6 2
8 6 4
8 6 6
8 6 8
8 8 1
8 8 2
8 8 4
8 8 6
8 8 8
Solução do Exercício
1. Para a população, temos que
1+2+4+6+8
µ = = 4, 2
5
12 + 22 + 42 + 62 + 82
σ2 = − (4, 2)2 = 6, 56
5
Completando-se as tabelas dadas, chegamos às seguintes funções de distribuição de

probabilidade dos estimadores:
X Pr(X = x) Cálculo de E(X ) Cálculo de V ar(X )

x p px E(X )
2
3/3 1/125 3/375 (3/3)2 (1/125)

4/3 3/125 12/375 (4/3) (3/125)
5/3 3/125 15/375 (5/3) (3/125)
6/3 4/125 24/375 (6/3)2 (4/125)
7/3 6/125 42/375 (7/3)2 (6/125)
8/3 6/125 48/375 (8/3)2 (6/125)
9/3 9/125 81/375 (9/3)2 (9/125)
10/3 9/125 90/375 (10/3)2 (9/125)
11/3 12/125 132/375 (11/3)2 (12/125)
12/3 10/125 120/375 (12/3)2 (10/125)
13/3 9/125 117/375 (13/3)2 (9/125)
14/3 12/125 168/375 (14/3)2 (12/125)
15/3 6/125 90/375 (15/3)2 (6/125)
16/3 12/125 192/375 (16/3)2 (12/125)
17/3 3/125 51/375 (17/3)2 (3/125)
18/3 10/125 180/375 (18/3)2 (10/125)
20/3 6/125 120/375 (20/3)2 (6/125)
22/3 3/125 66/375 (22/3)2 (3/125)
24/3 1/125 24/375 (24/3)2 (1/125)
Soma 1575/375 22305/ (9 × 125)
Logo,
1575
E(X ) = = 4, 2 = µ
375
22305 6, 56 σ2
V ar(X ) = − (4, 2)2 = 2, 186667 = =
9 × 125 3 3
85
Xp Pr(X p = x) Cálculo de E(X p ) Cálculo de V ar(X p )

x p px E(X p )
2
4/4 1/125 4/500 (4/4)2 (1/125)

5/4 2/125 10/500 (5/4)2 (2/125)
6/4 2/125 12/500 (6/4)2 (2/125)
7/4 4/125 28/500 (7/4)2 (4/125)
8/4 3/125 24/500 (8/4)2 (3/125)
9/4 4/125 36/500 (9/4)2 (4/125)
10/4 6/125 60/500 (10/4)2 (6/125)
11/4 6/125 66/500 (11/4)2 (6/125)
12/4 8/125 96/500 (12/4)2 (8/125)
13/4 4/125 52/500 (13/4)2 (4/125)
14/4 10/125 140/500 (14/4)2 (10/125)
15/4 4/125 60/500 (15/4)2 (4/125)
16/4 9/125 144/500 (16/4)2 (9/125)
17/4 4/125 68/500 (17/4)2 (4/125)
18/4 10/125 180/500 (18/4)2 (10/125)
19/4 4/125 76/500 (19/4)2 (4/125)
20/4 8/125 160/500 (20/4)2 (8/125)
21/4 4/125 84/500 (21/4)2 (4/125)
22/4 8/125 176/500 (22/4)2 (8/125)
23/4 2/125 46/500 (23/4)2 (2/125)
24/4 7/125 168/500 (24/4)2 (7/125)
25/4 2/125 50/500 (25/4)2 (2/125)
26/4 6/125 156/500 (26/4)2 (6/125)
28/4 4/125 112/500 (28/4)2 (4/125)
30/4 2/125 60/500 (30/4)2 (2/125)
32/4 1/125 32/500 (32/4)2 (1/125)
Soma 2100/500 40200/(16 × 125)
Logo,
E(X p ) = 4, 2 = µ
40200
V ar(X p ) = − (4, 2)2 = 2, 46
16 × 125
∆ Pr(∆ = x) Cálculo de E(∆) Cálculo de V ar(∆)

x p p·x E(∆2 )
2/2 1/125 2/250 (2/2)2 (1/125)
3/2 6/125 18/250 (3/2)2 (6/125)
4/2 1/125 4/250 (4/2)2 (1/125)
5/2 12/125 60/250 (5/2)2 (12/125)
6/2 6/125 36/250 (6/2)2 (6/125)
7/2 18/125 126/250 (7/2)2 (18/125)
8/8 13/125 104/250 (8/2)2 (13/125)
9/2 24/125 216/250 (9/2)2 (24/125)
10/2 24/125 240/250 (10/2)2 (24/125)
12/2 13/125 156/250 (12/2)2 (13/125)
14/2 6/125 84/250 (14/2)2 (6/125)
16/2 1/125 16/250 (16/2)2 (1/125)
Soma 1062/250 9952/(4 × 125)
Logo,
1062
E(∆) = = 4, 248
250
9952
V ar(∆) = − (4, 248)2 = 1, 858496
4 × 125
Na tabela a seguir, apresentamos o resumo dos resultados obtidos.
Parâmetro Estimador
populacional X Xp ∆
Média µ = 4, 2 4, 2000 4, 2000 4, 2480
Variância σ 2 = 6, 56 2, 1867 2, 4600 1, 8585
Conclui-se que X e X p são estimadores não-viesados de µ e que X é mais eficiente que X p ,

uma vez que V ar(X ) < V ar(X p ).
O estimador ∆ é viesado, pois E(∆) 6= µ. No entanto, a variância desse estimador é menor que
as variâncias dos dois estimadores não-viesados.
Aula 5
Distribuição Amostral da Média
Nesta aula, você irá aprofundar seus conhecimentos sobre a distribuição amostral da média
amostral. Na aula anterior, analisamos, por meio de alguns exemplos, o comportamento da média
amostral; mas naqueles exemplos, a população era pequena e foi possível obter todas as amostras,
ou seja, foi possível obter a distribuição amostral exata. Nesta aula, veremos resultados teóricos
sobre a distribuição amostral da média amostral, que nos permitirão fazer análises sem ter que listar
todas as amostras. Tal conhecimento é importante, uma vez que, na prática, temos apenas uma única
amostra.
Os principais resultados que estudaremos são:
• média e variância da distribuição amostral da média;
• distribuição amostral da média para populações normais.
Distribuição Amostral da Média
Média e Variância
Na aula anterior, vimos, por meio de exemplos, que a média amostral X é um estimador não-
viesado da média populacional µ. Aqueles exemplos ilustram o seguinte resultado geral.
88 AULA 5. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
Teorema 5.1
Seja X1 , X2 , . . . , Xn uma amostra aleatória simples de tamanho n de uma população representada
pela variável aleatória X com média µ e variância σ 2 . Então,
E(X ) = µ
σ2
Var(X ) =
n
É importante notar que esse resultado se refere a qualquer população X , ou seja, o Teorema 5.1
é válido, qualquer que seja a distribuição da variável aleatória que descreve a nossa população. O
que ele estabelece é que as médias amostrais das diferentes amostras aleatórias simples de tamanho
n tendem a “acertar o alvo” da média populacional µ; lembre-se da Figura 4.3, partes (a) e (b). Além
disso, à medida que o tamanho amostral n aumenta, a dispersão em torno do alvo, medida por Var(X ),
vai diminuindo e tende a zero quando n → ∞.
O desvio-padrão da distribuição amostral de qualquer estatística é usualmente chamado de

erro padrão. Então, o erro padrão da média amostral é
σ
EP(X ) = √ .
n
Populações Normais
Na prática estatística, várias populações podem ser descritas, pelo menos aproximadamente,
por uma distribuição normal. Obviamente, o teorema anterior continua valendo no caso de uma
população normal, mas temos uma característica a mais da distribuição amostral da média quando a
população é normal: ela é também normal.
Teorema 5.2
Seja X1 , X2 , . . . , Xn uma amostra aleatória simples (aas) de tamanho n de uma população normal,
isto é, uma população representada por uma variável aleatória normal X com média µ e variância
σ 2 . Então, a distribuição amostral da média amostral X é normal com média µ e variância σ 2 /n, ou
seja,
σ2
X ∼ N µ; σ 2
=⇒ X ∼ N µ;
n

Na Figura 5.1 ilustra-se o comportamento da distribuição amostral da média amostral com

base em amostras de tamanho n = 4 para uma população normal com média 1 e variância 9. A título
de comparação, apresenta-se a distribuição populacional. Podemos ver que ela é mais dispersa que
a distribuição amostral de X mas ambas estão centradas no verdadeiro valor populacional µ = 1.
89
Figura 5.1 – Distribuição amostral de X com base em aas de tamanho n = 4 de uma população X ∼ N(1; 9).
Exemplo 5.1
A capacidade máxima de um elevador é de 500kg. Se a distribuição dos pesos dos usuários é
N(70; 100), qual é a probabilidade de que sete pessoas ultrapassem este limite? E de seis pessoas?
Solução:
Podemos considerar os sete passageiros como uma amostra aleatória simples da população de todos
os usuários, representada pela variável aleatória X ∼ N(70; 100). Seja, então, X1 , . . . , X7 uma amostra
aleatória simples de tamanho n = 7. Se o peso máximo é 500kg, para que sete pessoas ultrapassem
o limite de segurança temos que ter
7
X 7
1X 500
Xi > 500 ⇒ Xi > ⇒ X > 71, 729
7 7
i=1 i=1

Mas, pelo Teorema 5.2, sabemos que X ∼ N 70; 100
7 . Logo,
 
X − 70 71, 729 − 70
P(X > 71, 729) = P  q > q  = P(Z > 0, 46)
100 100
7 7
= 0, 5 − tab(0, 46) = 0, 5 − 0, 17724 = 0, 32276
Com seis pessoas teríamos que ter

 

500 83, 333 − 70 
P X> = P Z > q = P(Z > 3, 53)
6 100
7
0, 5 − tab(3, 53) = 0, 5 − 0, 49979 = 0, 00021
Podemos ver que existe uma probabilidade alta (0,32 ou 32% de chance) de sete pessoas
ultrapassarem o limite de segurança. Já com seis pessoas, essa probabilidade é bastante pequena.
Assim, o número máximo de pessoas no elevador deve ser estabelecido como seis ou menos.

Exemplo 5.2
Uma população é descrita por uma variável aleatória X que tem distribuição normal com média 40 e
desvio-padrão 5.
(a) Calcule P(35 < X < 45).
(b) Se X é a média de uma amostra aleatória simples de 16 elementos retirados dessa população,
calcule P(35 < X < 45).
(c) Construa, em um único sistema de coordenadas, os gráficos das distribuições de X e X .
(d) Que tamanho deveria ter a amostra para que P(35 < X < 45) = 0, 95?
Solução:
(a)

35 − 40 45 − 40
P(35 < X < 45) = P <Z <
5 5
= Pr(−1 < Z < 1) = 2 × P(0 < Z < 1)
= 2 × tab(1, 0) = 0, 68268

(b) Com n = 16, resulta que X ∼ N 40; 16
52
 
35 − 40 45 − 40
P(35 < X < 45) = P  q <Z < q 
25 25
16 16
= P(−4 < Z < 4) = 2 × P(0 < Z < 4)

= 2 × tab(4, 0) ≈ 1, 00
(c) Veja a Figura 5.2. Como visto, a distribuição amostral com n = 16 é menos dispersa que
a distribuição populacional e, então, podemos ver que, entre 35 e 45, temos concentrada
praticamente toda a distribuição de X .
(d) Queremos que P(35 < X < 45) = 0, 95, ou seja,

 
35 − 40 45 − 40 
P(35 < X < 45) = 0, 95 ⇔ P  q <Z < q = 0, 95 ⇔
25 25
n n
√ √ √
P(− n < Z < n) = 0, 95 ⇔ 2 × P(0 < Z < n) = 0, 95 ⇔
√ √ √
2 × tab( n) = 0, 95 ⇔ tab( n) = 0, 475 ⇔ n = 1, 96 ⇔ n ≈ 4
91
Figura 5.2 – Distribuição amostral de X com base em aas de tamanho n = 16 de uma população X ∼ N(40; 25).
A título de ilustração, apresentam-se na Figura 5.3 as distribuições amostrais de X para n = 16

e n = 4.
Figura 5.3 – Distribuição amostral de X com base em amostras de tamanhos n = 16 e n = 4 de uma população N(40; 25).

Exemplo 5.3
A máquina de empacotar um determinado produto o faz segundo uma distribuição normal, com média
µ e desvio-padrão de 10g.
(a) Em quanto deve ser regulado o peso médio µ para que apenas 10% dos pacotes tenham menos
do que 500g?
(b) Com a máquina assim regulada, qual a probabilidade de que o peso total de quatro pacotes
escolhidos ao acaso seja inferior a 2kg?
Solução:
(a) Seja X a variável aleatória que representa o peso dos pacotes. Sabemos, então, que X ∼
N(µ; 100). Queremos que

X −µ 500 − µ 500 − µ
P(X < 500) = 0, 10 ⇒ P < = 0, 10 ⇒ P Z < = 0, 10
10 10 10
500−µ
Então, na densidade normal padrão, à esquerda da abscissa 10 temos que ter uma área
(probabilidade) de 0,10. Logo, essa abscissa tem que ser negativa. Na Tabela 1, temos que
procurar o valor 0, 40 = 0, 50 − 0, 10, o que nos fornece a abscissa 1,28. Logo,
500 − µ
= −1, 28 ⇒ µ = 512, 8 g
10
4
P
(b) Sejam X1, X2 , X3 , X4 os pesos dos 4 pacotes da amostra. Queremos que Xi < 2000g. Isso é
i=1
equivalente a X < 500. Logo,
 
X − 512, 8 500 − 512, 8
P(X < 500) = P  q < q 
100 100
4 4
= P(Z < −2, 56) = P(Z > 2, 56) = 0, 5 − P(0 ≤ Z ≤ 2, 56)

= 0, 5 − tab(2, 56) = 0, 5 − 0, 49477 = 0, 00523
Com a máquina regulada para 512,8g, há uma probabilidade de 0,00523 de que uma amostra
de 4 pacotes apresente peso médio inferior a 500g. Note que com um pacote apenas, essa
probabilidade é de 0,10. Por isso, as inspeções de controle de qualidade são sempre feitas com
base em amostras de tamanho n > 1. Isso evita que a decisão se baseie em uma única amostra
“infeliz”.

Resumo
Nesta aula, foram estudadas propriedades da média amostral X . Ao final, você deverá ser capaz
de compreender perfeitamente os seguintes resultados:
• Dada uma amostra aleatória simples com reposição (aas) X1 , X2 , . . . , Xn de uma população X
com média µ e variância σ 2 , ambas finitas, a média amostral X é um estimador não-viesado de
µ com variância igual à variância populacional dividida pelo tamanho amostral n, isto é,
E(X ) = µ
σ2
Var(X ) =
n
93
• O desvio-padrão da distribuição amostral de qualquer estimador é usualmente chamado de

erro-padrão. Então, o erro-padrão da média amostral é EP(X ) = √σ
n
• Nas condições anteriores e com a hipótese adicional normalidade da população X , a distribuição

amostral de X também é normal, isto é,

σ2
X ∼ N µ; σ 2
=⇒ X ∼ N µ;
n
Exercícios
1. Uma amostra de tamanho n = 18 é extraída de uma população normal com média 15 e desvio-
padrão 2,5. Calcule a probabilidade de que a média amostral
(a) esteja entre 14,5 e 16,0;

(b) seja maior que 16,1.
2. Os comprimentos das peças produzidas por determinada máquina têm distribuição normal com
uma média de 172mm e desvio padrão de 5mm. Calcule a probabilidade de uma amostra
aleatória simples de 16 peças ter comprimento médio:
(a) entre 169mm e 175mm;

(b) maior que 178mm;
(c) menor que 165mm.
3. Qual deverá ser o tamanho de uma amostra aleatória simples a ser retirada de uma população
N(150; 132 ) para que P( X − µ < 6, 5) = 0, 95?
4. Volte ao Exemplo 5.3. Depois de regulada a máquina, prepara-se uma carta de controle de
qualidade. Uma amostra de 4 pacotes será sorteada a cada hora. Se a média da amostra for
inferior a 497g ou superior a 520g, a produção deve ser interrompida para ajuste da máquina,
isto é, ajuste do peso médio.
(a) Qual é a probabilidade de uma parada desnecessária?

(b) Se a máquina se desregulou para µ = 500g, qual é a probabilidade de se continuar a
produção fora dos padrões desejados?
5. Uma empresa produz parafusos em duas máquinas. O comprimento dos parafusos produzidos em
ambas é aproximadamente normal com média de 20mm na primeira máquina e 25mm na segunda
máquina e desvio-padrão comum de 4mm. Uma caixa com 16 parafusos, sem identificação, é
encontrada e o gerente de produção determina que, se o comprimento médio for maior que
23mm, então a caixa será identificada como produzida pela máquina 2; caso contrário, será
identificada como produzida pela máquina 1. Especifique os possíveis erros nessa decisão e
calcule as suas probabilidades.
6. Uma fábrica produz parafusos especiais, para atender um determinado cliente, que devem ter
comprimento de 8,5cm. Como os parafusos grandes podem ser reaproveitados a um custo muito
baixo, a fábrica precisa controlar apenas a proporção de parafusos pequenos. Para que o
processo de produção atinja o lucro mínimo desejável, é necessário que a proporção de parafusos
pequenos seja no máximo de 5%.
(a) Supondo que a máquina que produz os parafusos o faça de modo que os comprimentos
tenham distribuição normal com média µ e desvio-padrão de 1,0cm, em quanto deve ser
regulada a máquina para satisfazer as condições de lucratividade da empresa?
(b) Para manter o processo sob controle, é programada uma carta de qualidade. A cada hora
será sorteada uma amostra de quatro parafusos e, se o comprimento médio dessa amostra
for menor que 9,0cm, o processo de produção será interrompido para uma nova regulagem
da máquina. Qual é a probabilidade de uma parada desnecessária?
(c) Se a máquina se desregulou de modo que o comprimento médio passou a ser 9,5cm, qual
é a probabilidade de se continuar o processo de produção fora dos padrões desejados?

2

1. X ∼ N 15; 2,5
18
(a)
 
14, 5 − 15 16 − 15
P(14, 5 ≤ X ≤ 16) = P  q ≤Z ≤ q 
2,52 2,52
18 18
= P(−0, 85 ≤ Z ≤ 1, 70) = P(−0, 85 ≤ Z ≤ 0) + P(0 < Z ≤ 1, 70)

= P(0 ≤ Z ≤ 0, 85) + P(0 ≤ Z ≤ 1, 70) = tab(0, 85) + tab(1, 70) = 0, 75777
(b)
 
16, 1 − 15
P(X > 16, 1) = P Z > q  = P(Z > 1, 87)
2,52
18
= 0, 5 − P(0 ≤ Z ≤ 1, 87) = 0, 5 − tab(1, 87) = 0, 03074
2. Seja X = comprimento das peças; então X ∼ N(172; 25) e n = 16
(a)
 
169 − 172 X − 172 175 − 172
P(169 ≤ X ≤ 175) = P  q ≤ q ≤ q 
25 25 25
16 16 16
= P(−2, 4 ≤ Z ≤ 2, 4) = 2 × P(0 ≤ Z ≤ 2, 4)
= 2 × tab(2, 4) = 2 × 0, 4918 = 0, 9836
95
(b)
 
178 − 172 
P(X > 178) = P Z > q = P(Z > 4, 8) ≈ 0
25
16
(c)
 
165 − 172
P(X < 165) = P Z < q  = P(Z < −5, 6) ≈ 0
25
16
3. Temos que X ∼ N(150; 132 ) e queremos determinar n para que P( X − µ < 6, 5) = 0, 95.
P( X − 150 < 6, 5) = 0, 95 ⇔ P(−6, 5 < X − 150 < 6, 5) = 0, 95 ⇔

!
6, 5 X − 150 6, 5 √ √
P − 13 < < = 0, 95 ⇔ P(−0, 5 n < Z < 0, 5 n) = 0, 95 ⇔
√ 13 √ 13 √
n n n
√ √ √
2 × P(0 < Z < 0, 5 n) = 0, 95 ⇔ P(0 < Z < 0, 5 n) = 0, 475 ⇔ tab(0, 5 n) = 0, 475 ⇔
√ √ 1, 96
0, 5 n = 1, 96 ⇔ n = = 3, 92 ⇔ n = (3, 92)2 ≈ 16
0, 5
4. Depois da regulagem, X ∼ N(512, 8; 100).
(a) Parada desnecessária: amostra indica que o processo está fora de controle (X < 497
ou X > 520), quando, na verdade, o processo está ajustado (µ = 512, 8). Neste caso,
podemos usar a notação de probabilidade condicional para auxiliar na solução do exercício.
Queremos calcular

P X < 497 ∪ X > 520 | X ∼ N 512, 8; 100 4

= P X < 497 | X ∼ N (512, 8; 25) + P X > 520 | X ∼ N (512, 8; 25)

497 − 512, 8 520 − 512, 8
=P Z < +P Z >
5 5
= P(Z < −3, 16) + P(Z > 1, 44) = P(Z > 3, 16) + P(Z > 1, 44)
= [0, 5 − P(0 ≤ Z ≤ 3, 16)] + [0, 5 − P(0 ≤ Z ≤ 1, 44)]
= 0, 5 − tab(3, 16) + 0, 5 − tab(1, 44) = 1, 0 − 0, 49921 − 0, 42507 = 0, 07572
(b) Agora queremos

497 − 500 520 − 500
P 497 ≤ X ≤ 520 | X ∼ N(500; 25) = P ≤Z ≤
5 5
= P(−0, 6 ≤ Z ≤ 4) = P(−0, 6 ≤ Z < 0) + Pr(0 ≤ Z ≤ 4)
= P(0 ≤ Z ≤ 0, 6) + Pr(0 ≤ Z ≤ 4) = tab(0, 6) + tab(4, 0) = 0, 72572
Note que a probabilidade de uma parada desnecessária é pequena, às custas da alta

probabilidade de se operar fora de controle.
5. Os erros são:
E1 : estabelecer que são da máquina 1, quando na verdade foram produzidos pela máquina 2
ou
E2 : estabelecer que são da máquina 2, quando na verdade foram produzidos pela máquina 1.
A regra de decisão é a seguinte:
X > 23 =⇒ máquina 2
X ≤ 23 =⇒ máquina 1
Na máquina 1 o comprimento é N(20; 16) e na máquina 2, N(25; 16).

16 23 − 25
P(E1 ) = P X ≤ 23|X ∼ N 25; =P Z ≤
16 1
= Pr(Z ≤ −2) = P(Z ≥ 2) = 0, 5 − tab(2, 0) = 0, 5 − 0, 4772 = 0, 0228

16 23 − 20
P(E2 ) = P X > 23|X ∼ N 20; =P Z >
16 1
= Pr(Z > 3) = 0, 5 − tab(3, 0) = 0, 5 − 0, 4987 = 0, 0013
6. Parafusos pequenos: X < 8, 5, onde X é o comprimento do parafuso.
(a) X ∼ N(µ; 1). Como Pr(X < 8, 5) = 0, 05, resulta que 8,5 tem que ser menor que µ, ou seja,
a abscissa 8, 5 − µ tem que estar no lado negativo da escala da normal padronizada.

8, 5 − µ
Pr(X < 8, 5) = 0, 05 ⇔ P Z < = 0, 05 ⇔
1

8, 5 − µ
P Z >− = 0, 05 ⇔ P(0 ≤ Z ≤ µ − 8, 5) = 0, 45 ⇔
1
µ − 8, 5 = 1, 64 ⇔ µ = 10, 14
(b) Parada desnecessária: amostra indica processo fora de controle (X < 9), quando, na
verdade, o processo está sob controle (µ = 10, 14).

1 9 − 10, 14
P X < 9 | X ∼ N 10, 14; =P Z <
4 0, 5
= P(Z < −2, 28) = P(Z > 2, 28) = 0, 5 − P(0 ≤ Z ≤ 2, 28)
= 0, 5 − tab(2, 28) = 0, 5 − 0, 4887 = 0, 0113
(c) Máquina desregulada: X > 9; processo operando sem ajuste: X ∼ N (9, 5; 1)

97

1 9 − 9, 5
P X > 9 | X ∼ N 9, 5; =P Z > = P(Z > −1)
4 0, 5
= P(−1 < Z < 0) + P(Z ≥ 0) = P(0 < Z < 1) + P(Z ≥ 0) = tab(1, 0) + 0, 5 = 0, 8413
Aula 6
O Teorema Limite Central
Nesta aula, iremos concluir o estudo sobre a distribuição amostral da média amostral. Na
aula anterior, analisamos a situação em que a população era normal e vimos que a média amostral
também tem distribuição normal. Agora, iremos estudar o Teorema Limite Central, que nos dá uma
aproximação para a distribuição da média amostral para grandes amostras, qualquer que seja a
distribuição populacional.
Teorema Limite Central
Os resultados vistos na aula anterior são válidos para populações normais, isto é, se uma
população é normal com média µ e variância σ 2 , então a distribuição amostral de X é também normal
com média µ e variância σ 2 /n, em que n é o tamanho da amostra. O Teorema Central do Limite
nos fornece um resultado análogo para qualquer distribuição populacional, desde que o tamanho da
amostra seja suficientemente grande.
Teorema 6.1 Teorema Limite Central

Seja X1 , X2 , . . . , Xn uma amostra aleatória simples de uma população X tal que E(X ) = µ e Var(X ) =
σ 2 . Então, a distribuição de X converge para a distribuição normal com média µ e variância σ 2 /n
quando n → ∞. Equivalentemente,
X −µ
−→ N(0, 1)
√σ
n
A interpretação prática do Teorema Limite Central é a seguinte: para amostras “grandes” de

100 AULA 6. O TEOREMA LIMITE CENTRAL
qualquer população, podemos aproximar a distribuição amostral de X por uma distribuição normal
com a mesma média populacional e variância igual à variância populacional dividida pelo tamanho
da amostra.
Quão grande deve ser a amostra para se obter uma boa aproximação depende das
características da distribuição populacional. Se a distribuição populacional não se afastar muito
de uma distribuição normal, a aproximação será boa, mesmo para tamanhos pequenos de amostra.
Na Figura 6.1 ilustra-se esse teorema para uma distribuição contínua, conhecida como
distribuição exponencial. Esta distribuição depende de um parâmetro, que é a média da distribuição.
O gráfico superior representa a distribuição populacional e os histogramas representam a distribuição
amostral de X ao longo de 5.000 amostras de tamanhos 10, 50, 100 e 250. Assim, podemos ver que,
embora a população seja completamente diferente da normal, a distribuição amostral de X vai se
tornando cada vez mais próxima da normal à medida que n aumenta.
Em termos práticos, esse teorema é de extrema importância e, por isso é chamado teorema
central; em geral, amostras de tamanho n > 30 já fornecem uma aproximação razoável.
Exemplo 6.1
Uma moeda é lançada 50 vezes, com o objetivo de se verificar sua honestidade. Se ocorrem 36 caras
nos 50 lançamentos, o que podemos concluir?
Solução:
Neste caso, a população pode ser representada por uma variável de Bernoulli X com parâmetro
p, isto é, X assume o valor 1 com probabilidade p na ocorrência de cara e assume o valor 0 com
probabilidade 1 − p na ocorrência de coroa. Para uma variável de Bernoulli, temos que E(X ) = p
e Var(X ) = p(1 − p). Como são feitos 50 lançamentos, o tamanho da amostra é 50 (n grande!)
e, pelo Teorema Limite Central, X é aproximadamente normal com média E(X ) = p e variância
p(1−p)
Var(X ) = 50 .
Suponhamos que a moeda seja honesta, isto é, que p = 1/2. Nessas condições, qual é a
probabilidade de obtermos 36 caras em 50 lançamentos? Com a hipótese de honestidade da moeda,
o Teorema Limite Central nos diz que
!
1 12 × 12
X ≈N ;
2 50
A probabilidade de se obter 36 ou mais caras em 50 lançamentos é equivalente à probabilidade de

X ser maior ou igual a 36
50 = 0, 72 e essa probabilidade pode ser aproximada por
 
X − 0, 5 0, 72 − 0, 5 
P(X ≥ 0, 72) = P  √ ≥ q
200 1
200
= P(Z ≥ 3, 11) = 0, 5 − P(0 ≤ Z < 3, 11)

= 0, 5 − tab(3, 11) = 0, 5 − 0, 4991 = 0, 0009
101
Figura 6.1 – Ilustração do Teorema Limite Central para uma população X ∼ exp(1).
Note que essa probabilidade é bastante pequena, ou seja, há uma pequena probabilidade de obtermos
36 ou mais caras em um lançamento de uma moeda honesta. Isso pode nos levar a suspeitar sobre
a honestidade da moeda!

Exemplo 6.2
O fabricante de uma lâmpada especial afirma que o seu produto tem vida média de 1.600 horas, com
desvio-padrão de 250 horas. O dono de uma empresa compra 100 lâmpadas desse fabricante. Qual
é a probabilidade de que a vida média dessas lâmpadas ultrapasse 1.650 horas?
Solução:
Podemos aceitar que as 100 lâmpadas compradas sejam uma amostra aleatória simples da população
das lâmpadas produzidas por esse fabricante. Como n = 100 é um tamanho suficientemente
grande
de amostra, podemos usar o Teorema Limite Central, que nos diz que X ≈ N 1600; 100 . Logo,
2502
 
X − 1600 1650 − 1600 
P(X > 1650) = P  q > q
2502 2502
100 100
= P(Z > 2, 0) = 0, 5 − P(0 ≤ Z ≤ 2)

= 0, 5 − tab(2, 0) = 0, 5 − 0, 4772 = 0, 022

Resumo
O Teorema Limite Central limite é um dos mais importantes teoremas da teoria inferencial. Ele
nos dá informações sobre a distribuição amostral de X para amostras grandes de qualquer população.
Mais precisamente, se X1 , X2 , . . . , Xn é uma amostra aleatória simples de uma população X tal que
E(X ) = µ e Var(X ) = σ 2 , então a distribuição de X converge para a distribuição normal com média µ
e variância σ 2 /n quando n → ∞. Equivalentemente,
X −µ
−→ N(0, 1)
√σ
n
ou
√ X −µ
n −→ N(0, 1)
σ
Exercícios
1. A divisão de inspeção do Departamento de Pesos e Medidas de uma determinada cidade está

interessada em calcular a real quantidade de refrigerante que é colocada em garrafas de dois
litros, no setor de engarrafamento de uma grande empresa de refrigerantes. O gerente do setor
de engarrafamento informou à divisão de inspeção que o desvio-padrão para garrafas de dois
litros é de 0,05 litro. Uma amostra aleatória de 100 garrafas de dois litros, obtida deste setor
103
de engarrafamento, indica uma média de 1,985 litro. Qual é a probabilidade de se obter uma
média amostral de 1,985 ou menos, caso a afirmativa do gerente esteja certa? O que se pode
concluir?
1. Afirmativa do gerente: µ = 2 e σ = 0, 05. Como n = 100, podemos usar o Teorema Limite

2
Central. Logo, X ≈ N 2; 0,05
100 .
!
1, 985 − 2
P(X ≤ 1, 985) = P Z ≤ 0,05
10
= P(Z ≤ −3, 0) = P(Z ≥ 3, 0)

= 0, 5 − tab(3, 0) = 0, 5 − 0, 4987 = 0, 0013
A probabilidade de se obter esse valor nas condições dadas pelo gerente é muito pequena, o
que pode nos fazer suspeitar da veracidade das afirmativas. É provável que ou a média não
seja 2 (e, sim, menor que 2), ou o desvio-padrão não seja 0,05 (e, sim, maior que 0,05). Esboce
gráficos da normal para compreender melhor esse comentário!
Aula 7
Distribuição Amostral da Proporção
Nesta aula, você verá uma importante aplicação do Teorema Limite Central: iremos estudar a
distribuição amostral de proporções para amostras grandes, que nos permitirá fazer inferência sobre
proporções.
Você verá os seguintes resultados:
• aproximação da binomial pela normal;
• correção de continuidade;
• distribuição amostral da proporção amostral.
Distribuição Amostral da Proporção
Na aula anterior, vimos o Teorema Limite Central (TLC), que trata da distribuição da média
amostral X quando n → ∞. Esse teorema nos diz que, se X é uma população com média µ e
variância σ 2 , então a distribuição amostral da média de uma amostra aleatória simples de tamanho
σ2
n se aproxima de uma distribuição normal com média µ e variância n quando n → ∞.
Considere, agora, uma população em que cada elemento é classificado de acordo com a presença
ou ausência de determinada característica. Por exemplo, podemos pensar em eleitores escolhendo
entre dois candidatos, pessoas classificadas de acordo com o sexo, trabalhadores classificados como
trabalhador com carteira assinada ou não, e assim por diante. Essa população é, então, representada
106 AULA 7. DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO
por uma variável aleatória de Bernoulli X , isto é:

(
1, se elemento possui a característica de interesse
X=
0, se elemento não possui a caracaterística de interesse
Vamos denotar por p a proporção de elementos da população que possuem a característica de

interesse. Então
P(X = 1) = p (7.1)
E(X ) = p (7.2)
Var(X ) = p(1 − p) (7.3)
Em geral, o parâmetro p é desconhecido e precisamos estimá-lo a partir de uma amostra.
Seguindo notação já vista anteriormente, vamos indicar por X ∼ Bern(p) o fato de uma variável
aleatória X ter distribuição de Bernoulli com parâmetro p (probabilidade de sucesso).
Suponha, agora, que de uma população X ∼ Bern(p) seja extraída uma amostra aleatória
simples X1 , X2 , . . . , Xn com reposição. Essa amostra resulta em uma sequência de 0’s (elementos que
não possuem a característica) e 1’s (elementos que possuem a característica). A média amostral é
0 + 0 + ··· + 0 + 1 + 1 + ··· + 1 1 + 1 + ··· + 1

x= =
n n
ou seja, a média amostral é a proporção amostral dos elementos que possuem a característica de
interesse.
Assim, estudar a distribuição amostral da média amostral de uma população X ∼ Bern(p)

equivale a estudar a distribuição da proporção amostral, que representaremos por P.
b
Usando o Teorema Limite Central e os resultados dados em (7.2) e (7.3), concluímos que, para
grandes amostras,
p(1 − p)
P ≈ N p;
b (7.4)
n
Condições para uso da aproximação normal
O Teorema Limite Central é um teorema sobre convergência quando n → ∞. Na prática,

traduzimos n → ∞ por n grande. Não existe uma regra clara que defina o que é “grande”. Quanto
mais próxima da normal for a distribuição populacional, mais rápida é a convergência. Uma das
principais características da distribuição normal é o fato de ela ser simétrica. No caso da distribuição
de Bernoulli, ela é simétrica quando p = 0, 5 e será aproximadamente simétrica quando p e 1 − p
forem próximos de 0,5. Veja a Figura 7.1.
107
(a) X ∼ Bern(0, 5)
(b) X ∼ Bern(0, 45) (c) X ∼ Bern(0, 4)
(d) X ∼ Bern(0, 3) (e) X ∼ Bern(0, 1)
Figura 7.1 – Efeito de p sobre a assimetria da distribuição de Bernoulli
Existe a seguinte regra empírica para nos ajudar a decidir se é razoável utilizar a distribuição
normal como aproximação da distribuição amostral de P:
b
! A distribuição da proporção amostral com base em amostra de tamanho n de

uma população X ∼ Bern(p) pode ser aproximada por uma distribuição normal
p(1−p)
com média µ = p e variância σ 2 = n se são satisfeitas as seguintes condições:
1. n ≥ 30 – amostra grande
2. np ≥ 5 – pelo menos 5 sucessos na amostra
3. n(1 − p) ≥ 5 – pelo menos 5 fracassos na amostra
Correção de continuidade
Como visto em aulas anteriores, a distribuição normal é contínua, enquanto a proporção

b é uma variável aleatória discreta, que assume os valores 0 , 1 , · · · , n , sendo n o tamanho da
amostral P n n n
amostra. Para obter resultados mais precisos na aproximação da distribuição de P b pela distribuição
normal, é comum usar-se a correção de continuidade. Para introduzir esse conceito, vamos trabalhar
com o número de sucessos na amostra, em vez da proporção. Então, para uma amostra de tamanho
n, podemos ter 0, 1, 2, · · · , n sucessos na amostra. Para usar a aproximação normal, cada um
desses valores será substituído por um intervalo: se k é o número de sucessos na amostra, na
aproximação normal trabalharemos com o intervalo [k − 0, 5; k + 0, 5]. Vamos ver como utilizar a
correção de continuidade através de um exemplo. Nesse primeiro exemplo, faremos os cálculos em
todos os detalhes, para que você possa entender a lógica da aproximação. Nos exemplos e exercícios
subsequentes apresentaremos apenas as etapas realmente necessárias.
Exemplo 7.1
De um lote de produtos manufaturados, extrai-se uma amostra aleatória simples de 100 itens. Se
10% dos itens do lote são defeituosos, calcule a probabilidade de a proporção amostral
(a) ser 0,12;
(b) estar no intervalo [0, 12; 0, 14];
(c) estar no intervalo (0, 12; 0, 15);
(d) ser, no máximo, 0,12;
(e) ser maior que 0,87.
Solução:
Temos uma amostra de tamanho n = 100 de uma população X ∼ Bern(0, 10). As condições para
utilização da aproximação normal são válidas:
n = 100 > 30
100 × 0, 1 = 10 > 5
100 × 0, 9 = 90 > 5

Assim, a distribuição da proporção amostral pode ser aproximada por uma N 0, 10; 0,10×0,90
100 , ou
seja, N(0, 10; 0, 032 ).
(a) Uma proporção de 0,12 corresponde a 12 sucessos na amostra de tamanho 100.

12 12 − 0, 5 12 + 0, 5
P(P = 0, 12) = P P =
b b =
|{z} P ≤P≤b
100 100 100
cor. de cont.

0, 115 − 0, 10 0, 125 − 0, 10
= P(0, 115 ≤ P ≤ 0, 125) |{z}
b ≈ P ≤P≤b
0, 03 0, 03
TLC
= P(0, 5 ≤ Z ≤ 0, 83) = tab(0, 83) − tab(0, 50) = 0, 2967 − 0, 1915 = 0, 1052
(b) Para estar no intervalo [0, 12; 0, 14], temos que ter 12, 13 ou 14 sucessos na amostra. Note que
o intervalo é fechado nos 2 extremos. Com raciocínio análogo ao empregado no item anterior,
109
temos:
P(0, 12 ≤ P
b ≤ 0, 14) = P(P
b = 0, 12) + P(Pb = 0, 13) + P(Pb = 0, 14)

=P P b = 12 + P P b = 13 + P P b = 14
100 100 100

12 − 0, 5 12 + 0, 5 13 − 0, 5 13 + 0, 5
=P ≤P≤
b +P ≤P≤
b
100 100 100 100

14 − 0, 5 b ≤ 14 + 0, 5
+P ≤P
100 100
= P(0, 115 ≤ Pb ≤ 0, 125) + P(0, 125 ≤ P
b ≤ 0, 135) + P(0, 135 ≤ Pb ≤ 0, 145)
= P(0, 115 ≤ P
b ≤ 0, 145)
Esta última igualdade é consequência do fato de os intervalos se sobreporem. Note que os

limites intermediários aparecem nos 2 intervalos. Usando a aproximação normal, temos

0, 115 − 0, 10 0, 145 − 0, 10
P(0, 12 ≤ P
b ≤ 0, 14) = P(0, 115 ≤ P
b ≤ 0, 145) ≈ P ≤Z ≤
0, 03 0, 03
= P(0, 5 ≤ Z ≤ 1, 5) = tab(1, 5) − tab(0, 5)
= 0, 4332 − 0, 1915 = 0, 2417
(c) Para estar no intervalo (0, 12; 0, 15), temos que ter 13 ou 14 sucessos na amostra. Note que
o intervalo é aberto nos 2 extremos. Com raciocínio análogo ao empregado no item anterior,
temos:

13 14
P(0, 12 < P < 0, 15) = P(0, 13 ≤ P ≤ 0, 14) = P P =
b b b +P P = b
100 100

13 − 0, 5 13 + 0, 5 14 − 0, 5 14 + 0, 5
=P ≤P≤
b +P ≤P≤
b
100 100 100 100
= P(0, 125 ≤ P b ≤ 0, 135) + P(0, 135 ≤ P b ≤ 0, 145) = P(0, 125 ≤ P
b ≤ 0, 145)

0, 125 − 0, 10 0, 145 − 0, 10
≈P ≤Z ≤ = P(0, 83 ≤ Z ≤ 1, 5)
0, 03 0, 03
= tab(1, 5) − tab(0, 83) = 0, 4332 − 0, 2967 = 0, 1365
(d) Uma proporção máxima de 0,12 significa 12, 11, 10, · · · 0 sucessos na amostra. Em termos da
normal aproximadora, temos que calcular a probabilidade à esquerda da abscissa padronizada
correspondente, ou seja:

0, 125 − 0, 10
P(P ≤ 0, 12) = P(P ≤ 0, 125) ≈ P Z ≤
b b = P(Z ≤ 0, 83) = 0, 5 + tab(0, 83)
0, 03
= 0, 5 + 0, 2967 = 0, 7967
(e) Para ser maior que 0,87, temos que ter 88, 89, · · · , 100 sucessos na amostra. Em termos da
normal aproximadora, temos que calcular a probabilidade à direita da abscissa padronizada
correspondente, ou seja:

0, 875 − 0, 10
P(P > 0, 87) = P(P ≥ 0, 88) ≈ P Z ≥
b b = P(Z ≥ 25, 83) ≈ 0
0, 03

Com este exemplo, podemos ver que o ponto importante é se o intervalo é fechado, ou não.
No quadro a seguir, em que k é o número de sucessos na amostra e n é o tamanho da amostra,
resumimos os resultados básicos, que podem ser conjugados para analisar todos os tipos possíveis
de intervalo.
Probabilidade exata Probabilidade para a aproximação normal

b=k k−0,5 k+0,5
P P n P n ≤P
b≤
n

b≤k k+0,5
P P n P Pb≤
n

b < k =P P k−1 k−1+0,5 k−0,5
P P n
b≤
n P Pb≤
n =P Pb≤
n

b≥k k−0,5
P P n P Pb≥
n

b > k =P P k+1 k+1−0,5 k+0,5
P P n
b≥
n P Pb≥
n =P Pb≥
n
Note que, se na probabilidade original o k está incluído no intervalo, então ele tem que estar incluído
no intervalo para cálculo da probabilidade aproximada pela normal.
Exemplo 7.2 Controle de qualidade

No controle de qualidade de produtos, uma técnica comumente utilizada é a amostragem de aceitação.
Segundo essa técnica, um lote inteiro é rejeitado se contiver mais do que um número determinado
de itens defeituosos. A companhia X compra parafusos de uma fábrica em lotes de 10.000 e rejeita o
lote se uma amostra aleatória simples de 50 parafusos contiver pelo menos cinco defeituosos. Se o
processo de fabricação tem uma taxa de 12% de defeituosos, qual é a probabilidade de um lote ser
rejeitado pela companhia X?
Solução:
Temos uma amostra de tamanho 50 de uma população X ∼ Bern(0, 12). As condições para
aproximação pela normal são satisfeitas:
n = 50 > 30 50 × 0, 12 = 6 > 5 50 × 0, 88 = 44 > 5.

111
b≥ 5.
O lote será rejeitado se P
50
 

b ≥ 5 − 0, 5 = P Pb ≥ 0, 09 ≈ P Z ≥ r0, 09 − 0, 12 
 
P Pb ≥ 5 =P P
50 50  0, 12 × 0, 88 
50
= P(Z ≥ −0, 65) = 0, 5 + tab(0, 65) = 0, 5 + 0, 2422 = 0, 7422
Note que essa é uma probabilidade alta, mas o problema aqui é a alta taxa de defeituosos do
processo: 12%.

Resumo
• Nesta aula estudamos a distribuição amostral da proporção amostral, que é a média amostral
de uma população X ∼ Bern(p). Vimos que essa distribuição pode ser aproximada por uma
p(1 − p)
distribuição normal de média p e variância , desde que sejam satisfeitas as seguintes
n
condições:
? n ≥ 30
? np ≥ 5
? n(1 − p) ≥ 5
• No uso da aproximação normal, é importante que se utilize a correção de continuidade, para

aumentar a precisão da aproximação.
Exercícios
1. Use a aproximação normal, com correção de continuidade, para calcular as probabilidades

pedidas, tendo o cuidado de verificar que as condições para essa aproximação são realmente
satisfeitas.
(a) P(P
b ≤ 0, 5) se X ∼ Bern(0, 7) e n = 50
(b) P(0, 42 < P

b ≤ 0, 56) se X ∼ Bern(0, 5) e n = 100
(c) P(P
b > 0, 6) se X ∼ Bern(0, 5) e n = 100
(d) P(P
b = 0, 25) se X ∼ Bern(0, 4) e n = 40
(e) P(P
b ≥ 0, 4) se X ∼ Bern(0, 3) e n = 30
(f) P(0, 125 < P

b < 0, 175) se X ∼ Bern(0, 1) e n = 80
(g) P(0, 4 ≤ P
b ≤ 0, 6) se X ∼ Bern(0, 2) e n = 30
(h) P(P
b < 0, 36) se X ∼ Bern(0, 3) e n = 50
(i) P(0, 25 ≤ P
b < 0, 45) se X ∼ Bern(0, 4) e n = 120
2. Em uma sondagem, perguntou-se a 1.002 membros de determinado sindicato se eles haviam

votado na última eleição para a direção do sindicato e 701 responderam afirmativamente. Os
registros oficiais obtidos depois da eleição mostram que 61% dos membros aptos a votar de fato
votaram. Calcule a probabilidade de que, dentre 1.002 membros selecionados aleatoriamente,
no mínimo 701 tenham votado, considerando que a verdadeira taxa de votantes seja de 61%. O
que o resultado sugere?
3. Supondo que meninos e meninas sejam igualmente prováveis, qual é a probabilidade de

nascerem 36 ou mais meninas em 64 partos? Em geral, um resultado é considerado não-
usual se a sua probabilidade de ocorrência é pequena, digamos, menor que 0,05. É não-usual
nascerem 36 meninas em 64 partos?
4. Com base em dados históricos, uma companhia aérea estima em 15% a taxa de desistência
entre seus clientes, isto é, 15% dos passageiros com reserva não aparecem na hora do voo.
Para otimizar a ocupação de suas aeronaves, essa companhia decide aceitar 400 reservas para
os voos em aeronaves que comportam apenas 350 passageiros. Calcule a probabilidade de que
essa companhia não tenha assentos suficientes em um desses voos. Essa probabilidade é alta
o suficiente para a companhia rever sua política de reserva?
Solução dos exercícios
1. (a) n = 50 > 30 np = 50 × 0, 7 = 35 > 5 n(1 − p) = 50 × 0, 3 = 15 > 5

0, 7 × 0, 3
condições OK! Normal aproximadora: N 0, 70;
50
 

b ≤ 25 = P Pb ≤ 25 + 0, 5 = P(P
 0, 51 − 0, 7 
P(P
b ≤ 0, 5) = P P b ≤ 0, 51) ≈ P Z ≤ r 
50 50  0, 7 × 0, 3 
50
= P(Z ≤ −2, 93) = 0, 5 − tab(2, 93) = 0, 5 − 0, 4983 = 0, 0017
(b) n = 100 > 30 np = n(1 − p) = 100 × 0, 5 = 50 > 5

0, 5 × 0, 5
100

43 b ≤ 56 42, 5 b ≤ 56, 5
P(0, 42 < P
b ≤ 0, 56) = P ≤P =P ≤P
100 100 100 100
 
 0, 425 − 0, 5 0, 565 − 0, 5 
≈ P r
 0, 5 × 0, 5 ≤ Z ≤ r 
0, 5 × 0, 5 
100 100
= P(−1, 5 ≤ Z ≤ 1, 3) = tab(1, 5) + tab(1, 3) = 0, 4332 + 0, 4032 = 0, 8364
113
(c) n = 100 > 30 np = n(1 − p) = 100 × 0, 5 = 50 > 5

0, 5 × 0, 5
100
 

b ≥ 61 − 0, 5 = P(P 0, 605 − 0, 5 

P(P
b > 0, 6) = P Pb ≥ 61 = P P b ≥ 0, 605) ≈ P Z ≥ r 
100 100  0, 5 × 0, 5 
100
= P(Z ≥ 2, 1) = 0, 5 − tab(2, 1) = 0, 5 − 0, 4821 = 0, 0179
(d) n = 40 > 30 np = 40 × 0, 4 = 16 > 5 n(1 − p) = 40 × 0, 6 = 24 > 5

0, 4 × 0, 6
40

10 10 − 0, 5 10 + 0, 5
P(P = 0, 25) = P P =
b b =P ≤P≤
b
40 40 40
 
 2375 − 0, 4 0, 2625 − 0, 4 
b ≤ 0, 2625) ≈ P  0,
= P(0, 2375 ≤ P  r 0, 4 × 0, 6 ≤ Z ≤ r 0, 4 × 0, 6 

40 40
= P(−2, 10 ≤ Z ≤ −1, 78) = P(1, 78 ≤ Z ≤ 2, 10) = tab(2, 10) − tab(1, 78)
= 0, 4821 − 0, 4625 = 0, 0196
(e) n = 30 ≥ 30 np = 30 × 0, 3 = 9 > 5 (1 − p) = 30 × 0, 7 = 21 > 5

0, 3 × 0, 7
30
 

b ≥ 12 − 0, 5 = P(P 3833 − 0, 3 

P(P
b ≥ 0, 4) = P Pb ≥ 12 = P P b ≥ 0, 3833) ≈ P Z ≥ 0,
r 
30 30  0, 3 × 0, 7 
30
= P(Z ≥ 1, 0) = 0, 5 − tab(1, 0) = 0, 5 − 0, 3413 = 0, 1587
(f) n = 80 > 30 np = 80 × 0, 1 = 8 > 5 (1 − p) = 80 × 0, 9 = 72 > 5

0, 1 × 0, 9
80

10 14 11 13
P(0, 125 < P
b < 0, 175) = P <P<
b =P ≤P≤
b
80 80 80 80

10, 5 b ≤ 13, 5 = P(0, 13125 ≤ P
=P ≤P b ≤ 0, 16875
80 80
 
 0, 13125 − 0, 1 0, 16875 − 0, 1 
≈ P r ≤ Z ≤ r 
 0, 1 × 0, 9 0, 1 × 0, 9 
80 80
= P(0, 93 ≤ Z ≤ 2, 05) = tab(2, 05) − tab(0, 93)
= 0, 4798 − 0, 3238 = 0, 1560
(g) n = 30 ≥ 30 np = 30 × 0, 2 = 6 > 5 n(1 − p) = 30 × 0, 8 = 24 > 5

0, 2 × 0, 8
30

12 b ≤ 18 11, 5 b ≤ 18, 5
P(0, 4 ≤ P
b ≤ 0, 6) = P ≤P =P ≤P
30 30 30 30
 
 3833 − 0, 2 0, 6167 − 0, 2 
b ≤ 0, 6167 ≈ P  0,
= P(0, 03833 ≤ P  r 0, 2 × 0, 8 ≤ Z ≤ r 0, 2 × 0, 8 

30 30
= P(2, 51 ≤ Z ≤ 5, 71) = tab(5, 71) − tab(2, 51) = 0, 5 − 0, 4940 = 0, 0060
(h) n = 50 > 30 np = 50 × 0, 3 = 15 > 5 n(1 − p) = 50 × 0, = 35 > 5

0, 3 × 0, 7
50

18 17 17 + 0, 5
P(P < 0, 36) = P P <
b b =P P≤
b =P P≤
b = P(P
b ≤ 0, 35)
50 50 50
 
 0, 35 − 0, 3 
≈ P Z ≤ r  = P(Z ≤ 0, 77) = 0, 5 + tab(0, 77)
 0, 3 × 0, 7 
50
= 0, 5 + 0, 2794 = 0, 7794
(i) n = 120 > 30 np = 120 × 0, 4 = 48 > 5 n(1 − p) = 120 × 0, 6 = 72 > 5

0, 4 × 0, 6
120
115

30 54 30 53
P(0, 25 ≤ P
b ≤ 0, 45) = P ≤P<
b =P ≤P≤
b
120 120 120 120

29, 5 b ≤ 53, 5 = P(0, 24583 ≤ Z ≤ 0, 44583)
=P ≤P
120 120
 
 0, 24583 − 0, 4 0, 44583 − 0, 4 
≈ P r ≤ Z ≤ r  = P(−3, 45 ≤ Z ≤ 1, 02)
 0, 4 × 0, 6 0, 4 × 0, 6 
120 120
= tab(3, 45) + tab(1, 02) = 0, 4997 + 0, 3461 = 0, 8458
2. A população de interesse é a população de votantes. Temos, então, que X ∼ Bern(0, 61). As

condições para a aproximação normal são válidas (verifique!).

701 700, 5
P Pb≥ =P Pb≥ = P(P
b ≥ 0, 6991)
1002 1002
 
 0, 6991 − 0, 61 
≈ P
Z ≥ r 0, 61 × 0, 39  = P(Z ≥ 5, 78) ≈ 0

1002
Se a proporção de votantes é de 61%, a probabilidade de encontrarmos 701 ou mais votantes em

uma amostra aleatória simples de 1.002 pessoas é muito baixa. Talvez as pessoas entrevistadas
não estejam sendo sinceras, com vergonha de dizer que não votaram...
3. Supondo que meninos e meninas sejam igualmente prováveis, nossa população de interesse
(constituída por todos os partos) é X ∼ Bern(0, 5). Temos uma amostra de n = 64 partos. As
condições para a aproximação normal são válidas (verifique!).
 

b ≥ 36 − 0, 5 = P(P 5546875 − 0, 5 

P Pb ≥ 36 = P P b ≥ 0, 5546875) ≈ P Z ≥ 0, r 
64 64  0, 5 × 0, 5 
64
= P(Z ≥ 0, 875) = 0, 5 − tab(0, 875) ≈ 0, 5 − tab(0, 88) = 0, 5 − 0, 3106 = 0, 1894
Esse é um resultado que pode ocorrer por mero acaso, ou seja, não é um resultado não-usual.
4. Vamos considerar a população formada pelos passageiros que se apresentam para os voos
dessa companhia. Então, X ∼ Bern(0, 85) e temos uma amostra de tamanho n = 400. Como
há 350 lugares, a companhia terá problemas se a proporção de pessoas na amostra que se
350
apresentarem for maior que= 0, 875.
400

350 351 350, 5
P P>
b =P P≥
b =P P≥b = P(P
b ≥ 0, 87625)
400 400 400
 
 0, 87625 − 0, 85 
≈ PZ ≥ r  = P(Z ≥ 1, 47) = 0, 5 − tab(1, 47)
 0, 85 × 0, 15 
400
= 0, 5 − 0, 4292 = 0, 0708
Essa é uma probabilidade um pouco alta; talvez valha a pena a companhia rever a política de
reservas e aceitar menos que 400 reservas.
Aula 8
Intervalos de Confiança
Nesta aula, você aprenderá um método muito importante de estimação de parâmetros. Na aula
anterior, você viu que a média amostral X é um bom estimador da média populacional µ. Mas vimos,
também, que existe uma variabilidade nos valores de X , ou seja, cada amostra dá origem a um valor
diferente do estimador. Uma maneira de informar sobre esta variabilidade é através da estimação
por intervalos.
Sendo assim, nessa aula, você aprenderá os seguintes conceitos e métodos:
• intervalo de confiança;
• margem de erro;
• nível de confiança;
• nível de significância;

• intervalo de confiança para a média de uma população N µ; σ 2 com variância
conhecida;
• intervalo de confiança para a média de uma população qualquer com base em grandes
amostras.
118 AULA 8. INTERVALOS DE CONFIANÇA
Ideias Básicas
O objetivo central da Inferência Estatística é obter informações para uma população a partir
do conhecimento de uma única amostra. Em geral, a população é representada por uma variável
aleatória X , com função de probabilidade ou densidade de probabilidade fX .
Dessa população, então, extrai-se uma amostra aleatória simples com reposição, que dá origem
a um conjunto X1 , X2 , . . . , Xn de n variáveis aleatórias independentes e identicamente distribuídas,
todas com a mesma distribuição fX . Se fX depende de um ou mais parâmetros, temos que usar a
informação obtida a partir da amostra para estimar esses parâmetros, de forma a conhecermos a
distribuição.
Nas aulas anteriores, por exemplo, vimos que a média amostral X é um bom estimador da média
populacional µ, no sentido de que ela tende a “acertar o alvo” da verdadeira média populacional.
Mas vimos, também, que existe uma variabilidade nos valores de X , ou seja, cada amostra dá origem
a um valor diferente do estimador. Para algumas amostras, X será maior que µ, para outras será
menor e para outras será igual.
Na prática, temos apenas uma amostra e, assim, é importante que se forneça alguma informação
sobre essa possível variabilidade do estimador. Ou seja, é importante informar o valor do estimador
θ
b obtido com uma amostra específica, mas é importante informar, também, que o verdadeiro valor
do parâmetro θ poderia estar em um determinado intervalo, digamos, no intervalo [θ b − ε, θ
b + ε].
Dessa forma, informamos a nossa margem de erro no processo de estimação; essa margem de erro é
consequência do processo de seleção aleatória da amostra.
O que vamos estudar nessa aula é como obter esse intervalo, de modo a “acertar na maioria das
vezes”, isto é, vamos obter um procedimento que garanta que, na maioria das vezes (ou das amostras
possíveis), o intervalo obtido conterá o verdadeiro valor do parâmetro θ. A expressão “na maioria
das vezes” será traduzida como “probabilidade alta”. Dessa forma, vamos lidar com afirmativas do
seguinte tipo:
! Com probabilidade alta (em geral, indicada por 1 − α ), o intervalo

h i
θ
b − erro; θ
b + erro
conterá o verdadeiro valor do parâmetro θ.
A interpretação correta de tal afirmativa é a seguinte: se 1 − α = 0, 95, por exemplo, então isso
significa que o procedimento de construção do intervalo é tal que em 95% das possíveis amostras, o
intervalo [θ−
b erro; θ+
b erro] obtido conterá o verdadeiro valor do parâmetro. Note que cada amostra
resulta em um intervalo diferente; mas, em 95% das amostras, o intervalo contém o verdadeiro valor
119
do parâmetro. Veja a Figura 8.1 – dois dos intervalos não contêm o parâmetro θ.
O valor 1 − α é chamado nível de confiança e o intervalo [θ−

b erro; θ+
b erro] é chamado de
intervalo de confiança de nível de confiança 1 − α, que muitas vezes será citado, de forma reduzida,
como intervalo de confiança de 1 − α. O erro, ou margem de erro, será representado aqui pela letra
grega epsilon ε.
Figura 8.1 – Interpretando os intervalos de confiança
Tendo clara a interpretação do intervalo de confiança, podemos resumir a frase acima da

seguinte forma:
h i
P θ∈ θb − ε; θ
b+ε =1−α (8.1)
Mais uma vez, a probabilidade se refere à probabilidade dentre as diversas possíveis amostras,
ou seja, a probabilidade está associada à distribuição amostral do estimador θ.
b Note que os limites
do intervalo dependem de θ,b que depende da amostra sorteada, ou seja, os limites do intervalo de
confiança são variáveis aleatórias (daí podemos falar em probabilidade). Cada amostra dá origem a
um intervalo diferente, mas o procedimento de obtenção dos intervalos garante probabilidade 1 − α
de acerto.
Intervalo de Confiança para a Média de X ∼ N(µ; σ 2 ) - σ 2 Conhecida
Vamos agora, introduzir os métodos para obtenção do intervalo de confiança para a média de
uma população. Como visto, a média populacional é um parâmetro importante, que pode ser muito bem
estimado pela média amostral X . Para apresentar as ideias básicas, vamos considerar um contexto
que é pouco frequente na prática. O motivo para isso é que, em termos didáticos, a apresentação
é bastante simples. Como o fundamento é o mesmo para contextos mais gerais, essa abordagem se
justifica.
Consideremos uma população descrita por uma variável aleatória normal com média µ e
variância σ 2 , isto é, X ∼ N(µ; σ 2 ). Vamos supor que o valor de σ 2 seja conhecido e que nosso
interesse seja estimar a média µ a partir de uma amostra aleatória simples X1 , X2 , . . . , Xn . Como visto
σ2
na Aula 5, Teorema 5.2, a distribuição amostral de X é normal com média µ e variância n, ou seja

σ2
X ∼ N µ; σ 2 =⇒ X ∼ N µ;
n
Da definição de distribuição amostral, isso significa que os diferentes valores de X obtidos a partir
σ2
das diferentes possíveis amostras se distribuem normalmente em torno de µ com variância n.
Das propriedades da distribuição normal, resulta que
X −µ
Z= q ∼ N(0; 1)
σ2
n
ou equivalentemente,
√ X −µ
Z= n ∼ N(0; 1) (8.2)
σ
Para completar a construção do intervalo de confiança, vamos apresentar a seguinte definição,

ilustrada na Figura 8.2:
Definição 8.1 Valor crítico da normal O valor

crítico de Z ∼ N(0; 1) associado à probabilidade
α é a abscissa zα tal que
P(Z > zα ) = α
Figura 8.2 – Valor crítico zα da N(0; 1)
Se considerarmos, agora, o valor crítico zα/2 , conforme ilustrado na Figura 8.3, resulta que, se
Z ∼ N(0; 1), então
P (−zα/2 ≤ Z ≤ zα/2 ) = 1 − α (8.3)
Mas isso vale para a distribuição normal padrão, em geral. Então, usando os resultados das Equações
8.2 e 8.3, obtemos que
121
Figura 8.3 – Valor crítico zα/2 da N(0; 1)
√ X −µ

P −zα/2 ≤ n ≤ zα/2 = 1 − α
σ
o que é equivalente a

σ σ
P −zα/2 √ ≤ X − µ ≤ zα/2 √ = 1−α ⇔
n n

σ σ
P −X − zα/2 √ ≤ −µ ≤ −X + zα/2 √ = 1−α ⇔
n n

σ σ
P X − zα/2 √ ≤ µ ≤ X + zα/2 √ = 1−α (8.4)
n n
Observe a expressão (8.4); ela nos diz que

σ σ
P µ ∈ X − zα/2 √ ; X + zα/2 √ =1−α
n n
Mas essa é exatamente a forma geral de um intervalo de confiança, conforme explicitado na

Equação 8.1 (note que os limites são variáveis aleatórias!). Temos, então, a seguinte conclusão:
Definição 8.2 Intervalo de Confiança para a Média de X ∼ N(µ; σ 2 ) - σ 2 Conhecida Seja

X ∼ N(µ; σ 2 ) uma população, cuja variância σ2 é conhecida. Se X1 , X2 , . . . , Xn é uma amostra
aleatória simples dessa população, então o intervalo de confiança de nível de confiança 1 − α
para a média populacional µ é dado por

σ σ
X − zα/2 √ ; X + zα/2 √ (8.5)
n n
em que zα/2 é o valor crítico da distribuição normal correspondente à probabilidade α/2.
O intervalo de confiança para µ pode ser escrito na forma [X − ε; X + ε], onde ε = zα/2 √σn é a
margem de erro. Como visto, essa margem de erro está associada ao fato de que diferentes amostras
fornecem diferentes valores de X . As diferentes amostras fornecem diferentes intervalos de confiança,
mas uma proporção de 100 × (1 − α)% desses intervalos irá conter o verdadeiro valor de µ. Note que
aqui é fundamental a interpretação de probabilidade como frequência relativa: estamos considerando
os diferentes intervalos que seriam obtidos, caso sorteássemos todas as possíveis amostras. Assim, o
nível de confiança está associado à confiabilidade do processo de obtenção do intervalo: esse processo
é tal que acertamos (isto é, o intervalo contém µ) em 100×(1−α)% das vezes. Na Figura 8.4 ilustra-se
essa interpretação dos intervalos de confiança para uma população normal com variância 4 e tamanho
de amostra n = 16. A distribuição normal padrão representa a distribuição de probabilidade dos
√ X −µ
valores de 16 . Valores extremos de tal estatística levam a intervalos de confiança que não
2
contêm o verdadeiro parâmetro, representados pelos intervalos em preto. Os valores centrais, que
têm alta probabilidade (1 − α) de ocorrência levam a intervalos que contêm o verdadeiro valor do
parâmetro (intervalos em cinza).
Figura 8.4 – Interpretação do IC para a média da N(µ; σ 2 )
Na prática, temos apenas uma amostra e o intervalo obtido com essa amostra específica, ou
contém ou não contém o verdadeiro valor de µ. A afirmativa

σ σ
P µ ∈ X − zα/2 √ ; X + zα/2 √ =1−α
n n
é válida porque ela envolve a variável aleatória X , que assume diferentes valores para as diferentes
amostras. Quando substituímos o estimador X por uma estimativa específica x obtida a partir de
uma amostra particular, temos apenas um intervalo e não faz mais sentido falar em probabilidade.
Para ajudar na interpretação do intervalo de confiança, suponha que, com uma amostra de
tamanho 25, tenha sido obtido o seguinte intervalo de confiança de 0,95:

5 − 1, 96 × √ ; 5 + 1, 96 × √
2 2
= [4, 216; 5, 784]
25 25
Esse intervalo específico contém ou não contém o verdadeiro valor de µ e não temos condições de
verificar o que é verdade. Mas o que sabemos é que, se repetíssemos o mesmo procedimento de
123
sorteio de uma amostra aleatória simples da população e consequente construção do intervalo de

confiança, 95% dos intervalos construídos conteriam o verdadeiro valor de µ.
Sendo assim, é errado dizer que há uma probabilidade de 0,95 de o intervalo específico
[4, 216; 5, 784]
h conter o verdadeiro valor dei µ. Mas é certo dizer que, com probabilidade 0,95, o
intervalo X − 1, 96 × √225 ; X + 1, 96 × √225 contém µ. Note a variável aleatória X no limite do
intervalo.
Exemplo 8.1 Pesos de homens adultos

Em determinada população, o peso dos homens adultos é distribuído normalmente com um desvio
padrão de 16kg. Uma amostra aleatória simples de 36 homens adultos é sorteada desta população,
obtendo-se um peso médio de 78,2kg. Construa um intervalo de confiança de nível de confiança 0,95
para o peso médio de todos os homens adultos dessa população.
Solução:
Vamos inicialmente determinar o valor crítico associado ao nível de confiança de 0,95. Como 1 − α =
0, 95, resulta que α = 0, 05 e α/2 = 0, 025.
Analisando a Figura 8.3, vemos que a probabilidade nas duas caudas da distribuição normal
padrão é de 0,05; logo, em cada cauda, a probabilidade é 0,025. Em termos da Tabela 1, isso significa
que a probabilidade entre 0 e z0,025 é (0, 50 − 0, 025) = 0, 475 e, assim, devemos procurar no corpo
da tabela o valor de 0,475 para determinar a abscissa z0,025 . Veja a Figura 8.5.
Figura 8.5 – Valor crítico z0,025 da N(0; 1)
Procurando no corpo da tabela da distribuição normal padrão, vemos que o valor 0,475
corresponde à abscissa z0,025 = 1, 96. Logo, nosso intervalo de confiança é

78, 2 − 1, 96 × √ ; 78, 2 + 1, 96 × √
16 16
= [72, 9733 ; 83, 4267]
36 36
Esse intervalo contém ou não o verdadeiro valor de µ, mas o procedimento utilizado para sua
obtenção nos garante que há 95% de chance de estarmos certos, isto é, 95% dos intervalos construídos
com esse método conteriam o verdadeiro valor de µ.

Margem de erro
Vamos, agora, analisar a margem de erro do intervalo de confiança para a média de uma
população normal com variância conhecida. Ela é dada por
σ
ε = zα/2 √ (8.6)
n
Lembrando que o erro padrão é o desvio padrão do estimador, podemos escrever
ε = zα/2 EPX (8.7)
Analisando a equação (8.6), vemos que a margem de erro depende diretamente do valor crítico e
do desvio-padrão populacional e é inversamente proporcional à raiz quadrado do tamanho da amostra.
Na Figura 8.6 ilustra-se a relação de dependência da margem de erro com o desvio padrão
populacional σ . Temos duas distribuições amostrais
centradas
na 2mesma
média e baseadas em
σ12 σ2
amostras de mesmo tamanho: X 1 ∼ N µ; e X 2 ∼ N µ; com σ12 < σ22 . Nas duas
n n
distribuições, a área total das caudas sombreadas é α, de modo que os intervalos limitados pelas
linhas verticais são os intervalos de confiança de nível 1 − α, ou seja, a área central em ambas
distribuições é 1 − α. Para a distribuição mais dispersa, isto é, com σ maior, o comprimento do
intervalo é maior. Esse resultado deve ser intuitivo: se há mais variabilidade na população, a nossa
margem de erro para estimação da média populacional tem que ser maior, mantidas fixas as outras
condições (tamanho de amostra e nível de confiança).
Figura 8.6 – Margem de erro versus dispersão populacional: σ1 < σ2 ⇒ ε1 < ε2
Por outro lado, se mantivermos fixos o tamanho da amostra e o desvio padrão populacional, é
razoável, também, que a margem de erro seja maior para um nível de confiança maior. Ou seja, se
queremos aumentar a probabilidade de acerto, é razoável que o intervalo seja maior. Aumentar a
probabilidade de acerto significa aumentar o nível de confiança, o que acarreta em um valor crítico
zα/2 maior. Veja a Figura 8.7, onde ilustra-se o intervalo de confiança para dois níveis de confiança
diferentes: 1 − α1 > 1 − α2 . O primeiro intervalo é maior, refletindo o maior grau de confiança, ou seja,
o preço que se paga por um nível de confiança maior é que o comprimento do intervalo de confiança
também será maior.
125
Figura 8.7 – Margem de erro versus nível de confiança: α1 < α2 ⇒ (1 − α1 ) > (1 − α2 ) ⇒ ε1 > ε2
Finalmente, mantidos o mesmo desvio padrão populacional e o mesmo nível de confiança, quanto
maior o tamanho da amostra, menor será a margem de erro, mas a redução da margem de erro depende
√
de n; assim, para reduzir a margem de erro pela metade, teremos que quadruplicar o tamanho da
√
amostra:
ε √
ε0 = ⇒ √ = √ ⇒ n0 = 2 n ⇒ n0 = 4n
1 1 1
2 n0 2 n
Exemplo 8.2 Resultados de pesquisa

Na divulgação dos resultados de uma pesquisa, publicou-se o seguinte texto (dados fictícios):
Com o objetivo de se estimar a média de uma população, estudou-se uma amostra de

tamanho n = 45. De estudos anteriores, sabe-se que essa população é muito bem
aproximada por uma distribuição normal com desvio padrão 3, mas acredita-se que a
média tenha mudado desde esse último estudo. Com os dados amostrais obteve-se o
intervalo de confiança [1, 79; 3, 01].
Quais são o as informações importantes que não foram divulgadas? Como podemos obtê-las?
Solução:
Quando se divulga um intervalo de confiança para um certo parâmetro, é costume publicar também
a estimativa pontual. Nesse caso, temos que informar a média amostral x, que pode ser achada
observando-se que o intervalo de confiança é simétrico em torno de x. Logo, x é o ponto médio do
intervalo:
1, 79 + 3, 01
x= = 2, 4
2
Daí conclui-se que a margem de erro é ε = 2, 4 − 1, 79 = 0, 61. Outra informação importante é o nível
de confiança, que deve ser encontrado a partir da abscissa zα/2 na margem de erro:
√
0, 61 ×
0, 61 = zα/2 × √ ⇒ zα/2 =
3 45
= 1, 36
45 3
Consultando a tabela da distribuição normal, vemos que P(0 ≤ Z ≤ 1, 36) = 0, 4131. Logo, o nível de
confiança é 2 × 0, 4131 = 0, 8262 ≈ 0, 83. Veja a Figura 8.8.

Figura 8.8 – Determinação do nível de confiança
Determinação do tamanho da amostra
No planejamento de pesquisas, é importante ter-se uma ideia do tamanho de amostra

necessário. Analisando a equação (8.6), pode-se observar que, na estimação da média de uma
população normal com variância conhecida, temos
σ √ σ σ 2
ε = zα/2 √ =⇒ n = zα/2 =⇒ n = zα/2 (8.8)
n ε ε
Assim, podemos determinar o tamanho da amostra necessário para valores pré estabelecidos da
margem de erro e do nível de confiança. Note a relação entre o tamanho da amostra n e as três
grandezas envolvidas: variância populacional, nível de confiança e margem de erro.
Exemplo 8.3 Tamanho de amostra

Deseja-se estimar a média de uma população normal com nível de confiança de 90% e margem de
erro máxima de 0,08. Qual deve ser o tamanho da amostra se a variância populacional conhecida é
(a) σ 2 = 4
(b) σ 2 = 16
Solução:
2
2 1, 64 · 2 2
(a) nσ =2 = z0,05 = = 1681
0, 08 0, 08
2
4 1, 64 · 4 2
(b) nσ =4 = z0,05 = = 6724
0, 08 0, 08
Note que a razão entre as variâncias populacionais é 4 e o mesmo ocorre com os tamanhos amostrais.

127
Intervalo de confiança para a média com base em grandes amostras
Na seção anterior, vimos que o intervalo de confiança para a média de uma população normal
com variância conhecida é dado por

σ σ
X − zα/2 √ ; X + zα/2 √ . (8.9)
n n
Essa é uma situação teórica importante, mas com dificuldades práticas de aplicação, pois, em geral, é
difícil termos fenômenos descritos exatamente por uma distribuição normal e, mais difícil ainda, que
a variância de tal população seja conhecida. Mas tal situação tem um grande valor didático.
Estudamos, também, na Aula 6, o Teorema Limite Central que afirma que, para amostras grandes
de uma população qualquer com média µ e variância σ 2 ,
√ X −µ
Z= n ≈ N(0; 1) (8.10)
σ
Tal resultado nos permitiria obter, de forma análoga, o intervalo de confiança para µ, desde que
conhecêssemos a variância σ 2 . Esse intervalo teria a mesma forma dada em (8.9), mas com a diferença
de que o nível de confiança seria aproximadamente (e não exatamente) 1 − α.
n
P 2
O que fazer se não conhecemos a variância σ 2 ? Na Aula 4, vimos que S 2 = 1
n−1 Xi − X
i=1
é um bom estimador para σ 2 ; em particular, ele é não-viesado. Uma outra propriedade importante é
que S 2 é um estimador consistente, o que significa, de maneira informal, que seu valor se aproxima
do verdadeiro valor de σ 2 à medida em que se aumenta o tamanho da amostra. Então, para grandes
amostras, poderíamos pensar em substituir σ por S em 8.10. Isso, de fato, é possível, graças ao
seguinte resultado:
Teorema 8.1
Para grandes amostras de uma população X com média µ e variância σ 2
√ X −µ
Z= n ≈ N(0; 1)
S
Esse teorema nos permite obter o intervalo de confiança para a média de uma população
qualquer como
S S
X − zα/2 √ ; X + zα/2 √ (8.11)
n n
O nível de confiança será apenas aproximadamente igual a 1 − α.
Exemplo 8.4 Pesos de adultos

De determinada população, extrai-se uma amostra aleatória simples de 64 pessoas adultas com o
objetivo de se estimar o peso médio das pessoas adultas. A amostra acusa peso médio de 78,2kg e
desvio-padrão de 16,1kg. Construa um intervalo de confiança de nível de confiança 0,95 para o peso
médio de todos os adultos dessa população.
Solução:
Já vimos em exemplos anteriores, que o valor crítico associado ao nível de confiança de 0,95 é 1,96.
Não temos qualquer informação sobre a população (os valores dados referem-se à amostra), mas o
tamanho da amostra é grande. Assim, o intervalo de confiança aproximado é

78, 2 − 1, 96 × √ ; 78, 2 + 1, 96 × √
16, 1 16, 1
= [74, 2555 ; 82, 1445]
64 64
Como na aula anterior, esse intervalo contém ou não o verdadeiro valor de µ, mas o procedimento
utilizado para sua obtenção nos garante que há, aproximadamente, 95% de chance de estarmos
certos.

Resumo
• Como existe uma variabilidade nos valores de um estimador θ

b ao longo das possíveis amostras,
uma maneira de informar sobre esta variabilidadeh é através da i estimação por intervalos de
confiança. Esses intervalos, em geral, têm a forma θ
b − ε; θ
b + ε , em que ε é margem de erro.
• A obtenção de um intervalo de confiança é feita de modo que

h i
P θ∈ θb − ε; θ
b+ε =1−α
? O valor 1 − α é o nível de confiança.
? A probabilidade se refere à probabilidade dentre as diversas possíveis amostras, ou seja,

a probabilidade está associada à distribuição amostral de θ.
b
? Cada amostra dá origem a um intervalo diferente, mas o procedimento de obtenção dos

intervalos garante probabilidade 1 − α de acerto, ou seja, inclusão do verdadeiro valor do
parâmetro.
• O intervalo de confiança, de nível de confiança 1 − α, para a média de uma população normal

com variância conhecida é

X − ε; X + ε
com a margem de erro sendo dada por
σ
ε = zα/2 √
n
129
em que zα/2 é o valor crítico da densidade normal padrão que deixa probabilidade α/2 acima
dele.
• Para grandes amostras de uma população qualquer, o intervalo de confiança, de nível de

confiança aproximado 1 − α, para a média é

X − ε; X + ε
com a margem de erro sendo dada por
S
ε = zα/2 √
n
em que
n
1 X 2
S = 2
Xi − X
n−1
i=1
Exercícios
1. De uma população N(µ; 9) extrai-se uma amostra aleatória simples de tamanho 25, obtendo-se
25
P
xi = 60. Obtenha o intervalo de confiança de 99% para a média da população.
i=1
2. Determine o tamanho da amostra necessário para se estimar a média de uma população normal
com σ = 4, 2 para que, com confiança de 95%, o erro máximo de estimação seja ±0, 05.
3. O peso X de um certo artigo é descrito aproximadamente por uma distribuição normal com
σ = 0, 58. Uma amostra de tamanho n = 25 resultou em x = 2, 8. Obtenha o intervalo de
confiança de 0, 90 para o peso médio desses artigos.
4. De uma população normal com σ = 5, retira-se uma amostra aleatória simples de tamanho 50,
obtendo-se x = 42.
(a) Qual é a margem de erro para um nível de confiança de 95%?

(b) Obtenha o intervalo de confiança de 95% para a média da população.
(c) Para que a margem de erro seja ≤ 1, com probabilidade de acerto de 95%, qual deverá ser
o tamanho mínimo da amostra?
5. Os valores da venda mensal de determinado artigo têm distribuição aproximadamente normal

com desvio padrão de R$500,00. O gerente da loja afirma vender, em média, R$34.700,00. O
dono da loja, querendo verificar a veracidade de tal afirmativa, seleciona uma amostra aleatória
das vendas em determinado mês, obtendo os seguintes valores:
33.840, 00 32.960, 00 41.815, 00

32.940, 00 32.115, 00 32.740, 00
35.050, 00 33.010, 00 33.590, 00
35.060, 00
(a) Obtenha o intervalo de confiança para a venda média mensal com nível de confiança de
95%.
(b) Obtenha o intervalo de confiança para a venda média mensal com nível de confiança de
99%.
(c) Em qual dos dois níveis de significância podemos afirmar que o gerente se baseou para
fazer a afirmativa?
6. Uma amostra de 121 chamadas para o número 0800 da sua empresa revela duração média de
16,6 minutos e desvio padrão de 3,63 minutos.
(a) Construa um intervalo de confiança de 90% para a duração média das chamadas desse
serviço.
(b) Você pretende encerrar esse serviço, a menos que a duração média das chamadas exceda
18 minutos. O que você pode concluir a partir desses dados?
7. A direção de um cinema está interessada em estimar o número médio de sacos de pipocas

vendidos por sessão. Os registros levantados em 70 sessões escolhidas aleatoriamente revelam
uma média de 54,98 sacos, com desvio padrão de de 12,7 sacos. Construa um intervalo de
confiança de 92% para a média da população.
1. É dado que X ∼ N(µ; 9). Como n = 25, sabemos que

9
X ∼ N µ;
25
Com 1 − α = 0, 99, temos que α = 0, 01 e α/2 = 0, 005. Assim, temos que procurar no corpo da
tabela a abscissa correspondente ao valor 0, 5 − 0, 005 = 0, 495, o que nos dá z0,005 = 2, 58.
Então, a margem de erro é
3
ε = 2, 58 × = 1, 548
5
Como a média amostral obtida é x = 60
25 = 2, 4, o intervalo de confiança de 99% é
[2, 4 − 1, 548 ; 2, 4 + 1, 548] = [0, 852 ; 3, 948]
2. Queremos |ε| ≤ 0, 05, com σ = 4, 2 e 1 − α = 0, 95.
1 − α = 0, 95 ⇒ zα/2 = 1, 96
Então
√ 1, 96 × 4, 2
ε = 1, 96 × √ ≤ 0, 05 ⇒ n ≥
4, 2
= 164, 64 ⇒ n ≥ 27106, 3296
n 0, 05
Logo, o tamanho mínimo necessário é n = 27107.
131
3. É dado que X ∼ N(µ; 0, 582 ). Como n = 25, sabemos que

0, 582
X ∼ N µ;
25
Com 1 − α = 0, 90, temos que α = 0, 10 e α/2 = 0, 05. Assim, temos que procurar no corpo da
tabela a abscissa correspondente ao valor 0, 5 − 0, 05 = 0, 45, o que nos dá z0,05 = 1, 64. Então
ε = 1, 64 × √
0, 58
= 0, 1902
25
Como a média amostral obtida é x = 2, 8 o intervalo de confiança de 90% de confiança é
[2, 8 − 0, 19024 ; 2, 8 + 0, 19024] = [2, 60976 ; 2, 99024]
4. 1 − α = 0, 95 ⇒ z0,025 = 1, 96
(a) A margem de erro é

ε = 1, 96 × √ = 1, 3859
5
50
(b) O intervalo de confiança de 95% é
[42 − 1, 385 9 ; 42 + 1, 3859] = [40, 6141 ; 43, 3859]
(c) Temos que reduzir a margem de erro; logo, o tamanho da amostra terá que ser maior que
50.
√
ε = 1, 96 × √ ≤ 1 ⇒ n ≥ 1, 96 × 5 = 9, 8 ⇒ n
5
≥9, 82 = 96, 04
n
Logo, n deve ser no mínimo igual a 97.
5. A média amostral é x = 343.120

10 = 34.312.
(a) A margem de erro é

ε = 1, 96 × √ = 309, 9
500
10
Logo, o intervalo de confiança de 95% é
[34.312 − 309, 9 ; 34.312 + 309, 9] = [34.002, 1 ; 34.621, 9]
(b) A margem de erro é

ε = 2, 58 × √ = 407, 93
500
10
Logo, o intervalo de confiança de 95% é
[34.312 − 407, 93 ; 34.312 + 407, 93] = [33.904, 07 ; 34.719, 93]
(c) O gerente deve estar usando o nível de confiança de 99%.

6. Amostra grande de uma população qualquer
(a) O intervalo de confiança de nível aproximado de 90% é

16, 6 − 1, 64 × √ ; 16, 6 + 1, 64 × √
3, 63 3, 63
= [16, 0588 ; 17, 1412]
121 121
(b) Como o intervalo está totalmente abaixo de 18 minutos, há evidências de que o tempo
médio seja menor que 18 minutos e, portanto, o serviço deve ser encerrado.
7. Amostra grande de uma população qualquer
1 − α = 0, 92 ⇒ z0,04 = 1, 75
O intervalo de confiança de nível aproximado de 92% é

54, 98 − 1, 75 × √ ; 54, 98 + 1, 75 × √
12, 7 12, 7
= [52, 3236 ; 57, 6364]
70 70
Aula 9
Intervalos de Confiança Para Proporções –

Amostras Grandes
Na aula anterior, estudamos o método de estimação de uma média populacional por intervalo
de confiança no caso, ou de população normal com variância conhecida, ou de amostra grande de
uma população qualquer. A distribuição amostral da média amostral é, no primeiro caso, exatamente
normal e, no segundo caso, apenas aproximadamente normal. Em ambos os casos, o intervalo de
confiança tem a forma X ± EP(X ), sendo EP(X ) o erro padrão da média amostral, ou seja, o seu
desvio padrão.
Nesta aula, usaremos o resultado visto na Aula 7, para construir o intervalo de confiança para
uma proporção populacional.
Intervalo de Confiança para a Proporção Populacional
O contexto de interesse é o seguinte: temos uma população em que cada elemento é classificado
de acordo com a presença ou ausência de determinada característica. O objetivo é estimar a proporção
populacional p dos elementos que possuem tal característica. Vimos, na Aula 7, que a proporção
amostral P
b é um bom estimador para p e, também que, para grandes amostras,

p(1 − p)
P ≈ N p;
b .
n
134 AULA 9. INTERVALOS DE CONFIANÇA PARA PROPORÇÕES – AMOSTRAS GRANDES
ou equivalentemente
Pb −p
q ≈ N(0; 1) (9.1)
p(1−p)
n
Vemos, então que o erro padrão de P

b é
r
p(1 − p)
EP(P)
b = (9.2)
n
Como a distribuição amostral de P

b é aproximadamente normal, o procedimento de construção
do intervalo de confiança para a proporção populacional é totalmente análogo ao do intervalo de
confiança para a média de uma população normal com variância conhecida, visto na aula anterior.
Assim, usando o mesmo procedimento e a mesma notação, obtemos o intervalo de confiança de nível
de confiança 1 − α como
P
b −ε; P
b +ε
em que r
p(1 − p)
ε = zα/2 · EP(P)
b = zα/2 ·
n
Definição 9.1 Intervalo de Confiança Para uma Proporção Populacional Seja X ∼ Bern(p)
uma população da qual se extrai uma amostra aleatória simples de tamanho suficientemente
grande, isto é,
• n ≥ 30;
• np ≥ 5;
• n(1 − p) ≥ 5.
Então, o intervalo de confiança para p de nível de confiança aproximado 1 − α é dado por

" r r #
p(1 − p) b p(1 − p)
P
b − zα/2 ; P + zα/2
n n
em que zα/2 é o valor crítico da distribuição normal padrão correspondente à probabilidade α/2.
Vamos analisar a expressão do erro padrão do estimador nas situações vistas até aqui:
r
σ S p(1 − p)
EP(X ) = √ EP(X ) = √ EP(P)
b =
n n | {z n }
| {z } | {z }
X ∼N(µ;σ 2 ) ;σ conhecido X ∼(µ;σ 2 );n grande X ∼Bern(p)
135
Nos três casos, queremos estimar a média µ da população, sendo que no terceiro caso, µ = p.
Analisando essas expressões, podemos ver uma diferença fundamental: o erro padrão da
proporção amostral depende do parâmetro p que queremos estimar! Isso não ocorre nos outros
2 casos. No primeiro caso, estamos supondo σ conhecido e, no segundo caso, S depende da média
amostral, e não da média populacional. Sendo assim, na prática, temos que estimar o erro padrão
de P,
b substituindo p por alguma estimativa que denotaremos por pb0 . Com tal estimativa, obtemos o
erro padrão estimado da proporção amostral:
r
p
b0 (1 − p
b0 )
EP
db =
P (9.3)
n
e, para uma determinada amostra, o intervalo de confiança se torna

" r r #
p
b0 (1 − p
b0 ) p
b0 (1 − p
b0 )
p
b − zα/2 ;p
b + zα/2
n n
Obtenção da estimativa p
b0
Uma estimativa para p pode ser obtida de outras fontes, pesquisas similares ou de uma amostra
piloto. Pode-se usar também a própria proporção amostral obtida com a amostra usada na construção
do intervalo de confiança; nesse caso, temos que p
b0 = p
b.
Uma outra abordagem, conservadora, consiste em usar o valor máximo possível para o erro
padrão, dado o tamanho da amostra. Dessa forma, estamos trabalhando com a maior margem de erro
possível, o que podemos chamar de pior cenário. Da expressão 9.2, vemos que, para um n fixo, o erro
padrão depende diretamente de p(1 − p). Na Figura 9.1, temos o gráfico da função g(p) = p(1 − p)
para valores de p no intervalo de interesse [0, 1]. Vemos que o máximo dessa função ocorre quando
p = 0, 5.
Figura 9.1 – Gráfico da função p(1 − p) para 0 ≤ p ≤ 1
Assim, tomando p
b0 = 0, 5, o intervalo de confiança terá o maior comprimento possível para n e 1 − α
fixos e sua expressão se torna

" r r #
0, 5 × 0, 5 0, 5 × 0, 5
√ √
0, 5 0, 5
p
b − zα/2 ;p
b + zα/2 = p − zα/2
b ; p + zα/2
b
n n n n
Exemplo 9.1
Um gerente de produção deseja estimar a proporção de peças defeituosas em uma de suas linhas
de produção. Para isso, ele seleciona uma amostra aleatória simples de 100 peças dessa linha de
produção, obtendo 30 defeituosas. Determine o intervalo de confiança para a verdadeira proporção
de peças defeituosas nessa linha de produção com nível de confiança de 95%.
Solução:
O primeiro fato a observar é que a amostra é grande, com sucessos (30) e fracassos (70) suficientes, o
que nos permite usar a aproximação normal. Com nível confiança de 95%, obtemos que z0,025 = 1, 96.
Como não temos estimativa prévia da proporção de defeituosas p, temos que usar a proporção amostral
p
b = 0, 30. Assim, a margem de erro é
r
0, 3 × 0, 7
ε = 1, 96 × = 0, 0898
100
e o intervalo de confiança é
[0, 30 − 0, 0898 ; 0, 30 + 0, 0898] = [0, 2102; 0, 3898]
Com a abordagem conservadora, a margem de erro é
ε = 1, 96 × √
0, 5
= 0, 098
100
e o intervalo de confiança,
[0, 30 − 0, 098 ; 0, 30 + 0, 098] = [0, 202; 0, 398]

Determinação do tamanho da amostra
Como já visto, uma questão que se coloca frequentemente é: qual o tamanho da amostra
necessário para se estimar uma proporção p com uma margem de erro ε e nível de confiança 1 − α?
Como já visto no caso de populações normais, a resposta vem da expressão da margem de erro:
r p
p(1 − p) √ p(1 − p)
ε = zα/2 ⇒ n = zα/2
n ε
137
ou z 2
α/2
n = [p(1 − p)]
ε
Vemos, então, que n é diretamente proporcional a p(1 − p), ou seja, quanto maior p(1 − p), maior
será o tamanho da amostra n. Como já visto, na prática, não conhecemos p (na verdade, estamos
querendo estimar esse parâmetro). Então, para determinar o tamanho de amostra necessário para
uma margem de erro e um nível de confiança dados, podemos considerar o pior caso, ou seja, podemos
tomar o maior valor possível que, como já visto, ocorre quando p = 0, 5. Caso esteja disponível alguma
informação auxiliar, a mesma poderá ser usada para aprimorar a estimativa do tamanho amostral.
Voltando à Figura 9.1, vemos que, quanto mais próxima de 0,5 for a estimativa prévia de p, maior será
o tamanho da amostra.
Exemplo 9.2
Para estudar a viabilidade de lançamento de um novo produto no mercado, o gerente de uma grande
empresa contrata uma firma de consultoria estatística para estudar a aceitação do produto entre os
clientes potenciais. O gerente deseja obter uma estimativa com erro máximo de 1% com probabilidade
de 80% e pede ao consultor estatístico que forneça o tamanho de amostra necessário.
(a) De posse das informações dadas, o consultor calcula o tamanho da amostra necessário no pior
cenário. O que significa “pior cenário” nesse caso? Qual é o tamanho de amostra obtido pelo
consultor?
(b) O gerente acha que o custo de tal amostra seria muito alto e autoriza o consultor a realizar
um estudo piloto com uma amostra de 100 pessoas para obter uma estimativa da verdadeira
proporção. O resultado desse estudo piloto é uma estimativa p
b = 0, 76 de aceitação do novo
produto. Com base nessa estimativa, o consultor recalcula o tamanho da amostra necessário.
Qual é esse tamanho?
(c) Selecionada a amostra com o tamanho obtido no item anterior, obteve-se uma proporção de
72% de clientes favoráveis ao produto. Construa um intervalo de confiança para a verdadeira
proporção com nível de confiança de 90%.
Solução:
(a) O pior cenário é quando a população está dividida meio-a-meio em suas preferências, ou seja,
quando p = 0, 5. Com nível de confiança de 80%, obtemos z0,10 = 1, 28. Nesse caso,
r 2
0, 5 × 0, 5 1, 28
0, 01 = 1, 28 × =⇒ n = × 0, 25 = 4096
n 0, 01
(b) Vamos agora utilizar p

b0 = 0, 76 :
r
0, 76 × 0, 24
0, 01 = 1, 28 × =⇒
n

1, 28 2
n = × 0, 76 × 0, 24 = 2988, 4
0, 01
ou seja, n = 2989
(c) 1 − α = 0, 90 =⇒ z0,05 = 1, 64
r
0, 72 × 0, 28
ε = 1, 64 × = 0, 0135
2989
[0, 72 − 0, 0135; 0, 72 + 0, 0135] = [0, 7065; 0, 7335]

Exemplo 9.3
Uma associação de estudantes universitários de uma grande universidade deseja saber a opinião
dos alunos sobre a proposta da reitoria a respeito do preço do bandejão. Para isso, seleciona
aleatoriamente uma amostra de 200 estudantes, dos quais 120 são favoráveis à proposta da reitoria.
(a) Construa um intervalo de confiança para a verdadeira proporção de alunos favoráveis à política
da reitoria, com nível de confiança 98%.
(b) Qual é a margem de erro?
(c) Qual deverá ser o tamanho da amostra para se ter um erro de, no máximo, 5% com nível de
confiança de 98%?
Solução:
(a) Com nível de confiança de 98%, resulta que z0,01 = 2, 33. Com 120 estudantes favoráveis dentre
200, temos que p
b= 120
200 = 0, 6. Logo
r
0, 6 × 0, 4
ε = 2, 33 × = 0, 0807
200
[0, 6 − 0, 0807; 0, 6 + 0, 0807] = [0, 5193; 0, 6807]
(b) A margem de erro é ε = 0, 0807.

139
(c) Queremos, agora, reduzir a margem de erro para 5%, mantendo o mesmo nível de confiança.
Certamente teremos que aumentar o tamanho da amostra:
r
0, 6 × 0, 4
ε ≤ 0, 05 ⇒ 2, 33 × ≤ 0, 05 ⇒
n
√ 2, 33 p
n≥ × 0, 6 × 0, 4 ⇒
0, 05

2.33 2
n≥ × 0.6 × 0.4 ⇒ n ≥ 522
0.05
Se usássemos o pior cenário, isto é, p = 0, 5 teríamos de ter

2
2.33
n ≥ × 0.25 ⇒
0.05
n ≥ 543

Resumo
• Para amostras suficientemente grandes (n ≥ 30) e com sucessos e fracassos suficientes (np ≥ 5
e n(1 − p) ≥ 5), o Teorema Limite Central estabelece que
P
b −p
r ≈ N(0; 1)
p(1 − p)
n
• A margem de erro do intervalo de confiança para a proporção populacional é

r
p(1 − p)
ε = zα/2 = zα/2 EP(P)
b
n
onde zα/2 é o valor crítico da densidade normal padrão correspondente à probabilidade α/2.
• Como a margem de erro depende do parâmetro a ser estimado, é necessário utilizar alguma
estimativa p
b0 no cálculo da margem de erro. Essa estimativa pode ser alguma estimativa prévia,
a própria estimativa usada na construção do intervalo de confiança ou o valor correspondente ao
pior cenário, p
b0 = 0, 5. Assim, o intervalo de confiança estimado para a proporção populacional
p é dado por " r r #
p
b0 (1 − p
b0 ) p
b0 (1 − p
b0 )
p
b − zα/2 ;p
b + zα/2
n n
• Na determinação do tamanho amostral necessário para se obter determinada margem de erro

ao nível de confiança 1 − α, podemos usar o pior cenário, que corresponde a uma população
dividida ao meio, isto é, p = 0, 5. Neste caso, o tamanho amostral é dado por
z 2 1 zα/2 2
α/2
n= p(1 − p) =
ε 4 ε
Exercícios
1. Construa um intervalo de confiança para a proporção populacional em cada um dos casos

listados a seguir:
(a) n = 600, 1 − α = 98%, Número de “sucessos” na amostra: = 128.

(b) n = 1200, 1 − α = 0, 90%, Número de “sucessos” na amostra = 710, estimativa prévia
p
b0 = 0, 55%.
2. Uma amostra de 300 habitantes de uma grande cidade revelou que 180 desejavam a fluoração
da água. Encontre o intervalo de confiança para a verdadeira proporção dos que não desejam
a fluoração da água:
(a) para um nível de confiança de 95%;

(b) para um nível de confiançaa de 96%.
3. Em uma pesquisa de mercado, 57 das 150 pessoas entrevistadas afirmaram que comprariam
determinado produto sendo lançado por uma empresa. Essa amostra é suficiente para se estimar
a verdadeira proporção de futuros compradores, com margem de erro de 0,08 e nível de confiança
de 90%? Em caso negativo, calcule o tamanho de amostra necessário.
4. Uma amostra aleatória simples de 400 itens forneceu 100 itens correspondentes ao evento
“sucesso".
(a) Qual é a estimativa pontual p

b para a verdadeira proporção de “sucessos"na população?
(b) Qual é o erro padrão estimado de P?
b
(c) Calcule o intervalo de confiança para a verdadeira proporção de “sucessos"na população

com nível de confiança de 80%.
5. Em uma sondagem, uma estimativa preliminar de “sucessos” em uma população é de 0,35. Que
tamanho deve ter uma amostra para fornecer um intervalo de confiança de 95% com uma margem
de erro de 0,05?
1. (a) 1 − α = 98% ⇒ z0,01 = 2, 33

p
b= 128
600 = 0, 2133
r
0, 2133(1 − 0, 2133)
ε = 2, 33 × = 0, 03897
600
[0, 2133 − 0, 03897; 0, 2133 + 0, 03897] = [0, 17433; 0, 25227]

141
(b) 1 − α = 90% ⇒ z0,05 = 1, 64

p
b= 710
1200 = 0, 59167
r
0, 55 × 0, 45
ε = 1, 64 × = 0, 02355
1200
[0, 59167 − 0, 02355; 0, 59167 + 0, 02355] = [0, 56812; 0, 61522]
2. O problema pede a estimativa para a proporção dos que não querem a fluoração; logo, p
b =
120
300 = 0, 4
(a) 1 − α = 95% ⇒ z0,025 = 1, 96

r
0, 4 × 0, 6
ε = 1, 96 × = 0, 05544
300
[0, 4 − 0, 05544; 0, 4 + 0, 05544] = [0, 34456; 0, 45544]
(b) 1 − α = 96% ⇒ z0,02 = 2, 05

r
0, 4 × 0, 6
ε = 2, 05 × = 0, 05798
300
[0, 4 − 0, 05798; 0, 4 + 0, 05798] = [0, 34202; 0, 45798]
3. p
b= 57
150 = 0, 38. Para uma margem de erro de 0,08 e um nível de confiança de 90%, o tamanho
da amostra teria que ser
2
1, 64
n≥ × 0, 38 × 0, 62 = 99, 011
0, 08
Como o tamanho da amostra é 150, essa amostra é suficiente.
4. (a) p
b= 100
= 0, 25
400
q
(b) EP(P)
b = 0,25×0,75 = 0, 02165
400
(c) 1 − α = 0, 80 ⇒ z0,1 = 1, 28
[0, 25 − 1, 28 × 0, 02165; 0, 25 + 1, 28 × 0, 02165] =

[0, 22229; 0, 27771]
5. p
b0 = 0, 35
2
1, 96
n≥ × 0, 35 × 0, 65 = 349, 59n ≥ 350
0, 05
.
Aula 10
Testes de Hipóteses – Conceitos Básicos
Na teoria de estimação, vimos que é possível, por meio de estatísticas amostrais adequadas,
estimar parâmetros de uma população, dentro de um certo intervalo de confiança. Nos testes de
hipóteses, em vez de se construir um intervalo de confiança no qual se espera que o parâmetro da
população esteja contido, testa-se a validade de uma afirmação sobre um parâmetro da população.
Então, em um teste de hipótese, procura-se tomar decisões a respeito de uma população com base
em informações obtidas de amostras desta mesma população.
Nesta aula, você aprenderá os seguintes conceitos:
• hipóteses nula e alternativa;
• erros tipo I e II;
• estatística de teste;
• regra de decisão;
• região crítica;
Noções Básicas
Vamos trabalhar com alguns exemplos para ilustrar os conceitos básicos de que precisamos
para construir testes de hipóteses estatísticos.
Exemplo 10.1 Anéis de vedação

Uma empresa compra anéis de vedação de dois fabricantes. Segundo informações dos fabricantes,
144 AULA 10. TESTES DE HIPÓTESES – CONCEITOS BÁSICOS
os anéis do fabricante 1 têm diâmetro médio de 14 mm com desvio padrão de 1,2 mm e os anéis do
fabricante 2 têm diâmetro médio de 15 mm com desvio padrão de 2,0 mm. Ambos os processos de
produção geram anéis com diâmetros cuja distribuição é aproximadamente normal.
Uma caixa com 16 anéis sem identificação é encontrada pelo gerente do almoxarifado. Embora
ele suspeite que a caixa seja oriunda do fabricante 2, decide fazer uma medição dos anéis e basear sua
decisão no diâmetro médio da amostra: se o diâmetro médio for maior que 14,5 mm, ele identificará a
caixa como oriunda do fabricante 2; caso contrário, ele identificará a caixa como vinda do fabricante
1.
Solução:
Esse é um problema típico de decisão empresarial. Vamos analisar esse processo decisório
sob o ponto de vista estatístico, estudando os possíveis erros e suas probabilidades de ocorrência.
A característica de interesse dos parafusos é o seu diâmetro, que é uma variável aleatória; vamos
representar tal variável por X .
Uma primeira observação é que existem apenas duas possibilidades para a origem dos anéis de
vedação. Essas possibilidades, no contexto de teste de hipóteses, são chamadas hipóteses. Como ele
suspeita que a caixa venha do fabricante 2, essa será nossa hipótese principal, a qual chamaremos
de hipótese nula e representaremos por H0 . A outra hipótese será chamada de hipótese alternativa
e a representaremos por H1 . Mais adiante veremos como estabelecer as hipóteses nula e alternativa
em contextos mais complexos. Temos, então, as seguintes hipóteses:
H0 : anéis vêm do fabricante 2

H1 : anéis vêm do fabricante 1
Em termos das variável aleatória X , podemos estabelecer essas hipóteses como
H0 : X ∼ N(15; 2, 02 )
H1 : X ∼ N(14; 1, 22 )
Um outro elemento fundamental nesse processo de decisão é a regra de decisão que, no contexto
estatístico, é sempre formulada em termos da hipótese nula: podemos rejeitar ou não rejeitar H0 . No
caso do gerente, a regra de decisão é baseada na média amostral X e tem um caráter conservador: o
gerente decidirá por um dos dois fabricantes se o diâmetro médio da amostra estiver mais próximo do
diâmetro médio dos parafusos produzidos por aquele fabricante. Note que 14,5 está a meio caminho
dos diâmetros médios dos dois fabricantes. Como dito, nossa decisão deve ser expressa sempre em
termos de H0 . Logo, a regra de decisão é
X ≤ 14, 5 =⇒ rejeito H0
X > 14, 5 =⇒ não rejeito H0
145
A regra de decisão leva a um conjunto de valores de X que resultam na rejeição de H0 . No

exemplo, qualquer valor observado x no intervalo (−∞; 14, 5] leva à rejeição de H0 . Esse intervalo
recebe o nome de região crítica ou região de rejeição, que indicaremos por RC . Então, no exemplo,
RC = (−∞; 14, 5].
Há dois erros associados a essa regra de decisão, que são decidir pelo fabricante 2, quando, na
verdade, os parafusos vêm do fabricante 1, ou reciprocamente, decidir pelo fabricante 1, quando os
parafusos vêm do fabricante 2. Em termos da hipótese nula, esses erros são traduzidos e rotulados
como
Erro I : rejeitar H0 quando H0 é verdadeira

Erro II : não rejeitar H0 quando H0 é falsa
Se H0 é verdadeira, a amostra vem de uma população normal com média 15 e desvio padrão 2,0.
Nesse caso, a média amostral com base em amostras de tamanho 16 é também normal com média 15
e desvio padrão √
2,0
= 0, 5.
16
Se H0 é falsa, a amostra vem de uma população normal com média 14 e desvio padrão 1,2 e
a média amostral com base em amostras de tamanho 16 é também normal com média 14 e desvio
padrão √
1,2
= 0, 3.
16
Podemos, então, calcular as probabilidades associadas aos dois erros, que podem ser expressas
em termos de probabilidade condicional como:
 
h i
P(Erro I) = P rejeitar H0 | H0 verdadeira = P X ≤ 14, 5|X ∼ N 15; 0, 52
 
| {z } | {z }
X ≤14,5 X ∼N(15;0,0,25)
 
h i
P(Erro II) = P não rejeitar H0 | H0 falsa  = P X > 14, 5|X ∼ N 14; 0, 32
 
| {z } | {z }
X >14,5 X ∼N(14;0,09)
Na Figura 10.1, a probabilidade associada ao erro I corresponde à área sombreada de cinza-escuro,

enquanto a área sombreada de cinza-claro corresponde à probabilidade do erro tipo II.
Vamos calcular essas probabilidades. Em geral, a probabilidade do erro tipo I é denotada por
Figura 10.1 – Probabilidades dos erros I e II para o Exemplo 10.1
α e a probabilidade do erro tipo II por β. Assim,

h i
α = P(Erro I) = P X ≤ 14, 5|X ∼ N 15; 0, 52

14, 5 − 15
=P Z ≤ = P(Z ≤ −1, 00) = P(Z ≥ 1, 00)
0, 5
= 0, 5 − tab(1, 00) = 0, 5 − 0, 3413 = 0, 1587
h i
β = P(Erro II) = P X > 14, 5||X ∼ N 14; 0, 32

14, 5 − 14
=P Z > = Pr(Z > 1, 67)
0, 3
= 0, 5 − tab(1, 67) = 0, 5 − 0, 4525 = 0, 0475
Podemos resumir os resultados do exemplo no seguinte quadro:
Gerente decide que origem é do

Fabricante 1 Fabricante 2
Fabricante 2 Erro I (α = 0, 15866) OK
Verdadeiro 1 OK Erro II (β = 0, 04746)
Quando falamos da probabilidade do erro ou mesmo da regra de decisão em termos gerais,

estamos considerando o procedimento decisório geral. Como esse procedimento depende da amostra
sorteada, temos que expressar as probabilidades dos erros e a regra de decisão levando em conta as
possíveis amostras, ou seja, temos que levar em conta a variável aleatória X que descreve a média
amostral de uma possível amostra aleatória simples de tamanho n.
147
No exemplo, a regra de decisão geral é: se X > 14, 5, o gerente classifica como produção
do fabricante 2. Assim, por exemplo se a caixa em questão tiver uma média x = 14, 4, o gerente
classificará a caixa como produzida pelo fabricante 1. Lembre-se de que usamos letras minúsculas
para representar o valor observado de uma variável aleatória.

Exemplo 10.2 Anéis de vedação - continuação

Suponha, no exemplo anterior, que o gerente ache a probabilidade do erro I muito alta e decida
mudar a regra de decisão de modo que essa probabilidade passe a ser 0,05. Qual deve ser a nova
regra de decisão?
Solução:
Analisando a Figura 10.1, podemos ver que k tem que ser menor que 14,5.
h i
α = 0, 05 ⇔ P X ≤ k | X ∼ N 15; 0, 52 = 0, 05 ⇔

k − 15 k − 15 k − 15
P Z≤ = 0, 05 ⇔ 0, 5 − tab − = 0, 05 ⇔ tab − = 0, 45 ⇔
0, 5 0, 5 0, 5
k − 15
− = 1, 64 ⇔ k = 14, 18
0, 5

O procedimento de se fixar a probabilidade α do erro tipo I é o mais utilizado pois, em geral,

na prática, a situação não é tão simples como a escolha entre apenas duas decisões. Assim, a região
crítica é definida de modo a se ter uma probabilidade pequena para o erro tipo I. Valores comuns
para α são 0,05 ou mesmo 0,01.
A título de ilustração, suponha, nos dois exemplos anteriores, que a empresa compre anéis de
diversos fabricantes mas, pelas características de produção do fabricante 2, os anéis produzidos por
ele sejam especiais para a empresa. Assim, é importante identificar corretamente a origem, caso eles
sejam oriundos do fabricante 2. Nesta situação, nossas hipóteses passariam a ser:
H0 : anéis são produzidos pelo fabricante 2

H1 : anéis não são produzidos pelo fabricante 2
Fixado o valor da probabilidade α, podemos definir a região crítica. A diferença fundamental aqui
está no cálculo da probabilidade do erro tipo II: não existe um único valor de β. já que, sob H1 , a
distribuição pode ter qualquer média.
Conceitos básicos
O contexto em que se baseia a teoria de teste de hipótese é basicamente o mesmo da teoria de

estimação por intervalo de confiança. Temos uma população representada por uma variável aleatória
X cuja distribuição de probabilidade depende de algum parâmetro θ. O interesse agora está em
testar a veracidade de alguma afirmativa sobre θ.
Hipóteses nula e alternativa
A hipótese nula, representada por H0 , é a hipótese básica que queremos testar. Nesse texto
consideraremos apenas hipóteses nulas simples, isto é, hipóteses que estabelecem que o parâmetro
de interesse é igual a um determinado valor. A forma geral é:
H0 : θ = θ0
Alguns exemplos são:

H0 : µ = 6 H0 : p = 0, 5 H0 : σ 2 = 25
O procedimento de teste de hipótese resultará em uma regra de decisão que nos permitirá rejeitar
ou não rejeitar H0 .
A hipótese alternativa, representada por H1 , é a hipótese que devemos considerar no caso de

rejeição da hipótese nula. A forma mais geral de H1 é a hipótese bilateral
H1 : θ 6= θ0
Em algumas situações, podemos ter informação que nos permita restringir o domínio da hipótese
alternativa. Por exemplo, se uma empresa farmacêutica está testando um novo medicamento para
enxaqueca no intuito de reduzir o tempo entre a ingestão do medicamento e o alívio dos sintomas,
uma possível hipótese alternativa é
H1 : µ < 10
Temos, então, hipóteses unilaterais à esquerda
H1 : θ < θ0
e hipóteses unilaterais à direita:

H1 : θ > θ0
A escolha entre essas formas de hipótese alternativa se faz com base no conhecimento sobre o
problema sendo considerado e deve ser feita antes de se ter o resultado da amostra.
Nesse texto consideraremos o seguinte procedimento prático para determinação das hipóteses
149
nula e alternativa.
“Traduza” a afirmação do problema como uma desigualdade. Faça o mesmo para a

afirmação que é a sua negação. A desigualdade que não envolver o sinal de = será
a hipótese alternativa e a hipótese nula será sempre do tipo θ = θ0 .
Exemplo 10.3 Determinação de H0 e H1

Considerando as seguintes afirmativas como parte de um problema de teste de hipóteses, determine
as hipóteses nula e alternativa apropriadas.
(a) O tempo médio é de, no máximo, 15 minutos
(b) Há, em média, pelo menos 15 clientes.
(c) A proporção de clientes tem de ser pelo menos 60%.
(d) A proporção de defeituosos tem de ser menor que 5%.
(e) O comprimento médio tem de ser 10cm.
Solução:
(a) Afirmativa dada: µ ≤ 15

Complementar: µ > 15
A desigualdade que não contém o sinal de = (µ > 15) torna-se a hipótese alternativa:
H0 : µ = 15
H1 : µ > 15
(b) Afirmativa dada: µ ≥ 15

Complementar: µ < 15
H0 : µ = 15
H1 : µ < 15
(c) Afirmativa dada: p ≥ 60%

Complementar: p < 60%
H0 : p = 0, 6
H1 : p < 0, 6
(d) Afirmativa dada: p < 5%

Complementar: p ≥ 5%
H0 : p = 0, 05
H1 : p < 0, 05
(e) Afirmativa dada: µ = 10

Complementar: µ 6= 10
H0 : µ = 10
H1 : µ 6= 10

Estatística de teste, erros e regra de decisão
Assim como na construção dos intervalos de confiança, usaremos uma estatística amostral
apropriada para construir o nosso teste de hipótese, e, nesse contexto, essa estatística é chamada
estatística de teste. As estatísticas de teste naturalmente dependem do parâmetro envolvido no teste
e, nesse texto, consideraremos apenas os parâmetros média e proporção (que também é uma média).
O procedimento de decisão será definido em termos da hipótese nula H0 , com duas decisões
possíveis: (i) rejeitar H0 ou (ii) não rejeitar H0 . No quadro a seguir, resumimos as situações possíveis.
Decisão
Rejeitar H0 Não rejeitar H0
Possibi- H0 verdadeira Erro I OK
lidades H0 falsa OK Erro II
Vemos, aí, que existem duas possibilidades de erro:
Erro tipo I : rejeitar H0 quando H0 é verdadeira

Erro tipo II : não rejeitar H0 quando H0 é falsa
A decisão sobre a hipótese nula é tomada com base em uma regra que estabelece um conjunto de
valores, chamado região crítica ou região de rejeição, de modo que, se o valor observado da estatística
amostral cair nessa região, rejeitaremos H0 ; caso contrário, não rejeitaremos H0 . Vamos denotar por
RC a região crítica.
151
Região crítica e nível de significância
Em geral, a definição da região crítica é feita da seguinte forma: RC é o conjunto de valores

cuja probabilidade de ocorrência é pequena sob a hipótese de veracidade de H0 . Sendo assim, a
região crítica é construída com base na suposição de que H0 é verdadeira.
A definição de “probabilidade pequena” se faz por meio da escolha da probabilidade α do erro

tipo I, chamada nível de significância ou tamanho do teste, isto é:
α = P(erro tipo I) = P(rejeitar H0 | H0 é verdadeira)
Em geral, o valor de α é pequeno e as escolhas mais comuns são α = 0, 05 e α = 0, 01.
Definido o nível de significância α, podemos estabelecer a região crítica usando a distribuição

amostral da estatística de teste.
Exemplo 10.4 Honestidade de uma moeda

Considere uma situação em que estamos interessados em verificar se uma moeda é honesta, isto
é, H0 : p = 0, 5. Como não temos qualquer informação sobre o possível tipo de viés, nossa regra
de decisão se baseará no número de coroas obtidas em 10 lançamentos. Se o número de coroas
for muito pequeno ou muito grande, rejeitaremos a hipótese de honestidade da moeda. Encontre a
região crítica para um nível de significância máximo de 1%, ou seja, a probabilidade de rejeitarmos
a hipótese nula de honestidade da moeda quando, na verdade, ela é honesta tem de ser no máximo
0,01.
Solução:
Na tabela a seguir temos as probabilidades de ocorrência de cada um dos resultados possíveis,
supondo que a moeda seja honesta. Nesse caso, se X é o número de coroas em 10 lançamentos,
então X ∼ bin(10; 0, 5).
Número de coroas x P(X = x)

0 0,0009766
1 0,0097656
2 0,0439453
3 0,1171875
4 0,2050781
5 0,2460938
6 0,2050781
7 0,1171875
8 0,0439453
9 0,0097656
10 0,0009766
A probabilidade de obtermos 0 ou 10 coroas com uma moeda honesta é 2 × 0, 0009766 =

0, 0019531 e se acrescentarmos os resultados 1 coroa ou 9 coroas, a soma das probabilidades é

0,021484, que é maior que 0,01. Assim, nossa regra de decisão deve ser “rejeitar H0 se saírem 0 ou
10 coroas” e, nesse caso, a probabilidade do erro I é α = 0, 0019531.

Resumo
Nesta aula, estudamos os conceitos básicos da teoria de testes de hipóteses, em que o interesse
está em testar a validade de uma afirmação sobre um parâmetro da população. Então, em um teste de
hipótese, procura-se tomar decisões a respeito de uma população, com base em informações obtidas
de amostras desta mesma população.
Ao final desta aula, você deverá ser capaz de entender perfeitamente os seguintes conceitos.
• A hipótese nula, representada por H0 , é a hipótese básica que queremos testar. Nesse texto
consideraremos apenas hipóteses nulas simples do tipo
H0 : θ = θ0
• A hipótese alternativa, representada por H1 , é a hipótese que devemos considerar no caso de

rejeição da hipótese nula. A forma mais geral de H1 é a hipótese bilateral, mas podemos ter
hipóteses unilaterais à esquerda e hipóteses unilaterais à direita:
H1 : θ 6= θ0 H1 : θ < θ0 H1 : θ > θ0
• A estatística de teste é a estatística amostral apropriada para construir o nosso teste de

hipótese. As estatísticas de teste usuais são a média amostral X e a proporção amostral
P,
b que serão usadas na construção de testes sobre a média e a proporção populacionais,
respectivamente.
• O procedimento de decisão é definido em termos da hipótese nula H0 , com as seguintes decisões

possíveis: (i) rejeitar H0 ou (ii) não rejeitar H0 .
• Os erros possíveis no processo de decisão baseado em um teste de hipótese são
Erro tipo I : rejeitar H0 quando H0 é verdadeira

Erro tipo II : não rejeitar H0 quando H0 é falsa
• A região crítica ou região de rejeição é o conjunto de valores da estatística de teste que levam
à rejeição de H0 ; a região crítica será denotada por RC .
• Em geral, a definição da região crítica é feita fixando-se a probabilidade do erro tipo I; essa
153
probabilidade é chamada nível de significância e será indicada pela letra grega alfa, isto é: α.
α = P(rejeitar H0 | H0 é verdadeira)
• A probabilidade do erro tipo II, em geral, é representada pela letra grega beta, isto é:
β = P(não rejeitar H0 | H0 é falsa)
Exercícios propostos
1. Estabeleça as hipóteses nula e alternativa para as seguintes situações:
(a) Depois de uma pane geral no sistema de informação de uma empresa, o gerente
administrativo deseja saber se houve alteração no tempo de processamento de determinada
atividade. Antes da pane, o tempo de processamento podia ser aproximado por uma variável
aleatória normal com média de 100 minutos e desvio padrão de 10 minutos. O gerente
acredita que a pane não tenha alterado a variabilidade do processo.
(b) O dono de uma média empresa decide investigar a alegação de seus empregados de que
o salário médio na sua empresa é menor que o salário médio nacional, que é de 900 reais.
(c) Uma empresa fabricante de balas afirma que o peso médio de suas balas é de pelo menos
2 gramas.
2. Considere uma população normal com variância 225, da qual se extrai uma amostra aleatória
simples de tamanho 25. Deseja-se testar as seguintes hipóteses:
H0 : µ = 40
H1 : µ = 45
(a) Se a região crítica é RC : X > 43 calcule as probabilidades dos erros tipo I e II.
(b) Determine a região crítica da forma X > k tal que a probabilidade do erro tipo I seja 0,10.
Nesse caso, qual é a probabilidade do erro tipo II?
H0 : µ = 40
H1 : µ 6= 40
e para isso define-se a seguinte região crítica:
RC : X > 46 ou X < 34
(a) Calcule a probabilidade do erro tipo I.

(b) Calcule a probabilidade do erro tipo II se µ = 36.
H0 : µ = 23
H1 : µ = 28
(a) Se a região crítica é RC : X > 25, 5 calcule as probabilidades dos erros tipo I e II.
(b) Determine a região crítica da forma X > k tal que a probabilidade do erro tipo I seja 0,05.
Nesse caso, qual é a probabilidade do erro tipo II?
5. Desejando-se testar as hipóteses
H0 : µ = 45
H1 : µ < 45
sobre a média µ de uma população normal com variância 36, estabeleceu-se a seguinte região
crítica com base em amostra aleatória simples de tamanho n = 16:
RC : X < 41, 25
(a) Calcule a probabilidade do erro tipo I.

(b) Calcule a probabilidade do erro tipo II se µ = 43.
1. (a) Antes da pane: T ∼ N(100; 100)

Depois da pane: T ∼ N(µ; 100)
H0 : µ = 100
H1 : µ 6= 100
(b) Afirmativa dada: µ < 900

Complementar: µ ≥ 900
H0 : µ = 900
H1 : µ < 900
(c) Afirmativa dada: µ≥2

Complementar: µ<2
155
H0 : µ = 2
H1 : µ < 2
)
X ∼ N(µ; 225)
2. ⇒ X ∼ N µ; 225
25 ou X ∼ N (µ; 9)
n = 25
(a)

43 − 40
α = P(X > 43 | X ∼ N(40; 9)) = P Z >
3
= P(Z > 1, 00) = 0, 5 − tab(1, 00) = 0, 1587

43 − 45
β = P(X ≤ 43 | X ∼ N(45; 9) = P Z ≤
3
= P(Z ≤ −0, 67) = P(Z ≥ 0, 67) = 0, 5 − tab(0, 67) = 0, 2514
(b)

α = 0, 10 ⇔ P X > k | X ∼ N(40; 9) = 0, 10 ⇔

k − 40 k − 40
P Z > = 0, 10 ⇔ tab = 0, 40 ⇔
3 3
k − 40
= 1, 28 ⇔ k = 43, 84
3

43, 84 − 45
β = P X ≤ 43, 84 | X ∼ N(45; 9) = P Z ≤
3
= P(Z ≤ −0, 39) = P(Z ≥ 0, 39) = 0, 5 − tab(0, 39) = 0, 3483
)
X ∼ N(µ; 225)
3. ⇒ X ∼ N µ; 225
25 ou X ∼ N (µ; 9)
n = 25
(a)

α = P X < 34 | X ∼ N(40; 9) + P X > 46 | X ∼ N(40; 9)

34 − 40 46 − 40
=P Z < +P Z >
3 3
= P(Z < −2) + P(Z > 2) = 2 × P(Z > 2) = 2 × [0, 5 − tab(2, 0)] = 0, 0456
(b)

34 − 36 46 − 36
β = P 34 ≤ X ≤ 46 | X ∼ N(36; 9) = P ≤Z ≤
3 3
= P(−0, 67 ≤ Z ≤ 3, 33) = tab(0, 67) + tab(3, 33) = 0, 2486 + 0, 4996 = 0, 7482
)
X ∼ N(µ; 64)
4. ⇒ X ∼ N µ; 64
16 ou X ∼ N (µ; 4)
n = 16
(a)

25, 5 − 23
α = P(X > 25, 5 | X ∼ N(23; 4)) = P Z >
2
= P(Z > 1, 25) = 0, 5 − tab(1, 25) = 0, 1056

25, 5 − 28
β = P X ≤ 25, 5 | X ∼ N(28; 4) = P Z ≤
2
= P(Z ≤ −1, 25) = P(Z > 1, 25) = 0, 1056
(b)
α = 0, 05 ⇔ P(X > k | X ∼ N(23; 4)) = 0, 05 ⇔

k − 23 k − 23 k − 23
P Z > = 0, 05 ⇔ tab = 0, 45 ⇔ = 1, 64 ⇔ k = 26, 28
2 2 2
)
X ∼ N(µ; 36)
5. ⇒ X ∼ N µ; 36
16 ou X ∼ N µ; 1, 5
2
n = 16
(a)

41, 25 − 45
α = P(X < 41, 25, | X ∼ N(45; 1, 5 )) = P Z <
2
1, 5
= P(Z < −2, 5) = P(Z > 2, 5) = 0, 5 − tab(2, 5) = 0, 0062
(b)

41, 25 − 43
β = P X ≥ 41, 25 | X ∼ N(43; 1, 5 ) = P Z ≥
2
1, 5
= P(Z ≥ −1, 17) = 0, 5 + tab(1, 17) = 0, 8790
Aula 11
Testes de Hipóteses sobre a Média
Nesta aula, estudaremos testes de hipóteses sobre a média de uma população. Assim como
fizemos nos intervalos de confiança, abordaremos inicialmente o caso específico de uma população
normal com variância conhecida e depois aplicaremos o Teorema Limite Central à média de uma
população qualquer da qual se extrai uma grande amostra.
Entendendo bem a construção de um teste de hipótese para esse caso particular, a apresentação
para as outras situações é bastante semelhante, mudando apenas a distribuição amostral.
Exemplos
Vamos apresentar, inicialmente, três exemplos que ilustrarão as diversas possibilidades que
podem surgir na prática.
Exemplo 11.1 Tempo de processamento - parte 1

Depois de uma pane geral no sistema de informação de uma empresa, o gerente administrativo deseja
saber se houve alteração no tempo de processamento de determinada atividade. Antes da pane, o
tempo de processamento podia ser aproximado por uma variável aleatória normal com média de
100 minutos e desvio padrão de 10 minutos. O gerente acredita que a pane não tenha alterado a
variabilidade do processo. Uma amostra de 16 tempos de processamento após a pane revela uma
média de 105,5 minutos. Ao nível de significância de 5%, qual é a conclusão sobre a alteração do
tempo médio de processamento?
Solução:
Seja T a variável aleatória que representa o tempo de processamento. Do enunciado, sabemos que
158 AULA 11. TESTES DE HIPÓTESES SOBRE A MÉDIA
T ∼ N(µ, 102 ) e sabemos, também, que antes da pane, µ = 10.
• Hipóteses Nula e Alternativa
O interesse do gerente é comparar os tempos antes e depois da pane. Antes da pane, o tempo
médio de processamento era de 100 minutos. Como ele não sabe o tipo de alteração que pode ter
ocorrido, precisa saber se o tempo médio depois da pane é diferente do tempo anterior. Temos,
assim, as seguintes afirmativas µ = 100 e µ 6= 100, que nos levam às seguintes hipóteses nula
e alternativa:
H0 : µ = 100
H1 : µ 6= 100
• Estatística de teste
Como a população é normal, sabemos que a distribuição da média amostral também é normal,
e como não deve ter havido alteração na variabilidade do processo, resulta que o desvio padrão
é de 10 minutos em qualquer situação.
Logo,
100 X −µ
X ∼ N µ; ⇔ ∼ N(0; 1)
16 2, 5
e nossa estatística de teste será
X −µ
Z= ∼ N(0; 1)
2, 5
• Nível de significância e região crítica
Pelo enunciado do problema, o nível de significância é de 5%. Isso significa que a probabilidade
de erro tipo I é 0,05. Como visto, o erro tipo I consiste em rejeitar a hipótese nula quando ela
é verdadeira. Logo,
α = P(rejeitar H0 | H0 verdadeira) = 0, 05
Quando H0 é verdadeira, µ = 100 e, portanto,
X − 100
H0 verdadeira =⇒ Z0 = ∼ N(0; 1)
2, 5
Z0 é a nossa estatística de teste padronizada. O subscrito 0 indica que estamos supondo H0

verdadeira.
A lógica do processo de decisão em um teste de hipótese é a seguinte: temos a distribuição

da estatística de teste, supondo H0 verdadeira. Nesse caso, nossa estatística de teste é Z0 e a
distribuição sob H0 é a normal padrão. Valores observados de Z0 com pequena probabilidade
de ocorrência sob essa hipótese são indicativos de que a hipótese não é verdadeira. Assim, a
região crítica consiste nos valores de Z0 nas caudas da distribuição N(0, 1), que são as regiões
de pequena probabilidade. Para delimitar essas regiões de pequena probabilidade, usamos o
nível de significância e a hipótese alternativa. Como nesse exemplo a hipótese alternativa é
159
bilateral, temos que tomar valores nas duas caudas da distribuição, distribuindo igualmente a
probabilidade de erro, que é 5%. Veja a Figura 11.1:
Figura 11.1 – Região crítica para o Exemplo 11.1
Então, nossa região crítica consiste em valores observados da estatística de teste Z0 que caem
na área sombreada da Figura 11.1. Essa área sombreada é delimitada pelo valor crítico da
N(0, 1) que deixa 2,5% acima dele, ou seja,
RC : Z0 > z0,025 ou Z0 < −z0,025
Olhando na tabela da distribuição normal, resulta
RC : Z0 > 1, 96 ou Z0 < −1, 96
ou equivalentemente,
RC : |Z0 | > 1, 96
• Decisão e conclusão
Os dados observados fornecem o valor x = 105, 5 minutos, que resulta no seguinte valor da
estatística de teste:
105, 5 − 100
z0 = = 2, 2 > 1, 96
2, 5
Como o valor da estatística de teste para a amostra observada está na região crítica, devemos
rejeitar a hipótese nula, ou seja, as evidências amostrais indicam uma alteração do tempo de
processamento da tarefa após a pane.
• Observação sobre a região crítica

Vimos que a região crítica é |Z0 | > 1, 96, ou seja
X − 100
> 1, 96 ⇔ X > 100 + 1, 96 · 2, 5 ou X < 100 − 1, 96 · 2, 5
2, 5
Assim, rejeitamos H0 para valores de X distantes do valor 100 especificado em H0 . Como o teste
é bilateral, “distante” pode ser acima ou abaixo de 100. No contexto atual, iremos denotar a
estatística X como a estatística de teste não padronizada.

Exemplo 11.2 Tempo de processamento - parte 2

Na mesma situação do exemplo anterior, é bastante razoável supor que o gerente esteja interessado
apenas no caso de aumento do tempo de processamento. Afinal, se o tempo diminuir, isso significa
que a tarefa vai ser executada mais rapidamente, o que representa um ganho.
Solução:
• Hipóteses Nula e Alternativa

As duas possibilidades são:
µ ≤ 100 OK!
µ > 100 Problema!
Seguindo nosso procedimento, temos a seguinte situação:
H0 : µ = 100
H1 : µ > 100
A estatística de teste padronizada continua sendo
X − 100
Z0 = ∼ N(0; 1)
2, 5

O nível de significância é, ainda, 5%. Como antes, valores observados de Z0 com pequena
probabilidade de ocorrência sob H0 são indicativos de que a hipótese não é verdadeira. Assim,
a região crítica consiste nos valores de Z0 na cauda da distribuição N(0, 1), na direção da
hipótese alternativa. Agora, a hipótese alternativa é unilateral à direita e, portanto, a região
crítica consiste nos valores na cauda superior que respondem pela probabilidade de 5% do erro
tipo I. Veja a Figura 11.2:
Então, nossa região crítica consiste em valores observados da estatística de teste Z0 que caem
na área sombreada da Figura 11.2. Essa área sombreada é delimitada pelo valor crítico da
161
N(0, 1) que deixa 5% acima dele, ou seja,
RC : Z0 > z0,05
Olhando na tabela da distribuição normal, resulta
RC : Z0 > 1, 64
que é equivalente, em termos da estatística de teste não padronizada, a X > 100 + 1, 64 · 2, 5,

ou seja, valores de X “distantes” do valor 100 na direção da hipótese alternativa.
O valor da estatística de teste não se altera:
105, 5 − 100
z0 = = 2, 2 > 1, 64
2, 5
e como antes, devemos rejeitar a hipótese nula, ou seja, as evidências amostrais indicam um
aumento do tempo de processamento da tarefa após a pane.

Exemplo 11.3
O dono de uma pequena empresa decide investigar a alegação de seus empregados de que o salário
médio na sua empresa é menor que o salário médio nacional. Para isso, ele analisa uma amostra de
25 salários, obtendo uma média de 894,53 reais. De informações obtidas junto ao sindicato patronal,
ele sabe que, em nível nacional, o salário médio é de 900 reais, com desvio padrão de 32 reais.
Supondo que seja razoável aproximar a distribuição dos salários por uma distribuição normal com o
mesmo desvio padrão nacional, construa o teste de hipótese apropriado, com um nível de significância
de 10%.
Solução:
• Hipóteses nula e alternativa
O problema aqui consiste em decidir se os salários são menores ou não do que a média nacional
de 900 reais, ou seja, as situações de interesse são:
µ < 900
µ ≥ 900
e nossas hipóteses são:
H0 : µ = 900
H1 : µ < 900
Pelos dados do problema, podemos adotar a estatística de teste padronizada
X − 900 X − 900
Z0 = ∼ N(0; 1) ou Z0 = ∼ N(0; 1)
√
32 6, 4
25
• Região crítica e nível de significância
Valores observados da estatística de teste com pequena probabilidade de ocorrência sob H0

indicam que H0 não é verdadeira. Como a hipótese alternativa é unilateral à esquerda, valores
com pequena probabilidade de ocorrência estão na cauda inferior da distribuição normal padrão.
Como o nível de significância é de 10%, probabilidade pequena significa probabilidade menor
que 10% e, portanto, a região crítica, em termos da estatística de teste padronizada é
RC : Z0 < −1, 28.
Veja a Figura 11.3.
Em termos da estatística de teste não padronizada, a região crítica é
RC : X < 900 − 6, 4 · 1, 28 ou X < 801, 908
O valor da estatística de teste padronizada é
894, 53 − 900
z0 = = −0, 855
6, 4
e esse valor não pertence à região crítica. Logo, não se rejeita a hipótese nula, ou seja, não
há evidência de que o salário médio seja menor que o salário médio nacional. Essa conclusão
pode ser tirada também do fato de que 894, 53 > 801, 908.

163
Teste de hipótese sobre a média de uma N(µ; σ 2 ) – σ 2 conhecida
Os dois primeiros exemplos anteriores ilustram o procedimento para construção de um teste

de hipótese sobre a média de uma população normal com variância conhecida. De posse de uma
amostra aleatória simples X1 , X2 , . . . , Xn extraída de uma população X ∼ N(µ; σ 2 ), nosso interesse
está em testar a hipótese nula
H0 : µ = µ 0
a um nível de significância α.
Dependendo do conhecimento sobre o problema, a hipótese alternativa pode tomar uma das
três formas:
H1 : µ 6= µ0 H1 : µ > µ0 H1 : µ < µ0
Em qualquer dos casos, a estatística de teste baseia-se na média amostral; se a variância σ 2

é conhecida, sabemos que
X −µ
Z= q ∼ N(0, 1)
σ2
n
A região crítica é estabelecida em função do nível de significância, que é a probabilidade α do

erro tipo I:
α = P(rejeitar H0 | H0 verdadeira)
Quando H0 é verdadeira, µ = µ0 e, portanto, nossa estatística de teste é
X − µ0
Z0 = q ∼ N(0, 1)
σ2
n
Valores observados de Z0 com pequena probabilidade de ocorrência são indicativos de que

a hipótese não é verdadeira. Assim, a região crítica consiste nos valores de Z0 na(s) cauda(s) da
distribuição N(0, 1), na direção da hipótese alternativa.
A seguir apresentamos os resultados para cada uma das possíveis hipóteses alternativas.
• Hipótese nula e estatística de teste
H0 : µ = µ0
√ X − µ0
Z0 = n ∼ N(0, 1)
σ |{z}
sob H0
• Teste bilateral
H1 : µ 6= µ0
Região crítica:
Z0 < −zα/2 ou Z0 > zα/2
σ
X < µ0 − zα/2 √σn ou X > µ0 + zα/2 √
n
• Teste unilateral à direita

H1 : µ > µ0
Região crítica:
σ
Z0 > zα ou X > µ0 + zα √
n
• Teste unilateral à esquerda
H1 : µ < µ0
Região crítica:
σ
Z0 > zα ou X < µ0 − zα √
n
Valor P
Nos exemplos anteriores, a determinação da região crítica foi feita com base no nível de
significância, isto é, fixado o nível de significância, encontramos o valor crítico que define os limites
entre valores prováveis (aqueles que não levam à rejeição de H0 ) e pouco prováveis (aqueles que
levam à rejeição de H0 ) sob a hipótese de veracidade de H0 .
Um outro procedimento bastante usual, especialmente quando são utilizados programas

computacionais, consiste em calcular a probabilidade de se obter um valor da estatística de teste tão
ou mais extremo que o valor observado, se H0 for verdadeira. Um valor pequeno para tal probabilidade
é indício de que H0 não seja verdadeira. “Tão ou mais extremo” é sempre no sentido da hipótese
alternativa, ou seja, no sentido de se rejeitar a hipótese nula. Temos, assim, a seguinte definição.
Definição 11.1 Valor P ou probabilidade de significância O valor P é a probabilidade de

se obter um valor da estatística de teste tão ou mais extremo que o valor observado, supondo-se
H0 verdadeira.
165
Vamos ilustrar esse conceito considerando novamente os três exemplos anteriores.
Exemplo 11.4
Vamos calcular o valor P para o Exemplo 11.1.
Solução:
O valor observado da estatística de teste é z0 = 2, 2 e a hipótese alternativa é bilateral. Então,
consideramos igualmente extremo o valor simétrico −2, 2, ou seja, tão ou mais extremo significa ser
maior que 2, 2, ou menor que −2, 2 e o valor P é
P = P(Z > 2, 2) + P(Z < −2, 2) = 2 × P(Z > 2, 2) = 2 × [0, 5 − tab(2, 2)] = 0, 0278
Na Figura 11.4 ilustra-se esse valor. O que esse resultado está nos dizendo é o seguinte: se H0
for verdadeira, a probabilidade de obtermos um valor tão extremo quanto 2,2 na direção da hipótese
alternativa, ou seja, em qualquer direção, já que H1 é bilateral, é 0, 0278. Essa é uma probabilidade
pequena, o que significa que é pouco provável obtermos um valor tão extremo quando H0 é verdadeira.
Logo, é razoável supormos que a hipótese nula não seja verdadeira, a mesma conclusão obtida ao
trabalharmos com o nível de significância de 5%.
Na verdade, rejeitaríamos a hipótese nula para qualquer nível de significância maior que 0,0278.
Note que tais níveis de significância implicariam em valores críticos menores do que o valor observado
z0 e, portanto, levariam à rejeição de H0 . Assim, o valor P é o menor nível de significância que leva
à rejeição de H0 .
Figura 11.4 – Valor P para o Exemplo 11.1

Exemplo 11.5
Solução:
Como antes, o valor observado da estatística de teste é z0 = 2, 2, mas agora a hipótese alternativa é
unilateral à direita. Então, valores tão ou mais extremos são aqueles maiores que 2, 2 e o valor P é
P = P(Z > 2, 2) = 0, 5 − tab(2, 2) = 0, 0139
Na Figura 11.5 ilustra-se esse valor. O que esse resultado está nos dizendo é o seguinte: se
H0 for verdadeira, a probabilidade de obtermos um valor tão ou mais extremo que 2,2 é 0, 0139.
Novamente, essa é uma probabilidade pequena, o que significa que é pouco provável obtermos um
valor tão extremo quando H0 é verdadeira. Logo, é razoável supormos que a hipótese nula não seja
verdadeira, a mesma conclusão obtida ao trabalharmos com o nível de significância de 5%. Como
antes, rejeitaríamos a hipótese nula para qualquer nível de significância maior que 0,0139.

Exemplo 11.6
Solução:
O valor observado da estatística de teste é z0 = −0, 855, e a hipótese alternativa é unilateral à
esquerda. Então, valores tão ou mais extremos são aqueles menores que −0, 855 e o valor P é
P = P(Z < −0, 855) = P(Z > 0, 855) = 0, 5 − tab(0, 86) = 0, 5 − 0, 3051 = 0, 1949
Na Figura 11.6 ilustra-se esse valor. O que esse resultado está nos dizendo é o seguinte: se H0 for
verdadeira, há uma probabilidade alta de obtermos um valor tão ou mais extremo que −0, 855. Assim,
não se rejeita H0 .

Procedimento geral para obtenção do valor P
Os exemplos acima ilustram o procedimento para obtenção do valor P quando a estatística de

teste tem distribuição normal. Como essa é uma distribuição simétrica, podemos sempre calcular o
167
valor P trabalhando na cauda superior da distribuição normal padrão; para isso, basta usar o valor
absoluto |z0 | do valor observado da estatística de teste.
• Teste bilateral
H0 : µ = µ0
H1 : µ 6= µ0
P = P(Z < −|z0 |) + P(Z > |z0 |)
P = 2 × P(Z > |z0 |)

Podemos supor que z0 > 0. Caso contrário, o valor P será maior que 0, 5, o que leva à não
rejeição de H0 para qualquer nível de significância razoável.
H0 : µ = µ0
H1 : µ > µ0
P = P(Z > z0 )
P = P(Z > |z0 |)

Podemos supor que z0 < 0. Caso contrário, o valor P será maior que 0, 5, o que leva à não
rejeição de H0 para qualquer nível de significância razoável.
H0 : µ = µ 0
H1 : µ < µ0
P = P(Z < z0 ) = P(Z < −|z0 |)
P = P(Z > |z0 |)
Valor P e nível de significância
Vimos que o nível de significância α é a probabilidade do erro tipo I e o valor crítico

correspondente delimita a região de rejeição, ou seja, valores da estatística de teste que caem na
região crítica levam à rejeição de H0 . O valor P, por sua vez, é a probabilidade de se obter valores
tão extremos quanto o observado e essa probabilidade, sendo pequena, leva à rejeição da hipótese
nula.
Como podemos, então, relacionar o valor P e o nível de significância α em termos do processo

decisório? Veja a Figura 11.7, onde ilustramos a situação para um teste unilateral à direita. Qualquer
valor z0 maior que zα leva à rejeição de H0 . Mas tais valores correspondem a probabilidades menores
na cauda da distribuição, ou seja, correspondem a valores P menores que α. Isso nos leva à seguinte
observação:
! Valor P versus nível de significância
O valor P é o menor nível de significância para o qual a hipótese nula H0 é

rejeitada, ou seja,
rejeitamos H0 ⇔ P ≤ α
Figura 11.7 – Valor P versus nível de significância
Exemplo 11.7 Peso de bala

Uma empresa fabricante de balas afirma que o peso médio de suas balas é de pelo menos 2 gramas.
Pela descrição do processo de produção, sabe-se que o peso das balas distribui-se normalmente com
desvio padrão de 0,5 grama. Uma amostra de 25 balas apresenta peso médio de 1,81 gramas. O
que se pode concluir sobre a afirmação do fabricante? Estabeleça sua conclusão usando um nível de
significância de 5% e também o valor P.
Solução:
Seja X a variável aleatória que representa o peso das balas. Então, X ∼ N(µ; 0, 25). Como n = 25,
resulta que
X −µ
Z=q ∼ N(0, 1)
0,25
25
169
A afirmativa do fabricante é µ ≥ 2. Logo, a negação de tal afirmação é µ < 2. Como essa

última expressão não contém o sinal de igualdade, ela se torna a hipótese alternativa. Então, nossas
hipóteses são:
H0 : µ = 2
H1 : µ < 2
Para α = 0, 05, a região crítica é
RC : Z0 < −z0,05 = −1, 64
O valor observado da estatística de teste é
1, 81 − 2, 00
z0 = q = −1, 9 < −1, 64
0,25
25
Como o valor observado da estatística de teste está na região crítica, rejeita-se a hipótese nula,
ou seja, há evidência de que o peso médio seja menor que 2 gramas.
Temos também que
P = P(Z > | − 1, 9|) = 0, 5 − tab(1, 9) = 0, 0287
Assim, rejeitaríamos H0 para qualquer nível de significância maior que 2,87%, o que inclui 5%.

Teste de hipótese sobre a média com base em grandes amostras
No caso de se ter uma amostra grande de uma população qualquer, o Teorema 8.1 pode ser
usado na construção de testes de hipótese sobre a média da população. Segundo esse teorema,
X −µ
Z= ≈ N(0; 1)
S
√
n
e, assim, os procedimentos são como já vistos antes. Assim como o nível de confiança era apenas
aproximadamente 1 − α, nos testes de hipóteses, o nível de significância será aproximadamente α.
Exemplo 11.8
Uma amostra de tamanho n = 196 é extraída de uma população com o objetivo de se testar
H0 : µ = 10
H0 : µ < 10
resultando em x = 9, 3 e s = 2, 54. Construa o teste de hipótese com nível de significância de 5%,

estabelecendo a conclusão. Calcule também o valor P.
Solução:
α = 0, 05 ⇒ z0,05 = 1, 64
A estatística de teste é
X − 10
Z0 = ≈ N(0; 1)
√
2, 54
196
ou seja
X − 10
Z0 = ≈ N(0; 1)
0, 1814
A região crítica é Z0 < −1, 64 e o valor observado da estatística de teste padronizada é
9, 3 − 10
z0 = = −3, 86 < −1, 64.
0, 1814
Rejeita-se, então a hipótese nula e o valor P é
P = P(Z < −3, 86) = P(Z > 3, 86) = 0, 5 − tab(3, 86) = 0, 5 − 0, 4999 = 0, 0001
Note que a hipótese nula seria rejeitada para qualquer nível de significância α > 0, 0001.

Exercícios
1. Uma amostra aleatória simples de tamanho n = 9, extraída de uma população normal com
desvio padrão 3,03 apresentou média igual a x = 13, 35. Deseja-se testar
H0 : µ = 12, 8
H1 : µ 6= 12, 8
(a) Use o nível de significância α = 0, 02 para determinar a região crítica, tanto em termos da
estatística de teste padronizada quanto em termos da estatística de teste não padronizada.
(b) Com base no resultado anterior, estabeleça a conclusão, tendo o cuidado de usar um
vocabulário que não seja puramente técnico.
(c) Calcule o valor P e interprete o resultado obtido.
2. Em uma linha de produção, peças são produzidas de modo que o comprimento seja normalmente
distribuído com desvio padrão de 0,6cm. Ajustes periódicos são feitos na máquina para garantir
que as peças tenham comprimento apropriado de 15cm, pois as peças muito curtas não podem
ser aproveitadas (as peças longas podem ser cortadas). A cada hora são extraídas 9 peças da
produção, medindo-se seu comprimento.
171
Estabeleça uma regra de decisão para definir se o processo está operando adequadamente.
Use o nível de significância de 0,1%.
3. Depois de desenvolver um algoritmo para acelerar a execução de determinada tarefa rotineira

em um escritório de contabilidade, o analista de sistema analisa uma amostra de 64 tempos,
obtendo uma média 46,5 segundos e desvio padrão de 6,3 segundos. Antes de implementar o
algoritmo, o tempo de execução era de 48,5 segundos.
Desenvolva o teste de hipótese apropriado para verificar se o algoritmo do analista realmente

melhorou o desempenho do sistema. Utilize α = 0, 02 e certifique-se de especificar todas as
etapas e calcular o valor P.
4. Uma propaganda afirma que o consumo médio de gasolina de determinada marca de automóvel
é de 12 litros por 100 quilômetros rodados. Um teste com 49 automóveis desta marca acusa um
consumo médio de 12,4 litros por 100 quilômetros rodados, com desvio padrão de 1,26 litros.
O que se pode concluir sobre a propaganda? Responda fazendo o teste de hipótese com nível
de significância de 10%.
Solução dos exercícios
1. Teste bilateral; n = 9; σ = 3, 03; x = 13, 35
(a) α = 0, 02 ⇒ z0,01 = 2, 33
X − 12, 8 X − 12, 8
Z0 = =
3, 03 1, 01
3
A região crítica é
|Z0 | > 2, 33
ou
X < 12, 8 − 2, 33 · 1, 01 = 10, 4467 ou X > 12, 8 + 2, 33 · 1, 01 = 15, 1533
O valor observado de Z0 é
13, 35 − 12, 8
z0 = = 0, 54
1, 01
Como |z0 | < 2, 33 e também 10, 4465 < 13, 35 < 15, 1533, não se rejeita H0 . O valor P é
P = 2 × P(Z > 0, 54) = 2 × (0, 5 − 0, 2054) = 0, 5892.
O valor P é bastante alto; logo a hipótese nula só seria rejeitada para níveis de
significância maiores que 0,59. Isso é evidência de que não se pode rejeitar a hipótese
nula em qualquer nível de significância razoável.
2. Seja X o comprimento (cm) das peças. Então, X ∼ N(µ; 0, 62 ).
O problema na produção surge quando µ < 15. Logo, nossas hipóteses são:
H0 : µ = 15
H1 : µ < 15
α = 0, 001 ⇒ z0,001 = 3, 08
X − 15 X − 15
Z0 = =
0, 6 0, 2
3
A região crítica é Z0 < −3, 08 ou X < 15 − 3, 08 · 0, 2 = 14, 384.
A regra de decisão a ser implementada é X < 14, 384 ⇒ sistema está fora de controle. Note
que na implementação, a regra de decisão tem que ser dada em termos da média amostral, que
é o que se mede na amostra. Não faz sentido ter uma tabela da normal no chão de fábrica!
3. Amostra grande de uma população qualquer.
Seja X o tempo de execução. O analista pretende reduzir o tempo médio. Logo, nossas hipóteses
são:
H0 : µ = 48, 5
H1 : µ < 48, 5
α = 0, 02 ⇒ z0,02 = 2, 05
X − 48, 5 X − 48, 5
Z0 = = Z0 ≈ N(0; 1)
6, 3 0, 7875
8
A região crítica é Z0 < −2, 05 ou X < 48, 5 − 2, 05 · 0, 7875 = 46, 885625.
46, 5 − 48, 5
z0 = = −2, 54
0, 7875
e o valor P é
P = P(Z < −2, 54) = P(Z > 2, 54) = 0, 5 − tab(2, 54) = 0, 0055
Rejeita-se a hipótese nula, pois −2, 54 < −2, 05 ou também 46, 5 < 46, 8856. Note que o valor
p é menor que o nível de significância. Assim, há evidências de que houve redução no tempo
médio de execução da tarefa.
4. Amostra grande de uma população qualquer.

173
Seja X o consumo de gasolina desses carros. Se o consumo for menor ou igual a 12 litros
por 100 quilômetros, não há problema com a propaganda. O problema surge se o consumo for
superior. Logo, nossas hipóteses são:
H0 : µ = 12
H1 : µ > 12
α = 0, 10 ⇒ z0,10 = 1, 28
X − 12 X − 12
Z0 = = Z0 ≈ N(0; 1)
1, 26 0, 18
7
A região crítica é Z0 > 1, 28 ou X > 12 + 1, 28 ∗ 0, 18 = 12, 2304.

12, 4 − 12
z0 = = 2, 22
0, 18
e o valor P é
P = P(Z > 2, 22) = 0, 5 − tab(2, 22) = 0, 0132
Rejeita-se a hipótese nula pois 2, 22 > 1, 28 ou ainda 12, 4 > 12, 2304. Note também que
P < α.
Assim, há evidências de que a propaganda seja enganosa; os dados indicam que o consumo
médio é maior que 12 litros por 100 quilômetros rodados.
.
Aula 12
Teste de Hipótese sobre Proporções –

Amostras Grandes
Na aula anterior, vimos como construir testes de hipótese sobre a média de uma população
qualquer, com auxílio do Teorema 8.1, visto na Aula 7. Agora, usaremos o teorema Limite Central
para construir teste de hipótese sobre uma proporção populacional.
Teste de Hipótese sobre a Proporção Populacional
O contexto de interesse é o seguinte: temos uma população em que cada elemento é classificado
de acordo com a presença ou ausência de determinada característica. O objetivo é testar alguma
hipótese sobre a proporção populacional p dos elementos que possuem tal característica. Vimos,
na Aula 7, que a proporção amostral P
b é um bom estimador para p e, também que, para grandes
amostras,
p(1 − p)
P ≈ N p;
b .
n
ou equivalentemente
Pb −p
q ≈ N(0; 1) (12.1)
p(1−p)
n
Como a distribuição amostral de P

b é aproximadamente normal, o procedimento de construção
do teste de hipótese sobre a proporção populacional é totalmente análogo ao procedimento visto na
aula anterior para a média populacional.
176 AULA 12. TESTE DE HIPÓTESE SOBRE PROPORÇÕES – AMOSTRAS GRANDES
De posse de uma grande amostra aleatória simples X1 , X2 , . . . , Xn extraída de uma população

X ∼ Bern(p), nosso interesse está em testar a hipótese nula
H0 : p = p 0
a um nível de significância α.
Dependendo do conhecimento sobre o problema, a hipótese alternativa pode tomar uma das
três formas:
H1 : p 6= p0 H1 : p > p0 H1 : p < p0
A região crítica e o valor P são calculados supondo-se H0 verdadeira, p = p0 e, portanto, nossa

estatística de teste padronizada é
P
b − p0
Z0 = q ≈ N(0, 1)
p0 (1−p0 )
n
Valores observados de Z0 com pequena probabilidade de ocorrência são indicativos de que

a hipótese não é verdadeira. Assim, a região crítica consiste nos valores de Z0 na(s) cauda(s) da
distribuição N(0, 1), na direção da hipótese alternativa.
A seguir apresentamos os resultados para cada uma das possíveis hipóteses alternativas.
• Hipótese nula e estatística de teste
H0 : p = p0
√ Pb − p0
Z0 = nr ≈ N(0, 1)
p0 (1 − p0 ) |{z}
sob H0
n
• Teste bilateral
H1 : p 6= p0
Região crítica:
Z0 < −zα/2 ou Z0 > zα/2
q q
p0 (1−p0 ) p0 (1−p0 )
P
b < p0 − zα/2
n ou P
b > p0 + zα/2
n
177
H1 : p > p0
Região crítica:
q
p0 (1−p0 )
Z0 > zα ou P
b > p0 + zα
n
H1 : p < p0
Região crítica:
q
p0 (1−p0 )
Z0 < −zα ou P
b < p0 − zα
n
O valor P, como antes, é calculado como
Teste bilateral: P = 2 × P(Z > |z0 |)

Teste unilateral: P = P(Z > |z0 |)
Exemplo 12.1 Proporção de alunos

Uma pesquisa foi realizada com alunos da UFF visando, entre outras coisas, estimar a proporção dos
alunos que têm conhecimento do Regulamento dos Cursos de Graduação dessa universidade (dados
fictícios). Foram entrevistados 952 alunos, selecionados aleatoriamente, dos quais 132 afirmaram
ter lido o Regulamento dos Cursos de Graduação. Suponha que a universidade decida lançar uma
campanha de esclarecimento se a verdadeira proporção de alunos que conhecem o regulamento for
inferior a 15%. Há razão para se lançar essa campanha? Justifique sua resposta através de um teste
de hipótese com nível de significância de 5%.
Solução:
Vamos seguir os mesmos passos vistos na aula anterior.
• Hipóteses nula e alternativa

Afirmativa dada: p < 0, 15
Complementar: p ≥ 0, 15
Isso nos leva às seguintes hipóteses:
H0 :p = 0, 15
H1 :p < 0, 15
Sob a hipótese de que H0 é verdadeira,
Pb − 0, 15 P
b − 0, 15
Z0 = q = ≈ N(0, 1)
0,15×(1−0,15) 0, 011573
952
O nível de significância é 5% e o teste é unilateral à esquerda; logo, a região crítica em termos

da estatística padronizada é
RC : Z0 < −z0,05 =⇒ RC : Z0 < −1, 64
que é equivalente a
P
b < 0, 15 − 1, 64 · 0, 011573 ou P
b < 0, 131
132
− 0, 15
z0 = q952 = −0, 9803 ≮ −1, 64.
0,15×(1−0,15)
952
Temos também que

132
p
b0 = = 0, 139 ≮ 0, 131
952
O valor observado da estatística de teste (padronizada ou não) não está na região crítica;
logo, não rejeitamos a hipótese nula, ou seja, não há razão para se lançar a campanha de
esclarecimento.

Exemplo 12.2
Um fabricante afirma que no máximo 10% dos seus produtos são defeituosos. Um órgão de defesa do
consumidor testa uma amostra de 81 desses itens, detectando 13,8% de defeituosos.
(a) Encontre a região crítica para construção de um teste de hipótese apropriado ao nível de
significância de 10%.
(b) Calcule o valor P.
Solução:
179
(a) • Hipóteses nula e alternativa

A afirmativa de interesse para o fabricante é p ≤ 0, 10. A negação de tal afirmativa
(questionamento do órgão de defesa do consumidor) é p > 0, 10. Logo, nossas hipóteses
são:
H0 : p = 0, 10
H1 : p > 0, 10
Note que todas as proporções estão na forma decimal. Não trabalhe com porcentagens!
Sob a hipótese de que H0 é verdadeira,
Pb − 0, 10 P
b − 0, 10
Z0 = q = ≈ N(0, 1)
0,10×(1−0,10) 0, 0333
81

O teste é unilateral à direita e α = 0, 10. Logo, a região crítica em termos da estatística
de teste padronizada é
RC : Z0 > z0,10 =⇒ RC : Z0 > 1, 28
ou
P
b > 0, 10 + 1, 28 ∗ 0, 0333 = 0, 1426
0, 138 − 0, 10
z0 = = 1, 14 ≯ 1, 28.
0, 0333
Temos também que

p
b0 = 0, 138 ≯ 0, 1426
O valor crítico da estatística de teste (padronizada ou não) não está na região crítica;
logo, não podemos rejeitar a hipótese nula. Ou seja, nossos dados não fornecem evidência
contra o fabricante.
(b)
P = P(Z > 1, 14) = 0, 5 − tab(1, 14) = 0, 5 − 0, 3729 = 0, 1271
Logo, rejeitamos H0 apenas para níveis de significância maiores que 12,7%. Assim, aos níveis de
significância usuais, não devemos rejeitar H0 , o que é uma evidência de que o fabricante está
dizendo a verdade.

Exercícios
1. Em uma pesquisa com 800 estudantes de uma universidade, 385 afirmaram possuir computador.
Teste a hipótese de que pelo menos 50% dos estudantes dessa universidade possuem
computador. Use α = 0, 10.
2. Uma pesquisa entre 700 trabalhadores revela que 15,8% obtiveram seus empregos por meio de
indicações de amigos ou parentes. Teste a hipótese de que mais de 10% dos trabalhadores
conseguem seus empregos por indicação de amigos ou parentes, utilizando 5% como nível de
significância.
3. O nível de aprovação da qualidade das refeições servidas em um restaurante universitário era

20%, quando houve uma movimentação geral dos estudantes que forçou a direção do restaurante
a fazer mudanças. Feitas as mudanças, sorteou-se uma amostra de 64 estudantes usuários do
restaurante e 25 aprovaram a qualidade da comida. Você diria, ao nível de significância de 2%,
que as mudanças surtiram efeito?
4. Deseja-se testar a honestidade de uma moeda. Para isso, lança-se a moeda 200 vezes, obtendo-
se 115 caras. Qual é a sua conclusão sobre a honestidade da moeda? Para responder a essa
questão, calcule e interprete o valor P.
5. A direção de um grande jornal nacional afirma que 25% dos seus leitores são da classe A. Se, em
uma amostra de 740 leitores, encontramos 156 da classe A, qual é a conclusão que tiraríamos
sobre a afirmativa da direção do jornal?
385
1. p
b= = 0, 48125
800
A afirmativa de interesse é “pelo menos 50% dos estudantes possuem computador”, ou seja,
p ≥ 0, 5. Logo, as hipóteses são
H0 : p = 0, 50
H1 : p < 0, 50
P
b − 0, 5 P
b − 0, 5
Z0 = q =
0,5×0,5 0, 017678
800
α = 0, 10 =⇒ z0,1 = 1, 28 =⇒ RC : Z0 < −1, 28
ou
P
b < 0, 50 − 1, 28 × 0, 017678 ou P
b < 0, 4774
181
O valor observado da estatística de teste padronizada é
385
− 0, 5
z0 = 800
= −1, 06 ≮ −1, 28.
0, 017678
Temos também que

385
p
b= = 0, 48125 ≮ 0, 4774.
800
Como o valor observado da estatística de teste (padronizada ou não) não pertence à região
crítica, não podemos rejeitar a hipótese nula. Ou seja, os dados trazem evidência de que a
proporção de estudantes que possuem computador é de pelo menos 50%.
2. As hipóteses são
H0 : p = 0, 10
H1 : p > 0, 10
A estatística de teste padronizada é
P
b − 0, 1 P
b − 0, 1
Z0 = q =
0,1×0,9 0, 011339
700
α = 5% =⇒ z0,05 = 1, 64. =⇒ RC : Z0 > 1, 64
ou
RC : P
b > 0, 1 + 1, 64 × 0, 011339 ou P
b > 0, 1186
0, 158 − 0, 10
z0 = = 5, 115 > 1, 64
0, 011339
e temos também que

p
b = 0, 158 > 0, 1186.
Rejeita-se, assim, a hipótese nula, ou seja, os dados trazem evidência de que mais de 10% dos
trabalhadores conseguem seus empregos por indicação de parentes ou amigos.
3. O interesse é verificar se p > 0, 20. Logo,
H0 : p = 0, 20
H1 : p > 0, 20
P
b − 0, 2 P
b − 0, 2
Z0 = q =
0,2×0,8 0, 05
64
α = 0, 05 =⇒ z0,05 = 1, 64
Como o teste é unilateral à direita, a região crítica é
RC : Z0 > 1, 64
ou ainda
P
b > 0, 20 + 1, 64 × 0, 05 ou P
b > 0, 282
25
− 0, 20
z0 = 64
= 3, 8124 > 1, 64
0, 05
ou ainda
25
p
b= = 0, 390625 > 0, 282.
64
Como valor observado da estatística de teste (padronizada ou não) está na região crítica,
rejeita-se a hipótese nula, ou seja, as evidências amostrais indicam que houve melhora com
as mudanças.
4. As hipóteses são
H0 : p = 0, 5
H1 : p 6= 0, 5
P
b − 0, 5 P
b − 0, 5
Z0 = q =
0,5×0,5 0, 035355
200
O valor observado da estatística de teste

115
− 0, 5
z0 = 200
= 2, 12
0, 035355
P = 2 × P(Z > |2, 12|) = 2 × (0, 5 − tab(2, 12)) = 2 × (0, 5 − 0, 4830) = 0, 034
Como o valor P é relativamente pequeno, a probabilidade de obtermos 115 caras em 200

lançamentos de uma moeda honesta é pequena, o que nos leva a suspeitar da honestidade
da moeda.
183
5. Com as informações disponíveis, nossas hipóteses são:
H0 : p = 0, 25
H1 : p 6= 0, 25
P
b − 0, 25 P
b − 0, 25
Z0 = q =
0,25×0,75 0, 015918
740
156
− 0, 25
740
= −2, 46
0, 015918
P = 2 × P(Z > | − 2, 46|) = 2 × (0, 5 − tab(2, 46)) = 2 × (0, 5 − 0, 4931) = 0, 0138
Como o valor P é bastante pequeno, devemos rejeitar a hipótese nula de que a proporção de
leitores da classe A é igual a 25%.
Apêndice A
Tabelas
Tabela 1 Distribuição normal padrão – p = P(0 ≤ Z ≤ z)
Tabela 2 Distribuição acumulada da normal padrão – Φ(z) = P(Z ≤ z), z ≥ 0
185
186 APÊNDICE A. TABELAS
.
187
Tabela 1
Distribuição normal padrão
p = P(0 ≤ Z ≤ z)

e 1a.decimal 0 1 2 3 4 5 6 7 8 9
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
4,0 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
188 APÊNDICE A. TABELAS
Tabela 2
Distribuição acumulada da normal padrão
p = P(Z ≤ z)

e 1a.decimal 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
4,0 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

Métodos Estatísticos II-Rev2020

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Métodos Estatísticos II-Rev2020

Enviado por

Direitos autorais:

Formatos disponíveis

Fundação Centro de Ciências e Educação Superior a Distância do Estado do Rio de Janeiro

Centro de Educação Superior a Distância do Estado do Rio de Janeiro

Ana Maria Lima de Farias

Universidade Federal Fluminense

1 Variáveis Aleatórias Contínuas 1

3 A Distribuição Normal: Conclusão 43

4 Inferência Estatística – Conceitos Básicos 65

5 Distribuição Amostral da Média 87

6 O Teorema Limite Central 99

7 Distribuição Amostral da Proporção 105

8 Intervalos de Confiança 117

9 Intervalos de Confiança Para Proporções – Amostras Grandes 133

10 Testes de Hipóteses – Conceitos Básicos 143

11 Testes de Hipóteses sobre a Média 157

12 Teste de Hipótese sobre Proporções – Amostras Grandes 175

Variáveis Aleatórias Contínuas

• função densidade de probabilidade;

• função de distribuição acumulada de variáveis aleatórias contínuas;

• esperança e variância de variáveis aleatórias contínuas;

• a distribuição uniforme contínua.

Para apresentar os conceitos básicos relativos às variáveis aleatórias contínuas, vamos

Figura 1.1 – Histogramas e respectivos polígonos de frequência

Figura 1.2 – Cálculo da frequência entre dois pontos a e b

sob a curva de densidade de probabilidade, delimitada pelos pontos A e B.

Variável Aleatória Contínua

Já estudamos também as variáveis aleatórias discretas e agora vamos introduzir as variáveis

Função Densidade de Probabilidade

2. A área total sob o gráfico de f(x) tem que ser igual a 1.

Figura 1.4 – Probabilidade como área

Uma primeira observação importante que resulta da interpretação geométrica de probabilidade

P(a ≤ X ≤ b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a < X < b)

Função de Distribuição Acumulada

Como no caso discreto, valem as seguintes propriedades para a função de distribuição

acumulada de uma variável aleatória contínua:

a < b ⇒ FX (a) ≤ FX (b)

Existe uma relação entre a função de densidade de probabilidade e a função de distribuição

Por definição, temos o seguinte resultado:

e do Teorema Fundamental do Cálculo resulta que

isto é, a função densidade de probabilidade é a derivada da função de distribuição acumulada.

Esperança e Variância de Variáveis Aleatórias Contínuas

Nas distribuições de frequências agrupadas em classes de variáveis quantitativas contínuas,

podiam ser calculadas como

e a variância de X é definida como

O desvio padrão é definido como

Esperança Variância Desvio Padrão

Se interpretamos a função densidade de probabilidade de X como uma distribuição de massa na

Exemplo 1.1 Distribuição uniforme

Figura 1.7 – Função densidade de probabilidade

(b) Determine a equação que define fX .

(c) Calcule P(2 ≤ X ≤ 3).

(d) Encontre E(X ).

(e) Determine o valor de k tal que P(X ≤ k) = 0, 6.

(f) Encontre a função de distribuição acumulada de X .

(a) Como a área tem que ser 1, temos que ter

(b) Temos que 

(c) A probabilidade pedida é a área sombreada na Figura 1.8. Logo,

(d) Por argumentos de simetria, a esperança é o ponto médio, ou seja, E(X ) = 3.

Figura 1.8 – Cálculo de P(2 ≤ X ≤ 3)

Figura 1.9 – Cálculo de k tal que P(X ≤ k) = 0, 6.

Figura 1.10 – Cálculo de FX

cujo gráfico está ilustrado na Figura 1.11.

Figura 1.11 – Função de distribuição acumulada

Exemplo 1.2 Função linear

Figura 1.12 – Função densidade de probabilidade.