Escolar Documentos
Profissional Documentos
Cultura Documentos
Métodos Estatísticos II
Departamento de Estatística
Maio 2020
Conteúdo
2 A Distribuição Normal 23
A Tabelas 185
i
Aula 1
Nesta aula, iremos estudar as variáveis aleatórias contínuas, e você aprenderá os seguintes
conceitos:
Noções Básicas
No estudo das distribuições de frequência para variáveis quantitativas contínuas, vimos que,
para resumir os dados, era necessário agrupar os valores em classes. O histograma e o polígono de
frequências eram os gráficos apropriados para representar tal distribuição.
Suponhamos, também, que as áreas de cada retângulo sejam iguais às frequências relativas
das respectivas classes (essa é a definição mais precisa de um histograma). Pelos resultados vistos
2 AULA 1. VARIÁVEIS ALEATÓRIAS CONTÍNUAS
anteriormente, sabemos que a soma das áreas dos retângulos é 1 (as frequências relativas devem
somar 1 ou 100%) e que cada frequência relativa é uma aproximação para a probabilidade de um
elemento pertencer à respectiva classe.
Analisando atentamente os dois gráficos, podemos ver o seguinte: à medida que aumentamos o
número de classes, diminui a diferença entre a área total dos retângulos e a área abaixo do polígono
de frequência.
A divisão em classes se fez pelo simples motivo de que uma variável contínua poder assumir
infinitos (não-enumeráveis) valores. Faz sentido, então, pensarmos em reduzir, cada vez mais, o
comprimento de classe δ, até a situação limite em que δ → 0. Nessa situação limite, o polígono de
frequências se transforma em uma curva na parte positiva (ou não-negativa) do eixo vertical, tal que
a área sob ela é igual a 1. Essa curva será chamada curva de densidade de probabilidade.
Considere, agora, a Figura 1.2, em que é apresentado o histograma superior da figura anterior,
mas agora ilustramos um fato visto anteriormente: para estimar a frequência de valores da distribuição
entre os pontos a e b, podemos usar a área dos retângulos sombreados de cinza-claro.
Conforme ilustrado na Figura 1.3, a diferença entre essa área e a área sob o polígono de
frequências tende a diminuir à medida que se aumenta o número de classes. Essa diferença é a parte
sombreada de cinza mais escuro. Isso nos permite concluir o seguinte: no limite, quando δ → 0,
podemos estimar a probabilidade de a variável de interesse estar entre dois valores A e B pela área
3
Figura 1.3 – Diferença entre as áreas dos retângulos e a área sob o polígono de frequência
Embora já visto anteriormente, voltamos a apresentar o conceito de variável aleatória, por ser
esse um dos conceitos mais importantes deste curso.
Definição 1.1 Uma variável aleatória é uma função real (isto é, que assume valores em R)
definida no espaço amostral Ω de um experimento aleatório. Dito de outra forma, uma variável
aleatória é uma função que associa, a cada evento de Ω, um número real.
Definição 1.2 Uma variável aleatória é discreta se sua imagem (ou conjunto de valores que
ela assume) for um conjunto finito ou enumerável. Se a imagem for um conjunto não-enumerável,
dizemos que a variável aleatória é contínua.
Os valores de uma variável aleatória contínua são definidos a partir do espaço amostral de
um experimento aleatório. Sendo assim, é natural o interesse na probabilidade de obtenção de
diferentes valores dessa variável. O comportamento probabilístico de uma variável aleatória contínua
será descrito pela sua função densidade de probabilidade.
4 AULA 1. VARIÁVEIS ALEATÓRIAS CONTÍNUAS
Definição 1.3 Uma função densidade de probabilidade é uma função f(x) que satisfaz as
seguintes propriedades:
1. f(x) ≥ 0
Dada uma função f(x) satisfazendo as propriedades acima, então f(x) representa alguma variável
aleatória contínua X , de modo que P(a ≤ X ≤ b) é a área sob a curva limitada pelos pontos a
e b (veja a Figura 1.4).
A definição anterior usa argumentos geométricos; no entanto, uma definição mais precisa
envolve o conceito de integral de uma função de uma variável. Apresentamos a seguir essa definição,
mas, neste curso, usaremos basicamente a interpretação geométrica da integral, que está associada
à área sob uma curva.
Definição 1.4 Uma função densidade de probabilidade é uma função f(x) que satisfaz as
seguintes propriedades:
1. f(x) ≥ 0
R
2. f(x)dx = 1.
Dada uma função f(x) satisfazendo as propriedades acima, então f(x) representa alguma variável
aleatória contínua X , de modo que
Z b
P(a ≤ X ≤ b) = f(x)dx
a
Para deixar clara a relação entre a função densidade de probabilidade e a respectiva variável
aleatória X , usaremos a notação fX (x).
5
Da mesma forma que a função de probabilidade de uma variável aleatória discreta, a função
densidade de probabilidade nos dá toda a informação sobre a variável aleatória X , ou seja, a partir
da dela, podemos calcular qualquer probabilidade associada à variável aleatória X . Também como
no caso discreto, podemos calcular probabilidades associadas a uma variável aleatória contínua X a
partir da função de distribuição acumulada.
Definição 1.5
Dada uma variável aleatória X , a função de distribuição acumulada de X é definida por
FX (x) = P (X ≤ x) ∀x ∈ R (1.1)
A definição é a mesma vista para o caso discreto; a diferença é que, para variáveis contínuas,
a função de distribuição acumulada é uma função contínua, sem saltos. Veja a Figura 1.5 para um
exemplo.
Figura 1.5 – Exemplo de função de distribuição acumulada de uma variável aleatória contínua
0 ≤ FX (x) ≤ 1
lim FX (x) = 1
x→∞
lim FX (x) = 0
x→−∞
Da interpretação de probabilidade como área, resulta que FX (x) é a área à esquerda de x sob
a curva de densidade fX . Veja a Figura 1.6:
Figura 1.6 – Função de distribuição acumulada - cálculo a partir da área sob a curva de densidade
d
fX (x) = FX (x),
dx
onde fi era a frequência relativa da classe i e xi era o ponto médio da classe i. Continuando com
a ideia inicial da aula de tomar classes de comprimento cada vez menor, isto é, fazendo δ → 0,
chegamos às seguintes definições de esperança e variância de uma variável aleatória contínua.
Definição 1.6 Seja X uma variável aleatória contínua com função densidade de probabilidade
fX . A esperança (ou média ou valor esperado) de X é definida como
Z +∞
E(X ) = xfX (x)dx
−∞
Como já dito antes, não entraremos em detalhes de cálculo dessas fórmulas; nosso enfoque
será na interpretação da média e da variância como medidas de centro e de dispersão. Para algumas
distribuições específicas, apresentaremos os valores de E(X ) e Var(X ), mostrando a sua influência
sobre a distribuição.
As mesmas propriedades vistas para variáveis aleatórias discretas continuam valendo no caso
contínuo:
(a) Encontre o valor de k para que fX seja uma função densidade de probabilidade de uma variável
aleatória X .
8 AULA 1. VARIÁVEIS ALEATÓRIAS CONTÍNUAS
Solução:
1
1 = (5 − 1) × k ⇒ k = = 0, 25
4
1 1
P(2 ≤ X ≤ 3) = (3 − 2) × =
4 4
(e) O primeiro ponto a observar é o seguinte: o ponto x = 3 divide a área ao meio, ou seja, x = 3 é
a mediana da distribuição. Como temos que P(X ≤ k) = 0, 6, resulta que k tem que ser maior
que 3, uma vez que abaixo de 3 temos área igual a 0,5. Veja a Figura 1.9:
Temos que ter
1
0, 1 = (k − 3) × ⇒ k = 3, 4
4
9
(f) Para x < 1, temos que FX (x) = 0 e para x > 5, temos que FX (x) = 1. Para 1 ≤ x ≤ 5, FX (x) é
a área de um retângulo de base (x − 1) e altura 1/4 (veja a Figura 1.10). Logo,
x −1
FX (x) =
4
e a expressão completa de FX é
0
, se x < 1
FX (x) = x−1
4 , se 1 ≤ x < 5
1 , se x ≥ 5
(a) Encontre o valor de k para que fX seja uma função densidade de probabilidade de uma variável
aleatória contínua X .
Solução:
(a) Podemos decompor a área sob a reta como a área de um triângulo e a área de um retângulo
(na verdade, o resultado é a área de um trapézio - veja a Figura 1.13). Então, temos que ter
1
1 = (6 − 1) × 0, 1 + (6 − 1) × (k − 0, 1) ⇒
2
5
0, 5 = (k − 0, 1) ⇒ k = 0, 3
2
(b) fX é uma função linear e a reta passa pelos pontos (1; 0, 1) e (6; 0, 3), o que nos dá o seguinte
sistema de equações:
0, 1 = a + b
0, 3 = a + 6b
0, 3 − 0, 1 = 5b ⇒ b = 0, 04
(c) Veja a Figura 1.14, em que a área sombreada corresponde à probabilidade pedida. Vemos que
essa é a área de um trapézio de altura 3 − 2 = 1, base maior igual a
fX (3) = 0, 06 + 0, 04 × 3 = 0, 18
12 AULA 1. VARIÁVEIS ALEATÓRIAS CONTÍNUAS
Logo,
0, 18 + 0, 14
P(2 ≤ X ≤ 3) = × 1 = 0, 16
2
(d) Veja a Figura 1.15; nela podemos ver que, para x ∈ [1, 6], FX (x) é a área de um trapézio de
altura x − 1, base maior igual a fX (x) e base menor igual a fX (1).
Logo,
(0, 06 + 0, 04x) + 0, 1
FX (x) = × (x − 1)
2
= (0, 08 + 0, 02x)(x − 1)
ou seja,
0 , se x < 1
FX (x) = 0, 02x 2 + 0, 06x − 0, 08 , se 1 ≤ x < 6
1 , se x ≥ 6
13
0, 6 = 0, 02k 2 + 0, 06k − 0, 08 ⇒
0, 02k 2 + 0, 06k − 0, 68 = 0 ⇒
k 2 + 3k − 34 = 0 ⇒
√
−3 ± 9 + 4 × 34
k = = 4, 5208
2
Distribuição Uniforme
Uma variável aleatória contínua X tem distribuição uniforme no intervalo [a, b] (finito) se sua
função densidade de probabilidade constante nesse intervalo, ou seja, temos que ter
f(x) = k ∀x ∈ [a, b] .
Para que tal função seja uma função densidade de probabilidade, temos que ter k > 0 e a área
do retângulo tem que ser 1, ou seja,
1
(b − a) × k = 1 ⇒ k =
b−a
14 AULA 1. VARIÁVEIS ALEATÓRIAS CONTÍNUAS
Logo, a função de densidade de uma variável aleatória uniforme no intervalo [a, b] é dada por
1
b−a se x ∈ [a, b]
f(x) = (1.2)
0 caso contrário
Os valores a e b são chamados parâmetros da distribuição uniforme; note que ambos têm que
ser finitos para que a área sob a curva seja igual a 1. Quando a = 0 e b = 1 temos a uniforme
padrão, denotada por U(0, 1).
e essa probabilidade é dada pela área sob a curva de densidade à esquerda de x, conforme ilustrado
na Figura 1.17.
1
Essa área é a área de um retângulo com base (x − a) e altura . Logo,
b−a
0 se x < a
x −a
F (x) = se a ≤ x ≤ b (1.3)
b−a
se x > b
1
Esperança e Variância
Das propriedades da esperança e das características da densidade uniforme, sabemos que E(X )
é o ponto médio do intervalo [a, b] :
a+b
E (X ) =
2
15
(b − a)2
V ar (X ) =
12
Resumo
Nesta aula você iniciou o estudo sobre variáveis aleatórias contínuas, aprendendo os seguintes
conceitos:
• Função densidade de probabilidade é uma função f(x) que satisfaz as seguintes propriedades:
? f(x) ≥ 0
• Dada uma função de densidade f(x) referente a uma variável aleatória X , então P(a ≤ X ≤ b)
é a área sob a curva limitada pelos pontos a e b.
F (x) = Pr(X ≤ x) ∀x ∈ R
a+b
E(X ) =
2
(b − a)2
V ar(X ) =
2
16 AULA 1. VARIÁVEIS ALEATÓRIAS CONTÍNUAS
Exercícios
(b) Encontre o valor de K para que g(x) seja uma função densidade de probabilidade.
2. A demanda diária de arroz num supermercado, em centenas de quilos, é uma variável aleatória
com função densidade de probabilidade dada por
3x se 0 ≤ x < 1
2
f(x) = − x3 + 1 se 1 ≤ x < 3
0 se x < 0 ou x > 3
(a) Qual é a probabilidade de se vender mais de 150kg de arroz num dia escolhido ao acaso?
(b) Qual a quantidade de arroz que deve ser deixada à disposição dos clientes diariamente
para que não falte arroz em 95% dos dias?
3. Seja X uma variável aleatória com função densidade de probabilidade dada por
(
2x se 0 ≤ x ≤ 1
fX (x) =
0 caso contrário
Calcule Pr X ≤ 1
2 | 1
3 ≤X ≤ 2
3 .
4. Latas de coca-cola são enchidas num processo automático segundo uma distribuição uniforme
no intervalo (em ml) [345,355].
(c) Qualquer lata com volume 4 ml abaixo da média pode gerar reclamação do consumidor
e com volume 4 ml acima da média pode transbordar no momento de abertura, devido à
pressão interna. Qual é a proporção de latas problemáticas?
5. Seja X uma variável aleatória com distribuição uniforme no intervalo [a,b], com a < b. Se E(X)
= 7,5 e Var(X) = 6,75, determine os valores de a e b.
17
1. (a) Veja a Figura 1.19. Note que g(0) = 2K e g(1) = K e g(x) é uma função linear.
(b) A área total, que deve ser igual a 1, é a área de um trapézio com altura h = 1, base maior
igual a 2K e base menor igual a K . Logo,
K + 2K 2
1= ×1⇒K =
2 3
(c) Para cada x ∈ [0, 1], FX (x) é a área de um trapézio de altura x, base menor igual a
fX (x) = 23 (2 − x) e base maior igual a 43 . Veja a Figura 1.20. Logo,
4
+ 23 (2 − x) 2 1
FX (x) = 3
x = x + (2 − x)x 0≤x≤1
2 3 3
Resulta que
0 , se x < 0
FX (x) = 3x
4
− 13 x 2 , se 0 ≤ x < 10
1 , se x > 1
FX (Q1 ) = 0, 25 ⇒
4 1 1
Q1 − Q12 = ⇒
3 3 4
16Q1 − 4Q1 2 = 3 ⇒
4Q12 − 16Q1 + 3 = 0 ⇒
Q12 − 4Q1 + 0, 75 = 0 ⇒
√ √
4± 16 − 4 × 0, 75 4 ± 13
Q1 = =
2 2
FX (Q2 ) = 0, 5 ⇒
4 1 1
Q2 − Q22 = ⇒
3 3 2
8Q2 − 2Q2 = 3 ⇒
2
2Q22 − 8Q2 + 3 = 0 ⇒
Q22 − 4Q2 + 1, 5 = 0 ⇒
√ √
4± 16 − 4 × 1, 5 4 ± 10
Q2 = =
2 2
19
FX (Q3 ) = 0, 75 ⇒
4 1 3
Q3 − Q32 = ⇒
3 3 4
16Q3 − 4Q3 = 9 ⇒
2
4Q32 − 16Q3 + 9 = 0 ⇒
9
Q32 − 4Q3 + = 0 ⇒
√4 √
4 ± 16 − 4 × 2.25 4± 7
Q3 = =
2 2
2. Seja X a variável aleatória que representa a demanda diária de arroz, em centenas de quilos.
(a) Na Figura 1.21, temos o gráfico da função densidade de X , onde a área do triângulo
sombreado representa Pr(X ≥ 1, 5). Nesse triângulo, a base é 3 − 1, 5 = 1, 5, e a altura é
−1,5
f(1, 5) = 3 + 1. Logo,
1 1 3 1 3
Pr(X ≥ 1, 5) = × 1, 5 × 0, 5 = × × =
2 2 2 2 8
(b) Seja k o valor a estocar. Para que a demanda seja atendida, é necessário que a quantidade
demandada seja menor que a quantidade em estoque. Logo, queremos encontrar o valor
de k tal que Pr(X ≤ k) = 0, 95.
Como P(X ≤ 1) = 31 , k tem que ser maior que 1, ou seja, k está no triângulo superior. Veja
a Figura 1.22.
20 AULA 1. VARIÁVEIS ALEATÓRIAS CONTÍNUAS
P(A ∩ B)
3. Sabemos que Pr(A|B) = . Assim,
P(B)
1 1 2
P X≤ ∩ ≤X ≤
1 1 2
P X ≤ | ≤X ≤
2 3 3
=
1 2
≤X ≤
2 3 3
P
3 3
1 1
P ≤X ≤
3 2
=
1 2
Pr ≤X ≤
3 3
2 1 1 2 2 4
O trapézio sombreado completo tem altura − = , base maior igual a f = 2× =
3 3 3 3 3 3
1 1 2
e base menor igual a f = 2 × = . Logo,
3 3 3
2
1 1+
5 1
1 1 2
3 × ×
P X ≤ | ≤X ≤ = 2 6 = 3 6 = 5
4 2 1
2×
2 3 3 12
+ 1
3 3 × 3
2 3
(a) Pede-se
355 − 353
P(X > 353) = = 0, 2
355 − 345
(b) Pede-se
346 − 345
P(X < 346) = P(X ≤ 346) = = 0, 1
355 − 345
(c) A média é 350. Então, as latas sem problemas têm volume entre 350 − 4 = 346 e 350 + 4 =
354 ml.
354 − 346
P(346 < X < 354) = = 0, 8
355 − 345
5. É dado que
a+b
E(X ) = = 7, 5
2
(b − a)2
V ar(X ) = = 6, 75
12
(b − 15 + b)2
= 6, 75 ⇒
12
(2b − 15)2 = 81 ⇒
|2b − 15| = 9 ⇒
2b − 15 = ±9
As soluções são b = 12 e b = 3. Mas b = 3 implica que a = 12; como b > a, essa não é uma
solução possível. Assim, a = 3 e b = 12.
Aula 2
A Distribuição Normal
Nesta aula, você estudará a distribuição normal, que é uma das mais importantes distribuições
contínuas. Você verá a definição geral dessa distribuição, mas nos concentraremos, nesse primeiro
momento, na distribuição normal padrão, com ênfase no cálculo de probabilidades associadas a tal
variável. Assim, você verá os seguintes tópicos nesta aula:
Uma variável aleatória contínua X tem distribuição normal se sua função de densidade de
probabilidade é dada por
(x − µ)2
fX (x) = √
1
exp − , −∞ < x < ∞ (2.1)
2πσ 2 2σ 2
Analisando essa expressão, podemos ver que ela está definida para todo x ∈ R e depende de dois
parâmetros: µ e σ . Outras características importantes dessa função são as seguintes:
24 AULA 2. A DISTRIBUIÇÃO NORMAL
Pode-se mostrar, usando técnicas de cálculo integral, que a área sob a curva de densidade
normal é igual a 1 e, como a função exponencial é sempre não negativa, resulta que a função fX dada
na equação (2.1) realmente define uma função densidade de probabilidade.
Esperança e Variância
E(X ) = µ
X ∼ N µ; σ 2 ⇒ Var(X ) = σ 2
DP(X ) = σ
Vamos usar a seguinte notação: indicaremos o fato de uma variável aleatória X ter distribuição
normal com média µ e variância σ 2 pela notação X ∼ N µ; σ 2 .
Na Figura 2.2a, temos os gráficos das seguintes distribuições normais: N(0; 1) e N(3; 1), ou
seja, duas distribuições normais com médias diferentes e variâncias iguais. Note que o efeito de se
mudar a média é simplesmente deslocar o gráfico, mudando o seu eixo de simetria.
25
Na Figura 2.2b, temos duas distribuições normais com a mesma média µ = 3, mas com
variâncias diferentes – σ 2 = 1 e σ 2 = 4. Note que a distribuição continua em forma de sino, mas
a dispersão muda – lembre-se de que variância e desvio padrão são medidas de dispersão. Como o
máximo da função é √ 1 , inversamente proporcional ao desvio padrão, quanto maior a variância,
2πσ 2
“mais baixa” é a curva; para compensar esse fato e continuar com área sob a curva igual a 1, a curva
fica mais “espalhada” , ou seja, mais dispersa.
(a) Variâncias iguais, médias diferentes (b) Médias iguais, variâncias diferentes
Como antes, a função de distribuição acumulada é definida como F (x) = Pr(X ≤ x). Na Figura
2.3 temos as distribuições acumuladas para as densidades N(0; 1), N(3; 1) e N(3; 4). Note que, pela
simetria da curva em torno da média, qualquer que seja a densidade normal, F (µ) = 0, 5, ou seja, o
eixo de simetria divide a área em duas partes iguais. Vemos, então, que para a densidade N(0; 1),
F (0) = 0, 5 e para as densidades N(3; 1) e N(3; 4), F (3) = 0, 5.
É comum também representar uma variável aleatória com distribuição normal padronizada pela letra
Z . Além de ser um caso especial, a densidade normal padrão tem papel importante no cálculo de
probabilidades associadas às densidades normais, como veremos na próxima aula.
Na última aula, você aprendeu que o cálculo de probabilidades associadas a variáveis aleatórias
contínuas envolve cálculo de áreas sob a curva de densidade (mais precisamente, cálculo de integral
da função densidade). Isso, obviamente, continua valendo para a densidade normal. A diferença está
no fato de que o cálculo de áreas sob a curva normal envolve métodos numéricos mais complexos
e, para facilitar esses cálculos, podemos usar uma tabela em que alguns valores já se encontram
calculados.
A Tabela 1 dada ao final dessa aula será usada para calcular probabilidades associadas a uma
variável aleatória normal padrão Z . Assim, com essa tabela, poderemos calcular probabilidades do
tipo P(Z > 1), P(Z ≤ 3), P(−1 ≤ Z ≤ 2) etc.
P(0 ≤ Z ≤ z) = tab(z).
Com relação à abscissa z, seus valores são apresentados na tabela ao longo da coluna lateral à
esquerda em conjunto com a linha superior. Na coluna à esquerda, temos a casa inteira e a primeira
casa decimal; na linha superior, temos a segunda casa decimal. Por exemplo, ao longo da primeira
linha da tabela, temos probabilidades associadas às abscissas 0,00; 0,01; 0,02, . . . , 0,09; na segunda
linha da tabela, temos probabilidades associadas às abscissas 0,10; 0,11; 0,12; . . . , 0,19; na última
linha da tabela, temos probabilidades associadas às abscissas 4,00; 4,01; 4,02; . . . ; 4,09.
Note que esta tabela apresenta probabilidades correspondentes a abscissas positivas. Para
calcular probabilidades associadas a abscissas negativas, teremos que usar o fato de a curva da
densidade normal ser simétrica. Sempre faça um esboço do gráfico da função densidade, sombreando
a área correspondente à probabilidade desejada; isso lhe ajudará no cálculo da probabilidade. Vamos
terminar esta seção apresentando vários exemplos de cálculos de probabilidades para uma variável
aleatória Z com distribuição normal padrão, ou seja, no que segue, Z ∼ N(0; 1). Os exemplos
apresentados cobrem todas as situações possíveis. Assim, é importante que você entenda bem a
situação ilustrada em cada um dos exemplos, para poder aplicar o método de solução adequado.
Exemplo 2.1
A partir da Tabela 1 calcule P(0 ≤ Z ≤ 1, 22).
Solução:
Veja a Figura 2.4. Essa probabilidade é dada diretamente na Tabela 1, utilizando a entrada
correspondente à linha 1,2 e à coluna com o valor 2. O resultado é
Exemplo 2.2
A partir da Tabela 1, calcule P(1 ≤ Z ≤ 2).
Solução:
Note que este exemplo trata da probabilidade entre duas abscissas positivas. Na Figura 2.5 ilustra-
se a probabilidade desejada como a área sombreada no gráfico da primeira linha; essa probabilidade
pode ser obtida pela diferença entre a área da figura na segunda linha, P(0 ≤ Z ≤ 2), e a área da
figura na terceira linha, P(0 ≤ Z ≤ 1), cujos valores são encontrados na Tabela 1, conforme ilustram
as respectivas tabelas. Logo,
28 AULA 2. A DISTRIBUIÇÃO NORMAL
Exemplo 2.3
A partir da Tabela 1, calcule P(Z ≥ 1).
Solução:
Note que este exemplo trata da probabilidade de Z ser maior que uma abscissa positiva. Na Figura
2.6, ilustra-se essa probabilidade como a área sombreada do gráfico da primeira linha, que pode ser
obtida pela diferença entre a área da figura à esquerda na segunda linha, P(Z ≥ 0), e a área da
figura à direita na segunda linha, P(0 ≤ Z ≤ 1). Concluímos, então, que
Exemplo 2.4
29
Solução:
Note que este exemplo trata da probabilidade de Z ser menor que uma abscissa positiva. Na Figura
2.7 ilustra-se a probabilidade desejada como a área sombreada na figura da linha superior, que
pode ser obtida pela soma das áreas das figuras na segunda linha, que representam P(Z ≤ 0) e
P(0 ≤ Z ≤ 1). Concluímos, então, que
Exemplo 2.5
A partir da Tabela 1, calcule P(Z ≤ −0, 5)
Solução:
Note que este exemplo trata da probabilidade de Z ser menor que uma abscissa negativa e, agora,
começamos a trabalhar com abscissas negativas. Na Figura 2.8, ilustra-se a probabilidade desejada
como a área sombreada no gráfico à esquerda. Pela simetria da curva de densidade normal, essa
área é igual à área sombreada na figura à direita, que corresponde a P(Z ≥ 0, 5), que já foi estudada
no Exemplo 2.3. Concluímos, então, que
Exemplo 2.6
A partir da Tabela 1, calcule P(Z ≥ −0, 5)
Solução:
Note que este exemplo trata da probabilidade de Z ser maior que uma abscissa negativa. Na Figura
2.9 ilustra-se essa probabilidade como a área sombreada no gráfico da primeira linha. Essa área é a
soma das áreas sombreadas nas duas primeiras figuras da segunda linha, que representam P(Z ≥ 0)
e P(−0, 5 ≤ Z ≤ 0). Essa última área, por sua vez, é igual à área representada na figura mais á
direita da segunda linha, pela simetria da curva de densidade. Concluímos, então, que
Exemplo 2.7
A partir da Tabela 1, calcule calcule P(−1, 85 ≤ Z ≤ −0, 53).
Solução:
Note que este exemplo trata da probabilidade de Z estar entre duas abscissas negativas. Na Figura
2.10 ilustra-se a probabilidade desejada como a área sombreada no gráfico à esquerda. Por simetria,
essa área é igual à área ilustrada na figura à direita, já analisada no Exemplo 2.2. Concluímos, então,
que
P(−1, 85 ≤ Z ≤ −0, 53) = P(0, 53 ≤ Z ≤ 1, 85) = tab(1, 85) − tab(0, 53) = 0, 4678 − 0, 2019 = 0, 2659
Exemplo 2.8
A partir da Tabela calcule P(−1, 85 ≤ Z ≤ 0, 53).
Solução:
Note que este exemplo trata da probabilidade de Z estar entre duas abscissas, uma negativa e outra
positiva. Na Figura 2.11 ilustra-se a probabilidade como a área do gráfico à esquerda na primeira
linha. Essa área é a soma das áreas sombreadas na figura à direita da primeira linha, tab(0, 53), e
na figura à esquerda da segunda linha, P(−1, 85 ≤ Z ≤ 0). Por simetria, essa última área é igual à
área sombreada na figura à direita da segunda linha, o que nos leva à conclusão de que
Nos exemplos vistos até o momento, consideramos situações em que tínhamos uma abscissa
de uma distribuição normal padronizada e queríamos alguma probabilidade associada a tal
abscissa. Agora, vamos lidar com a situação inversa: dada uma probabilidade, qual é a abscissa
correspondente? Posto de outra forma, vamos calcular separatrizes da distribuição normal padrão.
Exemplo 2.9
Se Z ∼ N(0; 1), determine o valor de k tal que P(Z ≤ k) = 0, 90.
Solução:
Vamos “traduzir” esse problema em termos probabilísticos: queremos encontrar a abscissa k da
normal padrão tal que a probabilidade à esquerda dela seja 0,90, ou seja, queremos encontrar o 90o
percentil da N(0; 1). Como 0,90 é a área à esquerda de k, resulta que k tem que ser maior que zero,
32 AULA 2. A DISTRIBUIÇÃO NORMAL
pois, para qualquer abscissa negativa, a área à esquerda dela será menor que 0,5, que é P(Z ≤ 0).
Então, temos que ter k > 0. Veja o gráfico à esquerda na Figura 2.12. No gráfico à direita, temos a
decomposição da área total em duas partes: a parte mais escura é P(Z ≤ 0) = 0, 5 e a parte mais
clara é 0, 40 = tab(k).
P(Z ≤ k) = 0, 90 ⇔
P(Z ≤ 0) + P(0 < Z ≤ k) = 0, 90 ⇔
0, 5 + P(0 < Z ≤ k) = 0, 90 ⇔
P(0 < Z ≤ k) = 0, 40 ⇔
tab(k) = 0, 40
Esta última igualdade nos diz que k é a abscissa correspondente ao valor 0,40 na Tabela 1. Para
identificar k, temos que buscar, no corpo dessa tabela, o valor mais próximo de 0,40. Na linha
correspondente ao valor 1,2 encontramos as entradas 0,3997 e 0,4015. Veja a tabela a seguir. Como
a primeira está mais próxima de 0,40, olhamos qual é a abscissa correspondente: a linha é 1,2 e a
coluna é 8, o que nos dá a abscissa de 1,28, ou seja, k = 1, 28 e, portanto, P(Z ≤ 1, 28) = 0, 90,
completando a solução.
É importante notar que esse exemplo ilustra situações em que buscamos abscissas da normal
padrão tais que, à esquerda delas, a área é maior que 0,5. Essas são abscissas positivas!
Exemplo 2.10
Se Z ∼ N(0; 1), determine o valor de k tal que P(Z ≤ k) = 0, 05.
33
Solução:
Aqui queremos encontrar a abscissa k da normal padrão tal que a probabilidade à esquerda dela
seja 0,05, ou seja, temos que encontrar o 5o percentil da N(0; 1). Como 0,05 é a área à esquerda de k,
resulta que k tem que ser menor que zero, isto é, temos que ter k < 0. Qualquer valor k > 0 resultaria
em probabilidade à esquerda maior que 0,5, uma vez que P(Z ≤ 0) = 0, 5. Isso está ilustrado no
gráfico à esquerda na Figura 2.13. Como a Tabela 1 lida com abscissas positivas apenas, temos que
transpor usando a simetria: se à esquerda de k temos área 0,05, por simetria, à direita de −k temos
também área 0,05. Logo, entre 0 e −k temos área 0,45. Veja o gráfico à direita na Figura 2.13.
Esta última igualdade nos diz que −k é a abscissa correspondente ao valor 0,45 na Tabela 1. Para
identificar −k, temos que buscar, no corpo dessa tabela, o valor mais próximo de 0,45. Na linha
correspondente ao valor 1,6 encontramos as entradas 0,4495 e 0,4505, ambas equidistantes de 0,45,
conforme ilustrado na tabela a seguir. Qualquer uma das abscissas correspondentes pode ser solução,
ao utilizar a Tabela 1; no entanto, quando trabalhamos com mais casas decimais, a abscissa 1,64
fornece resultado mais próximo. Sendo assim, nesse curso, sempre adotaremos a abscissa 1,64 como
a abscissa que deixa área 0,05 acima dela na densidade normal padrão. Sendo assim, −k = 1, 64 e
k = −1, 64, ou seja, P(Z ≤ −1, 64) = 0, 05, completando a solução.
É importante notar que esse exemplo ilustra situações em que buscamos abscissas da normal
padrão tais que, à esquerda delas, a área é menor que 0,5. Essas são abscissas negativas!
34 AULA 2. A DISTRIBUIÇÃO NORMAL
Exemplo 2.11
Se Z ∼ N(0; 1), determine o valor de k tal que P(Z ≥ k) = 0, 025.
Solução:
Aqui queremos encontrar a abscissa k da normal padrão tal que a área à direita dela seja 0,025.
Essa abscissa tem que ser positiva, já que a área à direita dela é menor que 0,5. Veja o gráfico à
esquerda na Figura 2.14. Conforme pode ser visto no gráfico à direita, temos a seguinte equivalência:
e assim recaímos no Exemplo 2.9. Temos que buscar na Tabela 1 a abscissa k tal que tab(k) =
0, 5 − 0, 025 = 0, 475. Resulta que k = 1, 96.
Exemplo 2.12
Se Z ∼ N(0; 1), determine o valor de k tal que P(Z ≥ k) = 0, 99.
Solução:
Aqui queremos encontrar a abscissa k da normal padrão tal que a área à direita dela seja 0,99. Então
temos que ter k < 0. Mas temos a seguinte equivalência:
e assim recaímos no Exemplo 2.10. Temos que buscar na Tabela 1 a abscissa −k tal que tab(−k) =
0, 5 − 0, 01 = 0, 49. Resulta que −k = 2, 33 e, portanto, k = −2, 33.
• |x| ≥ 0
A primeira propriedade implica que o gráfico da função está nos dois quadrantes superiores,
que correspondem a ordenadas positivas. A segunda propriedade está ilustrada para x = −4 e x = 4
na Figura 2.15b. Note aí que | − 4| = |4| = 4.
Uma outra propriedade importante envolve desigualdades com módulo. Volte à Figura 2.15b
e observe que, para qualquer valor de x no intervalo (−4, 4), o valor do seu módulo será menor que
4. Por exemplo, para x = −2, 5, as linhas pontilhadas em cinza indicam que | − 2, 5| = 2, 5 < 4. De
forma geral, temos o seguinte resultado, ilustrado na Figura 2.16:
Exemplo 2.13
Se Z ∼ N(0; 1), determine o valor de k tal que P(|Z | ≤ k) = 0, 95.
36 AULA 2. A DISTRIBUIÇÃO NORMAL
Solução:
Uma observação importante é que k > 0! É impossível ter módulo negativo! Vamos usar a propriedade
(2.2), assim como o fato de a densidade normal ser simétrica (veja os gráficos na Figura 2.17:
P(|Z | ≤ k) = 0, 95 |{z}
⇔ P(−k ≤ Z ≤ k) = 0, 95 |{z}
⇔ 2 · tab(k) = 0, 95 ⇔ tab(k) = 0, 475
(2.2) simetria
Temos, então, que buscar no corpo da Tabela 1 o valor mais próximo de 0,475 e identificar a abscissa
correspondente. Vemos que a solução é k = 1, 96.
Exemplo 2.14
Se Z ∼ N(0; 1), determine o valor de k tal que P(|Z | ≥ k) = 0, 2.
Solução:
Como antes, temos que ter k > 0! Vamos usar a propriedade (2.3), assim como o fato de a densidade
normal ser simétrica (veja os gráficos na Figura 2.18:
P(|Z | ≥ k) = 0, 20 |{z}
⇔ P(Z ≤ −k) + P(Z ≥ k) = 0, 20 |{z}
⇔ 2 · P(| > k) = 0, 20
(2.3) simetria
⇔ P(Z ≥ k) = 0, 10 ⇔ tab(k) = 0, 40
Temos, então, que buscar no corpo da Tabela 1 o valor mais próximo de 0,4 e identificar a abscissa
correspondente. Vemos que a solução é k = 1, 28. Esse exemplo poderia ser resolvido de forma
análoga ao exemplo anterior, apenas observando que
Exemplo 2.15
Se Z ∼ N(0; 1), calcule P(|Z | < 1, 0).
Solução:
Exemplo 2.16
Se Z ∼ N(0; 1), calcule P(|Z | ≥ 2, 33).
Solução:
P(|Z | ≥ 2, 33) = P(Z ≥ 2, 33) + P(Z ≤ −2, 33) = 2 · P(Z > 2, 33)
= 2 · [0, 5 − tab(2, 33)] = 2 · (0, 5 − 0, 4901) = 0, 0198 ≈ 0, 02
Você pode usar o seguinte resultado, decorrente da lei do complementar da probabilidade, para
resolver problemas envolvendo desigualdades com módulo:
Sendo assim, veja qual par de exemplos lhe parece maís fácil de entender: exemplos 2.13 e 2.15 ou
exemplos 2.14 e 2.16. Entenda bem e resolva o outro tipo usando o resultado (2.4).
P(|Z | > 2, 33) = 1 − P(|Z | < 2, 33) = 1 − 2 · tab(2, 33) = 1 − 2 · 0, 4901 = 0, 0198.
Muitos livros trabalham com a tabela da função de distribuição da normal padrão Φ, definida
por:
Φ(z) = P(Z ≤ z).
38 AULA 2. A DISTRIBUIÇÃO NORMAL
que é apresentada como Tabela 2 ao final desta aula. A título de completitude do estudo sobre a
distribuição normal, vamos usar essa tabela para refazer os exemplos vistos anteriormente, que serão
apresentados em uma ordem diferente, mais didaticamente apropriada para o novo contexto. No
entanto, nas provas será utilizada a Tabela 1. Sendo assim, o estudo desta seção é opcional.
Exemplo 2.17
A partir da Tabela 2, calcule P(Z ≤ 1)
Solução:
Essa probabilidade resulta diretamente da definição de distribuição acumulada:
Exemplo 2.18
A partir da Tabela 2, calcule P(Z ≥ 1)
Solução:
Pela lei do complementar, temos que
Mas, como Z é uma variável aleatória contínua, sabemos que P(Z = z) = 0. Logo
Logo,
P(Z ≥ 1) = 1 − P(Z < 1) = 1 − P(Z ≤ 1) = 1 − Φ(1, 0) = 1 − 0, 8413 = 0, 1587
Exemplo 2.19
A partir da Tabela 2, calcule P(Z ≤ −0, 5)
Solução:
Vimos, no Exemplo 2.5, que
P(Z ≤ −0, 5) = P(Z ≥ 0, 5)
Logo,
39
Exemplo 2.20
A partir da Tabela 2, calcule P(Z ≥ −0, 5).
Solução:
Veja os gráficos na Figura 2.19.
P(Z ≥ −0, 5) = 1 − P(Z < −0, 5) = 1 − P(Z > 0, 5) = P(Z ≤ 0, 5) = Φ(0, 5) = 0, 6915
Exemplo 2.21
A partir da Tabela 2, calcule P(0 ≤ Z ≤ 1, 22).
Solução:
Na Figura 2.20, a probabilidade é a área sombreada no gráfico da primeira linha. Essa área pode
ser obtida como a diferença das áreas sombreadas nos dois gráficos da segunda linha, ou seja:.
P(0 ≤ Z ≤ 1, 22) = P(Z ≤ 1, 22) − P(Z ≤ 0) = Φ(1, 22) − Φ(0) = 0, 8888 − 0, 5 = 0, 3888
Exemplo 2.22
A partir da Tabela 2, calcule P(1 ≤ Z ≤ 2).
Solução:
Na Figura 2.21, a probabilidade é a área sombreada no gráfico da primeira linha. Essa área pode
40 AULA 2. A DISTRIBUIÇÃO NORMAL
ser obtida como a diferença das áreas sombreadas nos dois gráficos da segunda linha, ou seja:.
Exemplo 2.23
A partir da Tabela 2, calcule P(−2, 1 ≤ Z ≤ −1, 4)
Solução:
Usando os resultados do Exemplo 2.22, temos que
Exemplo 2.24
A partir da Tabela 2, calcule P(−2, 1 ≤ Z ≤ 1, 4)
Solução:
Usando os resultados do Exemplo 2.19, temos que
41
Exercícios propostos
2. Usando a Tabela 1, determine o valor de k que satisfaz cada uma das condições a seguir.
Na solução dos exercícios, é fundamental que você faça desenhos do gráfico da normal,
sombreando a área correspondente à probabilidade pedida.
1. (a) P(−2, 34 ≤ Z ≤ 1, 02) = tab(1, 02) + tab(2, 34) = 0, 3461 + 0, 4904 = 0, 8365
(b) P(1, 36 ≤ Z ≤ 4, 50) = tab(4, 50) − tab(1, 36) = 0, 5 − 0, 4131 = 0, 0869
(c) P(Z ≥ −2, 35) = 0, 5 + tab(2, 35) = 0, 5 + 0, 4906 = 0, 9906
(d) P(Z > 4, 80) = 0, 5 − tab(4, 80) = 0, 5 − 0, 5 = 0
42 AULA 2. A DISTRIBUIÇÃO NORMAL
Nesta aula, serão apresentados resultados básicos sobre a distribuição normal, que permitirão
que você calcule probabilidades associadas a qualquer variável aleatória normal, e isso ampliará o
escopo de aplicações práticas.
Na aula anterior, você viu como usar a tabela da distribuição normal padrão para calcular
probabilidades associadas à variável normal padronizada. Essa tabela é necessária para fazer os
cálculos, pois não é “fácil” calcular áreas sob a curva da densidade normal padrão.
Aquela tabela faz referência ao caso em que µ = 0 e σ 2 = 1. Será que teremos que usar
uma tabela diferente para outros valores de µ e σ ? Felizmente, a resposta é NÃO, graças a uma
propriedade muito interessante da distribuição normal que estabelece o seguinte resultado:
X −µ
X ∼ N µ; σ 2 =⇒ Z = ∼ N(0; 1) (3.1)
σ
X −µ
Note que a transformação σ é uma transformação linear, que é uma transformação biunívoca.
Como na aula anterior, vamos apresentar vários exemplos para fixar os conceitos e procedimentos.
Nesses exemplos apresentaremos os cálculos apenas em termos da Tabela 1, que será a tabela a ser
dada nas provas, lembrando a notação definida anteriormente: tab(z) = P(0 ≤ Z ≤ z).
44 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
É importante que você faça um esboço do gráfico da N(0; 1) sombreando a área desejada.
Exemplo 3.1
Se X ∼ N(1; 4), calcule P(X ≤ 3).
Solução:
Temos que X é uma variável aleatória normal com média 1 e variância 4 e a seguinte equivalência
de eventos:
X −1 3−1
X ≤3 ⇐⇒ √ ≤ √
4 4
Veja que subtraímos a mesma constante e dividimos pela mesma constante em ambos os lados
X√−1
da desigualdade. Mas, pelo resultado acima, Z = 4
∼ N(0; 1). Logo,
X −1 3−1 3−1
P(X ≤ 3) = P √ ≤ √ =P Z ≤ √ = P(Z ≤ 1)
4 4 4
Exemplo 3.2
Se X ∼ N(3; 9), calcule P(−1 ≤ X ≤ 4).
Solução:
Esse exemplo trata da probabilidade entre uma abscissa menor que a média e outra maior que a
média. Em termos dos escores padronizados, isso se traduz em um escore negativo e outro positivo.
Veja os gráficos na Figura 3.2.
−1 − 3 X −3 4−3
P(−1 ≤ X ≤ 4) = P √ ≤ √ ≤ √
9 9 9
= P (−1, 33 ≤ Z ≤ 0, 33) = tab(0, 33) + tab(1, 33)
= 0, 12930 + 0, 40824 = 0, 53754
Exemplo 3.3
Se X ∼ N(2; 5), calcule P(−1 ≤ X ≤ 1).
Solução:
Esse exemplo trata da probabilidade entre duas abscissas menores que a média. Na normal
padronizada, isso corresponderá a dois escores negativos. Veja os gráficos na Figura 3.3.
−1 − 2 X −2 1−2
P(−1 ≤ X ≤ 1) = P √ ≤ √ ≤ √
5 5 5
= P (−1, 34 ≤ Z ≤ −0, 45) = P (0, 45 ≤ Z ≤ 1, 34)
= tab(1, 34) − tab(0, 45) = 0, 4099 − 0, 1736 = 0, 2363
46 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
Exemplo 3.4
Se X ∼ N(5, 4), calcule P(X > 7).
Solução:
Esse exemplo trata da probabilidade à direita de uma abscissa maior que a média; na normal padrão,
teremos uma probabilidade à direita de um escore positivo. Veja os gráficos na Figura 3.4.
X −5 7−5
P(X > 7) = P >
2 2
= P(Z > 1) = 0, 5 − tab(1, 0) = 0, 5 − 0, 3413 = 0, 1587
Exemplo 3.5
Se X ∼ N(4; 6, 25), calcule P(X < 7).
Solução:
Esse exemplo trata da probabilidade à esquerda de uma abscissa maior que a média; na normal
padrão, teremos uma probabilidade à esquerda de um escore positivo. Veja os gráficos na Figura 3.5.
47
X −4 7−5
P(X < 7) = P √ > = P(Z < 1, 2)
6, 25 2
= 0, 5 + tab(1, 2) = 0, 5 + 0, 3849 = 0, 8849
Solução:
Note que essa probabilidade corresponde à probabilidade de X estar a uma distância de k desvios-
padrão da média.
µ − kσ − µ X −µ µ + kσ − µ
P(µ − kσ ≤ X ≤ µ + kσ ) = P ≤ ≤ = P(−k ≤ Z ≤ k)
σ σ σ
É importante observar que chegamos a uma probabilidade que não depende de µ ou σ , ou seja, esse
resultado vale, qualquer que seja a distribuição normal.
• k =1
• k =2
• k =3
• 99,73% dos valores estão a três desvios-padrão da média e, portanto, apenas 0,27% dos valores
estão acima de três desvios-padrão da média.
Nos exemplos vistos até o momento, consideramos situações em que tínhamos uma abscissa
de uma distribuição normal e queríamos alguma probabilidade associada a essa abscissa. Agora,
vamos lidar com a situação inversa: dada uma probabilidade, qual é a abscissa correspondente? Eis
algumas situações que envolvem esse tipo de problema: (i) Em uma turma de Estatística, os 10%
melhores alunos receberão um livro de presente. Qual a menor nota que dá direito a um livro de
presente? (ii) Em uma comunidade, as famílias com as 15% piores rendas irão receber um auxílio da
prefeitura. Qual a renda familiar máxima que garante o auxílio da prefeitura?
Como no caso da normal padrão, isso corresponde ao cálculo de separatrizes de uma distribuição
normal.
49
Exemplo 3.7
Se X ∼ N(3; 4), determine o valor de k tal que P(X ≤ k) = 0, 90.
Solução:
Como a probabilidade à esquerda de k é maior que 0,5, k tem que ser maior que a média – k > 3. O
primeiro passo na solução é escrever a probabilidade dada em termos da normal padrão.
X −3 k −3 k −3
P(X ≤ k) = 0, 90 ⇔ P ≤ = 0, 90 ⇔ P Z ≤ = 0, 90 ⇔
2 2 2
k −3 k −3
P(Z ≤ 0) + P 0 ≤ Z ≤ = 0, 90 ⇔ 0, 5 + tab = 0, 90 ⇔
2 2
k −3 k −3
tab = 0, 40 ⇔ = 1, 28 ⇔ k = 5, 56
2 2
De maneira mais direta, temos o seguinte: qualquer que seja a forma de solução, temos que
k−3
padronizar a abscissa. Padronizando, resulta em 2 . Veja o gráfico à esquerda na Figura a 3.7.
Como acima dela temos 0,10, temos que procurar, na Tabela 1, o valor 0,40 e isso nos leva à abscissa
1,28. Veja o gráfico à direita na mesma figura. Logo,
k −3
= 1, 28 ⇒ k = 5, 56.
2
Exemplo 3.8
Se X ∼ N(3; 4), determine o valor de k tal que P(X ≤ k) = 0, 05.
Solução:
À esquerda de k temos 5% da área total; logo, k tem que ser menor que a média, ou seja, temos que
ter k < 3 e a abscissa padronizada correspondente tem que ser negativa (menor que a média 0).
X −3 k −3 k −3
P(X ≤ k) = 0, 05 ⇔ P ≤ = 0, 05 ⇔ P Z ≤ = 0, 05
2 2 2
k−3 k−3
Como a área (probabilidade) à esquerda de 2 é menor que 0, 5, isso significa que 2 tem que
ser negativo. Veja o gráfico à esquerda na Figura 3.8. Para nos adequarmos à Tabela 1, temos que
trabalhar com abscissas positivas, ou seja, temos que usar a simetria da curva. Veja o gráfico à direita
k −3 k −3 3−k
na Figura 3.8 e note que a abscissa simétrica a é− = .
2 2 2
50 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
Uma outra forma de resolver o exercício é a seguinte: como a abscissa padronizada tem
que ser negativa, buscamos a abscissa positiva na tabela e depois trocamos seu sinal a equação
correspondente. Veja a Figura 3.9.
Exemplo 3.9
Se X ∼ N(3; 4), determine o valor de k tal que P(| X − 3 | ≤ k) = 0, 95.
Solução:
51
P(| X − 3 | ≤ k) = 0, 95 ⇔ P(−k ≤ X − 3 ≤ k) = 0, 95 ⇔
P (3 − k ≤ X ≤ k + 3) = 0, 95 ⇔
3−k −3 X −3 k +3−3 k k
P ≤ ≤ = 0, 95 ⇔ P − ≤ Z ≤ = 0, 95 ⇔
2 2 2 2 2
k k k
2 · tab = 0, 95 ⇔ tab = 0, 475 ⇔ = 1, 96 ⇔ k = 3, 92
2 2 2
(a) Quanto você precisa de saldo médio para se tornar um cliente VIP?
Solução:
Seja X = “saldo médio”; é dado que X ∼ N(2000; 2502 ).
(a) Temos que determinar o valor de k tal que P(X ≥ k) = 0, 05. Note que isso equivale a calcular
o 95o percentil da distribuição. A área à esquerda de k tem que ser 0,95; logo, k tem que ser
52 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
maior que a média e a abscissa padronizada tem que ser positiva. Veja o gráfico à esquerda
na Figura 3.10. Buscando na Tabela 1, encontramos a abscissa 1,64; veja o gráfico à direita.
(b) Temos que determinar o valor de k tal que P(X ≤ k) = 0, 1. A área à esquerda de k tem que
ser 0,1; logo, k tem que ser menor que a média e a abscissa padronizada, negativa. Usando
a simetria da distribuição, temos que procurar, na Tabela 1, o valor 0,40, o que dá a abscissa
1,28. Veja a Figura 3.11.
Solução:
Esse é um exemplo clássico de aplicação da distribuição normal. Seja X o peso dos pacotes em
gramas. Então, X ∼ N(µ; 400). Temos que ter P(X ≤ 500) = 0, 10 e, portanto, o peso médio tem que
53
ser superior a 500g. Então, 500 está abaixo da média µ e a abscissa padronizada correspondente é
negativa. Veja a Figura 3.12
Do exemplo anterior, sabemos que 1,28 é a abscissa correspondente à cauda de 0,10. Logo,
temos que ter
500 − µ
= −1, 28 ⇒ 500 − µ = −25, 6 ⇔ µ = 525, 6
20
A máquina tem que ser regulada com um peso médio de 525,6g para que apenas 10% dos
pacotes tenham peso inferior a 500g.
(b) Mantidas essas especificações, qual deverá ser a regulagem média da máquina para que a
rejeição por diâmetro grande seja praticamente nula? Nesse caso, qual será a porcentagem de
rejeição por diâmetro pequeno?
Solução:
Seja D = diâmetro dos tubos. Então D ∼ N(200, 22 ).
(a) Sejam ki e ks as especificações inferior e superior, respectivamente. Isso significa que tubos
com diâmetro menor que ki são rejeitados como pequenos e tubos com diâmetro maior que ks
são rejeitados como grandes. Dos dados do problema, sabemos que a área à esquerda de ki é
0,10 e à direita de ks , 0,15. Veja a Figura 3.13.
Logo,
ki − 200
= −1, 28 ⇒ ki = 197, 44
20
e
ks − 200
= 1, 03 ⇒ ks = 202, 06
20
54 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
Logo, tubos com diâmetro menor que 197,44 cm são rejeitados como pequenos e tubos com
diâmetros maiores que 202,06 cm são rejeitados como grandes.
(b) Com a nova regulagem, temos que D ∼ N(µ; 22 ) e µ deve ser tal que P(D > 202, 06) = 0. Veja
a Figura 3.14 para entender que a nova média tem que ser menor que 200, como mostram os
cálculos a seguir.
D−µ 202, 06 − µ
P(D > 202, 06) = 0 ⇒ P > =0⇒
2 2
202, 06 − µ 202, 06 − µ
P Z > = 0 ⇒ tab = 0, 5 ⇒
2 2
202, 06 − µ
' 4, 5 ⇒ µ ' 193, 06
2
Vemos, assim, que a nova regulagem proporciona rejeição nula por diâmetro grande com o custo
de uma grande proporção de peças rejeitadas por diâmetro pequeno.
as lâmpadas antes que se queimem. Os registros indicam que a duração das lâmpadas, em horas,
tem distribuição normal, com média de 900 horas e desvio-padrão de 75 horas. Quando devem ser
trocadas as lâmpadas, de modo que no máximo 5% delas queimem antes de serem trocadas?
Solução:
Seja T = “tempo de duração (em horas) das lâmpadas”; então, T ∼ N(900; 752 ). Temos que determinar
t tal que P(T ≤ t) = 0, 05. Então, t tem que ser menor que a média 900 e a abscissa padronizada,
negativa. Dos exemplos anteriores, sabemos que a abscissa padronizada que deixa 5% acima dela é
1,64. Logo, temos que ter
t − 900
= −1, 64 ⇔ t = 777
75
As lâmpadas devem ser trocadas com 777 horas de uso para que apenas 5% se queimem antes da
troca.
Aqui cabe a seguinte observação: em geral, não é apropriado utilizar-se a distribuição normal
para modelar o tempo de sobrevivência de lâmpadas ou equipamentos em geral. Modelos tipo
exponencial ou gama são mais adequados, pois atribuem probabilidade alta de sobrevivência no
início da vida do equipamento e probabilidade decrescente à medida que o equipamento envelhece.
Solução:
Se X = “conteúdo da garrafa (em ml)”, então X ∼ N(100; σ 2 ) e queremos que P(X < 90) ≤ 0, 01.
Seja σ0 o valor do desvio padrão de X tal que P(X < 90) = 0, 01. Então, qualquer valor de σ
tal que σ < σ0 resulta em P(X < 90) < 0, 01. Veja a Figura 3.15.
A área sombreada corresponde a P(X < 90) = 0, 01 quando X ∼ N(100; σ02 ) (curva de densidade
mais espessa). As duas outras densidades correspondem a distribuições normais com desvios-padrão
menores. Note que para essas distribuições, P(X < 90) < 0, 01. Assim, o desvio-padrão máximo
90 − 100
tolerável é σ0 tal que tal que P(X < 90) = 0, 01. A abscissa padronizada é e tem que
σ0
ser negativa. Olhando na Tabela 1, vemos que a abscissa 2,33 deixa área 0,01 acima dela, isto é,
56 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
10 10
− = −2, 33 ⇒ σ0 = = 4, 2918
σ0 2, 33
Exercícios Propostos
(a) Pr(X ≤ µ + 2σ )
(b) Pr(|X − µ| ≤ σ )
(c) Pr(|X − µ| ≤ 1, 96σ )
(d) o número k tal que Pr(µ − kσ ≤ X ≤ µ + kσ ) = 0, 99
(e) o número k tal que Pr(X > k) = 0, 90.
2. Suponha que os tempos de vida de duas marcas de aparelhos elétricos sejam variáveis aleatórias
D1 e D2 , onde D1 ∼ N(42, 36) e D2 ∼ N(45, 9). Se o aparelho deve ser usado por um período
de 45 horas, qual marca deve ser preferida? E se for por um período de 49 horas?
3. Numa distribuição normal, 31% dos elementos são menores que 45 e 8% são maiores que 64.
Calcular os parâmetros que definem a distribuição, ou seja, calcule a média e o desvio-padrão.
5. Um produto alimentício é ensacado automaticamente, sendo o peso médio de 50kg por saco,
com desvio padrão de 1,6kg. Os clientes exigem que, para cada saco fornecido com menos de
48kg, o fornecedor pague uma indenização de 5 u.m.
(a) Para 200 sacos fornecidos, qual o custo médio com indenização?
(b) Para que o custo calculado no item anterior caia para 50 u.m., qual deveria ser a nova
regulagem média da máquina?
(c) Como o fornecedor acha que, no custo global, é desvantajoso aumentar a regulagem da
máquina, ele quer comprar uma nova máquina. Qual deveria ser o desvio padrão dessa
máquina para que, trabalhando com peso médio de 50kg, em apenas 3% dos sacos se pague
indenização?
6. Um teste de aptidão para o exercício de certa profissão exige uma sequência de operações
a serem executadas rapidamente uma após a outra. Para passar no teste, o candidato deve
completá-lo em, no máximo, 80 minutos. Admita que o tempo, em minutos, para completar a
prova seja uma variável aleatória normal com média 90 minutos e desvio padrão 20 minutos.
57
(b) Os 5% melhores receberão um certificado especial. Qual o tempo máximo para fazer jus a
tal certificado?
7. O diâmetro X de rolamentos de esfera fabricados por certa fábrica tem distribuição normal com
média 0,6140 e desvio padrão 0,0025. O lucro L de cada esfera depende do seu diâmetro:
• T L = 0, 05 se a esfera é recuperável, isto é, 0, 6080 < X < 0, 6100 ou 0, 6180 < X < 0, 6200
8. Uma empresa produz televisores e garante a restituição da quantia paga se qualquer televisor
apresentar algum defeito grave no prazo de 6 meses. Ela produz televisores do tipo A, comum,
e do tipo B, de luxo, com um lucro respectivo de 1.000 u.m. e 2.000 u.m. caso não haja
restituição, e com prejuízo de 3.000 u.m. e 8.000 u.m., se houver restituição. Suponha que o
tempo para ocorrência de algum defeito grave seja, em ambos os casos, uma variável aleatória
com distribuição normal com médias de 9 meses e 12 meses e desvios-padrão de 2 meses e 3
meses. Se tivesse que planejar uma estratégia de marketing para a empresa, você incentivaria
as vendas dos aparelhos tipo A ou tipo B?
9. A distribuição dos pesos de coelhos criados em uma granja pode ser representada por uma
distribuição normal com média de 5kg e desvio padrão de 0,8 kg. Um abatedouro comprará
5.000 coelhos e pretende classificá-los de acordo com o peso da seguinte forma: 20% dos leves
como pequenos, os 55% seguintes como médios, os 15% seguintes como grandes e os 10% mais
pesados como extras. Quais os limites de peso para cada classificação?
11. Seja X ∼ N µ, σ 2 . Encontre a mediana e o intervalo interquartil de X .
12. O 90o percentil de uma variável aleatória N µ, σ 2 é 50, enquanto o 15o percentil é 25.
Encontre os valores dos parâmetros da distribuição.
58 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
1. (a)
X −µ µ + 2σ − µ
P(X ≤ µ + 2σ ) = Pr ≤
σ σ
= P(Z ≤ 2) = 0, 5 + tab(2) = 0, 97725
(b)
σ X −µ σ
P(|X − µ| ≤ σ ) = P(−σ ≤ X − µ ≤ σ ) = P − ≤ ≤
σ σ σ
= P(−1 ≤ Z ≤ 1) = 2 × P(0 ≤ Z ≤ 1) = 2 × tab(1) = 0, 68268
(c)
(d)
P(µ − kσ ≤ X ≤ µ + kσ ) = 0, 99 ⇔
µ − kσ − µ X −µ µ + kσ − µ
P ≤ ≤ = 0, 99 ⇔ P(−k ≤ Z ≤ k) = 0, 99 ⇐⇒
σ σ σ
P(0 ≤ Z ≤ k) = 0, 495 ⇐⇒ tab(k) = 0, 495 ⇐⇒ k = 2, 58
(e) Como a probabilidade à direita de k é 0,90, então a probabilidade à esquerda é 0,10, menor
que 0,5. Logo, k tem que ser menor que a média e a abscissa padronizada tem que ser
negativa. Para encontrar a abscissa da normal padrão que deixa 0,10 na cauda superior,
temos que procurar na Tabela 1 o vlaor 0,40, o que nos dá a abscissa 1,28. Assim,
k −µ
= −1, 28 ⇔ k = µ − 1, 28σ
σ
2. O aparelho a ser usado tem que ser aquele que apresenta a maior probabilidade de funcionar
pelo menos durante o tempo necessário.
D2 − 45 49 − 45
P(D2 ≥ 49) = P ≥ = P(Z ≥ 1, 33)
3 3
= 0, 5 − P(0 ≤ Z ≤ 1, 33) = 0, 5 − tab(1, 33) = 0, 0918
3. X ∼ N(µ, σ 2 )
45 − µ
P(X < 45) = 0, 31 ⇒ P Z < = 0, 31
σ
45−µ
Como a área à esquerda é menor que 0,5, a abscissa σ tem que ser negativa. Para encontrar
a abscissa da normal padrão correspondente, temos que procurar, na Tabela 1, o valor 0, 19 =
0, 5 − 0, 31. O valor mais próximo é 0,1915, correspondente à abscissa 0,50. Logo,
45 − µ
= −0, 50 ⇒ 45 − µ = −0, 50σ ⇒ µ − 0, 50σ = 45 (3.2)
σ
64−µ
Como a área à esquerda é 0,90, maior que 0,5, a abscissa σ tem que ser positiva. Para
encontrar a abscissa da normal padrão correspondente, temos que procurar, na Tabela 1, o
valor 0, 42 = 0, 5 − 0, 08. O valor mais próximo é 0,4207, correspondente à abscissa 1,41. Logo,
64 − µ
= 1, 41 ⇒ 64 − µ = 1, 41σ ⇒ µ + 1, 41σ = 64 (3.3)
σ
µ − 0, 50 × 10 = 45 ⇒ µ = 50.
60 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
4. Seja X = número de unidades vendidas. Então, X ∼ N(500, 502 ). Se a empresa fabricou 600
unidades no mês em estudo, a probabilidade de não poder atender à demanda é
X − 500 600 − 500
P(X > 600) = P > = P(Z > 2)
50 50
= 0, 5 − P(0 ≤ Z ≤ 2) = 0, 5 − tab(2) = 0, 0228
5. Seja X = peso do saco em kg. Então, X ∼ N(50; 1, 62 ) e paga-se indenização se X < 48.
Seja Y = número de sacos, em um conjunto de 200, com peso menor que 48kg. Então,
Y ∼ bin(200; 0, 1056).
O número médio de sacos com peso menor que 48 é 200 × 0, 1056. O custo médio com
indenização será de 5 × 200 × 0, 1056 = 105, 6 u.m.
(b) Para reduzir o custo para 50 u.m. sem alterar o desvio-padrão , temos que ter
48 − µ
5 × 200 × P(X < 48) = 50 ⇒ P(X < 48) = 0, 05 ⇒ P Z < = 0, 05
1, 6
48−µ
A abscissa 1,6 tem que ser negativa. A abscissa da normal padrão que deixa área 0,05
acima é 1,64. Logo,
48 − µ
= −1, 64 ⇒ µ = 50, 624 kg
1, 6
(c) Com a média fixada em 50, o que se pretende agora é controlar a variabilidade do processo,
medida pelo desvio-padrão, ou seja, o peso dos pacotes agora é X ∼ N(50, σ 2 ). A regra
para indenização continua a mesma; logo,
48 − 50 2
P(X < 48) = 0, 03 ⇔ P Z < = 0, 03 ⇔ P Z < − = 0, 03
σ σ
A abscissa − σ2 tem que ser negativa e temos que buscar na Tabela 1 o valor mais próximo
de 0, 47 = 0, 5 − 0, 03, o que nos leva à abscissa 1,88. Logo,
2
− = −1, 88 ⇒ σ = 1, 064.
σ
(a)
T − 90 80 − 90
P(T ≤ 80) = P ≤ = P(Z ≤ −0, 5) = P(Z ≥ 0, 5)
20 20
= 0, 5 − P(0 ≤ Z ≤ 0, 5) = 0, 5 − tab(0, 5) = 0, 3085
61
(b) Os melhores têm que ter tempo menor, ou seja, queremos determinar k tal que P(T ≤ k) =
0, 05.
k tem que ser menor que a média e a abscissa padronizada tem que ser negativa. A
abscissa da normal padrão que deixa 0,05 na cauda superior é 1,64. Logo,
k − 90
= −1, 64 ⇒ k = 57, 2.
20
Então, para fazer jus ao certificado especial, o candidato tem que executar a tarefa em, no
máximo, 57,2 minutos.
P(R) = P [(0, 608 < D < 0, 610) ∪ (0, 618 < D < 0, 620)]
= P (0, 608 < D < 0, 610) + P (0, 618 < D < 0, 620)
0, 608 − 0, 614 0, 610 − 0, 614 0, 618 − 0, 614 0, 620 − 0, 614
=P <Z < +P <Z <
0, 0025 0, 0025 0, 0025 0, 0025
= P(−2, 4 < Z < −1, 6) + P(1, 6 < Z < 2, 4)
= 2 × P(1, 6 < Z < 2, 4) = 2 × [tab(2, 4) − tab(1, 6)]
= 2 × [0, 4918 − 0, 4452] = 0, 0932
P(F ) = P[(D < 0, 608) ∪ (D > 0, 620)] = P(D < 0, 608) + P(D > 0, 620)
0, 608 − 0, 614 0, 620 − 0, 614
=P Z < +P Z >
0, 0025 0, 0025
= P(Z < −2, 4) + P(Z > 2, 4) = 2 × P(Z > 2, 4)
= 2 × [0, 5 − P(0 ≤ Z ≤ 2, 4)] = 2 × [0, 5 − tab(2, 4)] = 0, 0164
Logo,
E(L) = 0, 10 × 0, 8904 + 0, 05 × 0, 0932 − 0, 10 × 0, 0164 = 0, 09206
62 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
Temos que
TA ∼ N(9, 22 ) TB ∼ N(12, 32 )
6−9
P (TA ≤ 6) = P Z ≤ = P(Z ≤ −1, 5) = 0, 5 − tab(1, 5) = 0, 0668
2
Logo, para os televisores do tipo A, a probabilidade de restituição por defeito grave é 0,0668.
6 − 12
P (TB ≤ 6) = P Z ≤ = P(Z ≤ −2, 0) = 0, 5 − tab(2, 0) = 0, 0228
3
Logo, para os televisores do tipo B, a probabilidade de restituição por defeito grave é 0,0228.
Com esses resultados, obtemos as seguintes distribuições para os lucros:
Como o lucro esperado (lucro médio) com os televisores do tipo B é maior, deve-se investir nas
vendas desse tipo de televisor.
9. Defina a variável aleatória X = peso dos coelhos. Então, X ∼ N(5; 0, 82 ). Vamos denotar por
a, b e c os limites para as classes de peso.
a−5
P(X < a) = 0, 20 ⇔ P Z < = 0, 20
0, 8
a−5
A abscissa 0,8 tem que ser negativa e buscamos na Tabela 1 o valor mais próximo de 0, 30 =
0, 5 − 0, 2. Isso nos leva à abscissa 0,84 e, portanto,
a−5
d = −0, 84 ⇒ a = 4, 328
0, 8
b−5
P(X < b) = 0, 75 ⇔ P Z < = 0, 75
0, 8
b−5
A abscissa 0,8 tem que ser positiva e buscamos na Tabela 1 o valor mais próximo de 0, 25 =
63
b−5
d = 0, 67 ⇒ b = 5, 536
0, 8
c−5
P(X < c) = 0, 90 ⇔ P Z < = 0, 90 ⇔
0, 8
c−5
A abscissa 0,8 tem que ser positiva e buscamos na Tabela 1 o valor mais próximo de 0, 40 =
0, 5 − 0, 1. Isso nos leva à abscissa 1,28 e, portanto,
c−5
d = 1, 28 ⇒ c = 6, 024
0, 8
Os coelhos são classificados como pequenos se o peso for menor que 4,328kg; como médios se
o peso estiver entre 4,328 e 5,536kg; como grandes se o peso estiver entre 5,536 e 6,024kg e
como extra grandes se o peso for maior que 6,024kg.
(a)
−3 − 3 3−3
P (−3 ≤ X ≤ 3) = P ≤Z ≤ = P(−1, 2 ≤ Z ≤ 0)
5 5
= P(0 ≤ Z ≤ 1, 2) = tab(1, 2) = 0, 38493
(b)
−2 − 3 8−3
P (−2 ≤ X ≤ 8) = P ≤Z ≤ = P(−1 ≤ Z ≤ 1)
5 5
= P(−1 ≤ Z ≤ 0) + P(0 ≤ Z ≤ 1) = 2 × P(0 ≤ Z ≤ 1) = 2 × tab(1, 0) = 0, 68268
(c) Queremos k tal que P(X > k) = 0, 05. Então, k tem que ser maior que a média e a
abscissa padronizada, positiva. Temos que buscar na Tabela 1 o valor mais próximo de
0, 45 = 0, 5 − 0, 05, o que nos leva à abscissa 1,64. Logo,
k −3
= 1, 64 ⇒ k = 11, 2
5
(d) Queremos k tal que P(X > k) = 0, 80, o que equivale a P(X ≤ k) = 0, 20. Então, k tem que
ser menor que a média e a abscissa padronizada, negativa. Temos que buscar na Tabela
1 o valor mais próximo de 0, 30 = 0, 5 − 0, 20, o que nos leva à abscissa 0,84. Logo,
k −3
= −0, 84 ⇒ k = −1, 2
5
11. Como a distribuição normal é simétrica, resulta que Q2 = µ (a média, a mediana e a moda
sempre coincidem numa distribuição simétrica unimodal).
Q1 é tal que P(X < Q1 ) = 0, 25. Logo, Q1 é menor que a média e a abscissa padronizada,
64 AULA 3. A DISTRIBUIÇÃO NORMAL: CONCLUSÃO
negativa. Temos que buscar na Tabela 1 o valor mais próximo de 0, 25 = 0, 5 − 0, 25, o que nos
leva à abscissa 0,67. Logo,
Q1 − µ
= −0, 67 ⇒ Q1 = µ − 0, 67σ
σ
Q3 é tal que P(X > Q3 ) = 0, 25. Logo, Q3 é simétrico a Q1 em relação à média, ou seja,
Q3 = µ + 0, 67σ .
IQ = Q3 − Q1 = 1, 34σ .
12. Sejam P90 e P15 os percentis de ordem 90 e 15, respectivamente. Então, P(X < P90 ) = 0, 90
e P(X < P15 ) = 0, 15. Resulta que P90 = 50 e P15 = 25 estão acima e abaixo da média,
respectivamente. Logo, a média tem que estar entre 25 e 50.
Para encontrar P90 , temos que buscar na Tabela 1 o valor mais próximo de 0,40, o que nos leva
à abscissa 1,28. Logo,
50 − µ 50 − µ
P(X < 50) = 0, 90 ⇒ P(X > 50) = 0, 10 ⇒ P Z > = 0, 10 ⇒ = 1, 28 ⇒
σ σ
50 − µ = 1, 28σ (3.4)
Para encontrar P15 , temos que buscar na Tabela 1 o valor mais próximo de 0,35, o que nos leva
à abscissa 1,04. Logo,
25 − µ 25 − µ
P(X < 25) = 0, 15 ⇒ P Z < = 0, 15 ⇒ = −1, 04 ⇒
σ σ
25 − µ = −1, 04σ (3.5)
Temos um sistema com duas equações e duas incógnitas. Subtraindo (3.4) de (3.5), resulta que
50 − µ = 1, 28 × 10, 78 ⇒ µ = 36, 2
Aula 4
Na primeira parte do curso foi visto como resumir um conjunto de dados por meio de tabelas
de frequências, gráficos e medidas de posição e dispersão. Depois, foram estudados modelos
probabilísticos, discretos ou contínuos, para descrever determinados fenômenos. Agora, essas
ferramentas serão utilizadas no estudo de um importante ramo da Estatística, conhecido como
Inferência Estatística, que busca métodos de fazer afirmações sobre características de uma população,
conhecendo-se apenas resultados de uma amostra.
• população e amostra;
• estatísticas e parâmetros;
• estimador;
Introdução
No estudo da estatística descritiva na primeira parte do curso, vimos que população é o conjunto
de elementos para os quais se deseja estudar determinada(s) característica(s). Vimos também que
uma amostra é um subconjunto da população.
de população e amostra. Para facilitar a compreensão desses conceitos, iremos apresentar alguns
exemplos a título de ilustração.
Exemplo 4.1
Em um estudo antropométrico em nível nacional, uma amostra de 5000 adultos é selecionada dentre
os adultos brasileiros com objetivo de se estimara a altura média do brasileiro.
Solução:
Neste exemplo, a população é o conjunto de todos os brasileiros adultos. No entanto, o interesse (um
deles, pelo menos) está na altura dos brasileiros. Assim, nesse estudo, a cada sujeito da população,
associamos um número correspondente à sua altura. Se determinado sujeito é sorteado para entrar
na amostra, o que nos interessa é esse número, ou seja, sua altura.
Como vimos, essa é a definição de variável aleatória: uma função que associa a cada ponto do
espaço amostral um número real. Dessa forma, a nossa população pode ser representada pela variável
aleatória X = “altura do adulto brasileiro”. Como essa é uma variável aleatória contínua, a ela está
associada uma função densidade de probabilidade f e da literatura, sabemos que é razoável supor
que essa densidade seja a densidade normal. Assim, nossa população, nesse caso, é representada
por uma variável aleatória X ∼ N µ; σ 2 . Conhecendo os valores de µ e σ , teremos informações
completas sobre a nossa população.
Exemplo 4.2
Consideremos, agora, um exemplo baseado em pesquisas eleitorais, em que estamos interessados no
resultado do segundo turno de uma eleição presidencial brasileira. Vamos considerar uma situação
simplificada em que não estamos considerando votos nulos, indecisos etc. Nosso interesse é estimar
a proporção de votos no candidato A.
Solução:
Mais uma vez, nossos sujeitos de pesquisa são pessoas com 16 anos ou mais, aptas a votar. O
interesse final é saber a proporção de votos de um e outro candidato. Nesta situação simplificada,
cada sujeito de pesquisa dá origem a uma variável aleatória binária, isto é, uma variável aleatória
que assume apenas dois valores. Como visto, podemos representar esses valores por 1 (candidato A)
67
e 0 (candidato B), o que define uma variável aleatória de Bernoulli, ou seja, essa população pode ser
representada pela variável aleatória X ∼ Bern(p).
Para obtermos informação sobre p, retira-se uma amostra da população e, como antes, vamos
supor que essa amostra seja retirada com reposição. Ao sortearmos o primeiro elemento, estamos
realizando um experimento que dá origem à variável aleatória X1 = “voto do primeiro elemento”;
o segundo elemento dá origem à variável aleatória X2 = “voto do segundo elemento” e assim por
diante. Como as extrações são feitas com reposição, todas as variáveis aleatórias X1 , X2 , . . . têm a
mesma distribuição de Bernoulli populacional, isto é, Xi ∼ Bern(p), i = 1, 2, . . ..
População
A inferência estatística trata do problema de se obter informação sobre uma população a partir
de uma amostra. Embora a população real possa ser constituída por pessoas, empresas, animais
etc., as pesquisas estatísticas buscam informações sobre determinadas características dos sujeitos,
características essas que podem ser representadas por números. Sendo assim, a cada sujeito da
população está associado um número, o que nos permite apresentar a seguinte definiçõa, ilustrada
nos dois exemplos acima.
Definição 4.1
A população de uma pesquisa estatística pode ser representada por uma variável aleatória X
que descreve a característica de interesse.
Embora existam vários métodos de seleção de amostras, vamos nos concentrar, aqui, no caso
mais simples, que é a amostragem aleatória simples. Segundo tal método, toda amostra de mesmo
68 AULA 4. INFERÊNCIA ESTATÍSTICA – CONCEITOS BÁSICOS
tamanho n tem igual chance (probabilidade) de ser sorteada. É possível extrair amostras aleatórias
simples com ou sem reposição.
Assim, no estudo da Inferência Estatística, vamos sempre lidar com amostragem aleatória
simples com reposição. Esse método de seleção atribui a cada elemento da população a mesma
probabilidade de ser selecionado e esta probabilidade se mantém constante ao longo do processo de
seleção da amostra (se as extrações fossem sem reposição isso não aconteceria).
No restante desse curso, vamos omitir a expressão “com reposição”, ou seja, o termo amostragem
(ou amostra) aleatória simples sempre se referirá à amostragem com reposição.
Uma forma de se obter uma amostra aleatória simples é escrever os números ou nomes dos
elementos da população em cartões iguais, colocar esses cartões em uma urna misturando-os bem
e fazer os sorteios necessários, tendo o cuidado de colocar cada cartão sorteado na urna antes
do próximo sorteio. Na prática, em geral, são usados programas de computador, uma vez que as
populações tendem a ser muito grandes.
Agora vamos formalizar o processo de seleção de uma amostra aleatória simples, de forma a
relacioná-lo com os problemas de inferência estatística que você vai estudar.
Seja uma população representada por uma variável aleatória X . De tal população será sorteada
uma amostra aleatória simples com reposição de tamanho n. Como visto nos exemplos anteriores,
cada sorteio dá origem a uma variável aleatória Xi e, como os sorteios são com reposição, todas essas
variáveis têm a mesma distribuição de X . Isso nos leva à seguinte definição.
Definição 4.2
Uma amostra aleatória simples de tamanho n de uma variável aleatória X (população) é um
conjunto de n variáveis aleatórias X1 , X2 , ..., Xn independentes e identicamente distribuídas.
Estatísticas e Parâmetros
Obtida uma amostra aleatória simples, é possível calcular diversas características desta
amostra, como, por exemplo, a média, a mediana, a variância etc. Qualquer uma destas características
69
Sendo assim, cada uma dessas características ou funções é também uma variável aleatória Por
exemplo, a média amostral é a variável aleatória definida por
X1 + X2 + · · · + Xn
X=
n
Definição 4.3
Uma estatística amostral ou estimador T é qualquer função da amostra X1 , X2 , ..., Xn , isto é,
T = g(X1 , X2 , ..., Xn )
• média amostral
X1 + X2 + · · · + Xn
X= (4.1)
n
• variância amostral
n
1 X 2
S2 = Xi − X (4.2)
n−1
i=1
Para uma amostra específica, o valor obtido para o estimador será denominado estimativa
e, em geral, será representado por letras minúsculas. Por exemplo, temos as seguintes notações
correspondentes à média e à variância amostrais: x e s2 .
Definição 4.4
Parâmetro é uma característica da população.
Distribuições Amostrais
Exemplo 4.3
Consideremos a população {1, 3, 6, 8}, isto é, este é o conjunto dos valores da característica de
interesse da população em estudo. Suponha que dessa população iremos extrair uma amostra
aleatória simples de tamanho dois e, com base nessa amostra, iremos estimar a média populacional
µ a partir da média da média amostral. Vamos, então, estudar o comportamento de X ao longo de
todas as 16 possíveis amostras de tamanho n = 2.
Solução:
Consideremos, inicialmente, a população descrita pela variável aleatória X . Como todos os elementos
são igualmente prováveis, temos uma distribuição uniforme discreta:
4/16
4/16 , se x = 1 3/16
se x = 3
4/16 ,
pX (x) = se x = 6
2/16
4/16 ,
se x = 8
4/16 , 1/16
0 , caso contrário.
0
0 2 4 6 8
1
E(X ) = µ = (1 + 3 + 6 + 8) = 4, 5
4
1h i
Var(X ) = σ 2 = (1 − 4, 5)2 + (3 − 4, 5)2 + (6 − 4, 5)2 + (8 − 4, 5)2 = 7, 25
4
Algumas possibilidades de amostra são {1, 1}, {1, 3}, {6, 8}, para as quais os valores da média
amostral são 1, 2 e 7, respectivamente. Podemos ver, então, que há uma variabilidade nos valores
da estatística amostral. As amostras {1, 1} e {8, 8} são as que têm média amostral mais afastada da
verdadeira média populacional. Se esses valores tiverem chance muito mais alta do que os valores
mais próximos de E(X ), podemos ter sérios problemas na estimação da média populacional.
Para conhecer o comportamento da média amostral, temos que conhecer todos os possíveis
valores de X , o que equivaleria a conhecer todas as possíveis amostras de tamanho dois de tal
população. Nesse exemplo, como só temos quatro elementos na população, a obtenção de todas as
amostras aleatórias simples de tamanho dois não é difícil.
Lembre-se do nosso estudo de análise combinatória que, como o sorteio é feito com reposição,
em cada um dos sorteios temos quatro possibilidades. Logo, o número total de amostras aleatórias
simples é 4 × 4 = 16. Por outro lado, em cada sorteio, cada elemento da população tem a mesma
chance de ser sorteado; como são quatro elementos, cada elemento tem probabilidade 1/4 de ser
sorteado.
Na Tabela 4.1 a seguir, listamos todas as possíveis amostras, com suas respectivas
probabilidades e, para cada uma delas, apresentamos o valor da média amostral.
Analisando esta tabela, podemos ver que os possíveis valores X são 1; 2; 3; 3,5; 4,5; 5,5; 6;
7; 8 e podemos construir a sua função de probabilidade, notando, por exemplo, que o valor 2 pode
ser obtido por meio de duas amostras: (1,3) ou (3,1). Como essas amostras correspondem a eventos
72 AULA 4. INFERÊNCIA ESTATÍSTICA – CONCEITOS BÁSICOS
1/16 , se x = 1 4/16
2/16 , se x = 2
1/16 , se x = 3 3/16
2/16 , se x = 3, 5
se x = 4, 5
2/16
pX (x) =
4/16 ,
2/16 , se x = 6, 5
se x = 6
1/16
1/16 ,
se x = 7
2/16 , 0
1/16 , se x = 8
0 2 4 6 8
0 , caso contrário.
1 2 1 2
E(X ) = 1 × +2× +3× + 3, 5 × +
16 16 16 16
5 2 1 2 1
+ 4, 5 × + 5, 5 × +6× +7× +8×
16 16 16 16 16
= 4, 5 = µ
1 2 1
Var(X ) = (1 − 4, 5)2 × + (2 − 4, 5)2 × + (3 − 4, 5)2 × +
16 16 16
2 5 2
+ (3, 5 − 4, 5)2 × + (4, 5 − 4, 5)2 × + (5, 5 − 4, 5)2 × +
16 16 16
1 2 1
+ (6 − 4, 5)2 × + (7 − 4, 5)2 × + (8 − 4, 5)2 ×
16 16 16
7, 25 σ2 σ2
= 3, 625 = = =
2 2 n
σ2
Neste exemplo, podemos ver que E(X ) = µ e Var(X ) = 2 , onde 2 é o tamanho da amostra.
Esses resultados estão nos dizendo que, em média (esperança), a estatística X é igual à média da
população e que sua variância é igual à variância da população dividida pelo tamanho da amostra.
Exemplo 4.4
73
Consideremos, agora, a mesma situação do exemplo anterior, só que, em vez de estudarmos a média
amostral, uma medida de posição, vamos estudar a dispersão. Como foi visto, a variância populacional
é Var(X ) = 7, 25. Para a amostra, vamos trabalhar com dois estimadores. Um deles é S 2 , definido na
Equação (4.2) e o outro é
n
1X 2
σb =
2
Xi − X (4.3)
n
i=1
Da mesma forma que fizemos para a média amostral, vamos calcular o valor dessas estatísticas
para cada uma das amostras.
Solução:
Na Tabela 4.2, temos os resultados parciais e globais de interesse.
s2 0 2 4, 5 12, 5 24, 5
P(S 2 = s2 ) 4/16 4/16 2/16 4/16 2/16
e a função de probabilidade de σb 2 é:
k 0 1 2, 25 6, 25 12, 25
σ2
P(b = k) 4/16 4/16 2/16 4/16 2/16
74 AULA 4. INFERÊNCIA ESTATÍSTICA – CONCEITOS BÁSICOS
4 4 2 4 2
E(S 2 ) = 0 × +2× + 4, 5 × + 12, 5 × + 24, 5 ×
16 16 16 16 16
116
= = 7, 25 = σ 2 = Var(X )
16
4 4 2 4 2
σ 2) = 0 ×
E(b +1× + 2, 25 × + 6, 25 × + 12, 25 ×
16 16 16 16 16
58
= = 3, 625
16
Vemos que, em média, S 2 é igual à variância populacional, o que não ocorre com σb 2 .
Estes dois exemplos ilustram o fato de que qualquer estatística amostral σb 2 é uma variável
aleatória, que assume diferentes valores para cada uma das diferentes amostras.
Tais valores nos forneceriam, juntamente com a probabilidade de cada amostra, a função de
probabilidades de T , caso fosse possível, obter todas as amostras aleatórias simples de tamanho n
da população.
Isso nos leva à seguinte definição, que é um conceito central na Inferência Estatística.
Definição 4.5
A distribuição amostral de uma estatística T é a função de probabilidade de T ao longo de
todas as possíveis amostras aleatórias simples de tamanho n.
Propriedades de Estimadores
Dada uma população, existem muitas e muitas amostras aleatórias simples de tamanho n que
podem ser sorteadas. Cada uma dessas amostras resulta em um valor diferente da estatística de
interesse (X e S 2 , por exemplo). O que esses resultados estão mostrando é como esses diferentes
75
Considere a Figura 4.3, em que o alvo representa o valor do parâmetro e os “tiros”, indicados
pelo símbolo x, representam os diferentes valores amostrais da estatística de interesse.
(a) (b)
(c) (d)
Nas partes (a) e (b) da figura, os tiros estão em torno do alvo, enquanto nas partes (c) e (d)
isso não acontece. Comparando as partes (a) e (b), podemos ver que na parte (b) os tiros estão mais
concentrados em torno do alvo, isto é, têm menor dispersão. Isso refletiria uma pontaria mais certeira
do atirador em (b). Analogamente, nas partes (c) e (d), embora ambos os atiradores estejam com a
mira deslocada, os tiros do atirador (d) estão mais concentrados em torno de um alvo; o deslocamento
poderia até ser resultado de um desalinhamento da arma. Já o atirador (c), além de estar com o alvo
deslocado, ele tem os tiros mais espalhados, o que reflete menor precisão.
• Nas partes (a) e (b), temos dois estimadores que fornecem estimativas centradas em torno do
verdadeiro valor do parâmetro, ou seja, as diferentes amostras fornecem valores distribuídos
em torno do verdadeiro valor do parâmetro. A diferença é que em (a) esses valores estão mais
dispersos e, assim, temos mais chance de obter uma amostra “infeliz”, ou seja, uma amostra que
forneça um resultado muito afastado do valor do parâmetro. Essas duas propriedades estão
associadas à esperança e à variância do estimador, que são medidas de centro e dispersão,
respectivamente.
• Nas partes (c) e (d), as estimativas estão centradas em torno de um valor diferente do parâmetro
de interesse e, na parte (c), a dispersão é maior.
76 AULA 4. INFERÊNCIA ESTATÍSTICA – CONCEITOS BÁSICOS
Como nos exemplos vistos, a esperança E(T ) é calculada ao longo de todas as possíveis
amostras, ou seja, é a esperança da distribuição amostral de T . Nas partes (a) e (b) da Figura
4.3 os estimadores são não-viesados e nas partes (c) e (d), os estimadores são viesados.
Com relação aos estimadores X , S 2 e σb 2 , pode-se provar, formalmente, que os dois primeiros
são não-viesados para estimar a média e a variância populacionais, respectivamente, enquanto σb 2 é
viesado para estimar a variância populacional.
Na Figura 4.3, o estimador da parte (b) é mais eficiente que o estimador da parte (a).
Pode-se mostrar que é válida a seguinte decomposição para o erro quadrático de um estimador
T:
EQM(T ) = Var(T ) + [Vies(T )]2 (4.6)
viesados podem ser uma opção interessante para estimar um parâmetro se seu erro quadrático médio
for pequeno.
Resumo
• A população de uma pesquisa estatística é descrita por uma variável aleatória X , que descreve
a característica de interesse. Essa variável aleatória pode ser discreta ou contínua.
• Se os sorteios dos elementos da amostra são feitos com reposição, cada sujeito da população tem
a mesma probabilidade de ser sorteado e essa probabilidade se mantém constante. Dessa forma,
uma amostra aleatória simples com reposição (abreviaremos por amostra aleatória simples nesse
texto) de uma população X é um conjunto X1 , X2 , . . . , Xn de variáveis aleatórias independentes
e identicamente distribuídas, todas com a mesma distribuição da população X .
• Como cada estimador é uma variável aleatória, ele pode ser descrito pela sua função de
probabilidade, que é chamada distribuição amostral do estimador. A distribuição amostral
de um estimador é a distribuição ao longo de todas as possíveis amostras de mesmo tamanho
n.
• Um estimador é não-viesado se a sua média é igual ao parâmetro que ele pretende estimar. Isso
significa que os valores do estimador ao longo de todas as possíveis amostras estão centrados
no parâmetro populacional.
• Se um estimador T é viesado, sua qualidade é medida pelo erro quadrático médio, que pode
ser decomposto como a soma da variância de T e do quadrado do viés de T .
Exercícios
1. Para fixar as ideias sobre os conceitos apresentados nesta aula, você irá trabalhar com amostras
aleatórias simples de tamanho três retiradas da população {1, 2, 4, 6, 8}.
Pelo princípio da multiplicação, o número total de amostras é 5×5×5 = 125 e cada uma dessas
amostras tem probabilidade 1
5 × 1
5 × 1
5 = 125 .
1
X1 +X2 +X3
• média amostral: X = 3 ;
X1 +2X2 +X3
• média amostral ponderada: X p = 4 ;
min(X1 ,X2 ,X3 )+max(X1 ,X2 ,X3 )
• ponto médio: ∆ = 2 .
já estão feitos, a título de ilustração. Você não precisa indicar todas as contas; apenas
use a máquina de calcular e anote o resultado obtido.
Obs.: Na plataforma está disponível a planilha excel com essas tabelas.
(c) Obtenha a função de distribuição de probabilidade, explicitando os diferentes valores de
cada um dos estimadores e suas respectivas probabilidades.
(d) Calcule a esperança e a variância de cada um dos estimadores.
(e) Verifique as afirmativas feitas no enunciado do problema.
Amostra Estimador
X1 X2 X3 X Xp ∆
1+1+1 1+2×1+1 1+1
1 1 1 3 =1 4 =1 2 =1
1+1+2
1 1 2 3 = 34 1+2×1+2
4 = 54 1+2
2 = 3
2
1+1+4 1+2×1+4
1 1 4 3 =2 4 = 74 1+4
2 = 5
2
1+1+6
1 1 6 3 = 38 1+2×1+6
4 = 94 1+6
2 = 7
2
1+1+8
1 1 8 3 = 10
3
1+2×1+8
4 = 11
4
1+8
2 = 9
2
1+2+1 4 1+2×2+1 6 1+2 3
1 2 1 3 = 3 4 = 4 2 = 2
1 2 2
1 2 4
1 2 6
1 2 8
1 4 1
1 4 2
1 4 4
1 4 6
1 4 8
1 6 1
1 6 2
1 6 4
1 6 6
1 6 8
1 8 1
1 8 2
1 8 4
1 8 6
1 8 8
80 AULA 4. INFERÊNCIA ESTATÍSTICA – CONCEITOS BÁSICOS
Amostra Estimador
X1 X2 X3 X Xp ∆
2 1 1
2 1 2
2 1 4
2 1 6
2 1 8
2 2 1
2 2 2
2 2 4
2 2 6
2 2 8
2 4 1
2 4 2
2 4 4
2 4 6
2 4 8
2 6 1
2 6 2
2 6 4
2 6 6
2 6 8
2 8 1
2 8 2
2 8 4
2 8 6
2 8 8
81
Amostra Estimador
X1 X2 X3 X Xp ∆
4 1 1
4 1 2
4 1 4
4 1 6
4 1 8
4 2 1
4 2 2
4 2 4
4 2 6
4 2 8
4 4 1
4 4 2
4 4 4
4 4 6
4 4 8
4 6 1
4 6 2
4 6 4
4 6 6
4 6 8
4 8 1
4 8 2
4 8 4
4 8 6
4 8 8
82 AULA 4. INFERÊNCIA ESTATÍSTICA – CONCEITOS BÁSICOS
Amostra Estimador
X1 X2 X3 X Xp ∆
6 1 1
6 1 2
6 1 4
6 1 6
6 1 8
6 2 1
6 2 2
6 2 4
6 2 6
6 2 8
6 4 1
6 4 2
6 4 4
6 4 6
6 4 8
6 6 1
6 6 2
6 6 4
6 6 6
6 6 8
6 8 1
6 8 2
6 8 4
6 8 6
6 8 8
83
Amostra Estimador
X1 X2 X3 X Xp ∆
8 1 1
8 1 2
8 1 4
8 1 6
8 1 8
8 2 1
8 2 2
8 2 4
8 2 6
8 2 8
8 4 1
8 4 2
8 4 4
8 4 6
8 4 8
8 6 1
8 6 2
8 6 4
8 6 6
8 6 8
8 8 1
8 8 2
8 8 4
8 8 6
8 8 8
84 AULA 4. INFERÊNCIA ESTATÍSTICA – CONCEITOS BÁSICOS
Solução do Exercício
1+2+4+6+8
µ = = 4, 2
5
12 + 22 + 42 + 62 + 82
σ2 = − (4, 2)2 = 6, 56
5
Logo,
1575
E(X ) = = 4, 2 = µ
375
22305 6, 56 σ2
V ar(X ) = − (4, 2)2 = 2, 186667 = =
9 × 125 3 3
85
Logo,
E(X p ) = 4, 2 = µ
40200
V ar(X p ) = − (4, 2)2 = 2, 46
16 × 125
86 AULA 4. INFERÊNCIA ESTATÍSTICA – CONCEITOS BÁSICOS
Logo,
1062
E(∆) = = 4, 248
250
9952
V ar(∆) = − (4, 248)2 = 1, 858496
4 × 125
Parâmetro Estimador
populacional X Xp ∆
Média µ = 4, 2 4, 2000 4, 2000 4, 2480
Variância σ 2 = 6, 56 2, 1867 2, 4600 1, 8585
Nesta aula, você irá aprofundar seus conhecimentos sobre a distribuição amostral da média
amostral. Na aula anterior, analisamos, por meio de alguns exemplos, o comportamento da média
amostral; mas naqueles exemplos, a população era pequena e foi possível obter todas as amostras,
ou seja, foi possível obter a distribuição amostral exata. Nesta aula, veremos resultados teóricos
sobre a distribuição amostral da média amostral, que nos permitirão fazer análises sem ter que listar
todas as amostras. Tal conhecimento é importante, uma vez que, na prática, temos apenas uma única
amostra.
Média e Variância
Na aula anterior, vimos, por meio de exemplos, que a média amostral X é um estimador não-
viesado da média populacional µ. Aqueles exemplos ilustram o seguinte resultado geral.
88 AULA 5. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
Teorema 5.1
Seja X1 , X2 , . . . , Xn uma amostra aleatória simples de tamanho n de uma população representada
pela variável aleatória X com média µ e variância σ 2 . Então,
E(X ) = µ
σ2
Var(X ) =
n
É importante notar que esse resultado se refere a qualquer população X , ou seja, o Teorema 5.1
é válido, qualquer que seja a distribuição da variável aleatória que descreve a nossa população. O
que ele estabelece é que as médias amostrais das diferentes amostras aleatórias simples de tamanho
n tendem a “acertar o alvo” da média populacional µ; lembre-se da Figura 4.3, partes (a) e (b). Além
disso, à medida que o tamanho amostral n aumenta, a dispersão em torno do alvo, medida por Var(X ),
vai diminuindo e tende a zero quando n → ∞.
σ
EP(X ) = √ .
n
Populações Normais
Na prática estatística, várias populações podem ser descritas, pelo menos aproximadamente,
por uma distribuição normal. Obviamente, o teorema anterior continua valendo no caso de uma
população normal, mas temos uma característica a mais da distribuição amostral da média quando a
população é normal: ela é também normal.
Teorema 5.2
Seja X1 , X2 , . . . , Xn uma amostra aleatória simples (aas) de tamanho n de uma população normal,
isto é, uma população representada por uma variável aleatória normal X com média µ e variância
σ 2 . Então, a distribuição amostral da média amostral X é normal com média µ e variância σ 2 /n, ou
seja,
σ2
X ∼ N µ; σ 2
=⇒ X ∼ N µ;
n
Figura 5.1 – Distribuição amostral de X com base em aas de tamanho n = 4 de uma população X ∼ N(1; 9).
Exemplo 5.1
A capacidade máxima de um elevador é de 500kg. Se a distribuição dos pesos dos usuários é
N(70; 100), qual é a probabilidade de que sete pessoas ultrapassem este limite? E de seis pessoas?
Solução:
Podemos considerar os sete passageiros como uma amostra aleatória simples da população de todos
os usuários, representada pela variável aleatória X ∼ N(70; 100). Seja, então, X1 , . . . , X7 uma amostra
aleatória simples de tamanho n = 7. Se o peso máximo é 500kg, para que sete pessoas ultrapassem
o limite de segurança temos que ter
7
X 7
1X 500
Xi > 500 ⇒ Xi > ⇒ X > 71, 729
7 7
i=1 i=1
Mas, pelo Teorema 5.2, sabemos que X ∼ N 70; 100
7 . Logo,
X − 70 71, 729 − 70
P(X > 71, 729) = P q > q = P(Z > 0, 46)
100 100
7 7
Podemos ver que existe uma probabilidade alta (0,32 ou 32% de chance) de sete pessoas
90 AULA 5. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
ultrapassarem o limite de segurança. Já com seis pessoas, essa probabilidade é bastante pequena.
Assim, o número máximo de pessoas no elevador deve ser estabelecido como seis ou menos.
Exemplo 5.2
Uma população é descrita por uma variável aleatória X que tem distribuição normal com média 40 e
desvio-padrão 5.
(b) Se X é a média de uma amostra aleatória simples de 16 elementos retirados dessa população,
calcule P(35 < X < 45).
(d) Que tamanho deveria ter a amostra para que P(35 < X < 45) = 0, 95?
Solução:
(a)
35 − 40 45 − 40
P(35 < X < 45) = P <Z <
5 5
= Pr(−1 < Z < 1) = 2 × P(0 < Z < 1)
= 2 × tab(1, 0) = 0, 68268
(b) Com n = 16, resulta que X ∼ N 40; 16
52
35 − 40 45 − 40
P(35 < X < 45) = P q <Z < q
25 25
16 16
(c) Veja a Figura 5.2. Como visto, a distribuição amostral com n = 16 é menos dispersa que
a distribuição populacional e, então, podemos ver que, entre 35 e 45, temos concentrada
praticamente toda a distribuição de X .
Figura 5.2 – Distribuição amostral de X com base em aas de tamanho n = 16 de uma população X ∼ N(40; 25).
Figura 5.3 – Distribuição amostral de X com base em amostras de tamanhos n = 16 e n = 4 de uma população N(40; 25).
Exemplo 5.3
A máquina de empacotar um determinado produto o faz segundo uma distribuição normal, com média
µ e desvio-padrão de 10g.
(a) Em quanto deve ser regulado o peso médio µ para que apenas 10% dos pacotes tenham menos
do que 500g?
(b) Com a máquina assim regulada, qual a probabilidade de que o peso total de quatro pacotes
escolhidos ao acaso seja inferior a 2kg?
Solução:
92 AULA 5. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
(a) Seja X a variável aleatória que representa o peso dos pacotes. Sabemos, então, que X ∼
N(µ; 100). Queremos que
X −µ 500 − µ 500 − µ
P(X < 500) = 0, 10 ⇒ P < = 0, 10 ⇒ P Z < = 0, 10
10 10 10
500−µ
Então, na densidade normal padrão, à esquerda da abscissa 10 temos que ter uma área
(probabilidade) de 0,10. Logo, essa abscissa tem que ser negativa. Na Tabela 1, temos que
procurar o valor 0, 40 = 0, 50 − 0, 10, o que nos fornece a abscissa 1,28. Logo,
500 − µ
= −1, 28 ⇒ µ = 512, 8 g
10
4
P
(b) Sejam X1, X2 , X3 , X4 os pesos dos 4 pacotes da amostra. Queremos que Xi < 2000g. Isso é
i=1
equivalente a X < 500. Logo,
X − 512, 8 500 − 512, 8
P(X < 500) = P q < q
100 100
4 4
Com a máquina regulada para 512,8g, há uma probabilidade de 0,00523 de que uma amostra
de 4 pacotes apresente peso médio inferior a 500g. Note que com um pacote apenas, essa
probabilidade é de 0,10. Por isso, as inspeções de controle de qualidade são sempre feitas com
base em amostras de tamanho n > 1. Isso evita que a decisão se baseie em uma única amostra
“infeliz”.
Resumo
Nesta aula, foram estudadas propriedades da média amostral X . Ao final, você deverá ser capaz
de compreender perfeitamente os seguintes resultados:
• Dada uma amostra aleatória simples com reposição (aas) X1 , X2 , . . . , Xn de uma população X
com média µ e variância σ 2 , ambas finitas, a média amostral X é um estimador não-viesado de
µ com variância igual à variância populacional dividida pelo tamanho amostral n, isto é,
E(X ) = µ
σ2
Var(X ) =
n
93
Exercícios
1. Uma amostra de tamanho n = 18 é extraída de uma população normal com média 15 e desvio-
padrão 2,5. Calcule a probabilidade de que a média amostral
2. Os comprimentos das peças produzidas por determinada máquina têm distribuição normal com
uma média de 172mm e desvio padrão de 5mm. Calcule a probabilidade de uma amostra
aleatória simples de 16 peças ter comprimento médio:
3. Qual deverá ser o tamanho de uma amostra aleatória simples a ser retirada de uma população
N(150; 132 ) para que P( X − µ < 6, 5) = 0, 95?
4. Volte ao Exemplo 5.3. Depois de regulada a máquina, prepara-se uma carta de controle de
qualidade. Uma amostra de 4 pacotes será sorteada a cada hora. Se a média da amostra for
inferior a 497g ou superior a 520g, a produção deve ser interrompida para ajuste da máquina,
isto é, ajuste do peso médio.
5. Uma empresa produz parafusos em duas máquinas. O comprimento dos parafusos produzidos em
ambas é aproximadamente normal com média de 20mm na primeira máquina e 25mm na segunda
máquina e desvio-padrão comum de 4mm. Uma caixa com 16 parafusos, sem identificação, é
encontrada e o gerente de produção determina que, se o comprimento médio for maior que
23mm, então a caixa será identificada como produzida pela máquina 2; caso contrário, será
identificada como produzida pela máquina 1. Especifique os possíveis erros nessa decisão e
calcule as suas probabilidades.
94 AULA 5. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
6. Uma fábrica produz parafusos especiais, para atender um determinado cliente, que devem ter
comprimento de 8,5cm. Como os parafusos grandes podem ser reaproveitados a um custo muito
baixo, a fábrica precisa controlar apenas a proporção de parafusos pequenos. Para que o
processo de produção atinja o lucro mínimo desejável, é necessário que a proporção de parafusos
pequenos seja no máximo de 5%.
(a) Supondo que a máquina que produz os parafusos o faça de modo que os comprimentos
tenham distribuição normal com média µ e desvio-padrão de 1,0cm, em quanto deve ser
regulada a máquina para satisfazer as condições de lucratividade da empresa?
(b) Para manter o processo sob controle, é programada uma carta de qualidade. A cada hora
será sorteada uma amostra de quatro parafusos e, se o comprimento médio dessa amostra
for menor que 9,0cm, o processo de produção será interrompido para uma nova regulagem
da máquina. Qual é a probabilidade de uma parada desnecessária?
(c) Se a máquina se desregulou de modo que o comprimento médio passou a ser 9,5cm, qual
é a probabilidade de se continuar o processo de produção fora dos padrões desejados?
(a)
14, 5 − 15 16 − 15
P(14, 5 ≤ X ≤ 16) = P q ≤Z ≤ q
2,52 2,52
18 18
(b)
16, 1 − 15
P(X > 16, 1) = P Z > q = P(Z > 1, 87)
2,52
18
(a)
169 − 172 X − 172 175 − 172
P(169 ≤ X ≤ 175) = P q ≤ q ≤ q
25 25 25
16 16 16
= P(−2, 4 ≤ Z ≤ 2, 4) = 2 × P(0 ≤ Z ≤ 2, 4)
= 2 × tab(2, 4) = 2 × 0, 4918 = 0, 9836
95
(b)
178 − 172
P(X > 178) = P Z > q = P(Z > 4, 8) ≈ 0
25
16
(c)
165 − 172
P(X < 165) = P Z < q = P(Z < −5, 6) ≈ 0
25
16
3. Temos que X ∼ N(150; 132 ) e queremos determinar n para que P( X − µ < 6, 5) = 0, 95.
(a) Parada desnecessária: amostra indica que o processo está fora de controle (X < 497
ou X > 520), quando, na verdade, o processo está ajustado (µ = 512, 8). Neste caso,
podemos usar a notação de probabilidade condicional para auxiliar na solução do exercício.
Queremos calcular
P X < 497 ∪ X > 520 | X ∼ N 512, 8; 100 4
= P X < 497 | X ∼ N (512, 8; 25) + P X > 520 | X ∼ N (512, 8; 25)
497 − 512, 8 520 − 512, 8
=P Z < +P Z >
5 5
= P(Z < −3, 16) + P(Z > 1, 44) = P(Z > 3, 16) + P(Z > 1, 44)
= [0, 5 − P(0 ≤ Z ≤ 3, 16)] + [0, 5 − P(0 ≤ Z ≤ 1, 44)]
= 0, 5 − tab(3, 16) + 0, 5 − tab(1, 44) = 1, 0 − 0, 49921 − 0, 42507 = 0, 07572
5. Os erros são:
E1 : estabelecer que são da máquina 1, quando na verdade foram produzidos pela máquina 2
ou
E2 : estabelecer que são da máquina 2, quando na verdade foram produzidos pela máquina 1.
X > 23 =⇒ máquina 2
X ≤ 23 =⇒ máquina 1
16 23 − 25
P(E1 ) = P X ≤ 23|X ∼ N 25; =P Z ≤
16 1
= Pr(Z ≤ −2) = P(Z ≥ 2) = 0, 5 − tab(2, 0) = 0, 5 − 0, 4772 = 0, 0228
16 23 − 20
P(E2 ) = P X > 23|X ∼ N 20; =P Z >
16 1
= Pr(Z > 3) = 0, 5 − tab(3, 0) = 0, 5 − 0, 4987 = 0, 0013
(a) X ∼ N(µ; 1). Como Pr(X < 8, 5) = 0, 05, resulta que 8,5 tem que ser menor que µ, ou seja,
a abscissa 8, 5 − µ tem que estar no lado negativo da escala da normal padronizada.
8, 5 − µ
Pr(X < 8, 5) = 0, 05 ⇔ P Z < = 0, 05 ⇔
1
8, 5 − µ
P Z >− = 0, 05 ⇔ P(0 ≤ Z ≤ µ − 8, 5) = 0, 45 ⇔
1
µ − 8, 5 = 1, 64 ⇔ µ = 10, 14
(b) Parada desnecessária: amostra indica processo fora de controle (X < 9), quando, na
verdade, o processo está sob controle (µ = 10, 14).
1 9 − 10, 14
P X < 9 | X ∼ N 10, 14; =P Z <
4 0, 5
= P(Z < −2, 28) = P(Z > 2, 28) = 0, 5 − P(0 ≤ Z ≤ 2, 28)
= 0, 5 − tab(2, 28) = 0, 5 − 0, 4887 = 0, 0113
1 9 − 9, 5
P X > 9 | X ∼ N 9, 5; =P Z > = P(Z > −1)
4 0, 5
= P(−1 < Z < 0) + P(Z ≥ 0) = P(0 < Z < 1) + P(Z ≥ 0) = tab(1, 0) + 0, 5 = 0, 8413
98 AULA 5. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
Aula 6
Nesta aula, iremos concluir o estudo sobre a distribuição amostral da média amostral. Na
aula anterior, analisamos a situação em que a população era normal e vimos que a média amostral
também tem distribuição normal. Agora, iremos estudar o Teorema Limite Central, que nos dá uma
aproximação para a distribuição da média amostral para grandes amostras, qualquer que seja a
distribuição populacional.
Os resultados vistos na aula anterior são válidos para populações normais, isto é, se uma
população é normal com média µ e variância σ 2 , então a distribuição amostral de X é também normal
com média µ e variância σ 2 /n, em que n é o tamanho da amostra. O Teorema Central do Limite
nos fornece um resultado análogo para qualquer distribuição populacional, desde que o tamanho da
amostra seja suficientemente grande.
qualquer população, podemos aproximar a distribuição amostral de X por uma distribuição normal
com a mesma média populacional e variância igual à variância populacional dividida pelo tamanho
da amostra.
Quão grande deve ser a amostra para se obter uma boa aproximação depende das
características da distribuição populacional. Se a distribuição populacional não se afastar muito
de uma distribuição normal, a aproximação será boa, mesmo para tamanhos pequenos de amostra.
Na Figura 6.1 ilustra-se esse teorema para uma distribuição contínua, conhecida como
distribuição exponencial. Esta distribuição depende de um parâmetro, que é a média da distribuição.
O gráfico superior representa a distribuição populacional e os histogramas representam a distribuição
amostral de X ao longo de 5.000 amostras de tamanhos 10, 50, 100 e 250. Assim, podemos ver que,
embora a população seja completamente diferente da normal, a distribuição amostral de X vai se
tornando cada vez mais próxima da normal à medida que n aumenta.
Em termos práticos, esse teorema é de extrema importância e, por isso é chamado teorema
central; em geral, amostras de tamanho n > 30 já fornecem uma aproximação razoável.
Exemplo 6.1
Uma moeda é lançada 50 vezes, com o objetivo de se verificar sua honestidade. Se ocorrem 36 caras
nos 50 lançamentos, o que podemos concluir?
Solução:
Neste caso, a população pode ser representada por uma variável de Bernoulli X com parâmetro
p, isto é, X assume o valor 1 com probabilidade p na ocorrência de cara e assume o valor 0 com
probabilidade 1 − p na ocorrência de coroa. Para uma variável de Bernoulli, temos que E(X ) = p
e Var(X ) = p(1 − p). Como são feitos 50 lançamentos, o tamanho da amostra é 50 (n grande!)
e, pelo Teorema Limite Central, X é aproximadamente normal com média E(X ) = p e variância
p(1−p)
Var(X ) = 50 .
Suponhamos que a moeda seja honesta, isto é, que p = 1/2. Nessas condições, qual é a
probabilidade de obtermos 36 caras em 50 lançamentos? Com a hipótese de honestidade da moeda,
o Teorema Limite Central nos diz que
!
1 12 × 12
X ≈N ;
2 50
Figura 6.1 – Ilustração do Teorema Limite Central para uma população X ∼ exp(1).
Note que essa probabilidade é bastante pequena, ou seja, há uma pequena probabilidade de obtermos
36 ou mais caras em um lançamento de uma moeda honesta. Isso pode nos levar a suspeitar sobre
a honestidade da moeda!
102 AULA 6. O TEOREMA LIMITE CENTRAL
Exemplo 6.2
O fabricante de uma lâmpada especial afirma que o seu produto tem vida média de 1.600 horas, com
desvio-padrão de 250 horas. O dono de uma empresa compra 100 lâmpadas desse fabricante. Qual
é a probabilidade de que a vida média dessas lâmpadas ultrapasse 1.650 horas?
Solução:
Podemos aceitar que as 100 lâmpadas compradas sejam uma amostra aleatória simples da população
das lâmpadas produzidas por esse fabricante. Como n = 100 é um tamanho suficientemente
grande
de amostra, podemos usar o Teorema Limite Central, que nos diz que X ≈ N 1600; 100 . Logo,
2502
X − 1600 1650 − 1600
P(X > 1650) = P q > q
2502 2502
100 100
Resumo
O Teorema Limite Central limite é um dos mais importantes teoremas da teoria inferencial. Ele
nos dá informações sobre a distribuição amostral de X para amostras grandes de qualquer população.
Mais precisamente, se X1 , X2 , . . . , Xn é uma amostra aleatória simples de uma população X tal que
E(X ) = µ e Var(X ) = σ 2 , então a distribuição de X converge para a distribuição normal com média µ
e variância σ 2 /n quando n → ∞. Equivalentemente,
X −µ
−→ N(0, 1)
√σ
n
ou
√ X −µ
n −→ N(0, 1)
σ
Exercícios
de engarrafamento, indica uma média de 1,985 litro. Qual é a probabilidade de se obter uma
média amostral de 1,985 ou menos, caso a afirmativa do gerente esteja certa? O que se pode
concluir?
!
1, 985 − 2
P(X ≤ 1, 985) = P Z ≤ 0,05
10
A probabilidade de se obter esse valor nas condições dadas pelo gerente é muito pequena, o
que pode nos fazer suspeitar da veracidade das afirmativas. É provável que ou a média não
seja 2 (e, sim, menor que 2), ou o desvio-padrão não seja 0,05 (e, sim, maior que 0,05). Esboce
gráficos da normal para compreender melhor esse comentário!
104 AULA 6. O TEOREMA LIMITE CENTRAL
Aula 7
Nesta aula, você verá uma importante aplicação do Teorema Limite Central: iremos estudar a
distribuição amostral de proporções para amostras grandes, que nos permitirá fazer inferência sobre
proporções.
• correção de continuidade;
Na aula anterior, vimos o Teorema Limite Central (TLC), que trata da distribuição da média
amostral X quando n → ∞. Esse teorema nos diz que, se X é uma população com média µ e
variância σ 2 , então a distribuição amostral da média de uma amostra aleatória simples de tamanho
σ2
n se aproxima de uma distribuição normal com média µ e variância n quando n → ∞.
Considere, agora, uma população em que cada elemento é classificado de acordo com a presença
ou ausência de determinada característica. Por exemplo, podemos pensar em eleitores escolhendo
entre dois candidatos, pessoas classificadas de acordo com o sexo, trabalhadores classificados como
trabalhador com carteira assinada ou não, e assim por diante. Essa população é, então, representada
106 AULA 7. DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO
P(X = 1) = p (7.1)
E(X ) = p (7.2)
Var(X ) = p(1 − p) (7.3)
Seguindo notação já vista anteriormente, vamos indicar por X ∼ Bern(p) o fato de uma variável
aleatória X ter distribuição de Bernoulli com parâmetro p (probabilidade de sucesso).
Suponha, agora, que de uma população X ∼ Bern(p) seja extraída uma amostra aleatória
simples X1 , X2 , . . . , Xn com reposição. Essa amostra resulta em uma sequência de 0’s (elementos que
não possuem a característica) e 1’s (elementos que possuem a característica). A média amostral é
ou seja, a média amostral é a proporção amostral dos elementos que possuem a característica de
interesse.
Usando o Teorema Limite Central e os resultados dados em (7.2) e (7.3), concluímos que, para
grandes amostras,
p(1 − p)
P ≈ N p;
b (7.4)
n
(a) X ∼ Bern(0, 5)
Existe a seguinte regra empírica para nos ajudar a decidir se é razoável utilizar a distribuição
normal como aproximação da distribuição amostral de P:
b
1. n ≥ 30 – amostra grande
Correção de continuidade
com o número de sucessos na amostra, em vez da proporção. Então, para uma amostra de tamanho
n, podemos ter 0, 1, 2, · · · , n sucessos na amostra. Para usar a aproximação normal, cada um
desses valores será substituído por um intervalo: se k é o número de sucessos na amostra, na
aproximação normal trabalharemos com o intervalo [k − 0, 5; k + 0, 5]. Vamos ver como utilizar a
correção de continuidade através de um exemplo. Nesse primeiro exemplo, faremos os cálculos em
todos os detalhes, para que você possa entender a lógica da aproximação. Nos exemplos e exercícios
subsequentes apresentaremos apenas as etapas realmente necessárias.
Exemplo 7.1
De um lote de produtos manufaturados, extrai-se uma amostra aleatória simples de 100 itens. Se
10% dos itens do lote são defeituosos, calcule a probabilidade de a proporção amostral
Solução:
Temos uma amostra de tamanho n = 100 de uma população X ∼ Bern(0, 10). As condições para
utilização da aproximação normal são válidas:
n = 100 > 30
100 × 0, 1 = 10 > 5
100 × 0, 9 = 90 > 5
Assim, a distribuição da proporção amostral pode ser aproximada por uma N 0, 10; 0,10×0,90
100 , ou
seja, N(0, 10; 0, 032 ).
(b) Para estar no intervalo [0, 12; 0, 14], temos que ter 12, 13 ou 14 sucessos na amostra. Note que
o intervalo é fechado nos 2 extremos. Com raciocínio análogo ao empregado no item anterior,
109
temos:
P(0, 12 ≤ P
b ≤ 0, 14) = P(P
b = 0, 12) + P(Pb = 0, 13) + P(Pb = 0, 14)
=P P b = 12 + P P b = 13 + P P b = 14
100 100 100
12 − 0, 5 12 + 0, 5 13 − 0, 5 13 + 0, 5
=P ≤P≤
b +P ≤P≤
b
100 100 100 100
14 − 0, 5 b ≤ 14 + 0, 5
+P ≤P
100 100
= P(0, 115 ≤ Pb ≤ 0, 125) + P(0, 125 ≤ P
b ≤ 0, 135) + P(0, 135 ≤ Pb ≤ 0, 145)
= P(0, 115 ≤ P
b ≤ 0, 145)
(c) Para estar no intervalo (0, 12; 0, 15), temos que ter 13 ou 14 sucessos na amostra. Note que
o intervalo é aberto nos 2 extremos. Com raciocínio análogo ao empregado no item anterior,
temos:
13 14
P(0, 12 < P < 0, 15) = P(0, 13 ≤ P ≤ 0, 14) = P P =
b b b +P P = b
100 100
13 − 0, 5 13 + 0, 5 14 − 0, 5 14 + 0, 5
=P ≤P≤
b +P ≤P≤
b
100 100 100 100
= P(0, 125 ≤ P b ≤ 0, 135) + P(0, 135 ≤ P b ≤ 0, 145) = P(0, 125 ≤ P
b ≤ 0, 145)
0, 125 − 0, 10 0, 145 − 0, 10
≈P ≤Z ≤ = P(0, 83 ≤ Z ≤ 1, 5)
0, 03 0, 03
= tab(1, 5) − tab(0, 83) = 0, 4332 − 0, 2967 = 0, 1365
(d) Uma proporção máxima de 0,12 significa 12, 11, 10, · · · 0 sucessos na amostra. Em termos da
normal aproximadora, temos que calcular a probabilidade à esquerda da abscissa padronizada
correspondente, ou seja:
0, 125 − 0, 10
P(P ≤ 0, 12) = P(P ≤ 0, 125) ≈ P Z ≤
b b = P(Z ≤ 0, 83) = 0, 5 + tab(0, 83)
0, 03
= 0, 5 + 0, 2967 = 0, 7967
(e) Para ser maior que 0,87, temos que ter 88, 89, · · · , 100 sucessos na amostra. Em termos da
normal aproximadora, temos que calcular a probabilidade à direita da abscissa padronizada
110 AULA 7. DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO
correspondente, ou seja:
0, 875 − 0, 10
P(P > 0, 87) = P(P ≥ 0, 88) ≈ P Z ≥
b b = P(Z ≥ 25, 83) ≈ 0
0, 03
Com este exemplo, podemos ver que o ponto importante é se o intervalo é fechado, ou não.
No quadro a seguir, em que k é o número de sucessos na amostra e n é o tamanho da amostra,
resumimos os resultados básicos, que podem ser conjugados para analisar todos os tipos possíveis
de intervalo.
b=k k−0,5 k+0,5
P P n P n ≤P
b≤
n
b≤k k+0,5
P P n P Pb≤
n
b < k =P P k−1 k−1+0,5 k−0,5
P P n
b≤
n P Pb≤
n =P Pb≤
n
b≥k k−0,5
P P n P Pb≥
n
b > k =P P k+1 k+1−0,5 k+0,5
P P n
b≥
n P Pb≥
n =P Pb≥
n
Note que, se na probabilidade original o k está incluído no intervalo, então ele tem que estar incluído
no intervalo para cálculo da probabilidade aproximada pela normal.
Solução:
Temos uma amostra de tamanho 50 de uma população X ∼ Bern(0, 12). As condições para
aproximação pela normal são satisfeitas:
b≥ 5.
O lote será rejeitado se P
50
b ≥ 5 − 0, 5 = P Pb ≥ 0, 09 ≈ P Z ≥ r0, 09 − 0, 12
P Pb ≥ 5 =P P
50 50 0, 12 × 0, 88
50
= P(Z ≥ −0, 65) = 0, 5 + tab(0, 65) = 0, 5 + 0, 2422 = 0, 7422
Note que essa é uma probabilidade alta, mas o problema aqui é a alta taxa de defeituosos do
processo: 12%.
Resumo
• Nesta aula estudamos a distribuição amostral da proporção amostral, que é a média amostral
de uma população X ∼ Bern(p). Vimos que essa distribuição pode ser aproximada por uma
p(1 − p)
distribuição normal de média p e variância , desde que sejam satisfeitas as seguintes
n
condições:
? n ≥ 30
? np ≥ 5
? n(1 − p) ≥ 5
Exercícios
(a) P(P
b ≤ 0, 5) se X ∼ Bern(0, 7) e n = 50
(c) P(P
b > 0, 6) se X ∼ Bern(0, 5) e n = 100
(d) P(P
b = 0, 25) se X ∼ Bern(0, 4) e n = 40
(e) P(P
b ≥ 0, 4) se X ∼ Bern(0, 3) e n = 30
(g) P(0, 4 ≤ P
b ≤ 0, 6) se X ∼ Bern(0, 2) e n = 30
(h) P(P
b < 0, 36) se X ∼ Bern(0, 3) e n = 50
112 AULA 7. DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO
(i) P(0, 25 ≤ P
b < 0, 45) se X ∼ Bern(0, 4) e n = 120
4. Com base em dados históricos, uma companhia aérea estima em 15% a taxa de desistência
entre seus clientes, isto é, 15% dos passageiros com reserva não aparecem na hora do voo.
Para otimizar a ocupação de suas aeronaves, essa companhia decide aceitar 400 reservas para
os voos em aeronaves que comportam apenas 350 passageiros. Calcule a probabilidade de que
essa companhia não tenha assentos suficientes em um desses voos. Essa probabilidade é alta
o suficiente para a companhia rever sua política de reserva?
b ≤ 25 = P Pb ≤ 25 + 0, 5 = P(P
0, 51 − 0, 7
P(P
b ≤ 0, 5) = P P b ≤ 0, 51) ≈ P Z ≤ r
50 50 0, 7 × 0, 3
50
= P(Z ≤ −2, 93) = 0, 5 − tab(2, 93) = 0, 5 − 0, 4983 = 0, 0017
43 b ≤ 56 42, 5 b ≤ 56, 5
P(0, 42 < P
b ≤ 0, 56) = P ≤P =P ≤P
100 100 100 100
0, 425 − 0, 5 0, 565 − 0, 5
≈ P r
0, 5 × 0, 5 ≤ Z ≤ r
0, 5 × 0, 5
100 100
= P(−1, 5 ≤ Z ≤ 1, 3) = tab(1, 5) + tab(1, 3) = 0, 4332 + 0, 4032 = 0, 8364
113
b ≥ 61 − 0, 5 = P(P 0, 605 − 0, 5
P(P
b > 0, 6) = P Pb ≥ 61 = P P b ≥ 0, 605) ≈ P Z ≥ r
100 100 0, 5 × 0, 5
100
= P(Z ≥ 2, 1) = 0, 5 − tab(2, 1) = 0, 5 − 0, 4821 = 0, 0179
10 10 − 0, 5 10 + 0, 5
P(P = 0, 25) = P P =
b b =P ≤P≤
b
40 40 40
2375 − 0, 4 0, 2625 − 0, 4
b ≤ 0, 2625) ≈ P 0,
= P(0, 2375 ≤ P r 0, 4 × 0, 6 ≤ Z ≤ r 0, 4 × 0, 6
40 40
= P(−2, 10 ≤ Z ≤ −1, 78) = P(1, 78 ≤ Z ≤ 2, 10) = tab(2, 10) − tab(1, 78)
= 0, 4821 − 0, 4625 = 0, 0196
b ≥ 12 − 0, 5 = P(P 3833 − 0, 3
P(P
b ≥ 0, 4) = P Pb ≥ 12 = P P b ≥ 0, 3833) ≈ P Z ≥ 0,
r
30 30 0, 3 × 0, 7
30
= P(Z ≥ 1, 0) = 0, 5 − tab(1, 0) = 0, 5 − 0, 3413 = 0, 1587
10 14 11 13
P(0, 125 < P
b < 0, 175) = P <P<
b =P ≤P≤
b
80 80 80 80
10, 5 b ≤ 13, 5 = P(0, 13125 ≤ P
=P ≤P b ≤ 0, 16875
80 80
0, 13125 − 0, 1 0, 16875 − 0, 1
≈ P r ≤ Z ≤ r
0, 1 × 0, 9 0, 1 × 0, 9
80 80
= P(0, 93 ≤ Z ≤ 2, 05) = tab(2, 05) − tab(0, 93)
= 0, 4798 − 0, 3238 = 0, 1560
12 b ≤ 18 11, 5 b ≤ 18, 5
P(0, 4 ≤ P
b ≤ 0, 6) = P ≤P =P ≤P
30 30 30 30
3833 − 0, 2 0, 6167 − 0, 2
b ≤ 0, 6167 ≈ P 0,
= P(0, 03833 ≤ P r 0, 2 × 0, 8 ≤ Z ≤ r 0, 2 × 0, 8
30 30
= P(2, 51 ≤ Z ≤ 5, 71) = tab(5, 71) − tab(2, 51) = 0, 5 − 0, 4940 = 0, 0060
18 17 17 + 0, 5
P(P < 0, 36) = P P <
b b =P P≤
b =P P≤
b = P(P
b ≤ 0, 35)
50 50 50
0, 35 − 0, 3
≈ P Z ≤ r = P(Z ≤ 0, 77) = 0, 5 + tab(0, 77)
0, 3 × 0, 7
50
= 0, 5 + 0, 2794 = 0, 7794
30 54 30 53
P(0, 25 ≤ P
b ≤ 0, 45) = P ≤P<
b =P ≤P≤
b
120 120 120 120
29, 5 b ≤ 53, 5 = P(0, 24583 ≤ Z ≤ 0, 44583)
=P ≤P
120 120
0, 24583 − 0, 4 0, 44583 − 0, 4
≈ P r ≤ Z ≤ r = P(−3, 45 ≤ Z ≤ 1, 02)
0, 4 × 0, 6 0, 4 × 0, 6
120 120
= tab(3, 45) + tab(1, 02) = 0, 4997 + 0, 3461 = 0, 8458
701 700, 5
P Pb≥ =P Pb≥ = P(P
b ≥ 0, 6991)
1002 1002
0, 6991 − 0, 61
≈ P
Z ≥ r 0, 61 × 0, 39 = P(Z ≥ 5, 78) ≈ 0
1002
3. Supondo que meninos e meninas sejam igualmente prováveis, nossa população de interesse
(constituída por todos os partos) é X ∼ Bern(0, 5). Temos uma amostra de n = 64 partos. As
condições para a aproximação normal são válidas (verifique!).
b ≥ 36 − 0, 5 = P(P 5546875 − 0, 5
P Pb ≥ 36 = P P b ≥ 0, 5546875) ≈ P Z ≥ 0, r
64 64 0, 5 × 0, 5
64
= P(Z ≥ 0, 875) = 0, 5 − tab(0, 875) ≈ 0, 5 − tab(0, 88) = 0, 5 − 0, 3106 = 0, 1894
Esse é um resultado que pode ocorrer por mero acaso, ou seja, não é um resultado não-usual.
4. Vamos considerar a população formada pelos passageiros que se apresentam para os voos
dessa companhia. Então, X ∼ Bern(0, 85) e temos uma amostra de tamanho n = 400. Como
há 350 lugares, a companhia terá problemas se a proporção de pessoas na amostra que se
116 AULA 7. DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO
350
apresentarem for maior que= 0, 875.
400
350 351 350, 5
P P>
b =P P≥
b =P P≥b = P(P
b ≥ 0, 87625)
400 400 400
0, 87625 − 0, 85
≈ PZ ≥ r = P(Z ≥ 1, 47) = 0, 5 − tab(1, 47)
0, 85 × 0, 15
400
= 0, 5 − 0, 4292 = 0, 0708
Essa é uma probabilidade um pouco alta; talvez valha a pena a companhia rever a política de
reservas e aceitar menos que 400 reservas.
Aula 8
Intervalos de Confiança
Nesta aula, você aprenderá um método muito importante de estimação de parâmetros. Na aula
anterior, você viu que a média amostral X é um bom estimador da média populacional µ. Mas vimos,
também, que existe uma variabilidade nos valores de X , ou seja, cada amostra dá origem a um valor
diferente do estimador. Uma maneira de informar sobre esta variabilidade é através da estimação
por intervalos.
• intervalo de confiança;
• margem de erro;
• nível de confiança;
• nível de significância;
• intervalo de confiança para a média de uma população N µ; σ 2 com variância
conhecida;
• intervalo de confiança para a média de uma população qualquer com base em grandes
amostras.
118 AULA 8. INTERVALOS DE CONFIANÇA
Ideias Básicas
O objetivo central da Inferência Estatística é obter informações para uma população a partir
do conhecimento de uma única amostra. Em geral, a população é representada por uma variável
aleatória X , com função de probabilidade ou densidade de probabilidade fX .
Dessa população, então, extrai-se uma amostra aleatória simples com reposição, que dá origem
a um conjunto X1 , X2 , . . . , Xn de n variáveis aleatórias independentes e identicamente distribuídas,
todas com a mesma distribuição fX . Se fX depende de um ou mais parâmetros, temos que usar a
informação obtida a partir da amostra para estimar esses parâmetros, de forma a conhecermos a
distribuição.
Nas aulas anteriores, por exemplo, vimos que a média amostral X é um bom estimador da média
populacional µ, no sentido de que ela tende a “acertar o alvo” da verdadeira média populacional.
Mas vimos, também, que existe uma variabilidade nos valores de X , ou seja, cada amostra dá origem
a um valor diferente do estimador. Para algumas amostras, X será maior que µ, para outras será
menor e para outras será igual.
Na prática, temos apenas uma amostra e, assim, é importante que se forneça alguma informação
sobre essa possível variabilidade do estimador. Ou seja, é importante informar o valor do estimador
θ
b obtido com uma amostra específica, mas é importante informar, também, que o verdadeiro valor
do parâmetro θ poderia estar em um determinado intervalo, digamos, no intervalo [θ b − ε, θ
b + ε].
Dessa forma, informamos a nossa margem de erro no processo de estimação; essa margem de erro é
consequência do processo de seleção aleatória da amostra.
O que vamos estudar nessa aula é como obter esse intervalo, de modo a “acertar na maioria das
vezes”, isto é, vamos obter um procedimento que garanta que, na maioria das vezes (ou das amostras
possíveis), o intervalo obtido conterá o verdadeiro valor do parâmetro θ. A expressão “na maioria
das vezes” será traduzida como “probabilidade alta”. Dessa forma, vamos lidar com afirmativas do
seguinte tipo:
A interpretação correta de tal afirmativa é a seguinte: se 1 − α = 0, 95, por exemplo, então isso
significa que o procedimento de construção do intervalo é tal que em 95% das possíveis amostras, o
intervalo [θ−
b erro; θ+
b erro] obtido conterá o verdadeiro valor do parâmetro. Note que cada amostra
resulta em um intervalo diferente; mas, em 95% das amostras, o intervalo contém o verdadeiro valor
119
do parâmetro. Veja a Figura 8.1 – dois dos intervalos não contêm o parâmetro θ.
h i
P θ∈ θb − ε; θ
b+ε =1−α (8.1)
Mais uma vez, a probabilidade se refere à probabilidade dentre as diversas possíveis amostras,
ou seja, a probabilidade está associada à distribuição amostral do estimador θ.
b Note que os limites
do intervalo dependem de θ,b que depende da amostra sorteada, ou seja, os limites do intervalo de
confiança são variáveis aleatórias (daí podemos falar em probabilidade). Cada amostra dá origem a
um intervalo diferente, mas o procedimento de obtenção dos intervalos garante probabilidade 1 − α
de acerto.
Vamos agora, introduzir os métodos para obtenção do intervalo de confiança para a média de
uma população. Como visto, a média populacional é um parâmetro importante, que pode ser muito bem
120 AULA 8. INTERVALOS DE CONFIANÇA
estimado pela média amostral X . Para apresentar as ideias básicas, vamos considerar um contexto
que é pouco frequente na prática. O motivo para isso é que, em termos didáticos, a apresentação
é bastante simples. Como o fundamento é o mesmo para contextos mais gerais, essa abordagem se
justifica.
Consideremos uma população descrita por uma variável aleatória normal com média µ e
variância σ 2 , isto é, X ∼ N(µ; σ 2 ). Vamos supor que o valor de σ 2 seja conhecido e que nosso
interesse seja estimar a média µ a partir de uma amostra aleatória simples X1 , X2 , . . . , Xn . Como visto
σ2
na Aula 5, Teorema 5.2, a distribuição amostral de X é normal com média µ e variância n, ou seja
σ2
X ∼ N µ; σ 2 =⇒ X ∼ N µ;
n
Da definição de distribuição amostral, isso significa que os diferentes valores de X obtidos a partir
σ2
das diferentes possíveis amostras se distribuem normalmente em torno de µ com variância n.
X −µ
Z= q ∼ N(0; 1)
σ2
n
ou equivalentemente,
√ X −µ
Z= n ∼ N(0; 1) (8.2)
σ
P(Z > zα ) = α
Se considerarmos, agora, o valor crítico zα/2 , conforme ilustrado na Figura 8.3, resulta que, se
Z ∼ N(0; 1), então
Mas isso vale para a distribuição normal padrão, em geral. Então, usando os resultados das Equações
8.2 e 8.3, obtemos que
121
√ X −µ
P −zα/2 ≤ n ≤ zα/2 = 1 − α
σ
o que é equivalente a
σ σ
P −zα/2 √ ≤ X − µ ≤ zα/2 √ = 1−α ⇔
n n
σ σ
P −X − zα/2 √ ≤ −µ ≤ −X + zα/2 √ = 1−α ⇔
n n
σ σ
P X − zα/2 √ ≤ µ ≤ X + zα/2 √ = 1−α (8.4)
n n
O intervalo de confiança para µ pode ser escrito na forma [X − ε; X + ε], onde ε = zα/2 √σn é a
margem de erro. Como visto, essa margem de erro está associada ao fato de que diferentes amostras
fornecem diferentes valores de X . As diferentes amostras fornecem diferentes intervalos de confiança,
122 AULA 8. INTERVALOS DE CONFIANÇA
mas uma proporção de 100 × (1 − α)% desses intervalos irá conter o verdadeiro valor de µ. Note que
aqui é fundamental a interpretação de probabilidade como frequência relativa: estamos considerando
os diferentes intervalos que seriam obtidos, caso sorteássemos todas as possíveis amostras. Assim, o
nível de confiança está associado à confiabilidade do processo de obtenção do intervalo: esse processo
é tal que acertamos (isto é, o intervalo contém µ) em 100×(1−α)% das vezes. Na Figura 8.4 ilustra-se
essa interpretação dos intervalos de confiança para uma população normal com variância 4 e tamanho
de amostra n = 16. A distribuição normal padrão representa a distribuição de probabilidade dos
√ X −µ
valores de 16 . Valores extremos de tal estatística levam a intervalos de confiança que não
2
contêm o verdadeiro parâmetro, representados pelos intervalos em preto. Os valores centrais, que
têm alta probabilidade (1 − α) de ocorrência levam a intervalos que contêm o verdadeiro valor do
parâmetro (intervalos em cinza).
Na prática, temos apenas uma amostra e o intervalo obtido com essa amostra específica, ou
contém ou não contém o verdadeiro valor de µ. A afirmativa
σ σ
P µ ∈ X − zα/2 √ ; X + zα/2 √ =1−α
n n
é válida porque ela envolve a variável aleatória X , que assume diferentes valores para as diferentes
amostras. Quando substituímos o estimador X por uma estimativa específica x obtida a partir de
uma amostra particular, temos apenas um intervalo e não faz mais sentido falar em probabilidade.
Para ajudar na interpretação do intervalo de confiança, suponha que, com uma amostra de
tamanho 25, tenha sido obtido o seguinte intervalo de confiança de 0,95:
5 − 1, 96 × √ ; 5 + 1, 96 × √
2 2
= [4, 216; 5, 784]
25 25
Esse intervalo específico contém ou não contém o verdadeiro valor de µ e não temos condições de
verificar o que é verdade. Mas o que sabemos é que, se repetíssemos o mesmo procedimento de
123
Sendo assim, é errado dizer que há uma probabilidade de 0,95 de o intervalo específico
[4, 216; 5, 784]
h conter o verdadeiro valor dei µ. Mas é certo dizer que, com probabilidade 0,95, o
intervalo X − 1, 96 × √225 ; X + 1, 96 × √225 contém µ. Note a variável aleatória X no limite do
intervalo.
Solução:
Vamos inicialmente determinar o valor crítico associado ao nível de confiança de 0,95. Como 1 − α =
0, 95, resulta que α = 0, 05 e α/2 = 0, 025.
Analisando a Figura 8.3, vemos que a probabilidade nas duas caudas da distribuição normal
padrão é de 0,05; logo, em cada cauda, a probabilidade é 0,025. Em termos da Tabela 1, isso significa
que a probabilidade entre 0 e z0,025 é (0, 50 − 0, 025) = 0, 475 e, assim, devemos procurar no corpo
da tabela o valor de 0,475 para determinar a abscissa z0,025 . Veja a Figura 8.5.
Procurando no corpo da tabela da distribuição normal padrão, vemos que o valor 0,475
corresponde à abscissa z0,025 = 1, 96. Logo, nosso intervalo de confiança é
78, 2 − 1, 96 × √ ; 78, 2 + 1, 96 × √
16 16
= [72, 9733 ; 83, 4267]
36 36
Esse intervalo contém ou não o verdadeiro valor de µ, mas o procedimento utilizado para sua
obtenção nos garante que há 95% de chance de estarmos certos, isto é, 95% dos intervalos construídos
com esse método conteriam o verdadeiro valor de µ.
124 AULA 8. INTERVALOS DE CONFIANÇA
Margem de erro
Vamos, agora, analisar a margem de erro do intervalo de confiança para a média de uma
população normal com variância conhecida. Ela é dada por
σ
ε = zα/2 √ (8.6)
n
Analisando a equação (8.6), vemos que a margem de erro depende diretamente do valor crítico e
do desvio-padrão populacional e é inversamente proporcional à raiz quadrado do tamanho da amostra.
Na Figura 8.6 ilustra-se a relação de dependência da margem de erro com o desvio padrão
populacional σ . Temos duas distribuições amostrais
centradas
na 2mesma
média e baseadas em
σ12 σ2
amostras de mesmo tamanho: X 1 ∼ N µ; e X 2 ∼ N µ; com σ12 < σ22 . Nas duas
n n
distribuições, a área total das caudas sombreadas é α, de modo que os intervalos limitados pelas
linhas verticais são os intervalos de confiança de nível 1 − α, ou seja, a área central em ambas
distribuições é 1 − α. Para a distribuição mais dispersa, isto é, com σ maior, o comprimento do
intervalo é maior. Esse resultado deve ser intuitivo: se há mais variabilidade na população, a nossa
margem de erro para estimação da média populacional tem que ser maior, mantidas fixas as outras
condições (tamanho de amostra e nível de confiança).
Por outro lado, se mantivermos fixos o tamanho da amostra e o desvio padrão populacional, é
razoável, também, que a margem de erro seja maior para um nível de confiança maior. Ou seja, se
queremos aumentar a probabilidade de acerto, é razoável que o intervalo seja maior. Aumentar a
probabilidade de acerto significa aumentar o nível de confiança, o que acarreta em um valor crítico
zα/2 maior. Veja a Figura 8.7, onde ilustra-se o intervalo de confiança para dois níveis de confiança
diferentes: 1 − α1 > 1 − α2 . O primeiro intervalo é maior, refletindo o maior grau de confiança, ou seja,
o preço que se paga por um nível de confiança maior é que o comprimento do intervalo de confiança
também será maior.
125
Figura 8.7 – Margem de erro versus nível de confiança: α1 < α2 ⇒ (1 − α1 ) > (1 − α2 ) ⇒ ε1 > ε2
Finalmente, mantidos o mesmo desvio padrão populacional e o mesmo nível de confiança, quanto
maior o tamanho da amostra, menor será a margem de erro, mas a redução da margem de erro depende
√
de n; assim, para reduzir a margem de erro pela metade, teremos que quadruplicar o tamanho da
√
amostra:
ε √
ε0 = ⇒ √ = √ ⇒ n0 = 2 n ⇒ n0 = 4n
1 1 1
2 n0 2 n
Quais são o as informações importantes que não foram divulgadas? Como podemos obtê-las?
Solução:
Quando se divulga um intervalo de confiança para um certo parâmetro, é costume publicar também
a estimativa pontual. Nesse caso, temos que informar a média amostral x, que pode ser achada
observando-se que o intervalo de confiança é simétrico em torno de x. Logo, x é o ponto médio do
intervalo:
1, 79 + 3, 01
x= = 2, 4
2
Daí conclui-se que a margem de erro é ε = 2, 4 − 1, 79 = 0, 61. Outra informação importante é o nível
de confiança, que deve ser encontrado a partir da abscissa zα/2 na margem de erro:
√
0, 61 ×
0, 61 = zα/2 × √ ⇒ zα/2 =
3 45
= 1, 36
45 3
Consultando a tabela da distribuição normal, vemos que P(0 ≤ Z ≤ 1, 36) = 0, 4131. Logo, o nível de
confiança é 2 × 0, 4131 = 0, 8262 ≈ 0, 83. Veja a Figura 8.8.
126 AULA 8. INTERVALOS DE CONFIANÇA
σ √ σ σ 2
ε = zα/2 √ =⇒ n = zα/2 =⇒ n = zα/2 (8.8)
n ε ε
Assim, podemos determinar o tamanho da amostra necessário para valores pré estabelecidos da
margem de erro e do nível de confiança. Note a relação entre o tamanho da amostra n e as três
grandezas envolvidas: variância populacional, nível de confiança e margem de erro.
(a) σ 2 = 4
(b) σ 2 = 16
Solução:
2
2 1, 64 · 2 2
(a) nσ =2 = z0,05 = = 1681
0, 08 0, 08
2
4 1, 64 · 4 2
(b) nσ =4 = z0,05 = = 6724
0, 08 0, 08
Note que a razão entre as variâncias populacionais é 4 e o mesmo ocorre com os tamanhos amostrais.
127
Na seção anterior, vimos que o intervalo de confiança para a média de uma população normal
com variância conhecida é dado por
σ σ
X − zα/2 √ ; X + zα/2 √ . (8.9)
n n
Essa é uma situação teórica importante, mas com dificuldades práticas de aplicação, pois, em geral, é
difícil termos fenômenos descritos exatamente por uma distribuição normal e, mais difícil ainda, que
a variância de tal população seja conhecida. Mas tal situação tem um grande valor didático.
Estudamos, também, na Aula 6, o Teorema Limite Central que afirma que, para amostras grandes
de uma população qualquer com média µ e variância σ 2 ,
√ X −µ
Z= n ≈ N(0; 1) (8.10)
σ
Tal resultado nos permitiria obter, de forma análoga, o intervalo de confiança para µ, desde que
conhecêssemos a variância σ 2 . Esse intervalo teria a mesma forma dada em (8.9), mas com a diferença
de que o nível de confiança seria aproximadamente (e não exatamente) 1 − α.
n
P 2
O que fazer se não conhecemos a variância σ 2 ? Na Aula 4, vimos que S 2 = 1
n−1 Xi − X
i=1
é um bom estimador para σ 2 ; em particular, ele é não-viesado. Uma outra propriedade importante é
que S 2 é um estimador consistente, o que significa, de maneira informal, que seu valor se aproxima
do verdadeiro valor de σ 2 à medida em que se aumenta o tamanho da amostra. Então, para grandes
amostras, poderíamos pensar em substituir σ por S em 8.10. Isso, de fato, é possível, graças ao
seguinte resultado:
Teorema 8.1
Para grandes amostras de uma população X com média µ e variância σ 2
√ X −µ
Z= n ≈ N(0; 1)
S
Esse teorema nos permite obter o intervalo de confiança para a média de uma população
qualquer como
S S
X − zα/2 √ ; X + zα/2 √ (8.11)
n n
O nível de confiança será apenas aproximadamente igual a 1 − α.
De determinada população, extrai-se uma amostra aleatória simples de 64 pessoas adultas com o
objetivo de se estimar o peso médio das pessoas adultas. A amostra acusa peso médio de 78,2kg e
desvio-padrão de 16,1kg. Construa um intervalo de confiança de nível de confiança 0,95 para o peso
médio de todos os adultos dessa população.
Solução:
Já vimos em exemplos anteriores, que o valor crítico associado ao nível de confiança de 0,95 é 1,96.
Não temos qualquer informação sobre a população (os valores dados referem-se à amostra), mas o
tamanho da amostra é grande. Assim, o intervalo de confiança aproximado é
78, 2 − 1, 96 × √ ; 78, 2 + 1, 96 × √
16, 1 16, 1
= [74, 2555 ; 82, 1445]
64 64
Como na aula anterior, esse intervalo contém ou não o verdadeiro valor de µ, mas o procedimento
utilizado para sua obtenção nos garante que há, aproximadamente, 95% de chance de estarmos
certos.
Resumo
σ
ε = zα/2 √
n
129
em que zα/2 é o valor crítico da densidade normal padrão que deixa probabilidade α/2 acima
dele.
S
ε = zα/2 √
n
em que
n
1 X 2
S = 2
Xi − X
n−1
i=1
Exercícios
1. De uma população N(µ; 9) extrai-se uma amostra aleatória simples de tamanho 25, obtendo-se
25
P
xi = 60. Obtenha o intervalo de confiança de 99% para a média da população.
i=1
2. Determine o tamanho da amostra necessário para se estimar a média de uma população normal
com σ = 4, 2 para que, com confiança de 95%, o erro máximo de estimação seja ±0, 05.
3. O peso X de um certo artigo é descrito aproximadamente por uma distribuição normal com
σ = 0, 58. Uma amostra de tamanho n = 25 resultou em x = 2, 8. Obtenha o intervalo de
confiança de 0, 90 para o peso médio desses artigos.
4. De uma população normal com σ = 5, retira-se uma amostra aleatória simples de tamanho 50,
obtendo-se x = 42.
(a) Obtenha o intervalo de confiança para a venda média mensal com nível de confiança de
95%.
(b) Obtenha o intervalo de confiança para a venda média mensal com nível de confiança de
99%.
(c) Em qual dos dois níveis de significância podemos afirmar que o gerente se baseou para
fazer a afirmativa?
6. Uma amostra de 121 chamadas para o número 0800 da sua empresa revela duração média de
16,6 minutos e desvio padrão de 3,63 minutos.
(a) Construa um intervalo de confiança de 90% para a duração média das chamadas desse
serviço.
(b) Você pretende encerrar esse serviço, a menos que a duração média das chamadas exceda
18 minutos. O que você pode concluir a partir desses dados?
Com 1 − α = 0, 99, temos que α = 0, 01 e α/2 = 0, 005. Assim, temos que procurar no corpo da
tabela a abscissa correspondente ao valor 0, 5 − 0, 005 = 0, 495, o que nos dá z0,005 = 2, 58.
Então, a margem de erro é
3
ε = 2, 58 × = 1, 548
5
Como a média amostral obtida é x = 60
25 = 2, 4, o intervalo de confiança de 99% é
1 − α = 0, 95 ⇒ zα/2 = 1, 96
Então
√ 1, 96 × 4, 2
ε = 1, 96 × √ ≤ 0, 05 ⇒ n ≥
4, 2
= 164, 64 ⇒ n ≥ 27106, 3296
n 0, 05
Logo, o tamanho mínimo necessário é n = 27107.
131
Com 1 − α = 0, 90, temos que α = 0, 10 e α/2 = 0, 05. Assim, temos que procurar no corpo da
tabela a abscissa correspondente ao valor 0, 5 − 0, 05 = 0, 45, o que nos dá z0,05 = 1, 64. Então
ε = 1, 64 × √
0, 58
= 0, 1902
25
4. 1 − α = 0, 95 ⇒ z0,025 = 1, 96
(c) Temos que reduzir a margem de erro; logo, o tamanho da amostra terá que ser maior que
50.
√
ε = 1, 96 × √ ≤ 1 ⇒ n ≥ 1, 96 × 5 = 9, 8 ⇒ n
5
≥9, 82 = 96, 04
n
1 − α = 0, 92 ⇒ z0,04 = 1, 75
54, 98 − 1, 75 × √ ; 54, 98 + 1, 75 × √
12, 7 12, 7
= [52, 3236 ; 57, 6364]
70 70
Aula 9
Na aula anterior, estudamos o método de estimação de uma média populacional por intervalo
de confiança no caso, ou de população normal com variância conhecida, ou de amostra grande de
uma população qualquer. A distribuição amostral da média amostral é, no primeiro caso, exatamente
normal e, no segundo caso, apenas aproximadamente normal. Em ambos os casos, o intervalo de
confiança tem a forma X ± EP(X ), sendo EP(X ) o erro padrão da média amostral, ou seja, o seu
desvio padrão.
Nesta aula, usaremos o resultado visto na Aula 7, para construir o intervalo de confiança para
uma proporção populacional.
O contexto de interesse é o seguinte: temos uma população em que cada elemento é classificado
de acordo com a presença ou ausência de determinada característica. O objetivo é estimar a proporção
populacional p dos elementos que possuem tal característica. Vimos, na Aula 7, que a proporção
amostral P
b é um bom estimador para p e, também que, para grandes amostras,
p(1 − p)
P ≈ N p;
b .
n
134 AULA 9. INTERVALOS DE CONFIANÇA PARA PROPORÇÕES – AMOSTRAS GRANDES
ou equivalentemente
Pb −p
q ≈ N(0; 1) (9.1)
p(1−p)
n
em que r
p(1 − p)
ε = zα/2 · EP(P)
b = zα/2 ·
n
Definição 9.1 Intervalo de Confiança Para uma Proporção Populacional Seja X ∼ Bern(p)
uma população da qual se extrai uma amostra aleatória simples de tamanho suficientemente
grande, isto é,
• n ≥ 30;
• np ≥ 5;
• n(1 − p) ≥ 5.
em que zα/2 é o valor crítico da distribuição normal padrão correspondente à probabilidade α/2.
Vamos analisar a expressão do erro padrão do estimador nas situações vistas até aqui:
r
σ S p(1 − p)
EP(X ) = √ EP(X ) = √ EP(P)
b =
n n | {z n }
| {z } | {z }
X ∼N(µ;σ 2 ) ;σ conhecido X ∼(µ;σ 2 );n grande X ∼Bern(p)
135
Nos três casos, queremos estimar a média µ da população, sendo que no terceiro caso, µ = p.
Analisando essas expressões, podemos ver uma diferença fundamental: o erro padrão da
proporção amostral depende do parâmetro p que queremos estimar! Isso não ocorre nos outros
2 casos. No primeiro caso, estamos supondo σ conhecido e, no segundo caso, S depende da média
amostral, e não da média populacional. Sendo assim, na prática, temos que estimar o erro padrão
de P,
b substituindo p por alguma estimativa que denotaremos por pb0 . Com tal estimativa, obtemos o
erro padrão estimado da proporção amostral:
r
p
b0 (1 − p
b0 )
EP
db =
P (9.3)
n
Obtenção da estimativa p
b0
Uma estimativa para p pode ser obtida de outras fontes, pesquisas similares ou de uma amostra
piloto. Pode-se usar também a própria proporção amostral obtida com a amostra usada na construção
do intervalo de confiança; nesse caso, temos que p
b0 = p
b.
Uma outra abordagem, conservadora, consiste em usar o valor máximo possível para o erro
padrão, dado o tamanho da amostra. Dessa forma, estamos trabalhando com a maior margem de erro
possível, o que podemos chamar de pior cenário. Da expressão 9.2, vemos que, para um n fixo, o erro
padrão depende diretamente de p(1 − p). Na Figura 9.1, temos o gráfico da função g(p) = p(1 − p)
para valores de p no intervalo de interesse [0, 1]. Vemos que o máximo dessa função ocorre quando
p = 0, 5.
Assim, tomando p
b0 = 0, 5, o intervalo de confiança terá o maior comprimento possível para n e 1 − α
136 AULA 9. INTERVALOS DE CONFIANÇA PARA PROPORÇÕES – AMOSTRAS GRANDES
Exemplo 9.1
Um gerente de produção deseja estimar a proporção de peças defeituosas em uma de suas linhas
de produção. Para isso, ele seleciona uma amostra aleatória simples de 100 peças dessa linha de
produção, obtendo 30 defeituosas. Determine o intervalo de confiança para a verdadeira proporção
de peças defeituosas nessa linha de produção com nível de confiança de 95%.
Solução:
O primeiro fato a observar é que a amostra é grande, com sucessos (30) e fracassos (70) suficientes, o
que nos permite usar a aproximação normal. Com nível confiança de 95%, obtemos que z0,025 = 1, 96.
Como não temos estimativa prévia da proporção de defeituosas p, temos que usar a proporção amostral
p
b = 0, 30. Assim, a margem de erro é
r
0, 3 × 0, 7
ε = 1, 96 × = 0, 0898
100
e o intervalo de confiança é
ε = 1, 96 × √
0, 5
= 0, 098
100
e o intervalo de confiança,
Como já visto, uma questão que se coloca frequentemente é: qual o tamanho da amostra
necessário para se estimar uma proporção p com uma margem de erro ε e nível de confiança 1 − α?
Como já visto no caso de populações normais, a resposta vem da expressão da margem de erro:
r p
p(1 − p) √ p(1 − p)
ε = zα/2 ⇒ n = zα/2
n ε
137
ou z 2
α/2
n = [p(1 − p)]
ε
Vemos, então, que n é diretamente proporcional a p(1 − p), ou seja, quanto maior p(1 − p), maior
será o tamanho da amostra n. Como já visto, na prática, não conhecemos p (na verdade, estamos
querendo estimar esse parâmetro). Então, para determinar o tamanho de amostra necessário para
uma margem de erro e um nível de confiança dados, podemos considerar o pior caso, ou seja, podemos
tomar o maior valor possível que, como já visto, ocorre quando p = 0, 5. Caso esteja disponível alguma
informação auxiliar, a mesma poderá ser usada para aprimorar a estimativa do tamanho amostral.
Voltando à Figura 9.1, vemos que, quanto mais próxima de 0,5 for a estimativa prévia de p, maior será
o tamanho da amostra.
Exemplo 9.2
Para estudar a viabilidade de lançamento de um novo produto no mercado, o gerente de uma grande
empresa contrata uma firma de consultoria estatística para estudar a aceitação do produto entre os
clientes potenciais. O gerente deseja obter uma estimativa com erro máximo de 1% com probabilidade
de 80% e pede ao consultor estatístico que forneça o tamanho de amostra necessário.
(a) De posse das informações dadas, o consultor calcula o tamanho da amostra necessário no pior
cenário. O que significa “pior cenário” nesse caso? Qual é o tamanho de amostra obtido pelo
consultor?
(b) O gerente acha que o custo de tal amostra seria muito alto e autoriza o consultor a realizar
um estudo piloto com uma amostra de 100 pessoas para obter uma estimativa da verdadeira
proporção. O resultado desse estudo piloto é uma estimativa p
b = 0, 76 de aceitação do novo
produto. Com base nessa estimativa, o consultor recalcula o tamanho da amostra necessário.
Qual é esse tamanho?
(c) Selecionada a amostra com o tamanho obtido no item anterior, obteve-se uma proporção de
72% de clientes favoráveis ao produto. Construa um intervalo de confiança para a verdadeira
proporção com nível de confiança de 90%.
Solução:
(a) O pior cenário é quando a população está dividida meio-a-meio em suas preferências, ou seja,
quando p = 0, 5. Com nível de confiança de 80%, obtemos z0,10 = 1, 28. Nesse caso,
r 2
0, 5 × 0, 5 1, 28
0, 01 = 1, 28 × =⇒ n = × 0, 25 = 4096
n 0, 01
138 AULA 9. INTERVALOS DE CONFIANÇA PARA PROPORÇÕES – AMOSTRAS GRANDES
ou seja, n = 2989
(c) 1 − α = 0, 90 =⇒ z0,05 = 1, 64
r
0, 72 × 0, 28
ε = 1, 64 × = 0, 0135
2989
e o intervalo de confiança é
Exemplo 9.3
Uma associação de estudantes universitários de uma grande universidade deseja saber a opinião
dos alunos sobre a proposta da reitoria a respeito do preço do bandejão. Para isso, seleciona
aleatoriamente uma amostra de 200 estudantes, dos quais 120 são favoráveis à proposta da reitoria.
(a) Construa um intervalo de confiança para a verdadeira proporção de alunos favoráveis à política
da reitoria, com nível de confiança 98%.
(c) Qual deverá ser o tamanho da amostra para se ter um erro de, no máximo, 5% com nível de
confiança de 98%?
Solução:
(a) Com nível de confiança de 98%, resulta que z0,01 = 2, 33. Com 120 estudantes favoráveis dentre
200, temos que p
b= 120
200 = 0, 6. Logo
r
0, 6 × 0, 4
ε = 2, 33 × = 0, 0807
200
e o intervalo de confiança é
(c) Queremos, agora, reduzir a margem de erro para 5%, mantendo o mesmo nível de confiança.
Certamente teremos que aumentar o tamanho da amostra:
r
0, 6 × 0, 4
ε ≤ 0, 05 ⇒ 2, 33 × ≤ 0, 05 ⇒
n
√ 2, 33 p
n≥ × 0, 6 × 0, 4 ⇒
0, 05
2.33 2
n≥ × 0.6 × 0.4 ⇒ n ≥ 522
0.05
Resumo
• Para amostras suficientemente grandes (n ≥ 30) e com sucessos e fracassos suficientes (np ≥ 5
e n(1 − p) ≥ 5), o Teorema Limite Central estabelece que
P
b −p
r ≈ N(0; 1)
p(1 − p)
n
onde zα/2 é o valor crítico da densidade normal padrão correspondente à probabilidade α/2.
• Como a margem de erro depende do parâmetro a ser estimado, é necessário utilizar alguma
estimativa p
b0 no cálculo da margem de erro. Essa estimativa pode ser alguma estimativa prévia,
a própria estimativa usada na construção do intervalo de confiança ou o valor correspondente ao
pior cenário, p
b0 = 0, 5. Assim, o intervalo de confiança estimado para a proporção populacional
p é dado por " r r #
p
b0 (1 − p
b0 ) p
b0 (1 − p
b0 )
p
b − zα/2 ;p
b + zα/2
n n
Exercícios
2. Uma amostra de 300 habitantes de uma grande cidade revelou que 180 desejavam a fluoração
da água. Encontre o intervalo de confiança para a verdadeira proporção dos que não desejam
a fluoração da água:
3. Em uma pesquisa de mercado, 57 das 150 pessoas entrevistadas afirmaram que comprariam
determinado produto sendo lançado por uma empresa. Essa amostra é suficiente para se estimar
a verdadeira proporção de futuros compradores, com margem de erro de 0,08 e nível de confiança
de 90%? Em caso negativo, calcule o tamanho de amostra necessário.
4. Uma amostra aleatória simples de 400 itens forneceu 100 itens correspondentes ao evento
“sucesso".
5. Em uma sondagem, uma estimativa preliminar de “sucessos” em uma população é de 0,35. Que
tamanho deve ter uma amostra para fornecer um intervalo de confiança de 95% com uma margem
de erro de 0,05?
2. O problema pede a estimativa para a proporção dos que não querem a fluoração; logo, p
b =
120
300 = 0, 4
e o intervalo de confiança é
e o intervalo de confiança é
3. p
b= 57
150 = 0, 38. Para uma margem de erro de 0,08 e um nível de confiança de 90%, o tamanho
da amostra teria que ser
2
1, 64
n≥ × 0, 38 × 0, 62 = 99, 011
0, 08
4. (a) p
b= 100
= 0, 25
400
q
(b) EP(P)
b = 0,25×0,75 = 0, 02165
400
(c) 1 − α = 0, 80 ⇒ z0,1 = 1, 28
5. p
b0 = 0, 35
2
1, 96
n≥ × 0, 35 × 0, 65 = 349, 59n ≥ 350
0, 05
142 AULA 9. INTERVALOS DE CONFIANÇA PARA PROPORÇÕES – AMOSTRAS GRANDES
.
Aula 10
Na teoria de estimação, vimos que é possível, por meio de estatísticas amostrais adequadas,
estimar parâmetros de uma população, dentro de um certo intervalo de confiança. Nos testes de
hipóteses, em vez de se construir um intervalo de confiança no qual se espera que o parâmetro da
população esteja contido, testa-se a validade de uma afirmação sobre um parâmetro da população.
Então, em um teste de hipótese, procura-se tomar decisões a respeito de uma população com base
em informações obtidas de amostras desta mesma população.
• estatística de teste;
• regra de decisão;
• região crítica;
Noções Básicas
Vamos trabalhar com alguns exemplos para ilustrar os conceitos básicos de que precisamos
para construir testes de hipóteses estatísticos.
os anéis do fabricante 1 têm diâmetro médio de 14 mm com desvio padrão de 1,2 mm e os anéis do
fabricante 2 têm diâmetro médio de 15 mm com desvio padrão de 2,0 mm. Ambos os processos de
produção geram anéis com diâmetros cuja distribuição é aproximadamente normal.
Uma caixa com 16 anéis sem identificação é encontrada pelo gerente do almoxarifado. Embora
ele suspeite que a caixa seja oriunda do fabricante 2, decide fazer uma medição dos anéis e basear sua
decisão no diâmetro médio da amostra: se o diâmetro médio for maior que 14,5 mm, ele identificará a
caixa como oriunda do fabricante 2; caso contrário, ele identificará a caixa como vinda do fabricante
1.
Solução:
Esse é um problema típico de decisão empresarial. Vamos analisar esse processo decisório
sob o ponto de vista estatístico, estudando os possíveis erros e suas probabilidades de ocorrência.
A característica de interesse dos parafusos é o seu diâmetro, que é uma variável aleatória; vamos
representar tal variável por X .
Uma primeira observação é que existem apenas duas possibilidades para a origem dos anéis de
vedação. Essas possibilidades, no contexto de teste de hipóteses, são chamadas hipóteses. Como ele
suspeita que a caixa venha do fabricante 2, essa será nossa hipótese principal, a qual chamaremos
de hipótese nula e representaremos por H0 . A outra hipótese será chamada de hipótese alternativa
e a representaremos por H1 . Mais adiante veremos como estabelecer as hipóteses nula e alternativa
em contextos mais complexos. Temos, então, as seguintes hipóteses:
H0 : X ∼ N(15; 2, 02 )
H1 : X ∼ N(14; 1, 22 )
Um outro elemento fundamental nesse processo de decisão é a regra de decisão que, no contexto
estatístico, é sempre formulada em termos da hipótese nula: podemos rejeitar ou não rejeitar H0 . No
caso do gerente, a regra de decisão é baseada na média amostral X e tem um caráter conservador: o
gerente decidirá por um dos dois fabricantes se o diâmetro médio da amostra estiver mais próximo do
diâmetro médio dos parafusos produzidos por aquele fabricante. Note que 14,5 está a meio caminho
dos diâmetros médios dos dois fabricantes. Como dito, nossa decisão deve ser expressa sempre em
termos de H0 . Logo, a regra de decisão é
X ≤ 14, 5 =⇒ rejeito H0
X > 14, 5 =⇒ não rejeito H0
145
Há dois erros associados a essa regra de decisão, que são decidir pelo fabricante 2, quando, na
verdade, os parafusos vêm do fabricante 1, ou reciprocamente, decidir pelo fabricante 1, quando os
parafusos vêm do fabricante 2. Em termos da hipótese nula, esses erros são traduzidos e rotulados
como
Se H0 é verdadeira, a amostra vem de uma população normal com média 15 e desvio padrão 2,0.
Nesse caso, a média amostral com base em amostras de tamanho 16 é também normal com média 15
e desvio padrão √
2,0
= 0, 5.
16
Se H0 é falsa, a amostra vem de uma população normal com média 14 e desvio padrão 1,2 e
a média amostral com base em amostras de tamanho 16 é também normal com média 14 e desvio
padrão √
1,2
= 0, 3.
16
Podemos, então, calcular as probabilidades associadas aos dois erros, que podem ser expressas
em termos de probabilidade condicional como:
h i
P(Erro I) = P rejeitar H0 | H0 verdadeira = P X ≤ 14, 5|X ∼ N 15; 0, 52
| {z } | {z }
X ≤14,5 X ∼N(15;0,0,25)
h i
P(Erro II) = P não rejeitar H0 | H0 falsa = P X > 14, 5|X ∼ N 14; 0, 32
| {z } | {z }
X >14,5 X ∼N(14;0,09)
Vamos calcular essas probabilidades. Em geral, a probabilidade do erro tipo I é denotada por
146 AULA 10. TESTES DE HIPÓTESES – CONCEITOS BÁSICOS
h i
β = P(Erro II) = P X > 14, 5||X ∼ N 14; 0, 32
14, 5 − 14
=P Z > = Pr(Z > 1, 67)
0, 3
= 0, 5 − tab(1, 67) = 0, 5 − 0, 4525 = 0, 0475
No exemplo, a regra de decisão geral é: se X > 14, 5, o gerente classifica como produção
do fabricante 2. Assim, por exemplo se a caixa em questão tiver uma média x = 14, 4, o gerente
classificará a caixa como produzida pelo fabricante 1. Lembre-se de que usamos letras minúsculas
para representar o valor observado de uma variável aleatória.
Solução:
Analisando a Figura 10.1, podemos ver que k tem que ser menor que 14,5.
h i
α = 0, 05 ⇔ P X ≤ k | X ∼ N 15; 0, 52 = 0, 05 ⇔
k − 15 k − 15 k − 15
P Z≤ = 0, 05 ⇔ 0, 5 − tab − = 0, 05 ⇔ tab − = 0, 45 ⇔
0, 5 0, 5 0, 5
k − 15
− = 1, 64 ⇔ k = 14, 18
0, 5
A título de ilustração, suponha, nos dois exemplos anteriores, que a empresa compre anéis de
diversos fabricantes mas, pelas características de produção do fabricante 2, os anéis produzidos por
ele sejam especiais para a empresa. Assim, é importante identificar corretamente a origem, caso eles
sejam oriundos do fabricante 2. Nesta situação, nossas hipóteses passariam a ser:
Fixado o valor da probabilidade α, podemos definir a região crítica. A diferença fundamental aqui
está no cálculo da probabilidade do erro tipo II: não existe um único valor de β. já que, sob H1 , a
distribuição pode ter qualquer média.
148 AULA 10. TESTES DE HIPÓTESES – CONCEITOS BÁSICOS
Conceitos básicos
A hipótese nula, representada por H0 , é a hipótese básica que queremos testar. Nesse texto
consideraremos apenas hipóteses nulas simples, isto é, hipóteses que estabelecem que o parâmetro
de interesse é igual a um determinado valor. A forma geral é:
H0 : θ = θ0
O procedimento de teste de hipótese resultará em uma regra de decisão que nos permitirá rejeitar
ou não rejeitar H0 .
H1 : θ 6= θ0
Em algumas situações, podemos ter informação que nos permita restringir o domínio da hipótese
alternativa. Por exemplo, se uma empresa farmacêutica está testando um novo medicamento para
enxaqueca no intuito de reduzir o tempo entre a ingestão do medicamento e o alívio dos sintomas,
uma possível hipótese alternativa é
H1 : µ < 10
H1 : θ < θ0
A escolha entre essas formas de hipótese alternativa se faz com base no conhecimento sobre o
problema sendo considerado e deve ser feita antes de se ter o resultado da amostra.
Nesse texto consideraremos o seguinte procedimento prático para determinação das hipóteses
149
nula e alternativa.
Solução:
H0 : µ = 15
H1 : µ > 15
H0 : µ = 15
H1 : µ < 15
H0 : p = 0, 6
H1 : p < 0, 6
150 AULA 10. TESTES DE HIPÓTESES – CONCEITOS BÁSICOS
H0 : p = 0, 05
H1 : p < 0, 05
H0 : µ = 10
H1 : µ 6= 10
Assim como na construção dos intervalos de confiança, usaremos uma estatística amostral
apropriada para construir o nosso teste de hipótese, e, nesse contexto, essa estatística é chamada
estatística de teste. As estatísticas de teste naturalmente dependem do parâmetro envolvido no teste
e, nesse texto, consideraremos apenas os parâmetros média e proporção (que também é uma média).
O procedimento de decisão será definido em termos da hipótese nula H0 , com duas decisões
possíveis: (i) rejeitar H0 ou (ii) não rejeitar H0 . No quadro a seguir, resumimos as situações possíveis.
Decisão
Rejeitar H0 Não rejeitar H0
Possibi- H0 verdadeira Erro I OK
lidades H0 falsa OK Erro II
A decisão sobre a hipótese nula é tomada com base em uma regra que estabelece um conjunto de
valores, chamado região crítica ou região de rejeição, de modo que, se o valor observado da estatística
amostral cair nessa região, rejeitaremos H0 ; caso contrário, não rejeitaremos H0 . Vamos denotar por
RC a região crítica.
151
Solução:
Na tabela a seguir temos as probabilidades de ocorrência de cada um dos resultados possíveis,
supondo que a moeda seja honesta. Nesse caso, se X é o número de coroas em 10 lançamentos,
então X ∼ bin(10; 0, 5).
Resumo
Nesta aula, estudamos os conceitos básicos da teoria de testes de hipóteses, em que o interesse
está em testar a validade de uma afirmação sobre um parâmetro da população. Então, em um teste de
hipótese, procura-se tomar decisões a respeito de uma população, com base em informações obtidas
de amostras desta mesma população.
Ao final desta aula, você deverá ser capaz de entender perfeitamente os seguintes conceitos.
• A hipótese nula, representada por H0 , é a hipótese básica que queremos testar. Nesse texto
consideraremos apenas hipóteses nulas simples do tipo
H0 : θ = θ0
H1 : θ 6= θ0 H1 : θ < θ0 H1 : θ > θ0
• A região crítica ou região de rejeição é o conjunto de valores da estatística de teste que levam
à rejeição de H0 ; a região crítica será denotada por RC .
• Em geral, a definição da região crítica é feita fixando-se a probabilidade do erro tipo I; essa
153
probabilidade é chamada nível de significância e será indicada pela letra grega alfa, isto é: α.
α = P(rejeitar H0 | H0 é verdadeira)
• A probabilidade do erro tipo II, em geral, é representada pela letra grega beta, isto é:
Exercícios propostos
(a) Depois de uma pane geral no sistema de informação de uma empresa, o gerente
administrativo deseja saber se houve alteração no tempo de processamento de determinada
atividade. Antes da pane, o tempo de processamento podia ser aproximado por uma variável
aleatória normal com média de 100 minutos e desvio padrão de 10 minutos. O gerente
acredita que a pane não tenha alterado a variabilidade do processo.
(b) O dono de uma média empresa decide investigar a alegação de seus empregados de que
o salário médio na sua empresa é menor que o salário médio nacional, que é de 900 reais.
(c) Uma empresa fabricante de balas afirma que o peso médio de suas balas é de pelo menos
2 gramas.
2. Considere uma população normal com variância 225, da qual se extrai uma amostra aleatória
simples de tamanho 25. Deseja-se testar as seguintes hipóteses:
H0 : µ = 40
H1 : µ = 45
(a) Se a região crítica é RC : X > 43 calcule as probabilidades dos erros tipo I e II.
(b) Determine a região crítica da forma X > k tal que a probabilidade do erro tipo I seja 0,10.
Nesse caso, qual é a probabilidade do erro tipo II?
3. Considere uma população normal com variância 225, da qual se extrai uma amostra aleatória
simples de tamanho 25. Deseja-se testar as seguintes hipóteses:
H0 : µ = 40
H1 : µ 6= 40
RC : X > 46 ou X < 34
4. Considere uma população normal com variância 64, da qual se extrai uma amostra aleatória
simples de tamanho 16. Deseja-se testar as seguintes hipóteses:
H0 : µ = 23
H1 : µ = 28
(a) Se a região crítica é RC : X > 25, 5 calcule as probabilidades dos erros tipo I e II.
(b) Determine a região crítica da forma X > k tal que a probabilidade do erro tipo I seja 0,05.
Nesse caso, qual é a probabilidade do erro tipo II?
H0 : µ = 45
H1 : µ < 45
sobre a média µ de uma população normal com variância 36, estabeleceu-se a seguinte região
crítica com base em amostra aleatória simples de tamanho n = 16:
RC : X < 41, 25
H0 : µ = 100
H1 : µ 6= 100
H0 : µ = 900
H1 : µ < 900
H0 : µ = 2
H1 : µ < 2
)
X ∼ N(µ; 225)
2. ⇒ X ∼ N µ; 225
25 ou X ∼ N (µ; 9)
n = 25
(a)
43 − 40
α = P(X > 43 | X ∼ N(40; 9)) = P Z >
3
= P(Z > 1, 00) = 0, 5 − tab(1, 00) = 0, 1587
43 − 45
β = P(X ≤ 43 | X ∼ N(45; 9) = P Z ≤
3
= P(Z ≤ −0, 67) = P(Z ≥ 0, 67) = 0, 5 − tab(0, 67) = 0, 2514
(b)
α = 0, 10 ⇔ P X > k | X ∼ N(40; 9) = 0, 10 ⇔
k − 40 k − 40
P Z > = 0, 10 ⇔ tab = 0, 40 ⇔
3 3
k − 40
= 1, 28 ⇔ k = 43, 84
3
43, 84 − 45
β = P X ≤ 43, 84 | X ∼ N(45; 9) = P Z ≤
3
= P(Z ≤ −0, 39) = P(Z ≥ 0, 39) = 0, 5 − tab(0, 39) = 0, 3483
)
X ∼ N(µ; 225)
3. ⇒ X ∼ N µ; 225
25 ou X ∼ N (µ; 9)
n = 25
(a)
α = P X < 34 | X ∼ N(40; 9) + P X > 46 | X ∼ N(40; 9)
34 − 40 46 − 40
=P Z < +P Z >
3 3
= P(Z < −2) + P(Z > 2) = 2 × P(Z > 2) = 2 × [0, 5 − tab(2, 0)] = 0, 0456
(b)
34 − 36 46 − 36
β = P 34 ≤ X ≤ 46 | X ∼ N(36; 9) = P ≤Z ≤
3 3
= P(−0, 67 ≤ Z ≤ 3, 33) = tab(0, 67) + tab(3, 33) = 0, 2486 + 0, 4996 = 0, 7482
156 AULA 10. TESTES DE HIPÓTESES – CONCEITOS BÁSICOS
)
X ∼ N(µ; 64)
4. ⇒ X ∼ N µ; 64
16 ou X ∼ N (µ; 4)
n = 16
(a)
25, 5 − 23
α = P(X > 25, 5 | X ∼ N(23; 4)) = P Z >
2
= P(Z > 1, 25) = 0, 5 − tab(1, 25) = 0, 1056
25, 5 − 28
β = P X ≤ 25, 5 | X ∼ N(28; 4) = P Z ≤
2
= P(Z ≤ −1, 25) = P(Z > 1, 25) = 0, 1056
(b)
(a)
41, 25 − 45
α = P(X < 41, 25, | X ∼ N(45; 1, 5 )) = P Z <
2
1, 5
= P(Z < −2, 5) = P(Z > 2, 5) = 0, 5 − tab(2, 5) = 0, 0062
(b)
41, 25 − 43
β = P X ≥ 41, 25 | X ∼ N(43; 1, 5 ) = P Z ≥
2
1, 5
= P(Z ≥ −1, 17) = 0, 5 + tab(1, 17) = 0, 8790
Aula 11
Nesta aula, estudaremos testes de hipóteses sobre a média de uma população. Assim como
fizemos nos intervalos de confiança, abordaremos inicialmente o caso específico de uma população
normal com variância conhecida e depois aplicaremos o Teorema Limite Central à média de uma
população qualquer da qual se extrai uma grande amostra.
Entendendo bem a construção de um teste de hipótese para esse caso particular, a apresentação
para as outras situações é bastante semelhante, mudando apenas a distribuição amostral.
Exemplos
Vamos apresentar, inicialmente, três exemplos que ilustrarão as diversas possibilidades que
podem surgir na prática.
Solução:
Seja T a variável aleatória que representa o tempo de processamento. Do enunciado, sabemos que
158 AULA 11. TESTES DE HIPÓTESES SOBRE A MÉDIA
O interesse do gerente é comparar os tempos antes e depois da pane. Antes da pane, o tempo
médio de processamento era de 100 minutos. Como ele não sabe o tipo de alteração que pode ter
ocorrido, precisa saber se o tempo médio depois da pane é diferente do tempo anterior. Temos,
assim, as seguintes afirmativas µ = 100 e µ 6= 100, que nos levam às seguintes hipóteses nula
e alternativa:
H0 : µ = 100
H1 : µ 6= 100
• Estatística de teste
Como a população é normal, sabemos que a distribuição da média amostral também é normal,
e como não deve ter havido alteração na variabilidade do processo, resulta que o desvio padrão
é de 10 minutos em qualquer situação.
Logo,
100 X −µ
X ∼ N µ; ⇔ ∼ N(0; 1)
16 2, 5
e nossa estatística de teste será
X −µ
Z= ∼ N(0; 1)
2, 5
Pelo enunciado do problema, o nível de significância é de 5%. Isso significa que a probabilidade
de erro tipo I é 0,05. Como visto, o erro tipo I consiste em rejeitar a hipótese nula quando ela
é verdadeira. Logo,
α = P(rejeitar H0 | H0 verdadeira) = 0, 05
X − 100
H0 verdadeira =⇒ Z0 = ∼ N(0; 1)
2, 5
bilateral, temos que tomar valores nas duas caudas da distribuição, distribuindo igualmente a
probabilidade de erro, que é 5%. Veja a Figura 11.1:
Então, nossa região crítica consiste em valores observados da estatística de teste Z0 que caem
na área sombreada da Figura 11.1. Essa área sombreada é delimitada pelo valor crítico da
N(0, 1) que deixa 2,5% acima dele, ou seja,
ou equivalentemente,
RC : |Z0 | > 1, 96
• Decisão e conclusão
Os dados observados fornecem o valor x = 105, 5 minutos, que resulta no seguinte valor da
estatística de teste:
105, 5 − 100
z0 = = 2, 2 > 1, 96
2, 5
Como o valor da estatística de teste para a amostra observada está na região crítica, devemos
rejeitar a hipótese nula, ou seja, as evidências amostrais indicam uma alteração do tempo de
processamento da tarefa após a pane.
X − 100
> 1, 96 ⇔ X > 100 + 1, 96 · 2, 5 ou X < 100 − 1, 96 · 2, 5
2, 5
Assim, rejeitamos H0 para valores de X distantes do valor 100 especificado em H0 . Como o teste
é bilateral, “distante” pode ser acima ou abaixo de 100. No contexto atual, iremos denotar a
estatística X como a estatística de teste não padronizada.
160 AULA 11. TESTES DE HIPÓTESES SOBRE A MÉDIA
µ ≤ 100 OK!
µ > 100 Problema!
H0 : µ = 100
H1 : µ > 100
• Estatística de teste
A estatística de teste padronizada continua sendo
X − 100
Z0 = ∼ N(0; 1)
2, 5
Então, nossa região crítica consiste em valores observados da estatística de teste Z0 que caem
na área sombreada da Figura 11.2. Essa área sombreada é delimitada pelo valor crítico da
161
RC : Z0 > z0,05
RC : Z0 > 1, 64
• Decisão e conclusão
105, 5 − 100
z0 = = 2, 2 > 1, 64
2, 5
e como antes, devemos rejeitar a hipótese nula, ou seja, as evidências amostrais indicam um
aumento do tempo de processamento da tarefa após a pane.
Exemplo 11.3
O dono de uma pequena empresa decide investigar a alegação de seus empregados de que o salário
médio na sua empresa é menor que o salário médio nacional. Para isso, ele analisa uma amostra de
25 salários, obtendo uma média de 894,53 reais. De informações obtidas junto ao sindicato patronal,
ele sabe que, em nível nacional, o salário médio é de 900 reais, com desvio padrão de 32 reais.
Supondo que seja razoável aproximar a distribuição dos salários por uma distribuição normal com o
mesmo desvio padrão nacional, construa o teste de hipótese apropriado, com um nível de significância
de 10%.
Solução:
O problema aqui consiste em decidir se os salários são menores ou não do que a média nacional
de 900 reais, ou seja, as situações de interesse são:
µ < 900
µ ≥ 900
H0 : µ = 900
H1 : µ < 900
162 AULA 11. TESTES DE HIPÓTESES SOBRE A MÉDIA
• Estatística de teste
X − 900 X − 900
Z0 = ∼ N(0; 1) ou Z0 = ∼ N(0; 1)
√
32 6, 4
25
• Decisão e conclusão
894, 53 − 900
z0 = = −0, 855
6, 4
e esse valor não pertence à região crítica. Logo, não se rejeita a hipótese nula, ou seja, não
há evidência de que o salário médio seja menor que o salário médio nacional. Essa conclusão
pode ser tirada também do fato de que 894, 53 > 801, 908.
163
a um nível de significância α.
Dependendo do conhecimento sobre o problema, a hipótese alternativa pode tomar uma das
três formas:
H1 : µ 6= µ0 H1 : µ > µ0 H1 : µ < µ0
X − µ0
Z0 = q ∼ N(0, 1)
σ2
n
A seguir apresentamos os resultados para cada uma das possíveis hipóteses alternativas.
H0 : µ = µ0
√ X − µ0
Z0 = n ∼ N(0, 1)
σ |{z}
sob H0
• Teste bilateral
164 AULA 11. TESTES DE HIPÓTESES SOBRE A MÉDIA
H1 : µ 6= µ0
Região crítica:
σ
X < µ0 − zα/2 √σn ou X > µ0 + zα/2 √
n
Região crítica:
σ
Z0 > zα ou X > µ0 + zα √
n
H1 : µ < µ0
Região crítica:
σ
Z0 > zα ou X < µ0 − zα √
n
Valor P
Nos exemplos anteriores, a determinação da região crítica foi feita com base no nível de
significância, isto é, fixado o nível de significância, encontramos o valor crítico que define os limites
entre valores prováveis (aqueles que não levam à rejeição de H0 ) e pouco prováveis (aqueles que
levam à rejeição de H0 ) sob a hipótese de veracidade de H0 .
Exemplo 11.4
Vamos calcular o valor P para o Exemplo 11.1.
Solução:
O valor observado da estatística de teste é z0 = 2, 2 e a hipótese alternativa é bilateral. Então,
consideramos igualmente extremo o valor simétrico −2, 2, ou seja, tão ou mais extremo significa ser
maior que 2, 2, ou menor que −2, 2 e o valor P é
P = P(Z > 2, 2) + P(Z < −2, 2) = 2 × P(Z > 2, 2) = 2 × [0, 5 − tab(2, 2)] = 0, 0278
Na Figura 11.4 ilustra-se esse valor. O que esse resultado está nos dizendo é o seguinte: se H0
for verdadeira, a probabilidade de obtermos um valor tão extremo quanto 2,2 na direção da hipótese
alternativa, ou seja, em qualquer direção, já que H1 é bilateral, é 0, 0278. Essa é uma probabilidade
pequena, o que significa que é pouco provável obtermos um valor tão extremo quando H0 é verdadeira.
Logo, é razoável supormos que a hipótese nula não seja verdadeira, a mesma conclusão obtida ao
trabalharmos com o nível de significância de 5%.
Na verdade, rejeitaríamos a hipótese nula para qualquer nível de significância maior que 0,0278.
Note que tais níveis de significância implicariam em valores críticos menores do que o valor observado
z0 e, portanto, levariam à rejeição de H0 . Assim, o valor P é o menor nível de significância que leva
à rejeição de H0 .
Exemplo 11.5
Vamos calcular o valor P para o Exemplo 11.2.
Solução:
Como antes, o valor observado da estatística de teste é z0 = 2, 2, mas agora a hipótese alternativa é
unilateral à direita. Então, valores tão ou mais extremos são aqueles maiores que 2, 2 e o valor P é
Na Figura 11.5 ilustra-se esse valor. O que esse resultado está nos dizendo é o seguinte: se
H0 for verdadeira, a probabilidade de obtermos um valor tão ou mais extremo que 2,2 é 0, 0139.
166 AULA 11. TESTES DE HIPÓTESES SOBRE A MÉDIA
Novamente, essa é uma probabilidade pequena, o que significa que é pouco provável obtermos um
valor tão extremo quando H0 é verdadeira. Logo, é razoável supormos que a hipótese nula não seja
verdadeira, a mesma conclusão obtida ao trabalharmos com o nível de significância de 5%. Como
antes, rejeitaríamos a hipótese nula para qualquer nível de significância maior que 0,0139.
Exemplo 11.6
Vamos calcular o valor P para o Exemplo 11.3.
Solução:
O valor observado da estatística de teste é z0 = −0, 855, e a hipótese alternativa é unilateral à
esquerda. Então, valores tão ou mais extremos são aqueles menores que −0, 855 e o valor P é
P = P(Z < −0, 855) = P(Z > 0, 855) = 0, 5 − tab(0, 86) = 0, 5 − 0, 3051 = 0, 1949
Na Figura 11.6 ilustra-se esse valor. O que esse resultado está nos dizendo é o seguinte: se H0 for
verdadeira, há uma probabilidade alta de obtermos um valor tão ou mais extremo que −0, 855. Assim,
não se rejeita H0 .
valor P trabalhando na cauda superior da distribuição normal padrão; para isso, basta usar o valor
absoluto |z0 | do valor observado da estatística de teste.
• Teste bilateral
H0 : µ = µ0
H1 : µ 6= µ0
H0 : µ = µ0
H1 : µ > µ0
P = P(Z > z0 )
H0 : µ = µ 0
H1 : µ < µ0
região crítica levam à rejeição de H0 . O valor P, por sua vez, é a probabilidade de se obter valores
tão extremos quanto o observado e essa probabilidade, sendo pequena, leva à rejeição da hipótese
nula.
Solução:
Seja X a variável aleatória que representa o peso das balas. Então, X ∼ N(µ; 0, 25). Como n = 25,
resulta que
X −µ
Z=q ∼ N(0, 1)
0,25
25
169
H0 : µ = 2
H1 : µ < 2
1, 81 − 2, 00
z0 = q = −1, 9 < −1, 64
0,25
25
Como o valor observado da estatística de teste está na região crítica, rejeita-se a hipótese nula,
ou seja, há evidência de que o peso médio seja menor que 2 gramas.
Assim, rejeitaríamos H0 para qualquer nível de significância maior que 2,87%, o que inclui 5%.
No caso de se ter uma amostra grande de uma população qualquer, o Teorema 8.1 pode ser
usado na construção de testes de hipótese sobre a média da população. Segundo esse teorema,
X −µ
Z= ≈ N(0; 1)
S
√
n
e, assim, os procedimentos são como já vistos antes. Assim como o nível de confiança era apenas
aproximadamente 1 − α, nos testes de hipóteses, o nível de significância será aproximadamente α.
Exemplo 11.8
Uma amostra de tamanho n = 196 é extraída de uma população com o objetivo de se testar
H0 : µ = 10
H0 : µ < 10
170 AULA 11. TESTES DE HIPÓTESES SOBRE A MÉDIA
Solução:
α = 0, 05 ⇒ z0,05 = 1, 64
A estatística de teste é
X − 10
Z0 = ≈ N(0; 1)
√
2, 54
196
ou seja
X − 10
Z0 = ≈ N(0; 1)
0, 1814
9, 3 − 10
z0 = = −3, 86 < −1, 64.
0, 1814
P = P(Z < −3, 86) = P(Z > 3, 86) = 0, 5 − tab(3, 86) = 0, 5 − 0, 4999 = 0, 0001
Note que a hipótese nula seria rejeitada para qualquer nível de significância α > 0, 0001.
Exercícios
1. Uma amostra aleatória simples de tamanho n = 9, extraída de uma população normal com
desvio padrão 3,03 apresentou média igual a x = 13, 35. Deseja-se testar
H0 : µ = 12, 8
H1 : µ 6= 12, 8
(a) Use o nível de significância α = 0, 02 para determinar a região crítica, tanto em termos da
estatística de teste padronizada quanto em termos da estatística de teste não padronizada.
(b) Com base no resultado anterior, estabeleça a conclusão, tendo o cuidado de usar um
vocabulário que não seja puramente técnico.
(c) Calcule o valor P e interprete o resultado obtido.
2. Em uma linha de produção, peças são produzidas de modo que o comprimento seja normalmente
distribuído com desvio padrão de 0,6cm. Ajustes periódicos são feitos na máquina para garantir
que as peças tenham comprimento apropriado de 15cm, pois as peças muito curtas não podem
ser aproveitadas (as peças longas podem ser cortadas). A cada hora são extraídas 9 peças da
produção, medindo-se seu comprimento.
171
Estabeleça uma regra de decisão para definir se o processo está operando adequadamente.
Use o nível de significância de 0,1%.
4. Uma propaganda afirma que o consumo médio de gasolina de determinada marca de automóvel
é de 12 litros por 100 quilômetros rodados. Um teste com 49 automóveis desta marca acusa um
consumo médio de 12,4 litros por 100 quilômetros rodados, com desvio padrão de 1,26 litros.
O que se pode concluir sobre a propaganda? Responda fazendo o teste de hipótese com nível
de significância de 10%.
(a) α = 0, 02 ⇒ z0,01 = 2, 33
A estatística de teste é
X − 12, 8 X − 12, 8
Z0 = =
3, 03 1, 01
3
A região crítica é
|Z0 | > 2, 33
ou
O valor observado de Z0 é
13, 35 − 12, 8
z0 = = 0, 54
1, 01
Como |z0 | < 2, 33 e também 10, 4465 < 13, 35 < 15, 1533, não se rejeita H0 . O valor P é
O valor P é bastante alto; logo a hipótese nula só seria rejeitada para níveis de
significância maiores que 0,59. Isso é evidência de que não se pode rejeitar a hipótese
nula em qualquer nível de significância razoável.
172 AULA 11. TESTES DE HIPÓTESES SOBRE A MÉDIA
O problema na produção surge quando µ < 15. Logo, nossas hipóteses são:
H0 : µ = 15
H1 : µ < 15
α = 0, 001 ⇒ z0,001 = 3, 08
A estatística de teste é
X − 15 X − 15
Z0 = =
0, 6 0, 2
3
A regra de decisão a ser implementada é X < 14, 384 ⇒ sistema está fora de controle. Note
que na implementação, a regra de decisão tem que ser dada em termos da média amostral, que
é o que se mede na amostra. Não faz sentido ter uma tabela da normal no chão de fábrica!
Seja X o tempo de execução. O analista pretende reduzir o tempo médio. Logo, nossas hipóteses
são:
H0 : µ = 48, 5
H1 : µ < 48, 5
α = 0, 02 ⇒ z0,02 = 2, 05
A estatística de teste é
X − 48, 5 X − 48, 5
Z0 = = Z0 ≈ N(0; 1)
6, 3 0, 7875
8
O valor observado de Z0 é
46, 5 − 48, 5
z0 = = −2, 54
0, 7875
e o valor P é
P = P(Z < −2, 54) = P(Z > 2, 54) = 0, 5 − tab(2, 54) = 0, 0055
Rejeita-se a hipótese nula, pois −2, 54 < −2, 05 ou também 46, 5 < 46, 8856. Note que o valor
p é menor que o nível de significância. Assim, há evidências de que houve redução no tempo
médio de execução da tarefa.
Seja X o consumo de gasolina desses carros. Se o consumo for menor ou igual a 12 litros
por 100 quilômetros, não há problema com a propaganda. O problema surge se o consumo for
superior. Logo, nossas hipóteses são:
H0 : µ = 12
H1 : µ > 12
α = 0, 10 ⇒ z0,10 = 1, 28
A estatística de teste é
X − 12 X − 12
Z0 = = Z0 ≈ N(0; 1)
1, 26 0, 18
7
Rejeita-se a hipótese nula pois 2, 22 > 1, 28 ou ainda 12, 4 > 12, 2304. Note também que
P < α.
Assim, há evidências de que a propaganda seja enganosa; os dados indicam que o consumo
médio é maior que 12 litros por 100 quilômetros rodados.
174 AULA 11. TESTES DE HIPÓTESES SOBRE A MÉDIA
.
Aula 12
Na aula anterior, vimos como construir testes de hipótese sobre a média de uma população
qualquer, com auxílio do Teorema 8.1, visto na Aula 7. Agora, usaremos o teorema Limite Central
para construir teste de hipótese sobre uma proporção populacional.
O contexto de interesse é o seguinte: temos uma população em que cada elemento é classificado
de acordo com a presença ou ausência de determinada característica. O objetivo é testar alguma
hipótese sobre a proporção populacional p dos elementos que possuem tal característica. Vimos,
na Aula 7, que a proporção amostral P
b é um bom estimador para p e, também que, para grandes
amostras,
p(1 − p)
P ≈ N p;
b .
n
ou equivalentemente
Pb −p
q ≈ N(0; 1) (12.1)
p(1−p)
n
H0 : p = p 0
a um nível de significância α.
Dependendo do conhecimento sobre o problema, a hipótese alternativa pode tomar uma das
três formas:
H1 : p 6= p0 H1 : p > p0 H1 : p < p0
P
b − p0
Z0 = q ≈ N(0, 1)
p0 (1−p0 )
n
A seguir apresentamos os resultados para cada uma das possíveis hipóteses alternativas.
H0 : p = p0
√ Pb − p0
Z0 = nr ≈ N(0, 1)
p0 (1 − p0 ) |{z}
sob H0
n
• Teste bilateral
H1 : p 6= p0
Região crítica:
q q
p0 (1−p0 ) p0 (1−p0 )
P
b < p0 − zα/2
n ou P
b > p0 + zα/2
n
177
H1 : p > p0
Região crítica:
q
p0 (1−p0 )
Z0 > zα ou P
b > p0 + zα
n
H1 : p < p0
Região crítica:
q
p0 (1−p0 )
Z0 < −zα ou P
b < p0 − zα
n
Solução:
Vamos seguir os mesmos passos vistos na aula anterior.
H0 :p = 0, 15
H1 :p < 0, 15
178 AULA 12. TESTE DE HIPÓTESE SOBRE PROPORÇÕES – AMOSTRAS GRANDES
• Estatística de teste
Pb − 0, 15 P
b − 0, 15
Z0 = q = ≈ N(0, 1)
0,15×(1−0,15) 0, 011573
952
que é equivalente a
P
b < 0, 15 − 1, 64 · 0, 011573 ou P
b < 0, 131
• Decisão e conclusão
132
− 0, 15
z0 = q952 = −0, 9803 ≮ −1, 64.
0,15×(1−0,15)
952
O valor observado da estatística de teste (padronizada ou não) não está na região crítica;
logo, não rejeitamos a hipótese nula, ou seja, não há razão para se lançar a campanha de
esclarecimento.
Exemplo 12.2
Um fabricante afirma que no máximo 10% dos seus produtos são defeituosos. Um órgão de defesa do
consumidor testa uma amostra de 81 desses itens, detectando 13,8% de defeituosos.
(a) Encontre a região crítica para construção de um teste de hipótese apropriado ao nível de
significância de 10%.
Solução:
179
H0 : p = 0, 10
H1 : p > 0, 10
Note que todas as proporções estão na forma decimal. Não trabalhe com porcentagens!
• Estatística de teste
Sob a hipótese de que H0 é verdadeira,
Pb − 0, 10 P
b − 0, 10
Z0 = q = ≈ N(0, 1)
0,10×(1−0,10) 0, 0333
81
ou
P
b > 0, 10 + 1, 28 ∗ 0, 0333 = 0, 1426
• Decisão e conclusão
O valor da estatística de teste padronizada é
0, 138 − 0, 10
z0 = = 1, 14 ≯ 1, 28.
0, 0333
O valor crítico da estatística de teste (padronizada ou não) não está na região crítica;
logo, não podemos rejeitar a hipótese nula. Ou seja, nossos dados não fornecem evidência
contra o fabricante.
(b)
P = P(Z > 1, 14) = 0, 5 − tab(1, 14) = 0, 5 − 0, 3729 = 0, 1271
Logo, rejeitamos H0 apenas para níveis de significância maiores que 12,7%. Assim, aos níveis de
significância usuais, não devemos rejeitar H0 , o que é uma evidência de que o fabricante está
dizendo a verdade.
180 AULA 12. TESTE DE HIPÓTESE SOBRE PROPORÇÕES – AMOSTRAS GRANDES
Exercícios
1. Em uma pesquisa com 800 estudantes de uma universidade, 385 afirmaram possuir computador.
Teste a hipótese de que pelo menos 50% dos estudantes dessa universidade possuem
computador. Use α = 0, 10.
2. Uma pesquisa entre 700 trabalhadores revela que 15,8% obtiveram seus empregos por meio de
indicações de amigos ou parentes. Teste a hipótese de que mais de 10% dos trabalhadores
conseguem seus empregos por indicação de amigos ou parentes, utilizando 5% como nível de
significância.
4. Deseja-se testar a honestidade de uma moeda. Para isso, lança-se a moeda 200 vezes, obtendo-
se 115 caras. Qual é a sua conclusão sobre a honestidade da moeda? Para responder a essa
questão, calcule e interprete o valor P.
5. A direção de um grande jornal nacional afirma que 25% dos seus leitores são da classe A. Se, em
uma amostra de 740 leitores, encontramos 156 da classe A, qual é a conclusão que tiraríamos
sobre a afirmativa da direção do jornal?
385
1. p
b= = 0, 48125
800
A afirmativa de interesse é “pelo menos 50% dos estudantes possuem computador”, ou seja,
p ≥ 0, 5. Logo, as hipóteses são
H0 : p = 0, 50
H1 : p < 0, 50
A estatística de teste é
P
b − 0, 5 P
b − 0, 5
Z0 = q =
0,5×0,5 0, 017678
800
ou
P
b < 0, 50 − 1, 28 × 0, 017678 ou P
b < 0, 4774
181
385
− 0, 5
z0 = 800
= −1, 06 ≮ −1, 28.
0, 017678
2. As hipóteses são
H0 : p = 0, 10
H1 : p > 0, 10
P
b − 0, 1 P
b − 0, 1
Z0 = q =
0,1×0,9 0, 011339
700
ou
RC : P
b > 0, 1 + 1, 64 × 0, 011339 ou P
b > 0, 1186
0, 158 − 0, 10
z0 = = 5, 115 > 1, 64
0, 011339
Rejeita-se, assim, a hipótese nula, ou seja, os dados trazem evidência de que mais de 10% dos
trabalhadores conseguem seus empregos por indicação de parentes ou amigos.
H0 : p = 0, 20
H1 : p > 0, 20
P
b − 0, 2 P
b − 0, 2
Z0 = q =
0,2×0,8 0, 05
64
182 AULA 12. TESTE DE HIPÓTESE SOBRE PROPORÇÕES – AMOSTRAS GRANDES
α = 0, 05 =⇒ z0,05 = 1, 64
RC : Z0 > 1, 64
ou ainda
P
b > 0, 20 + 1, 64 × 0, 05 ou P
b > 0, 282
25
− 0, 20
z0 = 64
= 3, 8124 > 1, 64
0, 05
ou ainda
25
p
b= = 0, 390625 > 0, 282.
64
Como valor observado da estatística de teste (padronizada ou não) está na região crítica,
rejeita-se a hipótese nula, ou seja, as evidências amostrais indicam que houve melhora com
as mudanças.
4. As hipóteses são
H0 : p = 0, 5
H1 : p 6= 0, 5
P
b − 0, 5 P
b − 0, 5
Z0 = q =
0,5×0,5 0, 035355
200
P = 2 × P(Z > |2, 12|) = 2 × (0, 5 − tab(2, 12)) = 2 × (0, 5 − 0, 4830) = 0, 034
H0 : p = 0, 25
H1 : p 6= 0, 25
P
b − 0, 25 P
b − 0, 25
Z0 = q =
0,25×0,75 0, 015918
740
156
− 0, 25
740
= −2, 46
0, 015918
Como o valor P é bastante pequeno, devemos rejeitar a hipótese nula de que a proporção de
leitores da classe A é igual a 25%.
184 AULA 12. TESTE DE HIPÓTESE SOBRE PROPORÇÕES – AMOSTRAS GRANDES
Apêndice A
Tabelas
185
186 APÊNDICE A. TABELAS
.
187
Tabela 1
Distribuição normal padrão
p = P(0 ≤ Z ≤ z)
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
4,0 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
188 APÊNDICE A. TABELAS
Tabela 2
Distribuição acumulada da normal padrão
p = P(Z ≤ z)