Escolar Documentos
Profissional Documentos
Cultura Documentos
AMOSTRAGEM
14.1 INTRODUÇÃO
CONFIABILIDADE DA AMOSTRA
A estimativa do tamanho da amostra é um dos fatores determinantes para o sucesso de
uma Pesquisa Estatística. O tamanho da amostra pode ser pequeno em relação à
população geral. Veremos formas específicas para o cálculo da amostra mínima
necessária para dar confiança aos resultados obtidos.
Entretanto, existem dois fatores estatísticos que devem ser mantidos em mente:
- Quanto maior o tamanho da amostra, as informações sobre a população serão mais
precisas;
- Acima de determinado tamanho poucas informações extras sobre a população
podem ser obtidas, no entanto, o tempo e os custos aumentam.
PLANEJAMENTO DA AMOSTRA
A amostragem ideal para todo o estudo estatístico é a Amostragem Aleatória Simples.
Em estatística, um planejamento da amostra é um plano definido completamente antes
da coleta de quaisquer dados e que tem por objetivo a obtenção de uma amostra de uma
população.
- Amostragem Sistemática;
- Amostragem Estratificada;
Estes erros surgem do fato da amostra não ser representativa em relação à população
em questão. Eles geralmente são minimizados com a consideração cuidadosa do
método de amostragem a ser utilizado. Com amostras aleatórias, o tamanho desses
erros de amostragem pode ser posteriormente estimado e existem métodos de cálculo
para estimá-lo.
Para resumir, aqui temos uma lista de verificação das principais etapas do projeto de uma
pesquisa:
3 + 5 + 7 + 9 + 11
µ= =7
5
e seu desvio padrão é:
( 3 − 7 ) 2 + (5 − 7 ) 2 + (7 − 7 ) 2 + (9 − 7 ) 2 + (11 − 7 ) 2
σ= = 8
5
4 5 6 7 6 7 8 8 9 10
Como cada amostra tem probabilidade 1/10, obtemos a seguinte Distribuição Amostral da
Média:
__ Probabilidade
Média X
4 1/10
5 1/10
6 2/10
7 2/10
8 2/10
9 1/10
10 1/10
PROBABILIDADE
0,2
6 7 8
0,1
4 5 9 10
0,0
4 5 6 7 8 9 10
MÉDIA
__
Observa-se que para X = 6, 7, 8 há uma probabilidade de 6/10 de uma Média Amostral
__
Também para média X = 5, 6, 7, 8 ou 9 há uma probabilidade de 8/10 de uma Média
4 + 5 + 6 + 6 + 7 + 7 + 8 + 8 + 9 + 10
µ __ = =7
X 10
(4 − 7) 2 + (5 − 7) 2 + (6 − 7 ) 2 + (6 − 7) 2 + (7 − 7) 2 + (7 − 7 ) 2 + (8 − 7) 2 + (8 − 7) 2 + (9 − 7 ) 2 + (10 − 7) 2
σ __ =
X 10
σ __ = 3
X
__
desvio padrão σ, a Distribuição Normal de X tem média:
µ __ = µ
X
σ σ N −n
σ __ = ou σ __ = .
X n X n N −1
- se σ __ for pequeno há uma boa chance que a Média da Amostra (ou Amostral)
X
da População
N −n
O Fator é chamado de Fator de Correção para População Finita.
N −1
σ N −n 8 5−2 8 3 8.3 24
σ __ = . = = = =
X n N −1 2 5 −1 2 4 2.4 8
σ __ = 3
X
(a) n = 10 e N = 200
(b) n = 10 e N = 500
(c) n = 10 e N = 2000
(d) n = 20 e N = 200
(e) n = 40 e N = 400
__
(c) Liste todas as amostras possíveis e calcule as suas médias X
Já sabemos calcular a média e o desvio padrão, mas temos também que saber a forma
da Distribuição Amostral.
Isso significa que para qualquer distribuição individual, podemos ter a distribuição normal
com a única restrição que o tamanho da amostra seja grande, ou seja, acima de 30
amostras.
Esses resultados são conhecidos como o Teorema Central do Limite ou do Limite Central.
Exemplo 1 - Uma População muito grande tem média µ = 20 e desvio padrão σ = 1,4.
Extrai-se uma amostra de 49 observações.
Questões Resolvidas:
σ 1,4 1,4
σ __ = = = ⇒ σ __ = 0,2
X n 49 7 X
(B) Qual a porcentagem das possíveis médias amostrais que diferirão por mais de 0,2
da média da População?
Como n > 30, podemos supor que a distribuição é normal.
Temos:
σ __ = 0,2 e µ __ = 20
X X
F(X)
0,3413 0,3413
( µ -3 σ )( µ -2 σ )( µ - σ ) µ ( µ + σ )( µ +2 σ )( µ +3 σ )
__ __ __ __ __ __ __ __ __ __ __ __ __
X X X X X X X X X X X X X
Z1 Z2 Z
19,8 − 20 − 0,2
Z1 = = = − 1 ⇒ I Z 1 = 0,3413
0, 2 0, 2
20,2 − 20 0,2
Z2 = = =1 ⇒ I Z 2 = 0,3413
0, 2 0, 2
1- Um fabricante de baterias alega que seu artigo, de primeira categoria, tem uma vida
3- Determine a média da distribuição de médias amostrais, dada cada uma das seguintes
médias populacionais:
(a) 5,01
(b) 199,5
seguintes casos:
comemorativas. A espessura média das moedas é de 0,2 cm, com desvio padrão
(c) Qual a probabilidade de se obter uma média amostral que se afaste por mais de
Quando decidimos usar métodos de Amostragem para chegar a uma decisão sobre a
variável investigada, devemos definir rigorosamente nossos conceitos e procedimentos.
Do ponto de vista do Estatístico as amostras devem ser tão grandes quanto possíveis.
Quanto maior é a amostra, maior é a confiança que se tem nos resultados. Para
entender as razões desse ponto de vista, imagine que em uma cidade existem dois
hospitais. Em um deles nascem 120 bebês por dia e no outro 12. A razão de meninos e
meninas é, em média, 50% nos dois hospitais.
Uma vez nasceu, em um dos hospitais, duas vezes mais meninos do que meninas (67%
meninos e 33% meninas). Em qual dos hospitais é provável que isso tenha ocorrido? É
claro que foi no menor.
As amostras muito pequenas são inúteis por que não dão, em geral, boas estimativas.
No entanto amostras muito grandes, porém mal feitas, são piores porque dão a ilusão de
conter a verdade.
__
1- Para muitas populações, a distribuição de médias amostrais X tende a ser
consistente (apresenta menor variação) do que as distribuições de outras
estatísticas amostrais (mediana ou moda)
__
2- A média amostral X tende a centrar-se em torno da média populacional µ.
__ __
X1 __ X6
__ X5
X3
__ µ
X4 __
__ X8
X2 __
X7
__
Quando usamos a média X para estimar a média populacional µ e fazemos uma
estimativa pontual não temos qualquer indicação de quão boa é essa estimativa. Para
isso foi desenvolvido outro tipo de estimativa que efetivamente indica quão boa é uma
estimativa pontual.
Para tanto usa-se a probabilidade α, que corresponde à área na curva normal, a qual
pela simetria da curva divide-se em duas partes como aparece sombreada na curva
abaixo:
EXEMPLO
90%
95%
99%
0,45 0,45
α/2=0.05
α/2=0,05
α/2=0.025
0,495 0,495
α/2=0.005
α/2=0.005
FÓRMULA
σ
E = Zα / 2
n
Esta fórmula só pode ser usada quando conhecemos σ (Desvio Padrão da População).
Intervalo de confiança (ou estimativa intervalar) para a média populacional µ (com base
em grandes amostras: n > 30) é:
__ __
X − E ≤ µ ≤ X + E , onde:
σ
E = Zα / 2
n
σ
2 - Calcular a margem de erro E = Z α / 2 . Se o desvio padrão da população não for
n
conhecido, utilizar o desvio padrão da amostra S, desde que n > 30.
__ __
3 - Com a margem de erro e o valor da média amostral X , calcular os valores X − E e
__
X + E . Levar esses valores na expressão do intervalo de confiança.
__ __
X −E ≤ µ ≤ X +E
__ ± E
ou µ = X ou (X – E; X + E).
69,9 69,9 72,6 70,2 70,0 71,8 70,6 72,8 69,0 68,4
60,0 68,4 68,3 69,6 71,7 69,2 70,8 71,0 70,4 66,8
70,4 66,8 69,9 69,2 70,5 70,2 70,0 70,8 72,6 70,6
72,8 70,8 70,2 71,7 70,0 68,3 66,8 69,9 69,0 69,4
70,4 69,4 69,9 70,0 71,7 70,2 70,8 72,8 71,0 69,9
a- 99%
b- 94%
c- 98%
d- 92%
e- 96%
3 - Use o grau de confiança e os valores amostrais dados para achar a margem de erro e
o intervalo de confiança para a média populacional µ.
__
a- Altura das alunas: 95% de confiança, n = 50, X = 164, S = 4,5
__
b- Médias das notas: 99% de confiança, n = 70, X = 7,0, S = 0,88
__
c- Notas de um teste: 90% de confiança, n = 150, X = 77,6 , S = 14,6
__
d- Salário da Policia: 92% de confiança, n = 64, X = R$ 1200,00 , S = R$
80,00
4 - A partir de uma amostra de 35 crânios de homens egípcios que viveram por volta de
1850 AC mede-se a largura máxima de cada crânio, obtendo-se:
__
X = 134,5 mm e S = 3,48 mm. Com esses dados amostrais construa um intervalo de
95% de confiança para a média populacional µ.
Suponha que estamos definindo um procedimento para uma pesquisa cientifica. Como
sabemos quantos elementos da População devem ser escolhidos?
Suponha, por exemplo, que queiramos estimar a renda média de pessoas que concluíram
um curso superior, no primeiro ano após a formatura. Quantas rendas devemos incluir em
nossa amostra?
2
Z .σ
n= α/ 2
E
O número da amostra deve ser um número inteiro, quando isso não ocorre devemos
arredondar usando o número inteiro mais próximo para cima.
EXEMPLO:
SOLUÇÃO: Queremos determinar o tamanho da amostra “n” dado que α = 0,05 (95% de
confiança).
2 2
Z . σ 1,96 . 100
n= α/ 2 = = 96,04 ≈ 97 valores de renda
E 20
__
Com tal amostra teremos 95% de confiança de que a média amostral X difira em menos
de R$ 20,00 da verdadeira média populacional,
__ __ __ __
X − E ≤ µ ≤ X + E ⇒ X − 20 ≤ µ ≤ X + 20
Quando não conhecemos o valor de σ podemos estimar o valor a partir pelo menos de 31
valores amostrais selecionando aleatoriamente em um estudo piloto. No caso anterior
poderíamos encontrar o valor R$ 2300,00 como a maior renda e R$ 1900,00 como a
menor renda, o σ pode ser estimado por:
RT 400
σ= ⇒ σ= = 100
4 4
PEQUENAS AMOSTRAS
Neste caso:
__
A melhor estimativa continua sendo a partir de X .
Usaremos intervalo de confiança a partir da curva normal com a mesma margem de erro
do capítulo anterior.
X−µ
t=
S
n
EXEMPLO
Se 10 estudantes têm em um teste média 80, podemos atribuir valores arbitrários a nove
delas, mas a décima fica determinada univocamente.
A soma das 10 notas deve ser 800, de modo que a 10ª deve ser igual a 800 menos a
soma das 9 primeiras.
S
E = tα / 2 onde t α / 2 tem (n - 1) graus de liberdade
n
__ __
X −E ≤ µ ≤ X +E
Suponhamos que tenhamos feito teste de colisão de 12 carros de um tipo “A” cujo preço
de venda seja R$ 59.000,00 sob diversas condições que simulam colisões típicas.
SOLUÇÃO:
__
a- A melhor estimativa pontual de µ é o valor X , neste caso R$ 26.000,00.
- n ≤ 30 (n=12)
Então:
S 15000
E = tα / 2 ⇒ E = 2,201 . = 9.530,61
n 12
Com base nesse resultado, temos 95% de confiança de que os limites 16490 e 35530
contem o valor da média populacional µ.
Esse exemplo é real e trata de um carro americano, dos mais caros para consertar em
caso de colisão.
a- 98% e n=10
b- 98% e n=21
c- 95% e n=16
d- 90% e n=8
EXEMPLO:
Já sabemos que Q=1-P; podemos associar que Q^= 1-P^, desta forma:
P= Proporção Populacional
FÓRMULAS
Estimativa Pontual
P ^ Q^
E = Zα / 2
n
P^ − E ≤ P ≤ P^ + E
P = P^ ± E ou (P^ - E; P^ + E)
EXEMPLO:
SOLUÇÃO:
A- A estimativa pontual de P é:
X 673
P^ = = = 0,630
n 1068
e Q^ = 1 − P^ ⇒ Q^ = 1 − 0,63 = 0,37
P ^ Q^
Se E = Zα / 2
n
Podemos definir:
2
Zα / 2 . P^ . Q^
n=
E2
2
Zα / 2 . 0,25
n=
E2
A- Suponha que tenhamos uma estimativa de P^ com base em estudos anteriores que
mostrou que 18% dos motoristas falam ao telefone dirigindo.
B- Suponha que não tenhamos qualquer informação que possa sugerir um valor de P^.
SOLUÇÃO:
A- P^ = 0,18 e Q^ = 0,82
2
Zα / 2 . P^ . Q^ 1,96 2 . 0,18 . 0,82
n= = = 631 (arredondado para cima)
E2 0,03 2
2
Zα / 2 . 0,25 1,96 2 . 0,25
n= = = 1068 (arredondado para cima)
E2 0,03 2
SOLUÇÃO:
2
Zα / 2 . 0,25 1,96 2 . 0,25
n= = = 1985 (arredondado para cima)
E2 0,022 2
Note que essas fórmulas não incluem o tamanho da População N, neste caso é
irrelevante.
3- Utilize os dados abaixo para determinar o tamanho da amostra necessária para estimar
uma proporção ou porcentagem populacional:
4- A Itaú seguros deseja estimar a porcentagem dos motoristas que trocam fita ou CD
enquanto dirigem. Uma amostra de 850 motoristas acusou 544 que trocam fitas ou CD
quando dirigem.
(n − 1) . S 2
X2 = , onde:
σ2
n ≡ tamanho da amostra
S² ≡ variância amostral
σ² ≡ variância populacional
Denotamos Qui-Quadrado por Χ².
Para achar os valores críticos dos valores Qui-Quadrado, recorremos à Tabela 1 a seguir.
A Distribuição Qui-Quadrado é determinada pelo número de graus de liberdade. Neste
capitulo utilizamos (n-1) graus de liberdade.
Propriedades da Distribuição Qui-Quadrado.
1- A Distribuição Qui-Quadrado não é simétrica ao contrário das distribuições Normal
e t de Student. Na medida que aumenta o número de graus de liberdade, a
GL=10
GL=20
5 10 15 20 25 30 35 40 45
2 2 2 2 2 2 2 2 2 2 2 2 2
X X X X X X X X X X X X X
v 0,995 0,99 0,975 0,95 0,90 0,75 0,50 0,25 0,10 0,05 0,025 0,01 0,005
1 7,88 6,63 5,02 3,84 2,71 1,32 0,455 0,102 0,0158 0,0039 0,0010 0,0002 0,0000
2 10,6 9,21 7,38 5,99 4,61 2,77 1,39 0,575 0,211 0,103 0,05,6 0,0201 0,0100
3 12,8 11,3 9,35 7,81 6,25 4,11 2,37 1,21 0,584 0,352 0,216 0,115 0,072
4 14,9 13,3 11,1 9,49 7,78 5,39 3,36 1,92 1,06 0,711 0,484 0,297 0,207
5 16,7 15,1 12,8 11,1 9,24 6,63 4,35 2,67 1,61 1,15 0,831 0,554 0,412
6 18,5 16,8 14,4 12,6 10,6 7,84 5,35 3,45 2,20 1,64 1,24 0,872 0,676
7 20,3 18,5 16,0 14,1 12,0 9,04 6,35 4,25 2,83 2,17 1,69 1,24 0,989
8 22,0 20,1 17,5 15,5 13,4 10,2 7,34 5,07 3,49 2,73 2,18 1,65 1,34
9 23,6 21,7 19,0 16,9 14,7 11,4 8,34 5,90 4,17 3,33 2,70 2,09 1,73
10 25,2 23,2 20,5 18,3 16,0 12,5 9,34 6,74 4,87 3,94 3,25 2,56 2,16
11 26,8 24,7 21,9 19,7 17,3 13,7 10,3 7,58 5,58 4,57 3,82 3,05 2,60
12 28,3 26,2 23,3 21,0 18,5 14,8 11,3 8,44 6,30 5,23 4,40 3,57 3,07
13 29,8 27,7 24,7 22,4 19,8 16,0 12,3 9,30 7,04 5,89 5,01 4,11 3,57
14 31,3 29,1 26,1 23,7 21,1 17,1 13,3 10,2 7,79 6,57 5,63 4,66 4,07
15 32,8 30,6 27,5 25,0 22,3 18,2 14,3 11,0 8,55 7,26 6,26 5,23 4,60
16 34,3 32,0 28,8 26,3 23,5 19,4 15,3 11,9 9,31 7,96 6,91 5,81 5,14
17 35,7 33,4 30,2 27,6 24,8 20,5 16,3 12,8 10,1 8,67 7,56 6,41 5,70
18 37,2 34,8 31,5 28,9 26,0 21,6 17,3 13,7 10,9 9,39 8,23 7,01 6,26
19 38,6 36,2 32,9 30,1 27,2 22,7 18,3 14,6 11,7 10,1 8,91 7,63 6,84
20 40,0 37,6 34,2 31,4 28,4 23,8 19,3 15,5 12,4 10,9 9,59 8,26 7,43
21 41,4 38,9 35,5 32,7 29,6 24,9 20,3 16,3 13,2 11,6 10,3 8,90 8,03
22 42,8 40,3 36,8 33,9 30,8 26,0 21,3 17,2 14,0 12,3 11,0 9,54 8,64
23 44,2 41,6 38,1 35,2 32,0 27,1 22,3 18,1 14,8 13,1 11,7 10,2 9,26
24 45,6 43,0 39,4 36,4 33,2 28,2 23,3 19,0 15,7 13,8 12,4 10,9 9,89
25 46,9 44,3 40,6 37,7 34,4 29,3 24,3 19,9 16,5 14,6 13,1 11,5 10,5
26 48,3 45,5 41,9 38,9 35,6 30,4 25,3 20,8 17,3 15,4 13,8 12,2 11,2
27 49,6 47,0 43,2 40,1 36,7 31,5 26,3 21,7 18,1 16,2 14,6 12,9 11,8
28 51,0 48,3 44,5 41,3 37,9 32,6 27,3 22,7 18,9 16,9 15,3 13,6 12,5
29 52,3 49,6 45,7 42,6 39,1 33,7 28,3 23,6 19,8 17,7 16,0 14,3 13,1
30 53,7 50,9 47,0 43,8 40,3 34,8 29,3 24,5 20,6 18,5 16,8 15,0 13,8
40 66,8 63,7 59,3 55,8 51,8 45,6 39,3 33,7 29,1 26,5 24,4 22,2 20,7
50 79,5 76,2 71,4 67,5 63,2 56,3 49,3 42,9 37,7 34,8 32,4 29,7 28,0
60 92,0 88,4 83,3 79,1 74,4 67,0 59,3 52,3 46,5 43,2 40,5 37,5 35,5
70 104,2 100,4 95,0 90,5 85,5 77,6 69,3 61,7 55,3 51,7 48,8 45,4 43,3
80 116,3 112,3 106,0 101,9 96,6 88,1 79,3 71,1 64,3 60,4 57,2 53,5 51,2
90 128,3 124,1 118,1 113,3 107,6 98,6 89,3 80,6 73,3 69,1 65,6 61,8 59,2
100 140,2 135,8 129,6 124,3 118,5 109,1 99,3 90,1 82,4 77,9 74,2 70,1 67,3
Solução: Conforme a figura abaixo, o valor critico é obtido à direita (Χ² = 19,023)
diretamente, localizando 9 na coluna de graus de liberdade à esquerda e 0,025 na parte
superior. O valor critico Χ² = 2,70 à esquerda mais uma vez correspondente a 9 na coluna
de graus de liberdade mas devemos localizar 0,975 (1- 0,025) na parte superior, porque
os valores no topo são sempre áreas à direita do valor critico. Verifique na figura abaixo
que a área total à direita de Χ ² = 2,70 e 0,975.
0,025
0,025
Estimadores de σ²
(n − 1) . S 2 (n − 1) . S 2
<σ <
2
X 2R XL2
(n − 1) . S 2 (n − 1) . S 2
<σ<
X 2R X L2
Com uma área total α dividida igualmente entre as extremidades de uma distribuição Qui-
Quadrado, X2L denota o valor crítico da extrema esquerda e X2R denota o valor crítico da
extrema direita.
EXEMPLO:
Uma confeitaria fabrica bombons que são embalados em pacotes com 12 unidades
pesando no total 420 gramas. Se a variação dos bombons é muito grande, algumas
caixas terão peso a menos (prejudicando o consumidor) e outras terão peso a mais
(diminuindo o lucro). Este problema pode ser evitado se os bombons tiverem um peso
médio de 35 gramas e um desvio padrão de 0,60 gramas ou menos. Selecionam-se
aleatoriamente, na linha de produção, dez bombons que são pesados, dando os
resultados a seguir:
35,8 35,0 36,8 36,1 34,2 35,2 36,6 35,0 33,6 34,2 (gramas)
Calculamos:
__
X = 35,25 e S = 1,070 superior ao desejado 0,60.
Com uma amostra de 10 valores, temos 9 graus de liberdade. Com o grau de confiança
de 95%, dividimos α = 0,05 igualmente entre as duas caudas de distribuição Χ² e
localizamos os valores 0,975 e 0,025 na linha superior. Os valores críticos de X2L e X2R na
tabela são:
X2L = 2,70
X2R = 19,0
__
e X = 35,25 e S = 1,070
n = 10
Aplicamos a fórmula
(n − 1) . S 2 (n − 1) . S 2
< σ 2
<
X 2R XL2
Com base nesses resultados parece que o desvio padrão populacional é sempre superior
ao desejado σ = 0,60 mostrando que o peso dos bombons deve ser mais consistente.
a- 95% n = 26
b- 90% n = 60
c- 99% n = 17
d- 95% n = 50
confiança para o desvio padrão populacional σ. Em cada caso admita que a população
__
a- Altura das alunas: 95% de confiança, n = 10, X = 164 , S = 4,5
__
b- Médias das notas: 99% de confiança, n = 15, X = 7,0 , S = 0,88
__
c- Notas de um teste: 95% de confiança, n = 16, X = 77,6 , S = 14,2
__
d- Salário da Polícia: 92% de confiança, n = 19, X = R $ 1200,00 , S= R$ 80,00
Já foi visto como uma amostra pode ser usada para desenvolver estimativas
pontuais e do intervalo dos parâmetros da população. Agora, continuaremos a discussão
da inferência estatística mostrando como o teste de hipóteses pode ser usado para
determinar se uma declaração sobre o valor de um parâmetro da população deve ser
rejeitado.
O objetivo aqui é mostrar como o teste de hipóteses pode ser conduzido sobre uma
média da população. Começaremos dando exemplos que ilustram abordagens para
desenvolver as hipóteses nula e alternativa.
Em algumas aplicações pode não ser óbvio como as hipóteses nula e alternativa
devem ser formuladas. Deve-se tomar cuidado para estar seguro de que as hipóteses são
estruturadas apropriadamente e que a conclusão do teste de hipóteses forneça as
informações que o pesquisador ou o tomador de decisão deseja. Diretrizes para
estabelecer as hipóteses nula e alternativa são dadas para três tipos de situações nas
quais os procedimentos do teste de hipóteses são comumente empregados.
Se o resultado da amostra indica que H0 não pode ser rejeitada, o inspetor de controle de
qualidade não terá razões para duvidar de que o embarque satisfaz as especificações e o
embarque será aceito. No entanto, se os resultados da amostra indicam que H0 deva ser
Seja µ0 denotando o valor numérico específico que está sendo considerado nas
hipóteses nula e alternativa. Em geral, um teste de hipóteses ao redor dos valores de uma
média de população µ precisa tomar uma das seguintes três formas:
H0 : µ ≥ µ0 H0 : µ ≤ µ0 H0 : µ = µ0
Ha : µ < µ0 Ha : µ > µ0 Ha : µ ≠ µ0
2. Devido aos tempos e aos altos custos das mudanças de turno, um diretor de
fabricação precisa convencer a administração de que um proposto método de
fabricação reduz os custos antes que o novo método seja implementado. O método
corrente de produção opera com um custo médio de US$ 220 por hora. Uma pesquisa
está para ser realizada em que o custo do novo método será medido com relação a um
período de produção da amostra.
A primeira linha da tabela acima mostra o que pode acontecer quando a conclusão
é aceitar H0. Como tanto H0 como Ha são verdadeiras, se H0 é verdadeira e a conclusão é
aceitar H0, essa conclusão é correta. No entanto se Ha é verdadeira e a conclusão é
aceitar H0, comete-se um erro do Tipo II; isto é, aceita-se H0 quando ela é falsa. A
segunda linha da tabela acima mostra o que acontece quando a conclusão é para rejeitar
H0. Nesse caso, se H0 é verdadeira, comete-se um erro do Tipo I; isto é, rejeitamos H0
quando ela é verdadeira. No entanto, se Ha é verdadeira e a conclusão é rejeitar H0, essa
conclusão é correta.
Embora não possamos eliminar a possibilidade de erros no teste de hipóteses,
podemos considerar as possibilidades de suas ocorrências. Usando a notação usual de
estatística, denotamos as possibilidades de se cometer os dois erros como segue:
H0 : µ ≤ 24
Ha : µ > 24
A hipótese alternativa Ha : µ > 24, indica que os pesquisadores estão procurando por uma
evidência de amostra que confirmará a conclusão de que a média de quilômetros por litro
é maior que 24.
Nesta aplicação, o erro do Tipo I de rejeitar H0 quando ela é verdadeira
corresponde aos pesquisadores afirmarem que o novo motor melhora a média de
quilômetros por litro (µ > 24) quando de fato o novo motor não é nada melhor do que o
motor em uso. Em contraste, o erro do Tipo II de aceitar H0 quando ela é falsa
corresponde aos pesquisadores concluírem que o novo motor não é nada melhor do que
o motor em uso (µ ≤ 24) quando de fato o novo motor melhora o desempenho de
quilômetros por litro.
Na prática, a pessoa que conduz o teste de hipóteses especifica a probabilidade
máxima permissível de se cometer o erro do Tipo I, chamado de nível de significância
para o teste. Escolhas comuns para o nível de significância são 0,05 e 0,01. Referindo-se
à segunda linha da tabela acima, observe que a conclusão de rejeitar H0 indica que tanto
um erro do Tipo I como uma conclusão correta foram feitos. Assim, se a probabilidade de
se cometer um erro do Tipo I é controlada por selecionar um pequeno valor para o nível
de significância, temos um alto grau de confiança de que a conclusão para rejeitar H0 está
correta. Em tais casos, temos o suporte estatístico para concluir que H0 é falsa e que Ha é
verdadeira. Qualquer ação sugerida pela hipótese alternativa Ha é apropriada.
Embora a maioria das aplicações de teste de hipóteses esteja atenta à
probabilidade de se cometer um erro do Tipo I, nem sempre estão atentas à probabilidade
de se cometer um erro do Tipo II. Por isso se decidimos aceitar H0 não podemos
determinar quão confiantes podemos estar com aquela decisão. Por causa da incerteza
associada com o “cometer o erro do Tipo II”, os estatísticos freqüentemente recomendam
que usemos a declaração “não rejeitar H0” em vez de “aceitar H0”. Usar a declaração
“não rejeitar H0” inclui a recomendação para reter tanto o julgamento como a ação. Com
1. O rótulo em um recipiente de três quartos de suco de laranja indica que esse suco
contem uma média de um grama de gordura ou menos. Responda às seguintes
questões para um teste de hipóteses que poderia ser usado para testar a declaração
no rótulo.
Um resumo das etapas que podem ser aplicadas a qualquer teste de hipóteses é
apresentado a seguir:
1. Determinar as hipóteses nula e alternativa que são apropriadas para a aplicação.
2. Selecionar a estatística de teste que será usada para decidir rejeitar ou não a
hipótese nula.
3. Especificar o nível de significância α para o teste.
4. Usar o nível de significância para desenvolver a regra de rejeição que indica os
valores da estatística de teste que levará à rejeição de H0.
5. Coletar os dados amostrais e calcular o valor da estatística de teste.
6. Comparar o valor da estatística do teste com o(s) valor(es) crítico(s0
especificado(s) na regra de rejeição para determinar se H0 deve ser rejeitada.
sadio doente
14 18
Xi ~ N(µ, 36),
Onde:
σ2 = 62 = 36 e,
µ = 14 ou µ = 18 dependendo se o tratamento for eficiente ou não.
Ou seja,
H0 : µ = 18 Hipóteses
Ha : µ = 14 Simples
Se o tratamento for eficaz, então uma amostra com 30 indivíduos podem ser vistos como
membros da população com concentração modelada por uma normal N(14,36); caso
contrário, eles pertencerão à população N(18,36).
No teste teremos:
__ __
- X ≡ média amostral ( X é um estimador de µ)
__
- a tomada de decisão será baseada no valor observado, denotado por x obs
- n = 30 (tamanho da amostra)
σ σ2
µ, 36/30)
N(µ (lembrando que s = e s2 = )
n n
__
(1) Mesmo quando µ = 14, X pode apresentar valores maiores que 14, e,
__
P( X > 14 µ =14) = 0,5 (pela simetria)
(2) Um critério que pode ser utilizado, para decidir sobre o valor de µ, é determinar um
valor crítico, xC, tal que,
__
se X > xC a amostra pertence à população com µ = 18, ou seja,
o tratamento não é eficaz.
__
(3) Quando X ≤ xC a amostra pertence à população com µ = 14, ou seja,
o tratamento é eficaz.
µ = 14 µ = 18
__
x obs
xC
Lembrando que:
α β
Sadio Ha Doente H0
14 18
xC
Região de Região de
Rejeição de H0 Aceitação de H0
xC -18 6
zC = xC =18 + zC .
6 30
30
α=0,05
18
para 0,05 em uma das caudas, por simetria, temos uma área total nas duas caudas igual
a 0,10, logo
Portanto:
6
xC =18 + (−1,645) =16,1980 ⇒ xC ≅16,20
30
14 18
16,20
Região de
Rejeição ou
Região Crítica (RC)
RC = {x ∈ |R : x < 16,20}
(Teste Unilateral)
xC1 µ0 xC2
__ __
α = P( X < xC1 ou X > xC2), onde:
__ __
α α
= P( X < xC1) e = P( X > xC2)
2 2
logo,
15,85 18 20,15
Uma variável aleatória tem distribuição normal e desvio-padrão 12. Estamos testando se a
sua média é igual ou diferente de 20 e coletamos uma amostra de 100 valores dessa
variável, obtendo uma média amostral de 17,4.
(a) H0 : µ = 20
Ha : µ ≠ 20
xC1 µ0 xC2
(b) Para n = 100, dados µ = 20 e σ = 12, temos N (µ, σ2) = N (20, 144/100) e
__ __
α α
= P( X < xC1) e = P( X > xC2)
2 2
logo,
12 12
xC1 = 20 + zC1 . e xC1 = 20 + zC2 .
100 100
12 12
xC1 = 20 + (−2,576) . e xC1 = 20 + (2,576) .
100 100
xC1 =16,91 e xC2 = 23,09
Portanto:
para α = 1% ⇒ RC = {x ∈ |R : x < 16,91 ou x > 23,09}
⇒não rejeitar H0 pois 17,4 ∉ RC
16,91 20 23,09
17.1 INTRODUÇÃO
Até agora nossa preocupação era descrever a distribuição de valores de uma única
variável. Com esse objetivo, aprendemos a calcular medidas de tendência central (média,
mediana e moda) e variabilidade (variância e desvio padrão).
Assim, quando consideramos variáveis como peso e altura de um grupo de pessoas, uso
do cigarro e incidência do câncer, a potência gasta e a temperatura da água no chuveiro,
procuramos verificar se existe alguma relação entre as variáveis de cada um dos pares e
qual o grau dessa relação.
Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe
uma correlação entre elas.
Consideremos uma amostra aleatória, formada por 98 alunos de uma classe de uma
Universidade e pelas notas obtidas por eles em matemática e estatística:
NOTAS
Nº MATEMÁTICA ESTATÍSTICA
(xi) (yi)
01 5,0 6,0
08 8,0 9,0
24 7,0 8,0
38 10,0 10,0
44 6,0 5,0
58 7,0 7,0
59 9,0 8,0
72 3,0 4,0
80 8,0 6,0
92 2,0 2,0
.
o
8 . o o
. o
6 . o o
. o
4 . o
2 . o
. . . . . . . . . .
2 4 6 8 10 xi
Podemos imaginar que, quanto mais fina for a elipse mais ela se aproximara de uma reta.
Dizemos, então, que a correlação de forma elíptica tem como “imagem” uma reta, sendo,
por isso denominada de correlação Linear.
yi
10 . RETA IMAGEM o
.
o
8 . o o
. o
6 . o o
. o
4 . o
2 . o
. . . . . . . . . .
2 4 6 8 10 xi
Como a correlação em estudo tem como “imagem” uma reta ascendente, ela e chamada
de correlação Linear Positiva.
o
oo
ooo
oo
ooooo correlação positiva
ooo
ooooo
oo
o
oo
o
oo
ooo
oo
ooooo correlação negativa
ooo
ooooo
oo
o
oo
o
o oo
oo oooo
ooo oo
oo ooo
ooooo o correlação não linear
ooo oooo
ooooo ooo
oo oo
o oooo
oo ooo
oo
o o o o
o o o oooo ooo o ooo
oo ooo oooo oooo oooo o não há correlação
o oo ooo ooooo o
o ooo oo o
ooooo
Onde:
n = número de observações
Os valores limites de r são -1 e +1, isto é, o valor de r pertence ao intervalo [ -1 e +1].
Assim:
NOTAS
- Para que uma relação possa ser descrita por meio do Coeficiente de
correlação de Person é imprescindível que ela se aproxime de uma função
Linear. Uma maneira prática de verificarmos a linearidade da relação é a
inspeção do Diagrama de Dispersão: se a elipse apresenta saliências ou
reentrâncias muito acentuadas, provavelmente trata-se de uma relação
curvilínea.
- Para podermos tirar algumas conclusões significativas sobre o comportamento
simultâneo das variáveis analisadas, é necessário que:
0,6 ≤ | r | ≤ 1
Se 0,3 ≤ | r | < 0,6, há uma correlação relativamente fraca entre as variáveis.
Se 0 < | r | < 0,3, a correlação é muito fraca e, praticamente, nada podemos
concluir sobre a relação entre as variáveis em estudo.
MATEMÁTICA ESTATÍSTICA
(xi) (yi) xi yi x i2 y i2
5,0 6,0 30 25 36
8,0 9,0 72 64 81
7,0 8,0 56 49 64
10,0 10,0 100 100 100
6,0 5,0 30 36 25
7,0 7,0 49 49 49
9,0 8,0 72 81 64
3,0 4,0 12 09 16
8,0 6,0 48 64 36
2,0 2,0 04 04 04
Σ=65 Σ=65 Σ=473 Σ=481 Σ=475
Logo:
10 . 473 − 65 . 65 505 505
r= = = = 0,911
[4810 − 4225 ][4750 − 4225 ] 585 . 525 554,18
Daí: r = 0,91 - Resultado que indica uma correlação linear positiva altamente significativa
entre as duas variáveis.
individual de cerveja. Porém essas duas variáveis são afetadas pelas condições
médias. Quando utilizamos taxas ou médias para os dados, suprimimos a variação entre
inflacionado.
há correlação linear significativa não quer dizer que x e y não estejam relacionados de
xi 4 6 8 10 12
yi 12 10 8 12 14
Temos:
(xi) (yi) xi yi x i2 y i2
4,0 12,0
……. …….
……. ……
..….. ……
12,0 14,0
Σ= Σ= Σ= Σ= Σ=
Logo:
. − .
r= = = =
[ − ][ − ] .
ONDE: r =
(xi) (yi) xi yi x i2 y i2
34 21
30 22
40 25
34 28
39 15
35 24
42 24
45 22
43 17
Σ= Σ= Σ= Σ= Σ=
B-
(xi) (yi) xi yi x i2 y i2
3,9 46
4,6 46
6,0 52
2,8 50
3,1 48
3,4 40
4,2 42
4,0 44
Σ= Σ= Σ= Σ= Σ=
1ª AVALIAÇÃO 2ª AVALIAÇÃO
estudante (xi) (yi) xi yi x i2 y i2
1 82 92
2 84 91
3 86 90
4 83 92
5 88 87
6 87 86
7 85 89
8 83 90
9 86 92
10 85 90
11 87 91
Σ= Σ= Σ= Σ= Σ=
4- Com os dados abaixo, sobre crimes violentos e a temperatura média entre 21 e 2 horas
das noites de sábado numa grande comunidade, monte o gráfico para os dados e calcule
o coeficiente de correlação.
18.1 INTRODUÇÃO
Podemos dizer que a análise de regressão tem por objetivo descrever, através de um
modelo matemático, a relação entre duas variáveis, partindo de n observações das
mesmas.
A variável sobre a qual desejamos fazer uma estimativa recebe o nome de variável
dependente e a outra recebe o nome de variável independente.
Assim, supondo X a variável independente e Y a dependente, vamos procurar determinar o ajustamento de uma reta à
relação entre essas variáveis.
Exemplo:
Variação percentual do PIB, no Brasil
1991 1,03
1992 -0,54
1993 4,92
1994 5,85
1995 4,22
1996 2,76
1997 3,68
1998* 0,15
Gráfico de linhas
Variação percentual do PIB, no Brasil
7,00
6,00
5,00
Variação do PIB
4,00
3,00
2,00
1,00
0,00
1991 1992 1993 1994 1995 1996 1997 1998*
-1,00
825 3,50
215 1,00
1070 4,00
550 2,00
480 1,00
920 3,00
1350 4,50
325 1,50
670 3,00
1215 5,00
Diagrama de Dispersão
Tempo de entrega de dez carregamentos em funçaõ da
distância rodoviária
6
Tempo de entrega
0
0 200 400 600 800 1000 1200 1400 1600
Distância
Y = α + βX.
Reta de regressão
Y = α + βX
θ
α
β = tg θ
X
Y = α + βX + ε,
∑ xy − ∑ n∑
x y
∧ ∧ _ ∧_
β= α = y −β x
2 (∑ x)
2
∑x − n
X Y XY X2 Y2
6
Tempo de entrega
0
0 200 400 600 800 1000 1200 1400 1600
Distância
EXERCÍCIO:
1- A tabela abaixo apresenta o tempo, em meses, que seis pessoas estão trabalhando na
inspeção de carros e o número de carros que elas inspecionaram em uma tarde de
trabalho. Ajuste uma reta de regressão aos dados e calcule o coeficiente de
determinação. Se uma pessoa tivesse trabalhado dez meses, quantos caros ela teria
inspecionado?
Exercício:
Número de carros inspecionados, segundo o
tempo de serviço, em meses, de seis pessoas
5 16
1 15
7 19
9 23
2 14
12 21
BIBLIOGRAFIA BÁSICA
BÁSICA:
COMPLEMENTAR:
MOOD, A.M.; GRAYBILL, F.A.; BOES, D.C. Introduction to the Theory of Statistics,
Tokyo, McGraw-Hill Kogakusha, 1974. 564p.
Estatística Descritiva
Probabilidade
Variáveis Aleatórias Discretas e Contínuas
Distribuição e Parâmetros de Variável Aleatória
Distribuições Discretas e Distribuições Contínuas
Distribuições Amostrais
Estimação por Ponto
Estimação por Intervalo
Inferência Estatística
Regressão Linear