Você está na página 1de 11

Amostragem

Objetivos do mdulo

Caso voc queira saber se uma determinada marca de usque boa, voc precisa beber
a garrafa inteira? A menos que voc tenha acabado de beb-la a resposta ser certamente no.
Todos ns sabemos que basta beber uma dose para conseguirmos avaliar a qualidade da
bebida. Esta pequena dose chamada de amostra, e o processo pelo qual estimamos a
qualidade do usque usando a avaliao de uma amostra chamado de amostragem.

Agora, note que, se voc quiser fazer o mesmo raciocnio para uma feijoada voc ter que
considerar alguns aspectos: O processo de amostragem ainda vlido, mas, a amostra
certamente ter que ser maior do que aquela de usque. E porque isso? Por que enquanto o
usque totalmente homogneo a feijoada tem um alto grau de heterogeneidade. Trocando em
midos, se voc pegar uma pequena amostra da feijoada corre o risco de no provar o paio, que
est uma porcaria, e assim chegar a concluses errneas.

Em estatstica a medida que nos informa qual o grau de homogeneidade do universo que
estamos trabalhando o desvio padro, e quanto maior ele for menos homognea ser o
universo e a amostra.

Assim quando quisermos saber qual o tamanho que uma amostra deve ter, deveremos saber
qual o seu desvio padro.

Por outro lado observe que, quando voc experimenta uma amostra para saber como funciona o
universo todo voc est fazendo uma estimao, ou seja, uma previso do todo a partir de uma
parte. Isso possvel, mas com um cuidado fundamental: A previso est sujeita a um erro
estatstico, ou seja, uma tolerncia para mais e para menos em torno do valor previsto. Esta
tolerncia chamada de erro mximo da estimativa, e deve ser estabelecido por voc em
funo da resposta que voc espera obter. Note que quanto menor for o erro que voc est
disposto a aceitar mais vai ser o tamanho da amostra que ter que ser colhida, ou seja, mais
cara ser sua amostragem.

Assim quando quisermos saber qual o tamanho que uma amostra deve ter, deveremos
estabelecer qual o erro mximo esperado.

Por fim voc ter que notar que essa sua estimativa merece certa confiana de sua parte, ou
seja, o quanto voc acredita que ela est certa. Lembre-se que se voc quiser ter 100% de
confiana, ter que pagar por isso. A amostra ficar grande e cara. Na maior parte das vezes
uma confiana de 90 ou 95% suficientemente boa para podermos tomar uma deciso segura e
coerente. Certamente voc trabalhou com uma confiana muito menor quando decidiu pedir a
mo daquela garota bonita ou voc aceitou o pedido de casamento daquele galante rapaz!

Assim quando quisermos saber qual o tamanho que uma amostra deve ter, deveremos
estabelecer qual o nvel de confiana com que devemos trabalhar.

Note, portanto que grande parte de nossas preocupaes no processo de amostragem a


determinao do tamanho das amostras.

Amostragem, fundamentalmente, o processo de colher amostras, estud-las, determinando


suas medidas estatsticas e a partir deste estudo induzir os parmetros populacionais.
Quando falamos que estamos estimando um parmetro estatstico queremos dizer que a partir
do conhecimento de uma medida estatstica iremos prever o valor da medida (parmetro)
populacional. Por exemplo, suponha que tenhamos escolhido aleatoriamente 100 alunos de
Estatstica, dentro de uma populao de 1000 estudantes, coletado as notas de cada um e
encontrado a mdia dessas notas. Suponha que essa mdia tenha sido 5,6. lgico supor, em
princpio que a mdia de todos os 1000 alunos de Estatstica tambm seja igual a 5,6.

Para diferenciarmos as duas informaes iremos utilizar simbologia diferente para as medidas
estatsticas e para os parmetros populacionais. Assim sendo diramos que para a amostra de
100 alunos a mdia : X= 5,6, e que para a populao de 1000 estudantes a mdia estimada
= 5,6. As medidas estatsticas so simbolizadas por letras do nosso alfabeto e os parmetros
estatsticos por letras gregas.

Essa estimativa feita chamada de estimativa por pontos e normalmente so preteridas em


favor das estimativas por intervalos, que indicam a preciso ou exatido. As estimativas por
intervalos so dadas por dois nmeros obtidos pela introduo do conceito de erro estatstico.

Assim sendo seria prefervel apresentar a estimativa acima da seguinte maneira: o valor
estimado para a mdia dos 100 estudantes mencionados de 5,60,2, ou seja, a mdia ser um
valor entre 5,4 e 5,8. O valor 0,2 o erro esperado nessa estimativa.

Os clculos envolvendo essas estimativas sero mostrados a seguir.

3.1 Teoria Elementar da Amostragem

Imagine uma populao de grande quantidade de valores, da qual so retiradas todas as


amostras possveis de tamanho N. Para cada uma dessas amostras podemos calcular uma
determinada grandeza estatstica, digamos, por exemplo, a mdia, que ir variar de amostra
para amostra. Todos os valores calculados juntos formaro uma distribuio amostral, que no
caso da mdia se chamar distribuio amostral das mdias. Para essa distribuio como
qualquer outra distribuio pode ser calculada a mdia e o desvio padro, portanto, podemos
falar de mdia e desvio padro da distribuio amostral das mdias, por exemplo.

Observe que de maneira semelhante podemos conceituar distribuies amostrais das outras
medidas estatsticas, como por exemplo, as distribuies amostrais das propores, distribuio
amostral das varincias; distribuies amostrais dos desvios padres, etc.

Nesse curso iremos nos ater s principais, ressaltando que as demais seguem exatamente os
mesmo princpios.

Distribuio Amostral das Mdias:

Admita que uma determinada populao tenha mdia e desvio padro , e que retiremos
dessa populao todas as amostras possveis de tamanho N. Para cada amostra calculamos a
mdia, e todas as mdias calculadas iro compor a distribuio amostral das mdias, cuja mdia
chamada de mdia da distribuio das mdias e simbolizada por x e o desvio padro da
distribuio das mdias simbolizado por x, sendo o valor de ambos dados, respectivamente
por:

x e x
N
O exemplo a seguir deixa mais claro o raciocnio e a utilizao desses conceitos.

1- Sabemos que a altura mdia de 5000 estudantes universitrio do sexo masculino


de 1,728 m com desvio padro de 0,067 m. Desse grupo retiramos 100 amostras de
30 estudantes cada uma. Qual a mdia da distribuio amostral das mdias e qual
o desvio padro da distribuio amostral das mdias?

Observe que nos foi informados os seguintes dados:


Mdia populacional: = 1,728
Desvio padro populacional: = 0,067
Tamanho das amostras: N = 30

Assim sendo podemos calcular a mdia e o desvio padro da distribuio amostral:

x x 1,728

0,067
x x x 0,012
N 30

Sobre esses clculos importante ressaltar:


1- No estamos considerando todas as amostras possveis e imaginveis, somente 100
delas esto sendo levadas em conta. Isso faz com que essa no seja a verdadeira
distribuio amostral das mdias, mas uma amostragem experimental. No entanto como o
nmero 100 suficientemente grande podemos afirmar que essas duas distribuies so
muito aproximadas, e do ponto de vista prtico podero ser consideradas iguais.
2- Esses clculos foram considerados para uma populao muito grande, to grande que a
consideramos infinita. Caso a populao no fosse to grande e a amostragem no fosse
feita com reposio deveramos fazer uma correo no clculo do desvio padro da
distribuio amostral. Essa correo feita pela multiplicao do valor do desvio padro
Np N
pela expresso: , onde Np o tamanho da populao. Assim o clculo do
N p 1
desvio padro ficaria sendo:

Np N 0,067 3000 80
x x x 0,012 0,987 x 0,012
N N p 1 30 3000 1
Perceba que na prtica no ocorre diferenas, em virtude do tamanho muito grande da
populao.
3- O desvio padro da distribuio amostral normalmente chamado de erro padro.
4- Para grandes valores de N (N30) a distribuio amostral aproximadamente normal,
independente do comportamento da populao. Essa caracterstica permite responder
seguinte questo:

2- Quantas das 100 amostras colhidas apresentaro valores mdios acima de 1, 735
m?
Esse clculo feito de modo idntico ao que fizemos no captulo da distribuio normal,
ou seja:

x 1,735 1,728
z1 0,58 tabela At 0,7190
0,012
Ap 1 At 1 0,7190 0,2810 28,10%
A probabilidade de que uma das amostras tiradas tenha valor mdio superior a 1, 735 m
de 28,10%.

Distribuio Amostral das Propores:

Admita que uma populao seja infinita e que a probabilidade de ocorrncia de certo evento p
(probabilidade de sucesso) e que retiremos dessa populao todas as amostras possveis de
tamanho N. Para cada amostra calculamos a mdia, e todas as mdias calculadas iro compor a
distribuio amostral das propores, cuja mdia chamada de mdia da distribuio das
propores e simbolizada por p e o desvio padro da distribuio das propores simbolizado
por p, sendo o valor de ambos dados, respectivamente por:
p(1 p)
p p e p
N
O exemplo a seguir deixa mais claro o raciocnio e a utilizao desses conceitos.

3- Em determinado processo produtivo 4% dos itens produzidos so defeituosos. Em


dado momento retira-se da produo 500 itens produzido. Calcular:
a. Qual a mdia da distribuio amostral dessa proporo?
b. Qual o desvio padro dessa distribuio amostral das propores?
c. Qual a probabilidade de que desses 500 itens inspecionados 3% ou mais
sejam defeituosos?

Observe que nos foi informados os seguintes dados:


Probabilidade de sucesso: p = 4% ou 0,04
Tamanho das amostras: N = 500

Assim sendo podemos calcular a mdia e o desvio padro da distribuio amostral:

p p p 0,04

0,04(1 0,04)
p p 0,009
500

Para o clculo do item c precisamos introduzir o fator de correo para variveis discretas. Isso
necessrio porque estaremos usando conceitos da distribuio normal, como se sabe uma
distribuio para variveis contnuas numa questo que envolve variveis discretas. Isso
permitido porque o N suficientemente grande ( 30), mas necessrio o uso do fator de
1
correo: f c .
2N

1 1
Nessa questo o fator de correo de f c fc f c 0,001
2N 2 500

Esse clculo feito de modo idntico ao da distribuio normal, ou seja:

x 0,03 0,001 0,04


z1 1,22 tabela At 0,1112
0,009
Ap 1 At 1 0,1112 0,8888 88,88%
A probabilidade de que uma das amostras tiradas tenha valor mdio superior a 1,735 m de
28,10%.

Distribuio Amostral das Diferenas:

Dadas duas populaes, das quais so retiradas amostras de N A da populao A e NB


elementos da populao B a distribuio amostral das diferenas (das mdias, das propores
ou de qualquer outra medida estatstica) caracterizadas pela diferena dos valores centrais e
pela raiz quadrada da soma dos quadrados dos desvios padres, dividido pelo tamanho da
amostra, ou seja:

Para diferenas entre mdias:


xA
2
xB
2
X X B
x x e X X B

A A B A
NA NB

Para diferenas entre propores:

p A (1 p A ) p B (1 p B )
p A pB
p A pB e p pB

NA NB

As questes a seguir ajudaro a entender esses conceitos.

4- Os amortecedores do fabricante A rodam em mdia 65 000 km, com desvio padro


de 4500 km, normalmente distribudos. J os amortecedores do fabricante B duram
em mdia 60 000 km, com desvio padro de 3500 km. Suponha que foram testados
36 amortecedores da marca A e 49 amortecedores da marca B. Calcule:
a. Qual a mdia e o desvio padro da distribuio amostral da diferena entre as
vidas teis?
b. Qual a probabilidade de que a amostra dos amortecedores da marca A
durem menos do que 3000 km do que os da marca B?

X A X B
65000 60000 X A X 5000
B

xA
2
xB
2
45002 35002
X X B
X A X X A X 901
A
NA NB B
36 49 B

Observe que a diferena entre as amostras das vidas teis dos amortecedores da Marca A e da marca B em
mdia de 5000 km a favor do primeiro, mas com um erro padro de 901, portanto o clculo da questo b ser:

x 3000 5000
z1 2,22 tabela At 0,0132
901

Ap At 0,0132 1,32%
5- Os resultados de uma eleio mostraram que um candidato obteve 60% dos votos.
Qual a probabilidade de que duas amostras aleatrias, cada uma com 200
eleitores, apresentar uma diferena superior a 10% de uma em relao outra?

p A pB
p A pB pA pB 0,6 0,6 pA pB 0

0,6(1 0,6) 0,6(1 0,6)


p pB
p pB 0,049
200 200

Perceba que em principio no deveria haver diferena entre as duas amostras, mas possvel
que a amostra A seja maior que a amostra B ou vice-versa. A probabilidade de que a amostra A
tenha 10% a mais de eleitores que a amostra B calculada da seguinte forma:

x 0,10 0,0025 0,0


z1 2,09 tabela At 0,9817
0,049

Ap 1 At 1 0,9817 0,0183 1,83%


Devemos lembrar, no entanto que o oposto tambm pode ocorrer, ou seja, existem 1,83% de
probabilidade que a amostra B tenha mais de 10% de eleitores que a amostra A, logo, a
probabilidade que uma tenha mais do que 10% de eleitores do que a outra de:

0,0183 0,0183 0,0366 3,66%

3.2 Teoria da Estimao Estatstica

No item anterior vimos que possvel prever o comportamento de amostras sabendo o


comportamento da populao do qual ela retirada. Do ponto de vista prtico, no entanto,
normalmente mais interessante o movimento ao contrrio, ou seja, a partir do estudo de uma
amostra estimar-se o comportamento de uma populao.

Esse campo do estudo estatstico conhecido como inferncia estatstica, e normalmente feita
com a definio dos chamados intervalos de confiana.

Suponha uma distribuio amostral das mdias cuja mdia seja X e o erro padro X. Note que
uma amostra qualquer retirada da populao correspondente deve pertencer a essa distribuio.
Observe o grfico abaixo:
Observe que a probabilidade de que a probabilidade de que uma amostra tenha valor mdio
entre X - X. e X + X de 68,2%, quer dizer, temos uma confiana de 68,2% de que o valor
mdio de uma amostra qualquer esteja entre aqueles valores mencionados. Em outras palavras,
o intervalo de confiana de 66,2% so os valores entre X - X. e X + X

De modo semelhante o intervalo de confiana de 99,7% est entre X - 3X. e X + 3X, e assim
por diante.

O nmero de erros padres que estabelecem a confiabilidade so chamados de coeficientes de


confiana ou valores crticos e simbolizados por zc. Podemos determinar uma confiana a partir
do valor crtico ou ao contrrio determinar o valor crtico a partir da confiana desejada,
utilizando a tabela da curva normal reduzida.

Por exemplo, caso queiramos trabalhar com uma confiabilidade de 90% o valor crtico ser de
1,645. Chega-se a esse valor atravs do raciocnio estabelecido no grfico abaixo
Utilizando a tabela da distribuio reduzida teramos:

At 0,0500 Z c 1,645
Perceba que a rea 0,0500 e exatamente o ponto mdio entre o valor 0,0495 (Z= - 1,65) e
0,0505 (Z= -1,64) da o valor 1,645. O sinal negativo ser ignorado por causa da simetria da
curva. Existe um Zc positivo e outro negativo, simtricos.

A partir destes conceitos podemos determinar os vrios intervalos de confiana:


Intervalo de confiana para a mdia: estimativa X Zc
N

p(1 p)
Intervalo de confiana para as propores: estimativa p Zc
N

x2 x2
Intervalo de confiana para as diferenas de mdias: estimativa (X A - X B ) Zc A
B

NA NB

Intervalo de confiana para as diferenas das propores:


p A (1 p A ) p B (1 p B )
estimativa (p A - p B ) Zc
NA NB

A multiplicao do valor crtico pelo erro padro gera o chamado erro esperado ou margem de
erro

Acompanhe abaixo algumas aplicaes dos raciocnios desenvolvidos acima.

6- Um auditor contbil separou aleatoriamente uma amostra de 45 contas paga por


uma empresa e encontrou um valor mdio para elas de R$ 14.900,00 com desvio
padro de R$ 3600. Baseando-se nesses valores, qual foi o valor estimado para a
mdia populacional, com 95% de confiabilidade?

A estimativa para a mdia dada por: estimativa X Zc . Para se fazer essa estimativa
N
precisamos das seguintes informaes:
Mdia: X 14900
Valor Crtico: Zc = 1,96, conforme o seguinte clculo:
1 0,95
At 0,0250 tabela Zc 1,96
2

Desvio padro: = s = 3600


Tamanho da amostra: 45

3600
estimativa X Zc 14900 1,96 estimativa 14900 1052
N 45

Baseado nesse clculo e nessa amostra podemos dizer que se estima que as contas dessa
empresa tem um valor mdio entre R$13.848 e R$ 15.952 com 95% de certeza.

7- Uma pesquisa eleitoral feita com 2500 eleitores revelou que o candidato X a
determinado cargo eletivo teve 45% de intenes de voto. Qual a estimativa que se
faria da votao que esse candidato teria, se a eleio fosse hoje com 99% de
confiabilidade?
p(1 p)
A estimativa para a proporo dada por: estimativa p Zc . Para se fazer essa
N
estimativa precisamos das seguintes informaes:
Proporo: p = 0,45
Valor Crtico: Zc = 2,58, conforme o seguinte clculo:
1 0,99
At 0,0050 tabela Zc 2,58
2

Tamanho da amostra: 2500


p(1 p) 0,45(1 0,45)
estimativa p Zc estimativa 0,45 2,58 estimativa 0,45 0,026
N 2500
ou

estimativa 45% 2,6%

Desse modo podemos afirmar que, se a eleio fosse hoje o candidato A. teria 45% dos votos
com uma margem de erro para mais ou para menos de 2,6% com 99% de certeza, ou ento
dizer que ele teria entre 42,4% e 47,6 % dos votos, com 99% de confiabilidade.

8- Uma amostra de 300 lmpadas da marca A apresentou uma durabilidade mdia de


2300 horas com desvio padro de 200 horas. Outra amostra de 150 lmpadas da
marca B apresentou vida til de 2000 horas com desvio padro de 90 horas. Estimar
com 90% de confiabilidade a diferena entre as vidas teis de ambas as marcas de
lmpadas.

Mdias: X A 2300; X B 2000


Valor Crtico: Zc = 1,645, conforme o seguinte clculo:
1 0,90
At 0,0500 tabela Zc 1,645
2

Desvios padres: A = sA = 200; B = sB = 90


Tamanhos das amostras: NA = 300; NB = 150

2002 902
estimativa (2300- 2000) 1,645 estimativa 300 22,5
300 150

As lmpadas da marca A devem durar mais do que as lmpadas da marca B entre 277,5 horas e
322,5 horas, com 90% de confiana.

9- Uma amostra aleatria, com 250 homens e 320 mulheres, revelou que 150 dos
homens e 240 das mulheres apreciaram o design de um novo modelo de automvel.
Estimar com 98% de confiabilidade a diferena entre a proporo de todos os
homens e mulheres em relao a esse novo automvel.

150 240
Propores: p H 0,6; p M 0,75
250 320
Valor Crtico: Zc = 2,33, conforme o seguinte clculo:
1 0,98
At 0,0100 tabela Zc 2,33
2

Tamanho da amostra: NH = 250; NM = 320

p M (1 p M ) p H (1 p H )
estimativa (p M - p H ) Zc
NM NH
0,75(1 0,75) 0,60(1 0,60)
estimativa (0,75 - 0,60) 2,33 estimativa (0,15 0,092
320 250
ou

estimativa 15% 9,2%


Estima-se que 15% a mais de mulheres do que homens gostem do design deste automvel, com
uma margem de erro de 9,2% e uma confiabilidade de 98%, ou em outras palavras, a diferena
entre mulheres e homens nesse aspecto est entre 5,8% e 24,2%, com 98% de certeza.

Decorrncia importante destes clculos a determinao do tamanho da amostra necessria


para se atender a determinadas condies estatsticas. O raciocnio o mesmo dos casos
anteriores, invertendo-se, no entanto a incgnita procurada. A questo seguinte demonstra esse
equacionamento.

10-Um analista de treinamento deseja estimar o tempo de treinamento em horas para


determinado cargo com uma confiabilidade de 95% e erro esperado de 2 horas.
Baseado em estudos anteriores ele estima o desvio padro das horas gastas em
treinamento em 18 horas. Qual o tamanho de amostra que com que deve
trabalhar.

O erro esperado ou margem de erro dado por: erro esperado Zc . Para se fazer essa
N
estimativa precisamos das seguintes informaes:
Valor Crtico: Zc = 1,96, conforme o seguinte clculo:
1 0,95
At 0,0250 tabela Zc 1,96
2

Desvio padro: = s = 18 horas


Erro esperado desejvel: 2 horas


2
18 18 18
erro esperado Zc 2 1,96 N 1,96 N 1,96 N 312
N N 2 2

Baseado nesse clculo o analista deve trabalhar com uma amostra de 312 elementos.

De maneira semelhante podem ser calculados os tamanhos necessrios para amostras em


qualquer dos intervalos de confiana.

Você também pode gostar