Escolar Documentos
Profissional Documentos
Cultura Documentos
CAPÍTULO 5: AMOSTRAGEM
5.1 Introdução
A estatística indutiva busca tirar conclusões probabilísticas ou fazer inferências, sobre
populações, com base em resultados verificados em amostras retiradas dessas populações.
Além de descrever convenientemente os dados da amostra, é necessário garantir que as
amostras são obtidas por processos adequados, conferindo-lhes representatividade da
população.
Os problemas de amostragem podem ser mais ou menos complexos e sutís, dependendo
das populações e das variáveis em estudo. Na indústria, onde amostras são frequentemente
retiradas para efeito de controle da qualidade dos produtos e materiais, em geral, os
problemas de amostragem são mais simples de resolver. Em pesquisas sociais, econômicas
ou de opinião, a complexidade dos problemas de amostragem é geralmente bastante grande.
A forma de selecionar uma amostra exige algumas considerações. As observações
colhidas numa amostra são tanto mais informativas sobre a população quanto mais
conhecemos esta mesma população. Por exemplo, a análise da quantidade de glóbulos
brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente, dará uma
idéia geral da quantidade de glóbulos brancos no corpo todo, pois sabe-se que a distribuição
dos glóbulos brancos no corpo é mais ou menos homogênea, e de qualquer parte do corpo
que seja retirada a amostra, ela será “representativa” do todo (população). Porém nem
sempre a escolha de uma amostra representativa é imediata. Por exemplo, quando se retira
uma amostra de habitantes para saber sobre a aceitação de um projeto governamental, se
escolhermos intencionalmente uma amostra de 200 indivíduos moradores de uma certa
região que será beneficiada pelo projeto, saberemos de antemão que o resultado conterá um
“viés de seleção”; isto é, na amostra, a proporção de pessoas favoráveis ao projeto deve ser
maior do que no todo (população).
Assim, a maneira de se obter a amostra é tão importante, e existem tantos modos de
fazê-la, que estes procedimentos constituem uma especialidade dentro da Estatística,
conhecida como Amostragem. Mas esses vários procedimentos podem ser agrupados em
dois grandes grupos: os chamados planos probabilísticos e os planos não-probabilísticos.
sorteio. A tabela 5.1 apresenta um pequeno conjunto de números aleatórios, cuja utilização
pode ser exemplificada da seguinte maneira: ao se desejar selecionar dez nomes de uma
lista de 90 pessoas, deve-se começar numerando-os de 01, 02, ..., 90. Em seguida, escolhe-
se uma coluna, por exemplo a primeira, e toma-se os dez primeiros números; que no caso
serão:
61, 94, 50, 51, 25, 63, 12, 38, 22, 07
No caso o 94 deve ser eliminado, pois não existe este número na população, e o 61
deverá aparecer repetido, devendo ser substituído. Existem diversas tabelas de números
aleatórios, porém em alguns casos deve-se fazer uma correlação entre os valores reais da
população e os números da tabela de números aleatórios.
Tabela 5.1 Números Aleatórios
61 09 26 29 85 11 95 77 79 04 57 00 91 29 59 83 53 87 02 02
94 47 40 99 93 82 13 22 40 33 19 72 65 69 82 16 94 21 66 39
50 40 50 55 79 00 58 17 26 30 38 11 54 89 04 13 69 17 35 48
51 01 75 76 54 43 11 28 32 75 33 09 04 78 74 91 56 79 43 39
25 45 79 30 63 56 44 70 05 04 31 81 46 02 92 32 06 71 12 48
63 94 61 14 24 60 27 00 00 95 54 31 59 00 79 94 46 32 61 90
12 95 04 73 06 72 76 88 55 62 38 79 18 68 10 31 93 58 66 92
38 06 78 00 85 42 57 29 28 34 79 91 93 58 82 97 37 07 64 67
22 69 28 18 25 08 90 93 53 17 54 12 21 03 56 30 88 53 46 82
07 95 63 14 76 53 62 10 21 57 55 74 57 68 22 38 84 55 57 49
61 41 81 16 97 55 19 65 08 62 26 38 74 32 30 44 64 64 91 80
97 16 71 92 40 28 33 36 23 32 76 36 18 98 41 10 50 93 75 95
39 81 34 84 33 83 42 77 36 00 51 42 82 63 30 47 01 08 96 73
58 36 04 52 06 81 24 32 74 63 28 82 43 36 01 73 36 47 05 76
52 85 30 59 37 00 49 88 07 43 08 04 00 48 36 23 31 88 80 88
41 92 93 01 94 13 33 63 32 35 38 91 18 89 71 67 46 73 42 47
88 51 22 59 99 51 20 74 13 55 30 41 25 99 10 26 01 33 24 13
11 12 32 28 26 67 22 97 11 23 66 24 09 23 47 12 93 44 60 47
33 02 06 80 29 39 78 49 81 21 42 00 99 80 44 56 33 83 46 16
03 67 08 29 16 04 92 31 62 03 94 53 02 60 65 72 46 68 25 93
41 54 93 90 86 52 14 58 90 34 83 00 73 38 14 50 77 58 08 94
18 84 83 61 42 96 82 86 02 30 40 16 65 55 63 20 40 24 79 80
06 15 93 11 72 17 32 31 84 89 53 66 01 99 53 75 79 92 20 61
12 74 92 15 60 93 84 37 29 62 24 96 78 93 28 34 41 69 04 51
79 13 36 81 55 51 46 66 68 85 07 73 35 42 52 61 29 21 02 34
01 78 33 32 06 16 45 94 09 18 40 14 73 03 61 80 69 79 52 95
90 73 28 21 38 57 38 36 24 33 31 99 64 86 19 61 55 50 65 14
44 10 20 96 70 32 41 46 22 97 08 22 02 42 43 57 16 61 81 77
52 47 00 27 41 43 70 17 52 44 51 26 94 73 17 72 16 51 81 77
23 03 84 44 29 43 57 05 46 59 89 00 65 01 20 27 32 66 34 56
3
Uma amostra casual simples de tamanho n de uma variavél aleatória X com uma dada
distribuição é o conjunto de n variáveis aleatórias independentes X1, X2, ... , Xn, cada uma
com a mesma distribuição de X. Ou seja, a amostra será a n-upla ordenada (X1, X2, ..., Xn),
onde Xi indica a observação do i-ésimo elemento sorteado.
t1
X
1
x
t2
2
θ .
t.k θ t
k .θ
Figura 5.1: Distribuição Amostral de T
6
a) multiplicando-se os valores de uma variável aleatória por uma constante, a média fica
multiplicada por essa constante;
b) a média de uma soma de variáveis aleatórias é igual à soma das médias dessas
variáveis:
n
∑x i
1
x= i =1
= (x1 + x2 + ...xn ) (5.1)
n n
Ex = () 1
n
[E (x1 ) + E(x2 ) + ... + E (xn )] = 1 [µ + µ + ... + µ ] = 1 [n.µ ] = µ
n n
(5.2)
()
2
σ2
⎛1⎞
[ ] 1
[ ]1
s x = ⎜ ⎟ s 2 (x1 ) + s 2 (x2 ) + ... + s 2 (xn ) = 2 σ 2 + σ 2 = ... + σ 2 = 2 nσ 2 =
2
(5.3)
⎝n⎠ n n n
Portanto a variância com que se dispersam os possíveis valores da estatística x é n
vêzes menor do que a variância da população de onde é retirada a amostra. Isto mostra que
há dentro da amostra uma natural compensação entre valores mais elevados e valores mais
baixos, produzindo valores de x que tendem a ser tanto mais próximos da média µ da
população quanto maior for o tamanho da amostra n. Resulta imediatamente que:
()
s x =σ x =
σ
(5.4)
n
No caso de amostragens sem reposição de populações finitas, em que a independência
entre os valores de xi não se verifica, demonstra-se que:
s x =
2
() σ2 N −n
.
n N −1
(5.5)
7
N −n
onde N é o número de elementos da população e o fator é chamado de fator de
N −1
população finita. Note-se que este fator tende à unidade quando o tamanho da população
tende ao infinito.
Quanto à forma da distribuição amostral de x , se a distribuição da população for
normal, a distribuição amostral de x será também normal para qualquer tamanho de
amostra, devido ao teorema das combinações lineares de variáveis normais independentes
(que diz: uma variável aleatória obtida pela combinação linear de variáveis aleatórias
independentes tem também distribuição normal). Na figura 5.2 é representado um caso
genérico envolvendo a distribuição amostral de x , no caso de população normal.
Por outro lado, se a distribuição da população não for normal, mas a amostra for
suficientemente grande, resultará, pelo teorema do limite central (diz que: sob condições
bastante gerais, uma variável aleatória, resultante de uma soma de n variáveis aleatórias
independentes, no limite, quando n tende para o infinito, tem distribuição normal), que no
caso de população infinita ou amostragem com reposição, a distribuição amostral de x será
aproximadamente normal, pois o valor de x resultará de uma soma de um número grande
de variáveis aleatórias independentes.
Na figura 5.3 é representado um caso genérico envolvendo a distribuição amostral de x,
no caso de uma distribuição populacional não-normal.
8
s 2 ( f ) = np (1 − p ) (5.7)
A frequência relativa p’, por sua vez, sendo simplesmente o quociente de f pelo tamanho
da amostra n, terá média e variância que são obtidas por:
⎛f⎞ 1 1
E ( p') = E ⎜ ⎟ = µ ( f ) = np = p (5.8)
⎝n⎠ n n
⎛f⎞ 1 1 p(1 − p )
s 2 ( p') = s 2 ⎜ ⎟ = 2 σ 2 ( f ) = 2 np (1 − p ) = (5.9)
⎝n⎠ n n n
geral, podemos considerar que a amostra será suficientemente grande, para efeito dessa
aproximação, se np ≥ 5 e n (1-p) ≥ 5.
∑ (x − x)
n 2
s (x ) =
2 i =1 i
(5.10)
n −1
A razão pela qual se recomenda usar n-1 ao invés de n, no denominador dessa
expressão, está relacionada com o número de graus de liberdade dessa estatística. A questão
de graus de liberdade é, possivelmente, abstrata.
n n
Considere-se, por exemplo, as estatísticas x = ∑ xi / n e ∑ (x i − µ ) / n . Essas
2
i =1 i =1
estatísticas tem n graus de liberdade, e de tal fato pode ser entendido como indicando haver
n valores xi livres que devem ser considerados para se poder calcular o valor da estatística.
Em outras palavras, desconhecendo qualquer dos valores de xi da amostra, não se pode
determinar o valor da estatística, pois todos os valores são livres, podendo variar
aleatoriamente.
Já a estatística s 2 (x ), conforme dada acima, por usar x ao invés do parâmetro
populacional µ, tem um grau de liberdade a menos. Isso porque o cálculo dessa estatística
pressupõe que anteriormente já se tenha calculado x , quando já se teria usado uma vez
todos os valores da amostra, os quais estariam sendo usados pela segunda vez para o
cálculo de s2. No momento de se usar novamente os valores da amostra para o cálculo de s2,
esses valores tem apenas n-1 graus de liberdade, pois, dados quaisquer n-1 deles, o valor
restante estará automaticamente determinado, pelo fato de já conhecermos sua média
aritmética x , não sendo portanto este, um valor livre.
Adota-se o símbolo ν para denotar o número de graus de liberdade de uma estatística.
∑ (x − x)
n 2
s (x ) =
2 i =1 i
(5.11)
n −1
A distribuição amostral da estatística s 2 (x ) está relacionada com uma família de
distribuições de probabilidades, que são as distribuições tipo χ2, que são dadas por:
2
ν
⎛ xi − µ ⎞ ν
χν2 = ∑ ⎜ ⎟ = ∑ zi2 (5.12)
i =1 ⎝ σ ⎠ i =1
onde: xi = valores aleatórios independentes retirados de uma população normal
µ = média dos valores aleatórios independentes retirados de uma população normal
σ = desvio padrão dos valores aleatórios
ν = número de graus de liberdade da distribuição χ2
10
∑ (x − x )
n 2
2
⎛ xi − x ⎞ i
∑i =1⎜ σ ⎟
n
⎜ ⎟ = i =1
(5.15)
⎝ ⎠ σ2
tem distribuição do tipo χ2 com (n-1) graus de liberdade. Logo:
∑ (x − x) (
n − 1 ∑i =1 xi − x )
2 2
(n − 1)sx2
n n
i
χ 2
n −1 = i =1
= 2 = (5.16)
σ2 σ n −1 σ2
donde resulta:
12
σ2
s =
2
x χ n2−1 (5.17)
n −1
Verifica-se pois que a estatística s2 se distribui conforme uma distribuição do tipo χ2
com (n-1) graus de liberdade.
Considerando a estatística acima e a expressão (5.16), obtém-se a média da mesma:
σ2 σ2
µ (s 2 ) = µ (χ n2−1 ) = (n − 1) = σ 2 (5.18)
n −1 n −1
Considerando a expressão (5.13), tira-se a variância da estatística:
σ4 σ4 2σ 4
σ 2 (s 2 ) = σ 2
(χ 2
) = 2(n − 1) = (5.19)
(n − 1)2 n −1
(n − 1)2 n −1
onde, conforme a própria notação indica, χν2i designa uma variável aleatória com
distribuição χ2 com νi graus de liberdade, sendo que estas devem ser independentes. Esta
definição geral engloba uma família de distribuições de probabilidades para cada par de
valores (ν1, ν2) e a tabela 5.5 apresenta os valores da variável F que determinam caudas à
direita com probabilidades 0,5; 1; 2,5; 5 e 10%, fornecidos para diversos pares de valores
(ν1, ν2).
Considere-se que de duas populações normais com mesma variâcia σ2 (ou o que seria
equivalente, de uma mesma população normal), sejam extraídas duas amostras
independentes com, respectivamente, n1 e n2 elementos e toma-se o quociente s12 / s22 das
variâncias dessas amostras. Utilizando a expressão (5.17), pode-se concluir que a
distribuição amostral desse quociente será uma distribuição Fn1 − 1, n 2 − 1 , pois:
s12
=
[ ]
σ 2 / (n1 − 1) χ n21 −1 χ n21 −1 / (n1 − 1)
= = Fn1 −1, n2 −1 (5.26)
[ ]
s22 σ 2 / (n2 − 1) χ n22 −1 χ n22 −1 / (n2 − 1)