Você está na página 1de 15

1

CAPÍTULO 5: AMOSTRAGEM

5.1 Introdução
A estatística indutiva busca tirar conclusões probabilísticas ou fazer inferências, sobre
populações, com base em resultados verificados em amostras retiradas dessas populações.
Além de descrever convenientemente os dados da amostra, é necessário garantir que as
amostras são obtidas por processos adequados, conferindo-lhes representatividade da
população.
Os problemas de amostragem podem ser mais ou menos complexos e sutís, dependendo
das populações e das variáveis em estudo. Na indústria, onde amostras são frequentemente
retiradas para efeito de controle da qualidade dos produtos e materiais, em geral, os
problemas de amostragem são mais simples de resolver. Em pesquisas sociais, econômicas
ou de opinião, a complexidade dos problemas de amostragem é geralmente bastante grande.
A forma de selecionar uma amostra exige algumas considerações. As observações
colhidas numa amostra são tanto mais informativas sobre a população quanto mais
conhecemos esta mesma população. Por exemplo, a análise da quantidade de glóbulos
brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente, dará uma
idéia geral da quantidade de glóbulos brancos no corpo todo, pois sabe-se que a distribuição
dos glóbulos brancos no corpo é mais ou menos homogênea, e de qualquer parte do corpo
que seja retirada a amostra, ela será “representativa” do todo (população). Porém nem
sempre a escolha de uma amostra representativa é imediata. Por exemplo, quando se retira
uma amostra de habitantes para saber sobre a aceitação de um projeto governamental, se
escolhermos intencionalmente uma amostra de 200 indivíduos moradores de uma certa
região que será beneficiada pelo projeto, saberemos de antemão que o resultado conterá um
“viés de seleção”; isto é, na amostra, a proporção de pessoas favoráveis ao projeto deve ser
maior do que no todo (população).
Assim, a maneira de se obter a amostra é tão importante, e existem tantos modos de
fazê-la, que estes procedimentos constituem uma especialidade dentro da Estatística,
conhecida como Amostragem. Mas esses vários procedimentos podem ser agrupados em
dois grandes grupos: os chamados planos probabilísticos e os planos não-probabilísticos.

5.2 Amostragem Probabilística


Existem dois tipos de amostragem: a probabilística e a não probabilística. A amostragem
será probabilística se todos os elementos da população tiverem probabilidade conhecida e
diferente de zero, de pertencer à amostra; caso contrário será não probabilística. A
amostragem probabilística implica em se ter a população finita e totalmente acessível.

5.2.1 Amostragem Casual Simples


Simples ao acaso, aleatória, casual simples, elementar, randômica, é aquela em que
todos os elementos da população tem igual probabilidade de pertencer à amostra e todas as
possíveis amostras tem igual probabilidade de ocorrer. Sendo N o núnero de elementos da
população e n o número de elementos da amostra, cada elemento da população tem
probabilidade n/N de pertencer à amostra. A relação n/N denomina-se fração de
amostragem, e sendo a amostragem feita sem reposição, existem C Nn possíveis amostras.
Para escolher amostras casuais simples, costuma-se usar tabelas de números aleatórios,
que são coleções de dígitos construídos aleatóriamente e que simulam o processo de
2

sorteio. A tabela 5.1 apresenta um pequeno conjunto de números aleatórios, cuja utilização
pode ser exemplificada da seguinte maneira: ao se desejar selecionar dez nomes de uma
lista de 90 pessoas, deve-se começar numerando-os de 01, 02, ..., 90. Em seguida, escolhe-
se uma coluna, por exemplo a primeira, e toma-se os dez primeiros números; que no caso
serão:
61, 94, 50, 51, 25, 63, 12, 38, 22, 07
No caso o 94 deve ser eliminado, pois não existe este número na população, e o 61
deverá aparecer repetido, devendo ser substituído. Existem diversas tabelas de números
aleatórios, porém em alguns casos deve-se fazer uma correlação entre os valores reais da
população e os números da tabela de números aleatórios.
Tabela 5.1 Números Aleatórios
61 09 26 29 85 11 95 77 79 04 57 00 91 29 59 83 53 87 02 02
94 47 40 99 93 82 13 22 40 33 19 72 65 69 82 16 94 21 66 39
50 40 50 55 79 00 58 17 26 30 38 11 54 89 04 13 69 17 35 48
51 01 75 76 54 43 11 28 32 75 33 09 04 78 74 91 56 79 43 39
25 45 79 30 63 56 44 70 05 04 31 81 46 02 92 32 06 71 12 48

63 94 61 14 24 60 27 00 00 95 54 31 59 00 79 94 46 32 61 90
12 95 04 73 06 72 76 88 55 62 38 79 18 68 10 31 93 58 66 92
38 06 78 00 85 42 57 29 28 34 79 91 93 58 82 97 37 07 64 67
22 69 28 18 25 08 90 93 53 17 54 12 21 03 56 30 88 53 46 82
07 95 63 14 76 53 62 10 21 57 55 74 57 68 22 38 84 55 57 49

61 41 81 16 97 55 19 65 08 62 26 38 74 32 30 44 64 64 91 80
97 16 71 92 40 28 33 36 23 32 76 36 18 98 41 10 50 93 75 95
39 81 34 84 33 83 42 77 36 00 51 42 82 63 30 47 01 08 96 73
58 36 04 52 06 81 24 32 74 63 28 82 43 36 01 73 36 47 05 76
52 85 30 59 37 00 49 88 07 43 08 04 00 48 36 23 31 88 80 88

41 92 93 01 94 13 33 63 32 35 38 91 18 89 71 67 46 73 42 47
88 51 22 59 99 51 20 74 13 55 30 41 25 99 10 26 01 33 24 13
11 12 32 28 26 67 22 97 11 23 66 24 09 23 47 12 93 44 60 47
33 02 06 80 29 39 78 49 81 21 42 00 99 80 44 56 33 83 46 16
03 67 08 29 16 04 92 31 62 03 94 53 02 60 65 72 46 68 25 93

41 54 93 90 86 52 14 58 90 34 83 00 73 38 14 50 77 58 08 94
18 84 83 61 42 96 82 86 02 30 40 16 65 55 63 20 40 24 79 80
06 15 93 11 72 17 32 31 84 89 53 66 01 99 53 75 79 92 20 61
12 74 92 15 60 93 84 37 29 62 24 96 78 93 28 34 41 69 04 51
79 13 36 81 55 51 46 66 68 85 07 73 35 42 52 61 29 21 02 34

01 78 33 32 06 16 45 94 09 18 40 14 73 03 61 80 69 79 52 95
90 73 28 21 38 57 38 36 24 33 31 99 64 86 19 61 55 50 65 14
44 10 20 96 70 32 41 46 22 97 08 22 02 42 43 57 16 61 81 77
52 47 00 27 41 43 70 17 52 44 51 26 94 73 17 72 16 51 81 77
23 03 84 44 29 43 57 05 46 59 89 00 65 01 20 27 32 66 34 56
3

Um outro entendimento do significado da amostra casual simples é dado da seguinte


forma: consideremos a situação em que se levanta todas as possíveis amostras de tamanho
2, com reposição, da população [1, 3, 5, 5, 7}. Definida a variável X = valor assumido pelo
elemento na população, tem-se que a distribuição de X é dada na tabela 5.2:

Tabela 5.2: Distribuição de X = valor assumido pelo elemento da população


X 1 3 5 7
P(X = x) 1/5 1/5 2/5 1/5

Indicando por X1 o número selecionado na primeira extração e por X2 o número extraído


na segunda extração, vê-se que é possível escrever a distribuição conjunta do par (X1, X2).
As distribuições marginais de X1 e de X2, são independentes e iguais à distribuição de X.
Assim, as 25 possíveis amostras de tamanho 2 que podemos extrair dessa população
correspondem a observar uma particular realização da variável aleatória (X1, X2), X1 e X2,
independentes e tais que P(X1 = x) = P(X2 = x) para todo x, como indicado na tabela 5.3.

Tabela 5.3: Distribuição de (X1, X2)


X1 1 3 5 7 Total
X2
1 1/25 1/25 2/25 1/25 1/5

3 1/25 1/25 2/25 1/25 1/5

5 2/25 2/25 4/25 2/25 2/5

7 1/25 1/25 2/25 1/25 1/5

Total 1/5 1/5 2/5 1/5 1

Uma amostra casual simples de tamanho n de uma variavél aleatória X com uma dada
distribuição é o conjunto de n variáveis aleatórias independentes X1, X2, ... , Xn, cada uma
com a mesma distribuição de X. Ou seja, a amostra será a n-upla ordenada (X1, X2, ..., Xn),
onde Xi indica a observação do i-ésimo elemento sorteado.

5.2.2 Amostragem Sistemática


Quando os elementos da população se apresentam ordenados e a retirada dos elementos
da amostra é feita periodicamente, tem-se a chamada amostragem sistemática.

5.2.3 Amostragem por meio de conglomerados


É quando a população apresenta uma subdivisão em pequenos grupos, chamados
conglomerados e é possível e muitas vezes conveniente, fazer-se a amostragem por meio
desses conglomerados, a qual consiste em sortear um número suficiente de conglomerados,
cujos elementos constituirão a amostra.
4

5.2.4 Amostragem Estratificada


Muitas vezes a população se divide em sub-populações ou estratos, sendo razoável supor
que, de estrato para estrato, a variável de interesse apresente um comportamento
substancialmente diverso, tendo, entretanto, comportamento razoavelmente homogêneo
dentro de cada estrato. A amostragem estratificada consiste em especificar quantos
elementos da amostra serão retirados de cada estrato. É de costume considerar três tipos de
amostragem estratificada: uniforme, proporcional e ótima. Na amostragem estratificada
uniforme, sorteia-se igual número de elementos de cada estrato; na proporcional, o número
de elementos sorteados em cada estrato é proporcional ao número de elementos existentes
no estrato; na ótima, por sua vez, toma-se em cada estrato um número de elementos
proporcional ao número de elementos do estrato e também à variação da variável de
interesse no estrato, medida pelo seu desvio padrão.

5.2.5 Amostragem Múltipla


Neste caso a amostra é retirada em diversas etapas sucessivas. Dependendo dos
resultados observados, etapas suplementares podem ser dispensadas.

5.3 Amostragem Não-Probabilística


Amostras não-probabilísticas são também, muitas vezes empregadas em trabalhos
estatísticos, por simplicidade ou por impossibilidade de se obter amostras probabilísticas. A
seguir são apresentados alguns casos deste tipo de amostragem.

5.3.1 Inacessibilidade a toda a população


Essa situação ocorre com muita frequência na prática, obrigando a amostragem somente
da parte acessível da população, definindo então a distinção entre população-objeto e
população-amostrada.

5.3.2 Amostragem a esmo ou sem norma


É quando o amostrador, para simplificar o processo, procura ser aleatório sem, no
entanto, realizar o sorteio usando algum dispositivo aleatório confiável.

5.3.3 População formada por material contínuo


Neste caso é impossível realizar amostragem probabilística devido á impraticabilidade
de um sorteio rigoroso. Se a população for líquida ou gasosa, o que costuma apresentar
resultado satisfatório, é homogeneizá-la e retirar a amostra a esmo; o que às vezes também
pode ser feito com material sólido. Outro procedimento a ser empregado nestes casos,
especialmente quando a homogeneização não é praticável, é a enquartação, a qual consiste
em subdividir a amostra em diversas partes (a origem do nome pressupõe a divisão em
quatro partes), sorteando-se uma ou mais delas para constituir a amostra ou para delas
retirar a amostra.

5.3.4 Amostras Intencionais


É quando o amostrador, deliberadamente, escolhe certos elementos para pertencer à
amostra, por julgá-los bem representativos da população. O perigo desta amostragem é
grande pois o amostrador pode facilmente se equivocar em seu pré-julgamento.
5

5.4 Estatísticas e Parâmetros


Do fato de os valores da amostra serem aleatórios, decorre que qualquer quantidade
calculada em função dos elementos da amostra também será uma variável aleatória. Os
valores calculados em função dos elementos da amostra são chamados de “Estatísticas”. As
estatísticas, sendo variáveis aleatórias, terão alguma distribuição de probabilidade, com
uma média, uma variância, etc. À distribuição de probabilidade de uma estatística dá-se
comumente o nome de Distribuição Amostral ou Distribuição por Amostragem.
Os símbolos não-indexados passarão a ser usados para parâmetros populacionais, ao
passo que as informações correspondentes às distribuições amostrais conterão uma
indicação quanto à estatística à qual se referem. Os símbolos mais comuns são indicados na
tabela 5.4.

Tabela 5.4: Símbolos mais comuns


Estatística Parâmetro
Média x ou E(x) µ
Variância S2 σ2
Nº de elementos n N
Proporção p̂ ou p’ p

5.5 Distribuições Amostrais


O conceito de distribuição de probabilidade, muitas vezes associado à idéia dinâmica
de variável aleatória, pode ser estendido às populações, e efetivamente será usado para
descrevê-las. Suponha que se procura fazer uma afirmação sobre parâmetros da população,
através da amostra. Seja este parâmetro, θ. Será usada uma amostra casual simples, com
reposição, de n elementos sorteados dessa população. A decisão será baseada na estatística
T, que será uma função da amostra (X1, X2, ..., Xn), ou seja, T = ƒ(X1, X2, ..., Xn). Colhida
uma amostra, pode-se observar um valor particular de T, t0, e baseado nesse valor será feita
a afirmação sobre θ, o parâmetro populacional.
A validade da resposta seria melhor compreendida se fosse conhecido o comportamento
da estatística T em todas as amostras da população. Isto é, qual a distribuição de T quando
(X1, X2, ..., Xn) assume todos os valores possíveis. Esta distribuição é chamada de
distribuição amostral da estatística T. A figura 5.1 apresenta esquematicamente este
raciocínio:
População Amostras Distribuição Amostral

t1
X
1
x
t2
2
θ .
t.k θ t
k .θ
Figura 5.1: Distribuição Amostral de T
6

5.5.1 Distribuição amostral de x


Determinam-se as principais características da distribuição amostral da estatística x ,
média de uma amostra de n elementos. Sendo a população infinita ou a amostragem feita
com reposição, resulta que os diversos valores da amostra podem ser considerados como
valores de variáveis aleatórias independentes, com a mesma distribuição de probabilidade
da população, portanto com a mesma média µ e a mesma variância σ2 da população. Da
teoria do cálculo de probabilidades, sabe-se que:

a) multiplicando-se os valores de uma variável aleatória por uma constante, a média fica
multiplicada por essa constante;

b) a média de uma soma de variáveis aleatórias é igual à soma das médias dessas
variáveis:
n

∑x i
1
x= i =1
= (x1 + x2 + ...xn ) (5.1)
n n

Ex = () 1
n
[E (x1 ) + E(x2 ) + ... + E (xn )] = 1 [µ + µ + ... + µ ] = 1 [n.µ ] = µ
n n
(5.2)

Portanto a média em torno da qual devem variar os possíveis valores da estatística x éa


própria média da população.

c) multiplicando-se os valores de uma variável aleatória por uma constante, a variância


fica multiplicada pelo quadrado dessa constante;

d) a variância de uma soma de variáveis aleatórias independentes é igual à soma das


variâncias:

()
2
σ2
⎛1⎞
[ ] 1
[ ]1
s x = ⎜ ⎟ s 2 (x1 ) + s 2 (x2 ) + ... + s 2 (xn ) = 2 σ 2 + σ 2 = ... + σ 2 = 2 nσ 2 =
2
(5.3)
⎝n⎠ n n n
Portanto a variância com que se dispersam os possíveis valores da estatística x é n
vêzes menor do que a variância da população de onde é retirada a amostra. Isto mostra que
há dentro da amostra uma natural compensação entre valores mais elevados e valores mais
baixos, produzindo valores de x que tendem a ser tanto mais próximos da média µ da
população quanto maior for o tamanho da amostra n. Resulta imediatamente que:

()
s x =σ x =
σ
(5.4)
n
No caso de amostragens sem reposição de populações finitas, em que a independência
entre os valores de xi não se verifica, demonstra-se que:

s x =
2
() σ2 N −n
.
n N −1
(5.5)
7

N −n
onde N é o número de elementos da população e o fator é chamado de fator de
N −1
população finita. Note-se que este fator tende à unidade quando o tamanho da população
tende ao infinito.
Quanto à forma da distribuição amostral de x , se a distribuição da população for
normal, a distribuição amostral de x será também normal para qualquer tamanho de
amostra, devido ao teorema das combinações lineares de variáveis normais independentes
(que diz: uma variável aleatória obtida pela combinação linear de variáveis aleatórias
independentes tem também distribuição normal). Na figura 5.2 é representado um caso
genérico envolvendo a distribuição amostral de x , no caso de população normal.

Figura 5.2 Distribuição amostral de x - população normal

Por outro lado, se a distribuição da população não for normal, mas a amostra for
suficientemente grande, resultará, pelo teorema do limite central (diz que: sob condições
bastante gerais, uma variável aleatória, resultante de uma soma de n variáveis aleatórias
independentes, no limite, quando n tende para o infinito, tem distribuição normal), que no
caso de população infinita ou amostragem com reposição, a distribuição amostral de x será
aproximadamente normal, pois o valor de x resultará de uma soma de um número grande
de variáveis aleatórias independentes.
Na figura 5.3 é representado um caso genérico envolvendo a distribuição amostral de x,
no caso de uma distribuição populacional não-normal.
8

Figura 5.3 Distribuição amostral de x - população não-normal e amostra


suficientemente grande

5.5.2 Distribuições Amostrais de f e p’


A frequência f é uma estatística, pois é determinada em função dos elementos da
amostra. Para cada elemento da amostra pode-se considerar a ocorrência de um sucesso,
caso a característica desejada se verifique, e de um fracasso, caso contrário. Seja p a
probabilidade de ocorrência de sucesso para cada elemento da amostra. Se a população é
infinita ou amostragem é feita com reposição, p é constante para todos os elementos da
amostra, e os resultados observados para todos eles serão independentes. Nestas condições
a distribuição amostral de f será uma distribuição binomial com parâmetros n e p, e pelas
suas propriedades:
E( f ) = np (5.6)

s 2 ( f ) = np (1 − p ) (5.7)

A frequência relativa p’, por sua vez, sendo simplesmente o quociente de f pelo tamanho
da amostra n, terá média e variância que são obtidas por:
⎛f⎞ 1 1
E ( p') = E ⎜ ⎟ = µ ( f ) = np = p (5.8)
⎝n⎠ n n

⎛f⎞ 1 1 p(1 − p )
s 2 ( p') = s 2 ⎜ ⎟ = 2 σ 2 ( f ) = 2 np (1 − p ) = (5.9)
⎝n⎠ n n n

O tipo de distribuição de p’ continua, para todos os efeitos, sendo uma distribuição


binomial, porém cujos possíveis valores foram comprimidos entre 0 e 1, com intervalos de
1/n, ao invés de variarem de 0 a n, segundo os números naturais.
Sendo a amostra suficientemente grande, pode-se aproximar as distribuições de f e p’
por distribuições normais de mesma média e mesmo desvio padrão. Em termos práticos, em
9

geral, podemos considerar que a amostra será suficientemente grande, para efeito dessa
aproximação, se np ≥ 5 e n (1-p) ≥ 5.

5.5.3 Distribuição Amostral de s2 – Distribuição χ 2

5.5.3.1 Graus de Liberdade de uma Estatística


A variância de uma amostra é dada por:

∑ (x − x)
n 2

s (x ) =
2 i =1 i
(5.10)
n −1
A razão pela qual se recomenda usar n-1 ao invés de n, no denominador dessa
expressão, está relacionada com o número de graus de liberdade dessa estatística. A questão
de graus de liberdade é, possivelmente, abstrata.
n n
Considere-se, por exemplo, as estatísticas x = ∑ xi / n e ∑ (x i − µ ) / n . Essas
2

i =1 i =1
estatísticas tem n graus de liberdade, e de tal fato pode ser entendido como indicando haver
n valores xi livres que devem ser considerados para se poder calcular o valor da estatística.
Em outras palavras, desconhecendo qualquer dos valores de xi da amostra, não se pode
determinar o valor da estatística, pois todos os valores são livres, podendo variar
aleatoriamente.
Já a estatística s 2 (x ), conforme dada acima, por usar x ao invés do parâmetro
populacional µ, tem um grau de liberdade a menos. Isso porque o cálculo dessa estatística
pressupõe que anteriormente já se tenha calculado x , quando já se teria usado uma vez
todos os valores da amostra, os quais estariam sendo usados pela segunda vez para o
cálculo de s2. No momento de se usar novamente os valores da amostra para o cálculo de s2,
esses valores tem apenas n-1 graus de liberdade, pois, dados quaisquer n-1 deles, o valor
restante estará automaticamente determinado, pelo fato de já conhecermos sua média
aritmética x , não sendo portanto este, um valor livre.
Adota-se o símbolo ν para denotar o número de graus de liberdade de uma estatística.

5.5.3.2 Distribuição Amostral de s2


Conforme já mencionado, a variância de uma amostra é calculada por:

∑ (x − x)
n 2

s (x ) =
2 i =1 i
(5.11)
n −1
A distribuição amostral da estatística s 2 (x ) está relacionada com uma família de
distribuições de probabilidades, que são as distribuições tipo χ2, que são dadas por:
2
ν
⎛ xi − µ ⎞ ν
χν2 = ∑ ⎜ ⎟ = ∑ zi2 (5.12)
i =1 ⎝ σ ⎠ i =1
onde: xi = valores aleatórios independentes retirados de uma população normal
µ = média dos valores aleatórios independentes retirados de uma população normal
σ = desvio padrão dos valores aleatórios
ν = número de graus de liberdade da distribuição χ2
10

Os valores zi são os correspondentes valores da variável normal reduzida. Portanto


pode-se considerar a distribuição da variável χ2 com ν graus de liberdade, como a soma dos
( )
quadrados de ν valores independentes da variável normal reduzida, na qual µ z 2 = 1, e
donde pode-se tirar:
⎛ ν 2⎞
( ) ( )
µ χν = µ ⎜ ∑ zi ⎟ = νµ zi2 = ν
2
(5.13)
⎝ i =1 ⎠
Pode-se também demonstrar que:
( )
σ 2 χν2 = 2ν , (5.14)

e que a moda da distribuição de χν2 é ν - 2, para ν > 2.


Como a variável χ2 resulta de uma soma de variáveis independentes e igualmente
distribuídas, segue-se pelo teorema do limite central que a família de distribuições do tipo
χ2 tende à distribuição normal quando o número de graus de liberdade aumenta.
Uma outra propriedade das distribuições χ2 é a da aditividade, que diz que a soma de
duas variáveis independentes com distribuições χ2 com ν1 e ν2 graus de liberdade, terá
também distribuição χ2 com (ν1 + ν2) graus de liberdade.
A figura 5.4 mostra algumas distribuições da família χ2 e a tabela 5.5 fornece valores
das variáveis χν2 , para ν = 1, 2, ..., 30, em função de valores notáveis da probabilidade
correspondente à cauda à direita, determinada na respectiva distribuição.

Figura 5.4 Distribuições χ 2


11

Tabela 5.6 Distribuições χ 2 - valores de χν2, P , onde P = P(χν2 ≥ χν2, P )

O conhecimento das distribuições χ2 conduz à determinação da distribuição amostral da


estatística s2, conforme segue: A estatística

∑ (x − x )
n 2
2
⎛ xi − x ⎞ i

∑i =1⎜ σ ⎟
n
⎜ ⎟ = i =1
(5.15)
⎝ ⎠ σ2
tem distribuição do tipo χ2 com (n-1) graus de liberdade. Logo:
∑ (x − x) (
n − 1 ∑i =1 xi − x )
2 2
(n − 1)sx2
n n
i
χ 2
n −1 = i =1
= 2 = (5.16)
σ2 σ n −1 σ2
donde resulta:
12

σ2
s =
2
x χ n2−1 (5.17)
n −1
Verifica-se pois que a estatística s2 se distribui conforme uma distribuição do tipo χ2
com (n-1) graus de liberdade.
Considerando a estatística acima e a expressão (5.16), obtém-se a média da mesma:
σ2 σ2
µ (s 2 ) = µ (χ n2−1 ) = (n − 1) = σ 2 (5.18)
n −1 n −1
Considerando a expressão (5.13), tira-se a variância da estatística:
σ4 σ4 2σ 4
σ 2 (s 2 ) = σ 2
(χ 2
) = 2(n − 1) = (5.19)
(n − 1)2 n −1
(n − 1)2 n −1

5.5.4 Distribuição t de Student


Supõe-se que para uma amostra de n valores retirados de uma população normal de
média µ e desvio padrão σ, é definida a estatística:
x−µ
z= (5.20)
σ/ n
Como a distribuição amostral de x seria precisamente normal, com média µ e desvio
padrão σ / n , segue que essa estatística teria simplemente distribuição normal reduzida, o
que justifica o emprego de z na sua representação.
Porém se for utilizado na expressão o desvio padrão da amostra s (x ) / n − 1 , obtém-se
uma estatística cuja distribuição não é mais normal. Assim Student (W.S. Gosset –
estatístico inglês) demonstrou que a estatística:
x−µ
t= (5.21)
s (x ) / n
distribui-se simetricamente, com média 0, porém não normalmente em torno da média. Para
grandes amostras, s(x) se aproxima de σ, e as correspondentes distribuições t se aproximam
da distribuição normal reduzida. Existe, portanto, uma família de distribuições t cuja forma
tende à da distribuição normal reduzida, quando n cresce. A estatística indicada na
expressão (5.21) tem (n-1) graus de liberdade, o que passa a ser indicado por: tn-1.
A figura 5.5 mostra comparativamente uma distribuição t genérica e a distribuição
normal reduzida z, sendo que a primeira é mais alongada do que a segunda.

Figura 5.5 Distribuição t e distribuição normal reduzida


13

A tabela 5.7 fornece valores de t em função de diversos valores do grau de liberdade ν e


de probabilidades notáveis correspondentes à cauda direita da distribuição.
Tabela 5.7 Distribuições t de Student – valores de tν ,P, onde P = P(tν ≥ tν ,P)

A expressão (5.21) pode ser escrita da seguinte maneira também:


x−µ σ σ
tn −1 = =z (5.22)
σ / n s (x ) s (x )
e considerando a expressão (5.16), obtém-se:
n −1
tn −1 = z (5.23)
χ n −1
2

que genéricamente é dada por:


ν
tν = z (5.24)
χν2
e que demonstra a relação existente entre as distribuições de t de Student e a de χ2
14

5.5.5 Distribuição F de Snedecor


Conhecidas duas amostras independentes retiradas de populações normais com
variâncias amostrais s12 e s22 , uma distribuição amostral do quociente delas s12 / s22 será
denominada como distribuição F de Snedecor (G. Snedecor adaptou convenientemente
essas distribuições, anteriormente estudadas por Fisher, adotando F em sua denominação
como uma homenagem a este estatístico).
Define-se a variável F com ν1 graus de liberdade no numerador e ν2 graus de liberdade
no denominador, ou simplesmente, Fν 1 ,ν 2 , por:
χν2 /ν 1
Fν 1 ,ν 2 = 2 1
(5.25)
χν /ν 2
2

onde, conforme a própria notação indica, χν2i designa uma variável aleatória com
distribuição χ2 com νi graus de liberdade, sendo que estas devem ser independentes. Esta
definição geral engloba uma família de distribuições de probabilidades para cada par de
valores (ν1, ν2) e a tabela 5.5 apresenta os valores da variável F que determinam caudas à
direita com probabilidades 0,5; 1; 2,5; 5 e 10%, fornecidos para diversos pares de valores
(ν1, ν2).

Tabela 5.8 Distribuição F de Snedecor – valores de Fν 1 ,ν 2 ,p, onde P = P ( Fν 1 ,ν 2 ≥ Fν 1 ,ν 2 ,p); P = 0,10


15

A figura 5.6 mostra esquematicamente como se avalia a probabilidade de ocorrer um


valor acima de um dado aleatório:

Figura 5.6 Distribuição F de Snedecor

Considere-se que de duas populações normais com mesma variâcia σ2 (ou o que seria
equivalente, de uma mesma população normal), sejam extraídas duas amostras
independentes com, respectivamente, n1 e n2 elementos e toma-se o quociente s12 / s22 das
variâncias dessas amostras. Utilizando a expressão (5.17), pode-se concluir que a
distribuição amostral desse quociente será uma distribuição Fn1 − 1, n 2 − 1 , pois:
s12
=
[ ]
σ 2 / (n1 − 1) χ n21 −1 χ n21 −1 / (n1 − 1)
= = Fn1 −1, n2 −1 (5.26)
[ ]
s22 σ 2 / (n2 − 1) χ n22 −1 χ n22 −1 / (n2 − 1)

5.3.5 Relações particulares entre as distribuições z, t, χ 2 e F


A família de distribuições t de Student converge para a distribuição normal padronizada
de z quando ν cresce. Logo a distribuição z equivale à distribuição t∞.
A distribuição χ2 surge de uma soma de ν valores independentes de z2. Logo a
distribuição de χ12 equivale à distribuição do quadrado de z.
Quanto à distribuição F, tem-se que:
ν2
F1,ν 2 = χ12 (5.27)
χν22

Como χ = z 2 , tem-se que a distribuição F1,ν2 equivale à distribuição do quadrado de


2
1
tν2.
Por outro lado sabendo que:
( )
µ χν2 = ν (5.28)
quando ν2 tende ao infinito, a distribuição de Fν1,ν2 tende à de χν21 /ν1 :
χν2
Fν 1 , ∞ = 1
(5.29)
ν1
Em particular, a distribuição de F1,∞ equivale à de χ12 , ou de z2.

Você também pode gostar