Escolar Documentos
Profissional Documentos
Cultura Documentos
Ferreira (1996) - Estatística Básica
Ferreira (1996) - Estatística Básica
ESTATSTICA
BSICA
Prof. DANIEL FURTADO FERREIRA
LAVRAS - MG
1996
NDICE
Pag.
I. Contedo programtico
II. Bibliografia bsica
v
vii
1. Estatstica Descritiva
12
12
21
27
1.4. Exerccios
31
2. Distribuio de probabilidade
38
38
39
40
A. Distribuio Binomial
41
B. Distribuio de Poisson
42
45
D. Distribuio normal
45
49
ii
Pag.
2.4. Esperana matemtica e suas leis
49
51
3. Amostragem
49
49
49
50
50
53
4. Distribuio de amostragem
54
54
56
4.2.1. Distribuio de X
56
4.2.2. Distribuio de X 1 X 2
4.3. Distribuio de t, 2 e F
A. Distribuio de t de Student
60
62
62
B. Distribuio de 2 (Qui-Quadrado)
64
C. Distribuio de F de Snedecor
65
66
69
iii
Pag.
5.1. Importncia nas cincias agrrias
69
69
71
71
73
77
79
80
80
82
6. Teoria da deciso
6.1. Importncia nas cincias agrrias
86
86
86
88
6.3.1. Algoritmo
88
90
91
93
95
iv
95
98
C. Dados emparelhados
6.4. Teste de 2 para ajuste de modelos
7. Regresso e Correlao
99
102
106
MEC/UFLA/DEX
CEX-117 - ESTATSTICA
CONTEDO PROGRAMTICO
I- ESTATSTICA DESCRITIVA
vi
III- AMOSTRAGEM
POPULAO.
AMOSTRAGEM
PROBABILSTICA E NO
PROBABILSTICA.
3. AMOSTRAGEM SIMPLES AO ACASO, ESTRATIFICADA, POR CONGLOMERADO E
SISTEMTICA.
4. TPICOS EM AMOSTRAGEM.
2 E F.
V- TEORIA DA ESTIMAO
POR
INTERVALO.
PROPRIEDADES
ESTIMADORES.
3. ESTIMATIVAS DE MEDIAS, VARINCIAS E PROPORES.
4. ERROS DAS ESTIMATIVAS E DIMENSIONAMENTO DAS AMOSTRAS.
5. TPICOS EM TEORIA DA ESTIMAO.
DOS
vii
VI- TEORIA DA DECISO
BIBLIOGRAFIA
pioneiros de Gauss no fim do sculo anterior e dos trabalhos de Gosset de 1908, publicados
com o pseudnimo de "Student", foram de extrema importncia.
A estatstica se divide em estatstica descritiva e indutiva (ou inferncia). A estatstica
descritiva preocupa-se com a coleta, organizao e apresentao dos dados amostrais, sem
inferir sobre a populao; e a estatstica indutiva preocupa-se com a anlise e interpretao dos
dados amostrais. Concluses importantes podem ser inferidas da anlise dos dados amostrais.
No entanto, a inferncia no pode ser "absolutamente certa", da a necessidade de se utilizar
uma linguagem de probabilidade.
Na maioria das situaes agrcolas as leis de causa e efeito no so conhecidas na
prtica pelo pesquisador, no entanto, existe a necessidade de se obter uma soluo para os
problemas que surgem naturalmente. Foi com o objetivo de se apresentar tais solues que a
estatstica se desenvolveu, face s incertezas oriundas da variabilidade dos dados provenientes
das observaes dos pesquisadores.
Finalmente necessrio ter em mente que a estatstica um mtodo cientfico, por meio
do qual o pesquisador pode tomar decises para solucionar os problemas que so encontrados
durante suas pesquisas. Para que a estatstica seja bem usada necessrio conhecer os seus
fundamentos e os seus princpios, e que acima de tudo que o pesquisador tenha a possibilidade
de desenvolver um esprito critico sobre a pesquisa empreendida.
ESTATSTICA BSICA
DADOS BRUTOS: Dados originais na forma com que foram coletados (no foram
numericamente organizados ou ordenados).
Ex. Peso de 10 coelhos hbridos NORFOLK em kg abatidos aos 90 dias.
2,61 2,56 2,47 2,62 2,59
2,56 2,62 2,70 2,49 2,62
Com os dados elaborados pode-se estimar a amplitude total (A), ou seja, a diferena
entre o maior e menor valor da amostra.
Exemplo: Num determinado estudo de cor de flor, as cores branca e roxa foram observadas. Na
prognie F2 constituda de 100 indivduos foi anotada a cor de flor:
ESTATSTICA BSICA
Tabela 1.1. Representao tabular para representar a herana de cor de flor em uma prognie
F 2.
Cor da flor
BRANCA
ROXA
15
85
Nmero de indivduos
Representao grfica:
90
75
Branca
Roxa
60
45
30
15
0
Branca
Roxa
Figura 1.1. Grfico de colunas para representar a herana de cor de flor em uma prognie F2
15%
Roxa
Branca
85%
Figura 1.2. Grfico de setores para representar a herana de cor de flor em uma prognie F2.
A seguir ser abordada uma das formas mais comuns de se construir uma tabela de
distribuio de freqncia. A seqncia de passos :
(a) Determinar o nmero de classes (k): geralmente o nmero de classes escolhido por muitos
autores em um valor entre 5 e 20, de uma forma emprica. A familiaridade do pesquisador
com os dados que deve indicar quantas classes devem ser construdas. No entanto, esse
critrio pode variar consideravelmente de pesquisador para pesquisador, por isso 2 critrios
so propostos a seguir.
(i) Critrio baseado no tamanho amostral (n) proposto por Oliveira (1995).
Tabela 1.2. Nmero de classes (k) determinado em funo do tamanho amostral (n) (OLIVEIRA,
1994)
Tamanho da amostra (n)
At 100
Acima de 100
(ii) Critrio baseado na distribuio normal dos dados da amostra proposto por SCOTT (1979).
An 3
k = 1+
3, 49S
ESTATSTICA BSICA
c=
A
k 1
A forma de representao de uma classe adotada dada por 2,413 2,528, ou seja, a
classe tem seu limite inferior de 2,413Kg includo na classe e o seu limite superior de 2,528Kg
excludo. Outra notao pode ser usada, qual seja [2,413; 2,528). O significado o mesmo do
descrito anteriormente.
(i) Somar ao valor do limite inferior da primeira classe a amplitude de classe e obter-se o limite
superior;
(ii) O limite superior da primeira classe ser o limite inferior da segunda classe;
(iii) Repetem-se os passos (i) e (ii) at completar k classes, ou equivalentemente at que o maior
valor esteja contido na ltima classe.
Tabela 1.3. Distribuio de freqncia para o peso dos coelhos hbridos Norfolk abatidos aos 90
dias.
Classes (Kg)
Xi
Fi
Fri
Fpi
2,413 2,528
2,471
0,20
20
2,528 2,643
2,586
0,70
70
2,643 2,758
2,701
0,10
10
10
1,00
100
Total
ESTATSTICA BSICA
Tabela 1.4. Distribuio de freqncia acumulada abaixo de para o peso dos coelhos hbridos
Norfolk abatidos aos 90 dias.
Abaixo de
Fc
2,413
2,528
2,643
2,758
10
Tabela 1.5. Distribuio de freqncia acumulada acima de para o peso dos coelhos hbridos
Norfolk abatidos aos 90 dias.
Acima de
Fc
2,413
10
2,528
2,643
2,758
preciso, bem como a aumento da facilidade de clculos devido a estas simplificaes, alm de
fornecer uma idia da forma da distribuio da varivel por meio da representao grfica.
REPRESENTAO GRFICA
Fi( aj .) =
Fi
ci
(b) Polgono de freqncia: Grfico de linhas que une os pontos mdios das classes no topo
dos retngulos.
H istog ram a
Polig ono de freq uncia
Frequncia
0
2.300
2.415
2.530
2.645
2.760
C lasses de peso
Figura 1.3. Polgono de freqncia e histograma da distribuio dos pesos de coelhos hbridos
norfolk, abatidos aos 90 dias.
10
ESTATSTICA BSICA
Frequncia acumulada
acima de
10
Frequncia acumulada
abaixo de
Frequncias
acumuladas
2
OGIVAS
0
2.298
2.413
2.528
2.643
2.758
2.873
Figura 1.4. Representao grfica das distribuies acumuladas (ogivas) do peso de coelhos
hbridos Norfolk abatidos aos 90 dias.
ASS. DIREITA
SIMTRICA
BIMODAL
ASS. ESQUERDA
MULTIMODAL
11
ESTATSTICA BSICA
12
13
10.000ha plantados e uma amostra poderia ser de 20ha distribudos ao acaso pela regio
plantada. Ser utilizada para diferenciar a mdia da amostra e da populao a seguinte notao:
PARA POPULA O
Simbologia:
X PARA AMOSTRA
X=
Xi
i =1
X1 + X 2 +...+ Xn
n
X=
2,47 + 2,49+"+2,70
= 2,584 kg
10
X=
X F
i i
i =1
ESTATSTICA BSICA
X=
14
Propriedades da mdia
( Xi X) = 0
n
i=1
(ii) A soma dos quadrados dos desvios de um conjunto de dados em relao a sua mdia e um
valor mnimo.
i=1
Demonstrao:
Fazendo:
D = ( Xi A)
n
i=1
15
D = ( X i A ) = ( X i2 2AX i + A 2 ) = X 2i 2AX i + A 2
n
i=1
i=1
i=1
i=1
i=1
n
D
= 2 X i + 2nA
i=1
A
2 nA = 2 X i
i=1
A=
Xi
i=1
=X
Portanto, o ponto timo obtido igualando a primeira derivada a zero, pode ser um
ponto de mximo ou de mnimo. Para certificar que o valor de D, quando A igual mdia
amostral, um valor mnimo basta mostrar que a segunda derivada positiva. A segunda
derivada de D em relao a A dada por:
D
= 2n > 0
AA
(iii) A mdia de um conjunto de dados acrescido (ou subtrado) em cada elemento por uma
constante e igual mdia original mais (ou menos) essa constante.
X '= X K
16
ESTATSTICA BSICA
(iv) Multiplicando todos os dados por uma constante a nova mdia ser igual ao produto da
mdia anterior pela constante.
X =K X
Exemplo,
Classes
Fi
5 10
10
10 20
20
20 50
45.
50 ou mais
20
X ( n / 2 ) + X ( (n + 2) / 2)
md =
m d = X ( (n +1) / 2)
Exemplo 1. No caso dos coelhos a posio central esta entre o 50 e o 60 elemento. Portanto, a
mediana a mdia aritmtica destas duas observaes.
17
md = X(2) = 2
No caso de dados agrupados a mediana pode ser calculada de acordo com a seguinte
expresso:
n
2 FA
m d = LI md +
c
Fmd md
Em que, Fmd: freqncia da classe mediana; cmd: amplitude da classe mediana; FA: freqncia
acumulada das classes anteriores classe mediana; e Limd o limite inferior da classe mediana.
A classe mediana a classe que contm a posio n/2 (posio mediana) da
distribuio de freqncia.
No exemplo: Posio mediana = 10/2 = 5 (contida na 2a classe), FA= 2; Limd = 2,528 Fmd
= 7 e cmd = 0,115kg.
Propriedades
ESTATSTICA BSICA
(iii)
iXi-md representa um
18
valor mnimo
Muitas vezes existem dvidas de qual medida utilizar para sintetizar os dados
amostrais. Como uma regra geral, pode-se definir qual medida mais conveniente para uma
dada situao com base na anlise do histograma ou do polgono de freqncias. Se a
distribuio dos dados for assimtrica, isto quando valores extremos predominam em uma das
caudas da distribuio, deve se preferir a mediana como medida sintetizadora. Isto se deve ao
fato da mediana ser pouco sensvel a presena de valores extremos, sendo considerada mais
robusta que a mdia. O termo robusto o termo tcnico usado para indicar esta propriedade da
mediana em relao mdia aritmtica, que quando a situao de simetria violada a mediana
uma medida que sofre menos interferncias nas suas estimativas.
m o = LI mo +
1 + 2
c mo
19
Propriedades
(i)
X = md = mo (distribuio simtrica)
(ii)
20
ESTATSTICA BSICA
(iii) X < md < mo (distribuio assimtrica esquerda)
G = n X1. X2 ... Xn
Usada principalmente para variveis que crescem em progresso geomtrica,
como, por exemplo, o nmero de bactrias em uma colnia. Espera-se que a cada reproduo, o
nmero de bactrias dobre.
H =
1
1
n
i =1
1
X
21
1 4 5 6 6 7 7 7 7 8 8 8 8 8 8 9 9 10 10 40
4 + 5+...+10 135
=
= 7,50
18
18
X A = 10
X B = 10
X C = 10
ESTATSTICA BSICA
22
A amplitude definida como a diferena entre o maior e o menor valor de uma amostra.
No exemplo do peso de coelhos a amplitude foi A = 0,23kg. A amplitude tem a desvantagem de
(i) s considerar os valores extremos para o seu clculo, e principalmente se houver outlier ela
ser grandemente afetada. Como s dois extremos so considerados amostras com valores
intermedirios praticamente idnticos podem apresentar grande amplitude se s o maior e o
menor valor discrepar dos demais; e (ii) ser influenciada pelo tamanho da amostra, pois
medida que a amostra aumenta a amplitude tende a ser maior. Esta ltima desvantagem, no
ser demonstrada aqui por requerer conhecimentos profundos de estatsticas de ordens.
Para contornar a desvantagem de que apenas dois valores so utilizados para o clculo
da amplitude, poderia ser cogitado, ento, o uso de a soma dos desvios em relao mdia
como medida de disperso ou de variabilidade. No entanto, esta medida no adequada, devido
ao fato de a soma de desvios em relao mdia ser nula, sendo que todos as amostras
apresentariam variabilidade nula.
Assim, uma medida da variabilidade que considera todas as observaes e que a mais
utilizada na maioria das situaes na estatstica, devido s propriedades que possui, a
varincia ou a sua raiz quadrada, o desvio padro. A varincia pode ser entendida como se
fosse praticamente a mdia da soma de quadrados de desvios em relao mdia. Numa
amostra de tamanho n deveria ser utilizado este valor (n) como divisor desta soma de quadrados
de desvios. No entanto, devido a motivos associados a propriedades dos estimadores, o divisor
da varincia amostral dado por n-1 em lugar de n na expresso do estimador da varincia.
Simbologia
23
Amostra:
( Xi X )
n
S2 =
i=1
n 1
n
X
i
1 n 2 i=1
S2 =
X
n 1 i=1
n
S= S
24
ESTATSTICA BSICA
No exemplo dos coelhos:
S2 = (66,8116-25,842/10)/9 = 0,00456kg2
S=
0,00456 = 0,0675kg
n
FX
i i
1 n
i =1
2
2
S =
FX
i i
n 1 i =1
n
S= S
Varincia
Desvio padro
Para o exemplo:
S = 0,065279kg
Sy = 1,0
25
Sz = 1,0
Propriedades
(i) Varincia
Multiplicando todos os dados por uma constante K o novo desvio padro fica
multiplicado por K.
26
ESTATSTICA BSICA
possuem diferentes unidades e possuem mdias diferentes, uma medida de disperso relativa,
como o coeficiente de variao (CV), indispensvel para se comparar variabilidade. O
coeficiente de variao refere-se variabilidade dos dados mensurada em relao a sua mdia,
sendo obtido pela expresso seguinte.
CV =
S
X
x 100
Temperatura
Precipitao
Mdia
220C
800mm
5 0C
100mm
27
CV
22,7%
12,5%
SX =
S
n
SX =
0, 0675
= 0, 02135kg
10
Nesse caso o erro padro foi de 0,02135kg e representou 0,83% do valor mdio,
indicando que a mdia foi estimada com alta preciso. Nos prximos captulos outros mtodos
para avaliao da preciso com que uma mdia foi calculada so apresentados.
28
ESTATSTICA BSICA
a 3 = b1 =
m3
m2 m2
m2 =
xi x
i =1
e m3 =
xi x
i =1
ii.
a3 = 0 distribuio simtrica.
29
Nas situaes reais da pesquisa, esta informao de grande valia, uma vez,
que os processos de deciso e estimao so baseados em distribuies simtricas. Como os
dados destas pesquisas referem-se a amostras de uma populao, dificilmente o coeficiente de
assimetria ser exatamente igual a zero, mesmo quando proveniente de uma distribuio
sabidamente simtrica. Para que no se infira incorretamente a respeito da natureza da
distribuio quanto simetria, no captulo 6, ser apresentado um critrio estatstico para fazer
este julgamento.
Uma outra medida para verificar a natureza da distribuio, denominada de
curtose, a qual representada por a4 ou b2. Esta uma medida do grau de achatamento da
distribuio quando comparada ao de uma distribuio conhecida como distribuio normal, que
ser vista no captulo 2. Para esta distribuio normal o valor de a4 3, sendo denominada de
distribuio mesocrtica. Valores de a4 maiores que 3, representam as distribuies
leptocrticas, ou seja, so mais afiladas que a distribuio normal. E distribuies com valores
de a4 menores do que 3 representam as distribuies platicrticas, ou seja, aquelas mais
achatadas do que a normal.
O coeficiente de curtose pode ser estimado pela seguinte expresso:
a 4 = b2 =
m4
m22
m4 =
xi x
i =1
30
ESTATSTICA BSICA
leptocrtica
mesocrtica
platicrtica
m2 =
(x
i =1
(x
i =1
=0,004104
x)
=-0,000062112
m4 =
m3 =
x)
(x
i =1
x)
=0,000043419552
31
a 3 = b1 =
a 4 = b2 =
m3
m2 m2
=-0,2362
m4
=2,5779
m22
Como o valor de assimetria menor que zero, pode se inferir que a distribuio
possui assimetria negativa, ou seja, considerada assimtrica esquerda. Da mesma forma
pode-se inferir que a distribuio platicrtica, uma vez que seu coeficiente de curtose inferior
a 3. Como j comentado, os valores amostrais destas estatsticas, em geral no so exatamente
iguais aos padres de uma normal, mesmo quando so provenientes de uma distribuio
sabidamente normal. Ento, neste momento, ainda no h como saber com grande segurana
se a diferena dos valores desta estatstica para os padres da distribuio normal irrelevante
ou no. A resposta para essa questo ser fornecida no captulo 6.
ESTATSTICA BSICA
32
1.4. Exerccios
1.4.1. Tcnicas de somatrio
1. ndices ou notao por ndices
O smbolo Xj (leia X ndice j) representa qualquer um dos n valores, X1, X2, ..., Xn,
assumidos pela varivel X, na amostra ou no conjunto de dados. A letra j, usada como ndice,
pode representar qualquer um dos valores: 1, 2, ..., n. Evidentemente pode ser usada qualquer
outra letra alm de j.
2. Notao de somatrio
n
j =1
j =1
j =1
j =1
j =1
j =1
3.3. (aX j + bY j ) = a X j + b Y j
n
3.4. K = nK
j =1
serem representados em uma tabela de dupla entrada. Desta forma tem se a varivel X com dois ndices
(Xi j). O ndice i representa as linhas e o ndice j s colunas. Um exemplo, apresentado na Tabela 1.7,
refere-se produo mdia por hectare de uma gramnea aps a utilizao de adubos nitrogenados e
fosfatados. Trs quantidades de nitrognio foram aplicadas e quatro doses de fsforo.
33
Tabela 1.7. Produtividade em t/ha de uma forrageira sob o efeito de 3 doses de N em combinao com 4
doses de P observados em um experimento zootcnico.
Teor de nitrognio (j)
Teor de fsforo (i)
4,6
5,0
5,5
5,0
5,5
6,1
5,2
5,8
6,4
6,0
6,2
6,8
Em algumas anlises estatsticas necessrio muitas vezes somar as linhas e/ou colunas,
bem como toda a tabela. A notao de somatrio pode ser utilizada com essa finalidade. Como dois fatores
determinam a produtividade, dois ndices so utilizados para represent-los, como comentado
anteriormente. Assim, dois smbolos de somatrios podem ser utilizados em alguns casos. Assim ser
definido, o seguinte somatrio:
i.
x
i =1 j=1
ij
xij = xi1 + xi 2 + xi 3 i = 1, 2, 3, 4
j= 1
x ij = x1 j + x 2 j + x 3 j + x 4 j j = 1, 2, 3
i =1
i =1
ESTATSTICA BSICA
5.
34
Exerccios propostos
Sejam os conjuntos de dados a seguir:
X={2, 4, 4, 3, 2 }
Y={1, 2, 3, 6, 7}
Obtenha:
4
5.1. X j
5.2. Y j
j =1
j =1
2
5.3. 4 X j
5.4. X jY j
j =1
j =1
j =1
X=
6. Seja
j=1
j =2
j =1
2
5.6. X jY j + Y j
5.5. ( 3 X j + 2Y j )
n
X
1 n 2 j=1 j
2
X
a mdia aritmtica e S =
a varincia. Dado o
n 1 j =1 j
n
(X
j=1
8.1.
X2ij
i = 1 j= 1
2
8.2. Xij j = 1, 2, 3
i =1
8.3.
X2ij i = 1, 2, 3, 4
j=1
35
8,23
8,60
8,80
8,97
9,05
9,12
9,30
9,35
9,78
9,80
9,86
9,90
9,95
10,00
10,11
10,13
10,15
10,16
10,23
10,31
10,33
10,40
10,46
10,50
11,14
11,29
11,46
12,05
12,14
d) Cheque que ( X j X ) = 0 .
j =1
36
ESTATSTICA BSICA
e) Se for multiplicado a produtividade por 0,27 de cada produtor, para se obter a renda mdia por
produtor/animal/dia, qual, qual ser o valor para amostra?
f) obtenha a mdia harmnica.
2) Faa a distribuio de freqncia destes dados e calcule:
a) Mdia aritmtica
b) Mediana
c) Moda
d) Faa a comparao destes valores com os obtidos no exerccio anterior, e discuta sobre as
razes das diferenas.
e) Trace o histograma e o polgono de freqncia
f) Baseado nestes grficos, determine qual a natureza da distribuio, quanto simetria.
Baseado nesta resposta indique qual medida de posio a mais adequada para representar os
dados amostrais. Justifique
g) Se voc fosse solicitado pelo prefeito da cidade para estimar a produtividade de leite total
diria da cidade, como voc faria?
Informaes adicionais: nmero de produtores de leite da cidade - 7309; Quantidade total de
vacas (mdia da amostra) - 11,80 vacas/produtor; Nmero mdio de vacas em lactao: 8,075.
11,90
12,00
12,30
12,80
12,99
13,10
13,50
13,80
14,10
14,55
14,65
14,70
15,00
15,10
15,20
15,50
15,80
15,90
15,96
37
f) Se cada dado for dividido por 12, para se obter o intervalo de partos em anos, qual ser os
novos valores da amplitude, varincia, desvio padro, CV e erro padro da mdia?
2) Faa a distribuio de freqncia destes dados e calcule:
a) Amplitude, varincia, desvio padro, CV e erro padro da mdia?
b) Faa a comparao destes valores com os obtidos no exerccio anterior, e discuta sobre as
razes das diferenas.
c) Se voc fosse solicitado a representar os dados por duas medidas, quais voc usaria e por
que?
d) Aps o programa Panela Cheia o intervalo de partos apresentou mdia de 13,85 e desvio
padro de 2,00 meses. Qual na sua opinio a situao que apresentou maior variabilidade,
ante ou aps o Programa?
Class. da simetria
Class. da curtose
CAPTULO II - DISTRIBUIO DE
PROBABILIDADE
a
n
fenmeno deve ser especificado ou pelo menos enumerado. Esse conjunto denominado de
espao amostral. O subconjunto de interesse denominado de evento.
40
Se uma varivel X pode assumir um conjunto de valores discretos X1, X2, ..., Xn
com probabilidades p1, p2, ..., pn, sendo pi=1, diz-se que est definida uma distribuio de
probabilidade de X.
41
ESTATSTICA BSICA
A rea total sob a curva limitada pelo eixo X igual a 1. E a rea entre a e b
fornece a probabilidade de X estar entre a e b.
A. DISTRIBUIO BINOMIAL
42
P(X=x)= C nx p q
em,
Cn =
x
nx
n!
e x o nmero de sucessos ocorridos em n tentativas. x=0, 1, 2, ..., n.
x !( n x )!
n=2; p=1/2;
q=1-p = 1/2
P(X=2)=
2! 1 1
2!0! 2 2
2! 1 1
P(X=1)=
1!1! 2 2
22
= 0,25 = 25%
2 1
= 0,50 = 50%
P(X=0)= 25%
43
ESTATSTICA BSICA
x
P(X=x)
0,25
0,50
0,25
2x = npq = np(1 p)
B. DISTRIBUIO DE POISSON
44
pode ser vista como sendo a distribuio de uma varivel X que mede a ocorrncia do nmero de
elementos por unidade de tempo, rea ou volume. Assim, por exemplo, a ocorrncia de uma planta
de uma determinada espcie por unidade de rea pode ser modelada pela distribuio Poisson; a
ocorrncia de formigueiros por talho; a ocorrncia do nmero de uma determinada doena por
uma determinada unidade de tempo; entre outros.
Funo de densidade
P(X=x) = e
x!
k
F(x) = P(Xx) = e
t=0
t!
Exemplo: 2% dos animais de um rebanho esto atacados por uma doena. Qual a probabilidade
k=np=100x0,02=2
(i) P(X=0)= e2
2 =13,53%
0!
ESTATSTICA BSICA
(ii) P(X=1)=
e 2 21
=27,07%
1!
(iii) P(X=2)=
e 2 2 2
=27,07%
2!
45
x = np = k 2x = np = k
Uma varivel aleatria discreta X assumindo valores x1, x2, . . ., xk ter distribuio
uniforme discreta se todos elementos forem equiprovveis. A funo de densidade de
probabilidade dada por:
P(X=x)=
1
; x = x1, x2, . . ., xk
k
46
D. DISTRIBUIO NORMAL
f (x) =
1
22
(x ) 2
2 2
Propriedades
(i) simtrica em relao a
47
ESTATSTICA BSICA
(2 = 1 e = 0)
Se X N( , 2) ento a V.A. Z, definida por: Z =
X
, ter distribuio normal
padronizada-N(0,1). Sabe-se que a probabilidade de X estar entre dois valores quaisquer (a, b)
dada pela rea sob a curva normal entre estes valores:
P(a<X<b)= a f(x) dx
48
P(0Z1) = 0,3413.
P(-1Z0)=P(0Z1)=0,3413
Em muitas situaes prticas os parmetros da distribuio normal so
desconhecidos e devem ser estimados da amostra. Nesse caso a as probabilidades so apenas
estimativas das reais probabilidades. As estimativas so tanto melhores, quanto maiores forem s
amostras das populaes normais obtidas. Um exemplo de aplicao dessa natureza
apresentado a seguir.
Exemplo: No exemplo dos coelhos hbridos, assumindo distribuio normal dos pesos, tem-se que
49
ESTATSTICA BSICA
P(X>2,701)=?
2 ,5 8 4
2 ,7 0 1
Zc =
X X
S
2,701 2,584
0,0675
=1,73
1 ,7 3
50
(i) Binomial
X B(n,p)
Deseja-se calcular probabilidades tais como P(X7), P(0X4), etc. Pode-se fazer
tal clculo usando a prpria distribuio binomial ou usar a aproximao normal. No caso da
aproximao normal, o erro cometido ser tanto menor quanto maior for n e quanto mais prximo
de 0,50 estiver o valor de p. Alguns autores afirmam que quando np5 a aproximao normal
considerada boa.
Usando a Binomial:
P(X7)=P(X=7)+P(X=8)+P(X=9)+P(X=10)=0,171875=17,1875%
x= np =10x0,50 = 5 5
2 = npq =10x0,5x0,5 = 2,5
Como P(X7) inclui o 7 e X segue uma distribuio discreta, deve-se fazer correo para
descontinuidade, para que P(X=7) seja considerada na aproximao normal, e o erro seja
minimizado.
51
ESTATSTICA BSICA
P(X7) inclui o 7, logo se deve considerar no caso contnuo P(X>6,5) (pois considera a
probabilidade de X ser 6,5 ou mais). Se fosse P(X>7), que no inclui o valor 7 deve-se calcular a
P(X>7,5).
-1
Zc=
X x
6,5 5,0
2,5
= 0,95
10
11
52
(ii) Poisson
Nesse caso o processo anlogo, sendo que a mdia e a varincia so dados por:
x= np =k e 2 = np=k
Zc =
X x
7,5 5,0
5
= 1,12
E(X) =
ESTATSTICA BSICA
53
Propriedades
2.5. EXERCCIOS
54
3) Numa lmina verificou-se que existiam em mdia 2,5 bactrias/cm2. A lmina foi subdividida em
300 quadrados de 1cm2. Em quantos destes quadrados vocs espera encontrar no mximo 1
bactria? Qual a probabilidade de se encontrar mais de 3 bactrias por centmetro quadrado?
4) Um pesquisador da rea de zootecnia conseguiu uma srie de dados dos ltimos 120 anos,
com o registro do nmero de uma doena rara em eqinos da localidade em que trabalhava. Os
dados obtidos foram:
Nmero de doenas
Nmero de anos
50
42
20
ESTATSTICA BSICA
55
(c) P(X=13)
(d) F(15)
(e) Calcule o valor exato de (c) pela Poisson. Determine o erro de aproximao encontrado.
3.1. IMPORTNCIA
O objetivo fazer inferncia sobre a populao, como descrito no Quadro 3.1, ou
seja, fazer afirmaes sobre caractersticas da populao, tomando-se por base os resultados da
amostra. O processo pelo qual por meio da amostra so estudadas as caractersticas
populacionais e denominado de amostragem. Para a validade deste processo as amostras devem
ser representativas. As vantagens do processo de amostragem em relao ao censo o menor
custo, o menor tempo e a maior preciso.
POPULAO
AMOSTRA
Estimadores amostrais
ESTATSTICA BSICA
57
n!
n !(N n)!
amostras possveis.
Exemplo: Pop.={A, B, C} com N=3. Retirar amostras de tamanho n = 2 com e sem reposio.
Com reposio: 32 = 9 amostras possveis.
58
conglomerados),
sorteia-se
um
nmero
suficiente
desses
grupos
(ou
conglomerados) e dentro dos conglomerados sorteia-se parte dos elementos para compor a
amostra. Esse tipo de amostragem tem menor custo que os anteriores.
Exemplo: Estimar o nmero de cabeas de gados de certa regio. Sorteiam-se alguns municpios
dessa regio e dentro deles algumas propriedades para compor a amostra.
(D) AMOSTRAGEM ESTRATIFICADA
A populao constituda de subpopulaes (estratos) que so homogneos
internamente, podendo ser heterogneos de estrato para estrato. Dessa forma, a amostragem
deve ser realizada fazendo com que todos os estratos populacionais sejam representados na
amostra final obtida. Para especificar nmero de elementos/estrato que ir compor a amostra, so
considerados trs mtodos: uniforme, proporcional e tima. Esses mtodos dependem
basicamente do tamanho dos estrados populacionais e de sua variabilidade.
59
ESTATSTICA BSICA
(i) UNIFORME
ni =
n
K
Nmero de propriedades
Tamanho amostral
0 2
100
10
2 5
98
10
5 10
104
10
10 20
102
10
20 40
96
10
Total
500
50
ni =
Ni
N
60
A seguir apresentada uma outra situao em uma outra regio que se pretendia
caracterizar o padro tecnolgico da agricultura utilizada. Conforme o caso anterior uma amostra
de n = 50 elementos deve ser extrada da populao de N = 1.000 propriedades existentes e
distribuda conforme as reas apresentadas na Tabela 3.2.
reas (ha)
Nmero de propriedades
Tamanho amostral
0 2
500
25
2 5
320
16
5 10
100
10 20
50
20 40
30
1000
50
(iii) TIMA
Nesse tipo de amostragem so considerados o tamanho a variabilidade de cada
estrato populacional para a extrao da amostra. De cada estrato retira-se uma quantidade ni de
elementos, a qual proporcional ao tamanho (Ni) e ao desvio padro populacional do respectivo
estrato (i), dada por:
ni =
N i i n
k
N i i
i =1
ESTATSTICA BSICA
61
possvel realizar amostragens piloto em cada estrato e obter estimativas dessa variabilidade.
Esses procedimentos, no entanto, no garante a optimalidade do mtodo.
62
3.3. EXERCCIOS
3. Uma empresa agrcola tem 3.414 empregados repartidos nos seguintes setores:
Setores
Nmero de funcionrios
Administrativo
314
Transporte
948
Campo
1.451
Outros
701
Para se estudar o nvel salarial mdio da empresa, resolveu-se fazer uma amostra de 50
funcionrios. Voc julga que a ASA seria apropriada, para este caso? Se afirmativo, justifique sua
resposta, caso contrrio, discuta qual mtodo seria adequado? detalhe o processo de amostragem
neste caso.
4. Quais so as situaes em que a amostragem estratificada deve ser preferida amostragem
simples ao acaso?
5. Qual a principal diferena entre amostra probabilstica e no-probabilstica?
6. Diferencie: ASA e amostra sistemtica, amostra estratificada e amostra sistemtica?
7. Qual a principal idia sob a determinao do tamanho do estrato na amostragem estratificada
tima, em relao variabilidade do estrato populacional i?
CAPTULO IV - DISTRIBUIO DE
AMOSTRAGEM
4.1. IMPORTNCIA
POPULAO
AMOSTRAS
1 t1
2 t2
Parmetro
populacional
desconhecido
K tk
Quadro 4.1. Descrio do processo de amostragem, onde k amostras so retiradas de uma
populao com um parmetro de interesse e se obtm estimativas ti, i=1,2...,k.
64
(i) Dada uma populao com um parmetro de interesse, que pode ser a mdia (), varincia
(2), proporo (P), etc.
(ii) Retiram-se k amostras por um processo aleatrio qualquer.
(iii) Calcula-se o valor t para cada amostra da estatstica T.
Obs. A estatstica T representa um estimador de . Assim, por exemplo, se refere-se mdia
populacional, T ser a mdia amostral.
(iv) Com os valores t1, t2, ..., tk (estimativas) das K amostras faz-se a distribuio de T.
Nesse processo algumas definies devem ser formalizadas para que o leitor possa ter
uma ampla caracterizao de todo ele.
65
Definies
Parmetros Constantes inerentes a populaes relacionadas a uma determinada varivel de
interesse (X);
Estimador ou estatstica - uma varivel aleatria que funo dos elementos amostrais Xi,
i=1,2, ..., n.
4.2.1. DISTRIBUIO DE X
66
Amostras
Amostras
Amostras
1,1
1,0
2,1
1,5
3,1
2,0
1,2
1,5
2,2
2,0
3,2
2,5
1,3
2,0
2,3
2,5
3,3
3,0
Tabela 4.1. Amostras e mdias amostrais possveis retiradas de uma populao de tamanho igual
a 3.
X =
Logo,
X = = 2,0
possvel provar que a mdia das mdias amostrais igual a mdia populacional,
para todas os tamanhos de amostras e para todas as populaes amostradas.
67
9 2
X
1 9 2 i=1
= X
9 i=1
9
Dividindo 2/ X = n = 2
X =
Fi
1,0
1,5
2,0
2,5
3,0
Total
Tabela 4.2. Distribuio de freqncias das mdias amostrais para amostras de tamanho n=2
retiradas com reposio.
1.0
1.5
2.0
2.5
68
3.0
Figura 4.2. Distribuio amostral das mdias - amostragem com reposio e n=2.
Se n = 1:
Figura 4.3. Distribuio amostral das mdias - amostragem com reposio e n=1.
69
X =
populao finita
n
N
2
X
N n
N 1
Amostras
1,2
1,5
1,3
2,0
2,3
2,5
Quadro 4.2. Distribuio das mdias amostrais retiradas sem reposio de uma populao de
tamanho 3.
Verifica-se que:
X = = 2,0
2
X
N n
N 1
70
Esse resultado vlido para todas as populaes finitas. Para populaes infinitas, o fator
de correo na expresso da varincia
Nn
infinitas mesmo que a amostra seja realizada sem reposio a varincia populacional dada por
2
X =
N n
N 1
Pop 1 -
1
2
X1 =
AMOSTRAS
n1
n1
Xi
i =1
n1
Pop. 2 -
2
2
X2 =
AMOSTRAS
n2
n2
Xi
i =1
n2
71
X1 X 2 = 1 2
2X 1 X 2 =
12
n1
22
n2
Exemplo: Um vendedor afirma que duas raes possuem o mesmo efeito no ganho de pesos de
determinados animais, i. e., 1=2. Em um ensaio obtiveram-se os seguintes resultados:
Rao A
Rao B
n1=30
n2=30
X 1 =33Kg
X 2 =30Kg
S1=5Kg
S2=4Kg
Quadro 4.3. Resultados do ganho de pesos de animais aps terem sido submetidos as raes A e
B, respectivamente, durante 1 semana.
S 2X 1 X 2 =
S 12
n1
S 22
n2
25 + 16
30
= 1,3667
72
ZC =
3 0
1,3667
= 2,57
Para testar a hiptese de que as raes no diferem quanto ao ganho de peso proporcionado,
deve-se calcular a probabilidade de que o ganho de peso padronizado supere o limite de 2,57.
Em outras palavras, seria determinar a probabilidade, adotando a hiptese de que as raes so
iguais, de que a diferena de 3kg observada foi devido apenas ao acaso.
4.3. DISTRIBUIO DE t, 2 E F
73
2
n
ZC =
tC =
X
S
n
Caractersticas da distribuio de t
(i) Simtrica em relao mdia;
(ii) Forma de sino;
(iii) Quando n tende para infinito, a distribuio de t, se torna equivalente distribuio normal;
(iv) Possui n-1 graus de liberdade.
74
Exemplo: Um agricultor afirma que sua produtividade mdia de 2,20t/ha. Um agrnomo numa
amostra de n=25 parcelas obteve uma mdia de 1,70t/ha, e desvio padro de 0,8t/ha. Baseado no
resultado da amostra possvel que o agricultor esteja superestimando sua produtividade mdia?
considerado, para fins de se avaliar a afirmao feita, que a produtividade mdia
de 2,20t/ha seja verdadeira. Usando este valor como verdadeiro determinar se a diferena de
0,50t/ha (2,2-1,70) devida apenas ao acaso, ou realmente porque a hiptese falsa. Para isso,
calcula-se a probabilidade de que a diferena encontrada seja devida ao acaso, usando a hiptese
como verdadeira. Se esta probabilidade baixa, mais fcil acreditar que a hiptese falsa, do
que ela ocorreu devido ao acaso. O valor de t calculado :
tC =
1,7 2,2
= 3,125
0,8
25
9 5 %
2 ,5 %
2 ,5 %
-2 ,0 6 4
2 ,0 6 4
FIGURA 4.4. Regio crtica ou de rejeio da hiptese da distribuio amostral de t para uma
amostra de n=25, com mdia 1,70t/ha e desvio padro de 0,8t/ha.
75
Concluso: Como o valor de tc=-3,125 supera o valor em mdulo de t tabelado ao nvel de 95%
de confiana, rejeita-se a afirmao do agricultor.
(B) DISTRIBUIO DE
(QUI-QUADRADO)
2
A varivel aleatria obtida por: =
( n 1) S 2
Exemplo: Qual o valor de 2 cuja rea acima do mesmo de 5%, obtido numa amostra de
n=25.
76
95 %
R eg io de aceitao
de H0
R eg io d e reje io de H 0
5%
0
0
3 6,41 5
FIGURA 4.5. Regio crtica ou de rejeio da hiptese da distribuio de qui-quadrado para uma
amostra de n=25.
S1
2
2
2
2
para testar a igualdade entre duas varincias e na anlise de varincia (estatstica experimental),
para se efetuar o teste da hiptese de igualdade de efeitos tratamentos que se deseja comparar.
As tabelas de F, so consultadas de acordo com os graus de liberdade (n1-1) associados
varincia 1 (numerador da expresso) na primeira linha, e graus de liberdade (n2-1) associados
varincia 2 (denominador da expresso) na primeira coluna, e probabilidade desejada.
77
n1-1
n2-1
1
F 1 F 2 F3 F4 F 5
2
3
4
.
.
.
F 1 F 2 F3 F4 F 5
QUADRO 4.4. Esquema da tabela de F, para n1-1 e n2-1 graus de
...
.
.
.
.
.
.
F
liberdade. Os valores Fi
POPULAO
N1
P=N1/N
N
ESQUEMA 4.1. Populao de tamanho N, com N1 elementos que constitui um evento de interesse
para o pesquisador, Neste caso, P representa a proporo de elementos favorveis do evento, em
relao populao.
78
Amostras
Tamanho
Estimador
P 1 =
P 2 =
P k =
n1
n
n2
n
.
.
nk
n
P = P e
P2 =
P(1 P)
n
Se np5 a distribuio pode ser bem aproximada pela normal. Com populaes
finitas e amostras sem reposio, a mdia e varincia so:
P = P e
P2 =
79
P(1 P) N n
x
n
N1
X = nP e
2X = nP(1 P)
X = nP e
N n
N 1
2X = nP(1 P)
Foi visto que a inferncia estatstica tem por objetivo fazer generalizaes sobre
uma populao com base em dados amostrais, uma vez que os parmetros populacionais so
desconhecidos na maioria das situaes prticas. Muitos problemas, na rea agrcola, necessitam
desse tipo de inferncia.
POPULAO
AMOSTRA
Estimadores amostrais
(a) Estimao por ponto: obtm-se nesse caso um nico valor amostral. Ex. X uma estatstica
usada para fazer a estimao por ponto de .
ESTATSTICA
81
Obs. Como j foi visto, o estimador (ou estatstica) uma varivel aleatria que funo dos
elementos amostrais e a estimativa o valor numrico obtido pelo estimador em uma certa
amostra.
(i) No viciado ou no viesado: Quando sua esperana (valor mdio) igual ao prprio valor do
parmetro populacional que se pretende estimar.
(ii) Consistncia: Um estimador ser consistente se alm de no viciado sua varincia tende para
zero, quando n tende para .
Ex. Como, E( X )= e lim X2 = lim
n
2
n
82
Exemplo de IC: Com 95% de confiana a verdadeira mdia da produtividade de milho BR201 est
entre [4,0 t/ha; 6,0 t/ha], para um determinado nvel de utilizao de tecnologia.
83
ESTATSTICA
). No entanto, como
em geral, nas situaes prticas, no se conhece a varincia populacional, ento se deve utilizar o
estimador, S2, e a distribuio de t, como j argumentado anteriormente. Desta forma, a regra para
construo do IC neste caso :
IC1-: X e
onde, e =
t/2
S
n
A regra geral a mesma para o caso da amostragem ser feita com reposio de
populaes finitas ou amostragem com ou sem reposio de populaes infinitas, e est
apresentada a seguir:
IC1-: X e
84
onde, e = z / 2
S
n
Nn
e t/2 com n - 1 graus de liberdade (GL), sendo a nica alterao o
N 1
pq
n
. No entanto
neste caso, devido a algumas consideraes de ordem terica que no sero abordadas neste
material, por fugir do seu objetivo, a distribuio de amostragem aproximada a normal. Neste
caso usada a distribuio normal para construir os intervalos de confiana, alm de outras
aproximaes que fornecem melhores resultados. As aproximaes do intervalo de confiana so
apresentadas a seguir. Primeiramente apresentada a aproximao de normal e posteriormente,
sero apresentados dois mtodos aproximados e um exato.
ESTATSTICA
85
onde, e = z / 2
pq
.
n
n
IC1-: p e
onde, e = z / 2
pq
n
Nn
, sendo a nica alterao o fator de correo para amostragem sem
N 1
86
Nos casos especiais em que y=0 e y=n, deve-se proceder da seguinte forma:
y + 0,5 np
np(1 p )
= z / 2
LI =
1+
( z / 2 ) 2
n
1
LS =
1+
( z / 2 ) 2
n
y 0,5 z / 2
n
n
y + 0,5 z / 2
+
n
n
2
( z / 2 ) 2
y 0,5 y 0,5 ( z / 2 )
+
1
+
4n
2n
n
n
2
( z / 2 ) 2
y + 0,5 y + 0,5 ( z / 2 )
+
1
+
4n
2n
n
n
87
ESTATSTICA
2
2
y 81y( n y +1) 9n 8 + 3 z / 2 9y( n y +1)(9n + 5 z / 2) + n +1
LI = 1+
n y +1
[81y2 9y(2 + z2 / 2) +1]
2
2
y +1 81( y +1)( n y) 9n 8 3 z / 2 9( y +1)( n y)(9n + 5 z / 2) + n +1
LS = 1+
n y
[81( y +1)2 9( y +1)(2 + z2 / 2) +1]
y
n
amostra de tamanho n, geralmente obtido por processos numricos iterativos. Estes processos
se tornam lentos, em geral, quando n e y crescem, requerendo grande quantidade de tempo de
computao.
Um intervalo de confiana exato, utilizando a distribuio de F apresentado por
Leemis & Trivedi (1996). Este intervalo em geral de rpido clculo, vistos que muitos softwares j
apresentam os percentis da distribuio de F em suas rotinas. Este intervalo apresentado a
seguir:
1
1
IC1-:
;
ny +1
ny
1+
1+
Nos casos especiais em que y=0 e y=n, deve-se proceder da mesma forma
descrita anteriormente, ou seja:
88
Fv1, v 2,1 / 2 =
1
Fv 2, v1, / 2
5.3.2.5. Exemplos
Mtodo
LI
LS
1 - Exato
0,067
0,652
2 - Aproximao normal
0,016
0,584
3 Aproximao de Blyth
0,081
0,646
4 - Aproximao de Pratt
0,065
0,652
LI
LS
1 Exato
0,212
0,400
2 - Aproximao normal
0,210
0,390
3 - Aproximao Blyth
0,215
0,401
4 - Aproximao Pratt
0,212
0,400
Mtodo
89
ESTATSTICA
12
n1
22
n2
IC1-: X1 X 2 e
90
onde,
e= t
S1 + S2
n1 n2
S12 S22
+
n1 n2
=
2
2
S12 S22
n1 n2
+
n1 1 n2 1
IC1-: X1 X 2 e
em que,
e= t SP
n1 n2
duas populaes so iguais, uma melhor estimador da varincia comum obtida pela mdia
ponderada das varincias amostrais, cujos pesos so os graus de liberdade de cada amostra. Esta
varincia definida por SP2 , onde o subscrito p refere-se a palavra americana pooled que
91
ESTATSTICA
( n1 1) S12 + ( n 2 1) S22
Sp =
n1 + n 2 2
(n 1) S2
(n 1) S2
IC1-:
em que, 1 / 2 e
2
/ 2
2
(n 1) S2
2
1/ 2
liberdade.
Da mesma forma que para varincia, o IC desvio padro dado pela regra geral
apresentada a seguir. Observe que se trata da raiz quadrada dos limites do IC para varincia.
92
(n 1) 2
S
IC1-:
em que, 1 / 2 e
2
/ 2
2
(n 1) S2
2
1/ 2
graus de liberdade.
Seja, k =
S
um estimador do CV populacional K = , na escala de 0 a 1. Como
se sabe uma estimativa por ponto deste parmetro muito importante para se avaliar a
variabilidade de uma varivel de interesse e na experimentao para se avaliar a preciso
experimental. No entanto, o IC muito mais informativo para se inferir a respeito deste parmetro.
Para se obter o IC Vangen (1996) apresenta a expresso de McKay, relatada a
seguir. Sejam, U 1 = 2 ; / 2 e U 2 = 2 ; 1 / 2 os percentis 1-/2 e /2 da cauda direita da
distribuio de qui-quadrado com =n-1 graus de liberdade, ento o IC modificado de McKay para
o CV de uma populao normal :
k
k
;
IC1-/2:
U + 2
U + 2 2 U2
U
1
1 k 2 + 1 2
1 k +
+1
+1
Exemplo: Dada amostra com 5 tenses mensuradas em plantas: 326, 302, 307, 299, 329. As
estatsticas amostrais so: X = 312,6; S=13,94; k=0,0446. Com =0,05, determinar o IC para o CV
populacional.
ESTATSTICA
93
EXEMPLOS
1. Em uma amostra de 25 plantas de uma variedade braqutica de milho foi encontrada a mdia de
altura de 122cm e varincia amostral de 28cm2. Obtenha o IC de 95% de confiana para a
mdia () da variedade em questo.
e = 2,064
28
= 2,18 , logo,
25
94
2. De uma populao de tamanho N=40, foi retirada uma amostra de tamanho n=10. A mdia da
amostra foi de 130,2cm e a varincia foi de 69,2888cm2. Faa o IC para a mdia populacional
com 90% de confiana.
Com 90% de confiana tem-se que =0,10. Para graus de liberdade de n-1=9 o valor de
t0,05 1,833. Portanto:
e = 1833
,
69,2888 40 10
= 4,23 , logo,
10
40 1
t/ 2
S
. Assim, se o valor de e o valor desse erro forem
n
95
ESTATSTICA
fixados pode-se estimar a amostra adequada. Portanto, para que o pesquisador possa determinar
o tamanho da amostra ideal necessrio conhecer uma estimativa do desvio padro populacional
e ter-se uma idia do erro que se deseja cometer. Para isso, pode-se fazer uma pequena amostra,
denominada amostra piloto, que fornecer estes valores. Uma regra para se determinar o tamanho
amostral, apresentada a seguir:
S t/ 2
n =
Essa frmula deve ser utilizada iterativamente, pois para se obter o tamanho da
amostra depende-se do quantil t/2 que por sua vez depende dos graus de liberdade, que so
desconhecidos. Assim, obtm-se o valor de t com os graus de liberdade da amostra piloto e
calcula-se utilizando a frmula proposta o valor de n. Com esse novo valor de n, obtm-se novo
quantil superior de t de Student e refaz-se o clculo de n. O processo aplicado reiteradas vezes
at que uma dada estimativa de n no difira da imediatamente anterior para uma dada preciso
pr-estipulada.
Com base nas informaes obtidas a priori na amostra piloto conclui-se qual deve
ser o tamanho da amostra para aqueles nveis de significncia e preciso estabelecidos. Se o
tamanho da amostra for menor que o da amostra piloto, indica que nenhum elemento deve ser
acrescido amostra.
96
z 2
n =
p (1 p )
e
(1 p ) .
valor tm-se o mximo do valor de p
z / 2
n =
2e
Exemplo: Em uma amostra y=57 em n=150 plantas apresentaram uma determinada doena. Essa
amostra suficiente para estimar a proporo de plantas doentes com erro de 0,08 e 95% de
confiana?
p =
57
= 0,38 = 38% e z0,025=1,96
150
1,96
n =
x0,38x 0,62 141 plantas
0,08
ESTATSTICA
97
Conclui-se que a amostra de 150 plantas foi suficiente para estimar a proporo de
plantas doentes com o erro e a confiana desejados.
1,96
n =
150 plantas
2x 0,08
Nesse caso verifica-se que, tambm, nenhuma planta deveria ser includa na
amostra. Esta ltima situao mais conservadora e o pesquisador deve optar entre uma maior
confiabilidade ou uma maior economia.
5.5. Referncias
Bernoulli parameter. The American Statistician. V. 50, n.1, p.63-68, February, 1996.
VANGEN, M.G. Confidence interval for a normal coefficient of variation. The American
Statistician. V.50, n.1, February, 1996.
BLYTH, C.R. Approximate binomial confidence limits. Journal of the American Statistical
Association. v.81, n.395, p.843-855, 1986.
PRATT, J.W. A normal approximation for binomial, F, beta, and other common, related tail
probabilities, II. Journal of the American Statistical Association. n.63, p.1457-1483,
1968.
(i) Erro tipo I: erro que se comete ao rejeitar uma hiptese verdadeira.
(ii) Erro tipo II: erro que se comete ao aceitar uma hiptese falsa como verdadeira.
99
ESTATSTICA
Realidade
Deciso
Aceitar H0
Rejeitar H0
H0 verdadeira
H0 falsa
Deciso correta
Erro tipo II
1-
Erro tipo I
Deciso correta
1-
Tabela 6.1. Probabilidades de se cometer os erros tipo I e II, e de se tomar deciso correta para
os testes de hipteses.
CARACTERSTICAS
(i) Erro tipo I e tipo II so correlacionados: O aumento da probabilidade de ocorrncia de um
reduz a probabilidade de ocorrncia do outro;
(ii) Erro tipo I controlado com a escolha de .
(iii) A nica forma de causar uma reduo de e simultaneamente aumentar o tamanho
da amostra.
(iv) Se H0 for falsa, ser maior quanto mais prximo o valor do parmetro estiver do valor
sob a hiptese H0.
Neste captulo ser realizado apenas teste de significncia, haja vista que no se
pode controlar diretamente a probabilidade de se cometer o erro tipo II a no ser indiretamente
com amostras representativas e suficientemente grandes e escolha de testes mais poderosos.
100
RRH0
1
RRH0
Figura 6.1. Regio crtica para um teste unilateral, usando a distribuio de t de student ou a
normal.
Exemplo. Uma mquina de empacotar caf foi regulada para 500g. O fabricante resolveu fazer
amostras de 16 pacotes de 2 em 2 horas. Numa dessas amostras ele encontrou X =492g e
101
ESTATSTICA
S2=400g2. Ele resolveu consultar um estatstico se deveria paralisar a mquina para novo ajuste.
Qual seria sua deciso?
400
16
(iii) = 0,01
RRH
/2
RRH
-2 ,9 4 7
RRH
/2
2 ,9 4 7
B IL A T E R A L
RRH
- 2 ,6 0 2
RAH0
1 - /2
0
U N IL A T E R A L
(iv) t c =
492 500
= 1,60
20
4
(v) tc = -1,60 a RAH0 em ambos os casos (unilateral e bilateral). Portanto, o desvio da mdia
amostral para a mdia hipottica proposta em H0 foi devido ao acaso. Ento, esta hiptese no
deve ser rejeitada no valor nominal de 1% de significncia.
102
de hiptese :
(i) H0: = o
H1: o (Hiptese bilateral) ou
H1: > o (Hiptese unilateral) ou
H1: < o (Hiptese unilateral).
(ii) t c =
X
S
n
(ii) Define-se a regio de rejeio de H0 com:
t/2 com n - 1 GL para o teste bilateral;
t com n - 1 GL para o teste unilateral ( > o); e
-t com n - 1 GL para o teste unilateral ( < o).
(iii) Rejeita-se H0 se t c t tab , ou seja, se tc RRH0.
Existe uma relao direta entre teste de significncia e intervalos de confiana. Com a
construo do IC pode-se verificar se o valor do parmetro sob H0 se encontra no mesmo. Se
afirmativo no se rejeita H0, caso contrrio, rejeita-se.
Para amostras sem reposio em populaes finitas (n/N>0,05), o erro padro da mdia :
Nn
N1
ESTATSTICA
tc =
103
X 0
S
Nn
N1
Exemplo: No caso dos coelhos abatidos aos 90 dias (n=10, X =2,584Kg, S=0,0675Kg), teste a
hiptese de que a mdia populacional igual a 2,701Kg, contra a hiptese alternativa que ela
menor que 2,701Kg. Dado, =0,05.
(ii) t c =
X o 2,584 2,701
=
= 5,481
S
0,0675
n
10
104
(i) Formulam-se as hipteses de nulidade e a alternativa, que pode ser unilateral ou bilateral.
H0: P = Po
H1: P Po (Hiptese bilateral) ou
H1: P > Po (Hiptese unilateral) ou
H1: P < Po (Hiptese unilateral).
(ii) O nvel crtico, ou a probabilidade de se cometer o erro tipo I fixado em geral por = 5% ou
= 1%
zc =
P P0
P (1 P )
n
Exemplo: Numa amostra de 100 plantas de um campo de produo de sementes, verificou-se que
2% estavam com uma determinada doena. Teste a hiptese que a verdadeira proporo de
doenas do campo igual a 3,5%, como afirma um tcnico de inspeo do campo de produo de
sementes.
(i) Determinando as hipteses
H0: P = 0,035
H1: P < 0,035 (unilateral)
(ii) Fixar o nvel de significncia em 5%
(iii) Calculando o valor de zc
105
ESTATSTICA
tz =
P P0
=
P (1 P )
n
0,02 0,035
0,02(1 0,02 )
100
= 1,07
(i) Formulam-se as hipteses de nulidade e alternativa, a qual pode ser unilateral ou bilateral.
H0: 2 = 20
H1: 2 20 (Hiptese bilateral); ou
H1: 2 > 20 (Hiptese unilateral); ou
H1: 2 < 20 (Hiptese unilateral).
2c =
(n 1) S2
20
R A H
1
R R H
/2
0
0
R R H
/2
1 - /2
/2
Figura 6.3. Regies crticas (RRH0) para o teste bilateral, da hiptese apresentada em (i).
R A H
1 -
R R H
0
0
Figura 6.4. Regio crtica (RRH0) para o teste unilateral, da hiptese apresentada em (i).
106
ESTATSTICA
107
R A H 0
1 -
R R H 0
0
0
2
1 -
Figura 6.5. Regio crtica (RRH0) para o teste unilateral, da hiptese apresentada em (i).
Duas mdias populacionais distintas podem ser comparadas por este mtodo,
desde que a amostragem, ou at mesmo a experimentao, seja realizada de forma independente
para cada uma delas.
108
populacionais so desconhecidas, fato bastante comum na prtica, ento, como saber se elas so
diferentes, para enquadrar o teste nesta opo. Para responder esta pergunta, antes de apresentar
o algoritmo para o teste da hiptese de igualdade entre as duas mdias populacionais, ser
apresentado o teste para a hiptese de igualdade das varincias populacionais.
Inicialmente deve ser lembrado neste ponto que a estatstica definida por:
2
S1
F=
2
1
S2
2
2
Fc =
S1
S2
valor que deixe menos de 5% ou menos de 1% dos valores de F acima do mesmo deve ser
considerado significativo. Desta forma, este valor indica que mais fcil acreditar que a hiptese,
no seja verdadeira, do que este grande valor tenha ocorrido ao acaso. O algoritmo para realizar o
teste est apresentado a seguir.
H 0: 1 = 2
2
H 1: 1 2
2
(ii) Fixa-se o valor crtico, ou a probabilidade de se cometer o erro tipo I, que em geral :
ESTATSTICA
109
= 5% ou = 1%
Fc =
S1
S2
As varincias amostrais so denominadas de tal forma que S12 S22 . Desta forma Fc ser sempre
maior ou igual a 1.
(i) Formulam-se as hipteses de nulidade e alternativa, as quais podem ser unilaterais ou bilaterais
H0: 1-2 = 0
H1: 1-2 0 (bilateral); ou
H1: 1-2 > 0 (unilateral); ou
H1: 1-2 < 0 (unilateral); ou
O teste de que a diferena entre as mdias populacionais igual a zero, equivale
ao teste de que elas so iguais.
(ii) Fixa-se o nvel crtico, ou a probabilidade de se cometer o erro tipo I, que em geral :
= 5% ou = 1%
110
tc =
X1 X 2
2
S1
n1
S2
n2
onde, t/2 (teste bilateral) ou t (teste unilateral) possui graus de liberdade dados por:
S12 S22
+
n n2
= 12
2
S12 S22
n1 + n 2
n1 1 n 2 1
Como no caso do item A.2, o teste para hiptese de igualdade entre duas mdias
populacionais quando as varincias so iguais, segue praticamente todos os passos. O primeiro
passo verificar se realmente as varincias populacionais so iguais, conforme descrito no item
A.1. O segundo passo consiste em implementar o seguinte algoritmo, lembrando que o teste, sob a
pressuposio de igualdade de varincias, exato:
ESTATSTICA
111
(ii) Se fixa o nvel crtico, ou a probabilidade de se cometer o erro tipo I, que em geral :
= 5% ou = 1%
X1 X 2
tc =
Sp
1
n1
1
n2
em que, t/2 (teste bilateral) ou t (teste unilateral) possui =n1+n2-2 graus de liberdade.
Como as varincias das duas populaes so iguais, o melhor estimador da
varincia comum obtido por uma varincia mdia ponderada pelos graus de liberdade de cada
amostra. Esta varincia definida por SP2 , onde o subscrito p refere-se a palavra americana
pooled que significa, combinada. Portanto, o smbolo SP apresentado, refere-se ao estimador do
desvio padro combinado que a raiz quadrada da varincia, o qual apresentado a seguir:
SP =
( n1 1) S12 + ( n 2 1) S22
n1 + n 2 2
112
Exemplo: os dados de peso de bezerros foram medidos antes e depois da aplicao de uma
rao nova, em uma amostra de tamanho n=5. Seja,
X: peso antes do tratamento (rao nova); e
Y: peso aps tratamento;
n=5 bezerros.
Bezerros
Xi
100
105
108
106
110
Yi
120
115
130
140
112
Diferena
20
10
22
34
(Di)
Tabela 6.2. Peso de cinco bezerros antes (Xi) e aps (Yi) o tratamento de uma rao nova por um
ms, alm da diferena (Di) entre o peso aps e antes do tratamento (ganho de peso do perodo).
Neste exemplo fica claro que os dados so pareados, pois so mensurados cinco
bezerros antes e aps a dieta com uma rao especfica. Antes de prosseguir, necessrio, que
se calcule algumas estatsticas bsicas, desta varivel aleatria Di. Estas estatsticas so a mdia
e o desvio padro.
Mdia:
D=
Di
i=1
ESTATSTICA
SD =
Desvio Padro:
113
D
1 n 2 i= 1 i
Di
n 1 i=
n
(ii) Se fixa o nvel crtico, ou a probabilidade de se cometer o erro tipo I, que em geral = 5% ou
= 1%.
tc =
D D0
SD
n
114
e SD = 12,1984kg
H0: D = 0
H1: D > 0 Unilateral;
que significa que est se testando a ausncia de efeito da rao para promover o
ganho de peso, contra a alternativa que esta possui um efeito positivo no ganho de peso. O valor
de tc, utilizando as expresses anteriormente apresentadas, foi de 3,226. O valor de ttabelado (t0,05) foi
2,132 com n-1=4 GL. Ento, como |tc| > |ttab| rejeita-se H0, existe efeito positivo da rao no ganho
de peso dos bezerros.
115
ESTATSTICA
natureza, o teste de 2 recomendado. A seguir ser apresentado, como proceder para se avaliar
o ajuste de um modelo terico a dados observados experimentalmente (curvas ou ajustes de
aderncia).
(i) Primeiro passo determinar qual o modelo terico deve ser usado: Isto normalmente no
trivial, mesmo para pesquisadores experientes. Este primeiro passo o mais importante, pois
uma escolha errada de um modelo levar a um ajustamento muito pobre ou na maioria dos
casos a um no ajustamento;
(ii) Calcular de acordo com o modelo proposto as freqncias esperadas (FE) para cada classe da
varivel aleatria;
(iii) Comparar as freqncias esperadas com as freqncias observadas (Fo) atravs do seguinte
teste:
Fo i FE i
K
2c =
i= 1
FE i
(iv) A hiptese que se testa H0: o modelo terico se ajusta distribuio observada. O valor de
qui-quadrado calculado em (iii) deve ser comparado com o valor crtico da distribuio de
116
< c.
2
K 1
GL
Exemplo: Verificar se os dados abaixo esto de acordo com a 2a lei de Mendel, ou seja, lei da
segregao independente de genes. Na Tabela 6.2, esto apresentados o fentipo de dois genes,
um que controla, a altura das plantas, as quais podem ser alta ou an, e o outro que controla o tipo
de folha, que podem ser normal ou tipo batata. Se os genes forem independentes, ou seja, se
estiverem situados em cromossomos diferentes, ento esperada pelos geneticistas a seguinte
segregao fenotpica na gerao F2 de um certo cruzamento: 9 plantas altas com folha normal : 3
plantas altas com folha batata : 3 plantas ans com folha normal : 1 planta an com folha batata
(9:3:3:1).
Fentipo da planta
Tipo da folha
FO
FE
ALTA
NORMAL
925
900
ALTA
BATATA
309
300
AN
NORMAL
280
300
AN
BATATA
86
100
TOTAL
1600
1600
Tabela 6.3. Segregao fenotpica observada e esperada para gerao F2 de um cruzamento entre
uma linhagem alta de folha normal com outra an de folha batata. A freqncia esperada foi
baseada no modelo de segregao independente dos genes que controlam a altura de planta e o
tipo de folha (2a lei de Mendel), na proporo de 9:3:3:1.
ESTATSTICA
117
$SrQGLFH
FHVV
7DEHOD $ 3UREDELOLGDGHV D GD GLVWULEXLomR QRUPDO SDGUmR 1 SDUD YDORUHV GR TXDQWLO =W
SDGURQL]DGRGHDFRUGRFRPRVHJXLQWHHYHQWR3==W D
=W
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
7DEHOD $ 4XDQWLV VXSHULRUHV GD GLVWULEXLomR W GH 6WXGHQW WD FRP Q JUDXV GH OLEHUGDGH H SDUD
GLIHUHQWHV YDORUHV GD SUREDELOLGDGH D GH DFRUGR FRP R VHJXLQWH HYHQWR
3W ! W D D
7DEHOD $ /LPLWHV FUtWLFRV TXDQWLV VXSHULRUHV D Z D GR WHVWH GRV SRVWRV FRP VLQDLV GH
:LOFR[RQSDUDGLIHUHQWHVYDORUHVGDSUREDELOLGDGHDGHDFRUGRFRPRVHJXLQWHHYHQWR
SUREDELOtVWLFR 3: t ZD t D
QW
QW
Q W Q W
ZD