Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatstica
UNIDADE 1
INTRODUO
Vamos buscar definir Estatstica, e, para tanto, os dois conceitos a seguir so adequados.
Conceito 1.1. Estatstica. Conjunto de tcnicas que se ocupa com a coleta, organizao, anlise e
interpretao de dados, tendo um modelo por referncia.
Populaes reais so, por exemplo, todas as rvores de um povoamento florestal, ou todo
o solo de um talho de rea. Por terem existncia real, possuem nmero finito de elementos.
Quanto s populaes conceituais so aquelas sem existncia real, mas de concepo
bem definida, como o conjunto total de frangos que poderiam ser alimentados com uma certa
Conceito 1.4. Censo. Atividade de inspecionar (observar) todos os elementos de uma populao
real, objetivando conhecer, com certeza, as suas caractersticas.
O critrio bsico para diferenciar uma populao de uma amostra a seguinte questo:
usarei minhas anlises para extrapolar/generalizar os resultados para um universo maior, ou para
o futuro?. Se a resposta for sim, os dados representam uma amostra, se no, representam
uma populao. O nmero finito dos elementos da amostra ser simbolizado pela letra minscula
n.
O processo de coleta de uma ou mais amostras de uma populao conhecido como
amostragem. Como ser visto ao longo do texto, existem maneiras adequadas de se proceder a
amostragem, de modo a garantir que as amostras guardem caractersticas mais prximas
possveis da populao, o que chamado de representatividade.
Conceito 1.7. Inferncia Estatstica. Processo de se tirar concluses ou tomar decises acerca da
populao com base em uma amostra dessa populao.
Conceito 1.8. Varivel. Caracterstica pela qual deseja-se que a populao seja descrita, ou pela
qual decises acerca da populao so tomadas.
Conceito 1.9. Dado. Observao ou realizao referente a uma varivel. Pode estar contido em um
censo ou em uma amostra.
Uma classificao possvel quanto natureza das variveis est apresentada abaixo.
As variveis qualitativas (tambm denominadas categricas) correspondem a atributos,
categorias, e so oriundas da operao de classificao. Elas so nominais quando no so
passveis de ordenao, como, por exemplo, a cultura predominante em propriedades de uma
regio. As realizaes dessa varivel qualitativa nominal podem ser: milho, cana, soja, etc.
Quando os atributos so passveis de ordenao, a varivel qualitativa dita ordinal; por
exemplo, esse o caso quando usam notas para avaliar uma caracterstica. Por exemplo, em um
laboratrio de cultura de tecidos, esse critrio por vezes utilizado para classificar o grau de
regenerao no processo de micropropagao.
Quanto s variveis quantitativas, estas correspondem a nmeros resultantes das
operaes de contagens ou medies, por isso tambm chamadas de numricas. Quando se trata
de contagens, como o nmero de ovos ovipositados por um inseto, a varivel dita discreta, sendo
possvel a separao em classes distintas (no h realizao intermediria entre 2 e 3 ovos, por
exemplo) normalmente associadas aos nmeros internos. Outros exemplos so: nmero de folhas
atacadas por certa praga; nmero de brotos germinados por tubrculo de batata, etc.
Nas variveis quantitativas contnuas, as realizaes resultam de medio, uma
mensurao, como a altura de ps de algodo ou o peso de novilhas, no havendo assim classes
distintas, mas antes um intervalo de nmeros reais possveis, s limitados pela preciso dos
aparelhos de medida empregados (balana, paqumetro, etc). Alguns autores ainda subdividem as
variveis quantitativas contnuas em graduadas e proporcionais.
As graduadas (ou de razo) so aquelas onde intervalos so definidos (como em toda
varivel quantitativa), mas o ponto de referncia arbitrrio. Por exemplo, considere a escala
Celsius de temperatura. Suponha que um pesquisador descubra que uma tcnica bioqumica
0
mais eficiente a 15 C do que a 10 C. Nestes casos, deve-se tomar cuidado em afirmar que,
aumentando a quantidade de calor em 50%, a eficincia da tcnica aumentou, porque o ponto de
0
contador, para indicar que trata-se da 1 observao, da 2 e assim por diante. Por exemplo, o
a
smbolo x1 representa a 1 observao do conjunto de dados (seja ele um censo ou uma amostra),
referente varivel quantitativa X.
Como tambm muito comum o interesse no clculo de somas, somas de termos ao
quadrado, clculo de mdias, entre outras, ento usual representar somas por um operador
chamado somatrio, que representado pela letra grega sigma maiscula . Assim, por
exemplo, a soma:
x1 + x2 + x3 + x4 ,
representada em notao de somatrio da seguinte forma:
x
i =1
i ,
ou seja, corresponde soma dos termos xi, onde o ndice i varia de 1 a 4. Esse operador
tambm uma taquigrafia matemtica.
Em funo de sua prpria definio, o operador somatrio possui algumas regras, dadas a
seguir:
1) Se k constante, ento:
n
= k + k + ... + k = n k .
i =1
i =1
i =1
3) O somatrio de uma soma de variveis igual soma dos somatrios de cada varivel:
n
(x i
i =1
+ y i + zi ) =
i =1
xi +
i =1
yi +
i =1
4)
(a + bx ) = a + bx
i
i =1
i =1
= n.a + b.
i =1
i =1
a. y 1 + y 2 + ... + y 15 =
b. x 12 + x 22 + ... + x n2 =
yi
i =1
c.
x i2
i=1
30
30
z 1 + z 3 + z 5 + ... + z 59 =
z i2i1
i=1
12
log x i
i=1
e. ( x 1 - 1 ) + ( x 2 - 2 2 ) 2 + ( x 3 - 3 3 ) 3 + ... + ( x nn - n n ) n =
( x ii ii )i
i =1
2. Sabendo que:
4
x i = 16
i=1
x i2 = 84
x i3
i=1
= 496
i=1
y i = 20
i=1
i=1
i=1
i=1
b)
(3 xi 15 )3 =
i =1
(27 x
3
i
i =1
i =1
2
i
i =1
27
x
i =1
i =1
3
i
405
x
i =1
i =1
2
i
+ 2025
x
i =1
4(3375 ) =
x i y i = 100
i=1
a)
b)
i =1
6
e)
z i x i2
c)
i=1
xi yi
d)
i =1
xi x
i=1
( x i x )2
i=1
x 1 + x 2 + ... + x n
b)
( x 1 + x 2 + ... + x n ) 2
c)
x 1 + x 2 + ... + x 7
d)
x 12 + x 22 + ... + x n2
a)
xi
i =1
b)
x i2
c)
i=1
2
d) ( x i )
i=1
e) b =
x y
i
xi
i =1
n
i =1
yi
i =1
n
n
x i2
xi
i =1
i =1
n
xi yi
i =1
a = y bx
UNIDADE 2
ESTATSTICA DESCRITIVA
2.1. INTRODUO
Neste captulo sero abordados os conceitos elementares para a descrio de um conjunto
de dados, objetivando a retirada de informaes que sejam pertinentes, interessantes, e teis.
Duas situaes devem ser ressaltadas: uma, onde os dados provm de observaes de uma
populao finita, a qual toda ela conhecida, sendo, assim, elementos de um censo, e outra,
quando os dados originam-se de uma amostra, recurso utilizado quando impossvel ou invivel
observar todos os elementos individuais da populao. O conjunto de conceitos e mtodos
estatsticos que operam sobre estes dois tipos de situao, populaes finitas e amostras,
denominado Estatstica descritiva.
Leite
Leite
Milho
Caf
Milho
Soja
Leite
Leite
Caf
Milho
Caf
Olericultura
Leite
Caf
Laranja
Caf
Milho
Caf
Caf
atividade no municpio.
Conceito 2.1. Frequncia (de ocorrncia). Medida que quantifica, contando, a ocorrncia dos
valores de uma varivel em um dado conjunto de dados.
A frequncia associada a uma varivel X pode ser classificada em trs tipos, conforme a
Figura 2.1:
Absoluta (fa)
Frequncia
Relativa (fr)
Percentual (fp)
8
= 0,40 ;
20
Conceito 2.2. Distribuio de Frequncia. Consiste em uma funo que associa os valores que
uma varivel assume com suas frequncias de ocorrncia, podendo ser elas absolutas, relativas
ou percentuais.
Frequncia absoluta
Caf
Milho
Leite
Olericultura
Soja
Laranja
Total
20
Essa representao tabular poderia ter seu aspecto melhorado pela criao de uma nova
categoria, por exemplo, denominada Outras, que incluiria aquelas classes de menor frequncia, a
saber, Olericultura, Soja e Laranja. Opes como estas so fortemente dependentes dos objetivos
e do bom senso do pesquisador. A nova representao da distribuio de frequncia seria como a
da Tabela 2.3.
Outra observao pertinente a seguinte: nesse exemplo, a varivel qualitativa nominal,
e, portanto, sem ordenao natural. Um critrio sensato de ordenao, que facilita a interpretao
dos dados, a de disp-las de maneira que as frequncias correspondentes estejam ordenadas,
como observado na Tabela 2.3. Alm disso, a classe Outras, quando presente, deve
preferencialmente vir em ltimo lugar, mesmo que sua frequncia seja maior. Outrossim, quando a
varivel for qualitativa ordinal como, por exemplo, o conjunto de notas:
{timo, bom, regular, ruim}
ento, a distribuio de frequncia deve ser disposta respeitando-se a ordem das categorias da
varivel, crescente ou decrescente, mesmo que no seja obedecida a ordem de magnitude das
frequncias.
Frequncia absoluta
Caf
Leite
Milho
Outras
Total
20
Baixo
Mdio
Alto
Totais
Caf
Leite
Milho
Olericultura
Soja
Laranja
Totais
20
Traos horizontais para separar linhas so bastante utilizados. Quanto aos traos verticais, h a
tendncia no meio cientfico de serem evitados, quando no houver prejuzo na qualidade de
apresentao.
Dependendo do contexto, alguns componentes podem estar ausentes. Nota-se que a
Tabela 2.1 de natureza bastante simplificada, no tendo cabealho, coluna indicadora, linha de
totais ou rodap. Pode-se dizer que o ttulo e o corpo so os componentes mnimos de uma tabela.
Conceito 2.3. Grfico. Diagrama ou figura para ilustrao de fenmenos ou tendncias, no qual
existem escalas definidas.
0,5
0,4
0,3
0,2
0,1
0
Caf
Leite
Milho
Outras
0,5
0,4
0,3
0,2
0,1
0
Caf
Leite
Milho
Outras
Figura 2.4. Grfico de barras verticais representando a distribuio de frequncia relativa referente
atividade agropecuria predominante em propriedades de um municpio fictcio.
importante salientar que, na disposio grfica de variveis qualitativas, devem ser padronizadas
as distncias entre as categorias, bem como a largura das colunas, para que no cause falsas
impresses, em razo da escala desigual. Uma outra opo para o grfico de barras que estas
podem ainda ser horizontais (Figura 2.5). Outros recursos que algumas vezes so empregados em
grficos de barras so a moldura e os traos. Estes ltimos, em geral, so apenas traados
paralelamente ao eixo x, para facilitar a visualizao dos valores referentes s frequncias (Figura
2.6).
O setorgrama (tambm chamado de grfico circular, grfico de setores ou grfico de pizza)
consiste na figura de um crculo, cujos setores correspondem a categorias da varivel em questo,
possuindo reas proporcionais s frequncias relativas ou porcentuais. Para a construo de um
setorgrama, basta obter o ngulo referente ao setor de uma dada categoria, pelo uso de uma regra
de trs. Por exemplo, para a atividade agropecuria Caf, do exemplo anterior, tem-se, para as
frequncias porcentuais:
100%
360
40%
E assim, x = 144 . Os setores correspondentes podem ser ento traados. Hoje em dia, so
disponveis muitos softwares que constroem esse tipo de representao grfica, e outros.
Caf
Leite
Milho
Outras
0
0,1
0,2
0,3
0,4
0,5
0,5
0,4
0,3
0,2
0,1
0
Caf
Leite
Milho
Outras
Figura 2.6. Grfico de barras verticais representando a distribuio de frequncia relativa referente
atividade agropecuria predominante em propriedades de um municpio fictcio, contendo
moldura e traos.
O setorgrama referente ao exemplo das atividades agropecurias est apresentado na Figura 2.7.
Leite
25,0%
Outras
15,0%
Milho
20,0%
Figura 2.7. Setorgrama representando a distribuio de frequncia relativa referente atividade
agropecuria predominante em propriedades de um municpio fictcio.
Fonte: dados fictcios, apenas para efeito didtico.
Tabela 2.5. Frequncia de plantas de caf em relao ao grau de infestao de bicho mineiro em
amostragem em uma cultura de caf. Lavras, 2005.
Nmero de folhas
Frequncia
lesionadas
absoluta (plantas)
0
3
1
8
2
15
3
22
4
21
5
16
6
4
7
0
8
2
9
0
10 ou mais
0
Total
91
Fonte: levantamento amostral in loco na lavoura.
Frequncia
percentual (%)
3,30
8,79
16,48
24,18
23,08
17,58
4,40
0,00
2,20
0,00
0,00
100,00
25
20
15
10
5
0
0
10
Figura 2.8. Grfico de barras verticais representando a frequncia porcentual de plantas de caf
em relao ao grau de infestao de bicho mineiro, em amostragem na cultura do caf. Lavras,
2005.
Fonte: levantamento amostral in loco na lavoura.
25,8
23,6
18,6
20,7
22,4
22,4
21,4
19,2
18,2
21,2
20,0
17,8
17,5
19,7
23,7
15,3
13,6
20,7
17,0
15,7
15,1
13,8
11,1
14,7
17,6
16,2
13,4
13,2
14,1
13,1
20,1
19,8
16,8
12,0
11,9
15,0
14,1
14,4
6,9
26,6
24,6
22,2
22,8
24,0
30,6
33,0
23,0
20,9
19,5
21,2
20,4
23,3
27,1
21,6
20,4
25,5
19,6
26,2
21,6
14,3
17,9
15,4
12,6
13,2
13,3
12,8
10,4
11,5
10,3
10,6
14,1
13,8
27,5
25,4
26,6
28,5
25,9
25,2
26,3
24,7
24,1
23,3
22,7
19,0
22,8
22,3
23,7
21,0
19,3
21,2
19,7
16,7
19,3
18,9
19,7
22,6
25,2
30,4
22,6
15,3
17,9
21,6
21,0
25,1
21,3
26,2
23,8
24,6
27,3
18,9
18,8
14,6
14,1
21,0
23,7
17,3
24,4
17,3
18,6
19,9
19,5
15,3
20,8
18,9
20,3
18,0
16,9
20,5
19,7
12,8
21,1
21,0
22,7
15 ,0
15,1
13,3
17,7
14,1
6,7
14,5
19,3
15,8
16,7
9,7
14,1
19,5
14,3
17,0
27,5
19 ,0
22,9
18,0
16,7
18,5
12,9
18,2
14,3
18,6
17,2
18,6
16,4
18,8
12,6
13,7
10,7
17,5
16,2
15,1
13,9
11,8
17,8
17,0
15,7
15,3
22,4
14,1
20,4
19,6
20,1
26,6
33,0
20,0
22,2
20,4
25,8
17,7
15,0
19,2
12,7
22,7
19,0
13,5
15,4
14,5
18,5
21,0
32,7
21,8
23,6
16,8
Conceito 2.4. Amplitude ou amplitude total. Corresponde diferena entre o maior valor e o
menor valor de um conjunto de dados. Em geral, simbolizada por A.
Conceito 2.5. Amplitude de Classe. Consiste na diferena entre o limite superior e o limite inferior
de uma classe em uma distribuio de frequncia. Ser aqui simbolizada por c.
13,6
15,1
17,5
19,0
20,4
22,4
24,7
6,9
13,7
15,3
17,5
19,0
20,4
22,4
24,7
9,7
13,8
15,3
17,6
19,2
20,5
22,4
25,1
10,3
13,8
15,3
17,7
19,2
20,7
22,6
25,2
10,4
13,9
15,3
17,7
19,3
20,7
22,6
25,2
10,6
14,1
15,4
17,8
19,3
20,8
22,7
25,4
10,7
14,1
15,4
17,8
19,3
20,9
22,7
25,5
11,1
14,1
15,7
17,9
19,5
21,0
22,7
25,8
11,5
14,1
15,7
17,9
19,5
21,0
22,8
25,8
11,8
14,1
15,8
18,0
19,5
21,0
22,8
25,9
11,9
14,1
16,2
18,0
19,6
21,0
22,9
26,2
12,0
14,1
16,2
18,2
19,6
21,0
23,0
26,2
12,6
14,3
16,4
18,2
19,7
21,1
23,3
26,3
12,6
14,3
16,7
18,5
19,7
21,2
23,3
26,6
12,7
14,3
16,7
18,5
19,7
21,2
23,6
26,6
12,8
14,4
16,7
18,6
19,7
21,2
23,6
26,6
12,8
14,5
16,8
18,6
19,8
21,3
23,7
27,1
12,9
14,5
16,8
18,6
19,9
21,4
23,7
27,3
13,1
14,6
16,9
18,6
20,0
21,6
23,7
27,5
13,2
14,7
17,0
18,8
20,0
21,6
23,8
27,5
13,2
15,0
17,0
18,8
20,1
21,6
24,0
28,5
13,3
15,0
17,0
18,9
20,1
21,8
24,1
30,4
13,3
15,0
17,2
18,9
20,3
22,2
24,4
30,6
13,4
15,1
17,3
18,9
20,4
22,2
24,6
32,7
13,5
15,1
17,3
19,0
20,4
22,3
24,6
33,0
33,0
2.3 3 . 6 .s
1
c=
1
3
3,49s
3
Nota. No critrio de Scott, s o desvio-padro da amostra, o qual ser explicado mais adiante.
Para a massa de dados da Tabela 2.8, s = 3,94 kg, portanto, c = 3,73 kg. O nmero de classes k
ser dado por
k = A / c = (33,0 6,7)/3,73 = 7,05, isto , aproximadamente 7 classes.
iv) Critrio prtico. Escolhe-se o nmero k de classes segundo a Tabela 2.6 abaixo (esta tabela
constitui-se numa fuso prtica dos critrios (ii) e (iii) acima):
Arredondamento de 5 log10 n
Passo 3. Se k foi calculado anteriormente (quando se usa ou o critrio (i) ou (ii) ou (iv)), ento
calcula-se a amplitude de classe c, por meio de:
c=
A
k 1
c
2
Observe que a subtrao de c/2 do Passo 4, junto com o divisor k -1 do Passo 3, fazem com que
os limites de classe extremos (LI1 e LSk) fiquem menor e maior, respectivamente, do que o mnimo
e o mximo dos dados, ou seja, a distribuio fica mais espichada. A razo disto a de que
existe uma grande chance de no se ter coletado valores extremos e pouco freqentes, presentes
na populao, fazendo com que a amplitude total A provavelmente tenha sido subestimada. Os
passos 3 e 4 buscam corrigir esta subestimao. Quando os valores calculados de LI1 ou LSk forem
incompatveis com a varivel estudada, pode-se ajustar tais valores. Uma ocorrncia freqente ,
por exemplo, o clculo de LI1 entregar um valor negativo, num cenrio em que a varivel no pode
assumir valores negativos: neste caso, pode-se levar o valor de LI1 para zero.
a
Nmero de residncias
5
7
22
11
6
6
3
60
Um exemplo em que foi necessrio alterar a amplitude das classes por causa de
valores discrepantes est na Tabela B: na implantao de um Sistema de Gesto
Ambiental (SGA) no modelo ISO 14.001 numa Pequena Central Hidreltrica (PCH) a
varivel X: Volume de solo nas encostas marginais erodidos pela ocorrncia de
processos erosivos foi avaliada em vrios pontos nas encostas do lago. Os dados
obtidos mostraram valores baixos para X, mas alguns poucos pontos tiveram valores
muito altos para X (estes so dados discrepantes). Estes outliers acarretaram a
juno de vrias classes, conforme mostra a distribuio de freqncias abaixo.
Nmero de ocorrncias
2.419
759
356
27
0
3.561
Um exemplo que mostra como a alterao da amplitude das classes afeta o histograma
dado abaixo na Figura A:
dfr(x)
0,0100
0,0075
0,0050
0,0025
x
50
100
150
200
250
300
350
400
Figura A. Histograma das reas de 1.412 propriedades agropecurias localizadas na regio Sul do estado de
Minas Gerais, 2006.
Fonte: dados simulados.
Passo 6. Construdas as classes, so contados quantos dados esto contidos em cada classe
(frequncias absolutas de cada classe).
Passo 7. Opcionalmente, so calculadas as frequncias relativas e/ou percentuais de cada classe.
Passo 8. Para a construo de um histograma, que o grfico (ou representao grfica) de uma
distribuio de freqncias de varivel numrica contnua, necessria calcular uma quantidade
denominada densidade de freqncia, definida como:
c = 2,9 kg.
2,9
= 5,25.
2
A representao tabular dessa distribuio de frequncia est apresentada na Tabela 2.9. Para a
elaborao de grficos referentes distribuio de frequncia, necessrio o clculo da densidade
de frequncia de cada classe, j dada como:
densidade de frequncia = frequncia da classe / amplitude da classe
Por essa definio de densidade, pode-se definir trs tipos de densidade, sendo elas referentes
frequncia absoluta, relativa ou percentual. A densidade de frequncia absoluta, por exemplo,
simbolizada por dfa, e dada por:
dfa(x) =
fa (x )
c
E assim, analogamente:
dfr(x) =
fr (x )
c
dfp(x) =
fp (x )
c
fa
fr
fp
(5,25 ; 8,15]
0,0100
1,00
(8,15 ; 11,05]
0,0249
2,49
(11,05 ; 13,95]
23
0,1144
11,44
(13,95 ; 16,85]
38
0,1891
18,91
(16,85 ; 19,75]
48
0,2388
23,88
(19,75 ; 22,65]
37
0,1841
18,41
(22,65 ; 25,55]
29
0,1443
14,43
(25,55 ; 28,45]
13
0,0646
6,46
(28,45 ; 31,35]
0,0149
1,49
(31,35 ; 34,25]
0,0149
1,49
201
1,0000
100,00
Totais
A densidade de frequncia permite que se obtenham valores para frequncias a partir do clculo
de reas nos grficos. Esse aspecto torna-se importante em casos onde existem classes com
amplitudes desiguais. As densidades de frequncia relativa para o exemplo do rebanho de gado
leiteiro esto apresentadas na Tabela 2.10.
Com o conceito de densidade de frequncia, pode-se agora apresentar a principal
representao grfica de distribuio de frequncia de variveis contnuas, o histograma. O
histograma semelhante ao grfico de barras verticais, utilizado para variveis categricas, com a
diferena de que as barras so dispostas lado a lado, porque suas extremidades so
correspondentes aos limites das classes (Figura 2.9). No eixo vertical, se as classes possuem a
mesma amplitude, podem ser dispostas tanto as frequncias como as densidades de frequncia.
Quando as classes possuem amplitudes diferentes, estas ltimas devem ser utilizadas. De um
modo geral, quando um rigor cientfico desejado, deve-se sempre dar preferncia s densidades
de frequncia, pois, dessa forma, frequncias sempre podero ser calculadas a partir das reas do
histograma, independentemente da amplitude de classe utilizada.
Por exemplo, suponha que se queira determinar a frequncia relativa de animais que
a
produzem entre 19,75 e 22,0 kg de leite. A frequncia relativa da 5 classe (produo entre 19,75 e
22,65) igual a 0,1841 (Tabela 2.11). A frequncia relativa entre 19,75 e 22,0 consiste na rea de
fr
dfr
(5,25 ; 8,15]
0,0100
0,0034
(8,15 ; 11,05]
0,0249
0,0086
(11,05 ; 13,95]
0,1144
0,0395
(13,95 ; 16,85]
0,1891
0,0652
(16,85 ; 19,75]
0,2388
0,0823
(19,75 ; 22,65]
0,1841
0,0635
(22,65 ; 25,55]
0,1443
0,0498
(25,55 ; 28,45]
0,0646
0,0223
(28,45 ; 31,35]
0,0149
0,0051
(31,35 ; 34,25]
0,0149
0,0051
Totais
1,0000
dfr
0,0800
0,0600
0,0400
0,0200
0,0000
5,25
8,15
Produ o de leite
Figura 2.9. Histograma da distribuio de frequncia relativa, referente produo de leite em
rebanho pertencente a fazenda Itirapuan, Sul de Minas Gerais, 2005.
Fonte: levantamento realizado no escritrio da fazenda.
uma nova barra, mais estreita que aquela correspondente 5 classe. Essa nova barra tem altura
a
Conceito 2.7. Medida de Posio. Grandeza numrica que descreve um conjunto de dados, pela
indicao da posio do conjunto na escala de valores possveis que a varivel em questo pode
assumir.
Mdia
A mdia aritmtica (ou simplesmente mdia) amostral, calculada a partir de uma amostra,
e referente caracterstica (varivel) X, simbolizada por x e definida como:
n
x
x =
i =1
1 n
xi
n i =1
x=
fr .x
i =1
xi
Produo (kg)
fri
dfri
(5,25 ; 8,15]
6,70
0,0100
0,0034
(8,15 ; 11,05]
9,60
0,0249
0,0086
0,1144
0,0395
0,1891
0,0652
0,2388
0,0823
0,1841
0,0635
0,1443
0,0498
0,0646
0,0223
0,0149
0,0051
0,0149
0,0051
Totais
1,0000
6,70
0,0100
9,60
12,50
0,0249
0,1144
15,40
0,1891
18,30
21,20
0,2388
0,1841
24,10
0,1443
27,00
29,90
0,0646
0,0149
32,80
0,0149
0,0670
0,2390
1,4300
2,9121
4,3700
3,9029
3,4776
1,7442
0,4455
0,4887
[x - x ] = d
n
i =1
i =1
=0
iv) A mdia minimiza a soma dos quadrados dos desvios. Ou seja, a quantidade
[x
n
-x ,
i =1
seria aumentada (ficaria maior) se colocssemos no lugar de x qualquer outro valor que no seja
x.
x2
x3
x4
x5
48
x = 14,0
Note que o valor da mdia, 14,0, influenciada pelo valor extremo 48, no corresponde a uma
medida de posio conveniente, uma vez que a maioria das observaes possuem valores abaixo
~
de 10. A mediana x desses dados corresponde ao valor 6, pois a observao, nos dados
ordenados, que possui um igual nmero de observaes abaixo e acima dela, ou seja, 2 dados (3
e 5) so menores do que 6 e 2 dados (8 e 48) so maiores do que 6. Podemos considerar que 6,0
representaria os dados melhor do que 14,0, no sentido de no ser to sensvel a valores
discrepantes.
Quando o nmero de observaes n par, a mediana definida como a mdia aritmtica
dos dois valores centrais. Por exemplo, se no mesmo conjunto de dados eliminssemos a ltima
observao, a nova mediana seria dada por:
5+6
x~ =
= 5,5.
2
, se n mpar
x n +1
2
x~ = x
+ x n
n
+1
2
2
, se n par
2
Nota. x(i) o i-simo valor da massa de dados em ordem crescente.
~
Observe que, se n par, a mediana x um valor que pode no aparecer na massa de dados.
~
Para a produo de leite apresentada na tabela 2.9, com n = 201 dados, n mpar e x = x(101) =
19,0 kg leite/dia pela frmula acima, um valor que aparece na massa de dados. Para os dados da
durao das lmpadas (tabela abaixo)
714,1
715,1
716,7
718,2
719,8
720,5
721,8
723,0
724,6
712,8
714,3
715,3
717,3
718,5
719,9
720,8
722,2
723,6
725,1
713,8
714,4
715,7
717,5
718,6
720,1
721,0
722,4
723,6
725,2
713,9
714,6
715,7
717,7
718,8
720,4
721,2
722,7
723,7
725,9
714,1
715,0
716,2
717,8
719,0
720,4
721,6
722,8
723,8
728,5
x~ =
717,8 + 718,2
= 718,0 horas
2
observaes (Tabela 2.9), a partir da 68 observao. A diferena entre 100,5 e 68 igual a 32,5 ,
e assim:
48
2,9
32,5
x = 1,96
onde LiMd o limite inferior da classe que contem a mediana, isto , a classe que acumula o dado
da posio n/2 em ordem cescente.
Esse raciocnio pode ser posto na forma de uma frmula, a saber:
x = LI Md
onde:
n
FMd
+2
c Md ,
f Md
x = LI Md +
0,5 FrMd
c Md ;
frMd
onde:
~
- a mnima se a = x
i =1
Moda
A moda tambm foi idealizada visando descrever melhor aqueles conjuntos de dados com
distribuio assimtrica. Ela busca apresentar como medida de posio dos dados o valor tpico de
ocorrncia, isto , por definio a moda o valor mais frequente na massa de dados. Seu smbolo
x * e no temos uma frmula matemtica para defini-la. Sua definio simplesmente :
x2
x3
x4
x5
a moda x * corresponde ao valor 2, que o mais frequente, isto , a moda calculada como
sendo 2, pois o valor 2 para X ocorre com frequncia absoluta 2, maior do que todos os outros
valores. Logo:
x * = 2.
Para os dados da produo leiteira do rebanho de n = 201 vacas:
x * = 14,1 kg leite/dia,
Observe que o valor 14,1 ocorreu 7 vezes, isto , frequncia absoluta de ocorrncia igual 7, maior
que a frequncia de ocorrncia de todos os demais valores. Porm, imediata a observao da
inconvenincia de seu uso dessa maneira para o caso de variveis contnuas, onde, na maioria
das vezes, praticamente nula a chance de se encontrar valores exatamente iguais que se
repitam vrias vezes. Esta caracterstica de probabilidades infinitesimais para variveis contnuas
leva alguns autores a declarar que massa de dados brutos de variveis contnuas no tem moda,
porm, a rigor, mesmo tais massas de dados podem ter moda, e sua definio como estamos
dando aqui.
Para contornar este imbrglio, convm-nos ento, para variveis contnuas, estimar a
moda como o valor que possui a maior densidade de frequncia na distribuio de frequncias,
obtida a partir do agrupamento dos dados. Para tanto, procede-se a construo de uma tabela de
distribuio de freqncia para os dados, buscando-se, ento, em tal distribuio, o valor de maior
densidade de freqncia. Mais de um mtodo poderia ser utilizado para este clculo. Aqui
apresentarmos dois mtodos:
(i) Mtodo do ponto mdio da classe de maior densidade de frequencia.
Neste mtodo, considera-se a moda como sendo o ponto mdio da classe de maior densidade
de freqncia, isto , o ponto mdio do retngulo de maior altura do histograma.
(ii) Mtodo de Czuber.
Este mtodo deriva-se de um raciocnio geomtrico, que baseia-se no fato de que as classes
imediatamente anterior e posterior influenciam o comportamento modal. A moda obtida pela
x * = LI Mo +
onde
1
c Mo
1 + 2
Figura 2.10. Posicionamento da mdia, mediana e moda em uma distribuio assimtrica direita.
Mo abreviatura de moda, Md de mediana, e Me de mdia.
Conceito 2.8. Medida de Disperso. Grandeza numrica que descreve um conjunto de dados,
pela quantificao da variabilidade ou heterogeneidade neles presente.
Tabela 2.11. Estrutura fundiria como rea (varivel X) em 3 regies agrcolas (medidas em ha).
i
Regio A
Regio B
Regio C
100
80
10
100
90
50
100
100
100
100
100
100
100
100
100
100
110
150
100
120
190
100
100
100
x~
100
100
100
x*
100
100
100
Nmero de animais
Min
Max
16
13,2
26,6
13,4
32
9,7
26,6
16,9
64
9,7
30,4
20,7
128
5,3
30,4
25,1
Conjunto A
15
15
15
40
Conjunto B
10
20
30
40
Tais conjuntos possuem a mesma amplitude, 35, mas apresentam claramente diferentes
magnitudes de variabilidade, sendo esta magnitude inferior no conjunto A, pois este ter maior
uniformidade. Para resolver esse problema, foram concebidas duas medidas a partir de todas as
observaes: a varincia e o desvio padro. So estas que estudaremos a seguir.
di
i =1
x
i =1
Apesar desta medida ser uma possvel medida de variabilidade, ela no tem boas propriedades
nem estatsticas e nem matemticas. Por causa disso, razes estatsticas levam considerar o
quadrado das diferenas (e no o mdulo), e a diviso da soma dos quadrados dos desvios por n1 e no por n, definindo ento a medida de variabilidade denominada varincia:
n
(x
2
s =
x)
i =1
n 1
(x1 x )2 + (x 2 x )2 + ...(x n x )2
n 1
(x
s=
x)
i =1
s2 =
n 1
O denominador (n - 1) chamado de graus de liberdade. Para a amostra da Tabela 2.9, s=3,94 kg,
e s2 = 15,5442 kg2. Apesar do divisor n-1, a varincia tambm pode ser denominada de quadrado
mdio, visto ser uma espcie de mdia dos desvios ao quadrado. Algumas vezes autores de
textos sobre Estatstica usam outra frmula para a varincia amostral, a saber,
(x
2
s =
i =1
x)
s=
s2 =
(x
i =1
x)
porm, devemos salientar que estas frmulas levam a uma subestimao (isto , apresenta um
vis) do valor real da variabilidade da varivel em estudo, devendo serem, portanto, evitadas. As
frmulas com divisor n-1 devem ser a utilizadas, pois permitem uma estimao exata (isto , no
viesada) da variabilidade da varivel de interesse.
Conjunto A
15
15
15
40
Conjunto B
10
20
30
40
Observao
xi
di
di
-16
256
10
-11
121
20
-1
30
81
40
19
361
105 =>
820
Total
=> x =21,00
E assim:
x = 105 / 5 = 21,00
s = 820 / 4 = 205,0000
s = 14,32
1
(5,3 19,04 )2 + (6,9 19,04 )2 + ... + (33,8 19,04 )2 = 24,0007
200
s =
Ns podemos nos aproveitar do fato de que a soma de quadrados de desvios pode ser
expressada em uma forma simplificada, para criarmos uma frmula alternativa para a varincia (e
desvio-padro), que mais fcil para o clculo, mesmo que parea mais complicada para
escrever, qual seja:
(x
i =1
x)
n 1
n
xi
n
2
xi i =1
n
= i =1
n 1
Demonstrao:
n
[x
i =1
2
x] =
[x
n
i =1
2
i
2 x i x + [x ]
]=
n
x
i =1
2
i
2 x x i + [x ] =
i =1
i =1
2
x
i =1
n
n
x
xi
i
n
i =1
2
= xi 2
+ n i =1
n
n
i =1
n
xi
n
i =1
2
= xi
n
i =1
2
i
x
i =1
x
i =1
+ n[x ] =
2
n
n
x
xi
i
n
i =1
2
xi 2
+ i =1
n
n
i =1
Para dados agrupados, a varincia tambm pode ser calculada da seguinte forma
facilitada:
k
s 2 x j - x .fr j
2
j=1
onde x j o ponto mdio da classe j. Essa expresso no fornece, na maioria das vezes, o
mesmo valor da expresso dada anteriormente, em razo do chamado erro de agrupamento,
2
fa (x
s2 =
( x i x )2
i =1
n 1
x)
j =1
n 1
= (x j x )
k
j =1
fa j
n 1
(x j x ) . fr j
k
j =1
Nota. A aproximao final tanto mais exata quanto maior for o valor de n, isto :
lim
fa j
n 1
= lim
n
fa j
n
= lim fr j = fr j
n
ii) Multiplicando-se uma constante k a todas as observaes, a varincia fica multiplicada por k e o
desvio padro por k.
iii) O desvio padro, em relao mdia, ao invs de em relao a outro valor qualquer, mnimo,
em razo do fato de a mdia ser o valor que torna mnima a soma de quadrados dos desvios.
Rebanho A
Rebanho B
50
470
70
490
60
460
80
480
65
475
11,18
11,18
s
100%
x
cv =
4,89
100% = 25,7%
19,04
Caf
Feijo
Caf
Soja
Soja
Caf
Milho
Feijo
Milho
Soja
Milho
Milho
Soja
Soja
Leite
Leite
Leite
Milho
Caf
Leite
a) Classifique a varivel.
Varivel qualitativa nominal, pois ela separa as diferentes culturas em categorias pelos respectivos
nomes.
b) Faa a representao tabular por meio das frequncias absoluta (fi), relativa (fri) e percentual
(fpi).
ATIVIDADES
fa
fr
fp
MILHO
0,25
25
SOJA
0,25
25
CAF
0,20
20
LEITE
0,20
20
FEIJO
0,10
10
TOTAL
20
1,00
100
42
40
45
46
48
51
50
53
58
62
73
66
73
82
89
106
100
130
150
175
231
181
252
267
268
n)
c=
A
268 40
=
= 57 ha , onde A a amplitude total, ou seja, o maior valor
k 1
5 1
LI = Min
c
57
= 40
= 11,5 ha , onde Min o menor valor observado.
2
2
fa i
fri
fp i %
(11,5;68,5]
40
11
0,44
44
(68,5;125,5]
97
0,24
24
(125,5;182,5]
154
0,16
16
(182,5;239,5]
211
0,04
(239,5;296,5]
268
0,12
12
25
1,00
100
Classes
Total
193
204
204
196
207
a) Qual foi o desvio do 2 animal em relao mdia? Explique o que ele significa.
x
x
Calculando a mdia:
x=
i=1
A mdia uma medida de tendncia central, ou seja, em torno dela se congregam valores abaixo
e acima da mesma. Assim, esse desvio negativo do 2 animal com relao mdia se deve ao fato
de que ele esta 5 kg abaixo dela.
b) Mostre que a soma dos desvios com relao mdia nula.
n
xi
15
Assim:
6
x
x=
i=1
d) Adicione 20 Kg a cada dado e encontre a mdia. Confronte o resultado com o obtido no item a.
Qual a propriedade esta envolvida?
Adicionando 20 Kg a cada dado, temos:
204
213
224
224
216
227
x
x=
i=1
x a = 198 kg
x d = 218 kg
podemos perceber que a mdia se alterou na mesma proporo que cada observao foi
aumentada. A propriedade envolvida a propriedade da soma, que diz que se somarmos a cada
observao uma constante k a mdia fica acrescida desta mesma constante k.
e) Calcule a Soma de Quadrados dos Desvios SQD em relao mdia e em relao
constante k = 196. Discuta os resultados.
Vejamos a SQD em relao mdia:
6
SQD =
(x
i=1
SQD =
(x
i=1
Comparando os dois resultados podemos perceber que a SQD em relao mdia menor que a
SQD da constante k = 196. Confirma-se assim que a SQD em relao mdia o valor que torna
mnimo o valor dos desvios.
56,8
57,2
57,5
55,4
56,0
57,9
53,5
54,3
53,8
54,7
53,3
52,6
54,0
53,5
52,8
54,2
53,6
54,1
54,5
54,5
54,5
54,5
54,5
54,5
a) Qual a amplitude total do tratamento A? Que inconveniente tem esta medida para expressar
a variabilidade de uma amostra?
Amplitude Total(AT):
AT = Mvo mvo
Assim:
s2 =
SQD
=
n 1
(x i x ) 2
i=1
n 1
c) Qual tratamento mais varivel: o B ou o C? Que medida estatstica voc usou para comparar
a variabilidade? Justifique.
Calculemos primeiro o desvio padro para o tratamento B:
6
(x
i=1
s B2 =
sB =
x)2
=
n 1
= 0,55 = 0,74 Kg
s B2
(x i x) 2
i=1
s C2 =
n 1
sC =
= 0,27 = 0,52 Kg
s C2
Como o desvio padro do tratamento B maior do que o do tratamento C, podemos afirmar que o
B apresenta maior variabilidade entre seus dados. Neste foi possvel utilizarmo-nos principalmente
do desvio padro para comparar a variabilidade entre os tratamentos, pelo fato de os dois
tratamentos possurem a mesma unidade de grandeza e a mesma mdia.
d) Calcule o desvio padro do tratamento A . Interprete.
6
(x
i=1
s 2A =
sA =
x)2
n 1
s 2A
= 0,88 = 0,94446 Kg
A variabilidade do tratamento A medido pelo desvio padro maior do que a variabilidade dos
tratamentos B e C.
e) Multiplique os dados do tratamento A por 1000 e calcule o desvio padro.
Multiplicando os dados do tratamento A por 1000 temos:
56800
57200
57500
55400
xi
x=
i =1
56000
57900
(x i x ) 2
s 2A =
sA =
i=1
n 1
s 2A
= 892000 = 944,46 Kg
Resultado item e:
s A = 0,94446 Kg
s A = 944,46 Kg
Essa diferena justifica-se por uma das propriedades do desvio padro: Multiplicando-se ou
dividindo-se cada observao por uma mesma constante k 0, o desvio padro fica multiplicado
ou dividido por esta mesma constante.
Mdia
Desvio padro
Temperatura (C)
18
2,0
Precipitao (mm)
100
15,5
2 para a precipitao: CV =
100 =
2
100 = 11,11%
18
100 =
15,5
100 = 15,5 %
100
Quanto menor o CV, mais preciso o experimento. A medida tem grande aplicao na
experimentao para avaliar a preciso dos ensaios. Nesse caso, a precipitao possui maior
variabilidade.
b) Se a temperatura fosse avaliada em F (
C F 32
=
), como ficaria a concluso do item a?
5
9
Justifique.
Para a temperatura em F: CV =
s
x
100 =
3,6
100 = 5,59 %
64,4
Assim, a concluso do item 3.1. seria que a temperatura apresentaria menor variabilidade.
45
60
39
57
32
39
40
63
37
42
42
44
30
47
39
15
39
25
39
57
48
44
37
44
38
21
56
52
50
41
37
39
28
43
39
29
45
48
46
31
34
36
38
43
24
38
41
46
42
33
30
36
23
39
35
33
35
47
39
28
31
32
49
39
19
49
39
42
43
20
58
34
56
35
50
27
36
40
37
184
185
186
187
188
189
190
190
191
192
193
193
193
194
194
195
195
195
195
195
195
195
195
195
196
197
197
198
198
199
199
200
200
200
201
201
203
203
204
204
205
205
206
206
207
207
208
210
211
Ponto Mdio
Frequncia
(182,5 ; 185,5]
(185,5 ; 188,5]
(188,5 ; 191,5]
(191,5 ; 194,5]
(194,5 ; 197,5]
(197,5 ; 200,5]
(200,5 ; 203,5]
(203,5 ; 206,5]
(206,5 ; 209,5]
(209,5 ; 212,5]
a) Calcule a mdia, a mediana e a moda para os dados brutos.
b) Repita os clculos a partir da tabela de distribuio de frequncia e compare os resultados com
os item (a). Discuta as diferenas, caso ocorram.
c) A partir das relaes entre mdia, mediana e moda, como se classifica a distribuio quanto
simetria?
5) Um pesquisador da rea de Cincia de Alimentos examinou juntamente com sua equipe um lote
de 150 caixas de bananas-ma escolhidas aleatoriamente de um carregamento de 10.000 caixas,
anotando o nmero de pencas com empedramento. Foram obtidos os seguintes resultados:
N Pencas Emp.( XI )
7ou +
N Caixas ( f i )
38
37
25
20
16
10
94,1
77,4
71,3
73,4
75,5
86,2
105,9
99,2
93,6
79,6
87,3
199,1
184,3
190,6
190,9
201,6
200,6
211,1
208,1
141,1
141,1
151,1
164,4
Insolao (horas)
Qual atributo meteorolgico mais varivel? Indique e justifique a medida estatstica utilizada na
comparao.
UNIDADE 3
CLCULO DE PROBABILIDADES
3.1. O CONCEITO DE PROBABILIDADE
princpio, poderamos definir probabilidade como o limite de uma freqncia relativa:
P[A] = lim
fa (A)
,
N
N
Conceito 3.1. Probabilidade. Frequncia relativa associada a uma varivel descritora em infinitas
repeties.
variveis
aleatrias so denotadas por letras maisculas e suas realizaes por letras minsculas.
A probabilidade de que uma varivel aleatria X assuma determinado valor denotada por
P[X = x]. As variveis aleatrias quantitativas podem ser discretas ou contnuas, sendo que para
cada qual podem ser construdos modelos matemticos no-determinsticos que expressem as
distribuies de probabilidade correspondentes.
Alm disso, sendo elas quantitativas, faz sentido falar-se em medidas de posio e
disperso. Neste captulo sero concentradas as atenes apenas na mdia, varincia e desvio
padro de uma varivel aleatria quantitativa.
P[X = xi]
1/10
2/10
5/10
1/10
1/10
P [X = x ] = 1
i
e P[X=x] > 0.
i =1
O valor mdio que uma varivel aleatria assume chamado, como j dito, alm de mdia,
tambm de esperana matemtica e de valor esperado. Para a obteno do valor mdio que uma
varivel aleatria discreta assume, ou seja, sua esperana ou valor esperado, faz-se da mesma
maneira como foi feito para o clculo da mdia para dados agrupados, substituindo fri por P[X = xi]:
E(X) = Me(X) =
x P [X = x ]
X = =
i =1
X = 0
1
2
5
1
1
+1
+2
+3
+4
= 1,9
10
10
10
10
10
Var(X) = 2x = 2 =
[x
i =1
No exemplo tem-se:
Me(x )] P [X = x i ]
2
1
2 2
2 5
2 1
2 1
= 1,09
+ (1 - 1,9)
+ (2 - 1,9)
+ (3 - 1,9)
+ (4 - 1,9)
10
10
10
10
10
Existe uma srie de distribuies de probabilidades discretas em Estatstica. Duas das mais
importantes sero vistas a seguir. A distribuio contnua mais importante a distribuio Normal,
e a estudaremos logo em seguida as discretas.
Uma distribuio de probabilidades que lida com tais situaes a chamada distribuio Binomial.
L2
L3
L4
L5
Probabilidade
(0,5)
(0,5)
(0,5)
(0,5)
(0,5)
(0,5)
(0,5)
(0,5)
(0,5)5
(0,5)
Na realidade, em vez de listar todas as possibilidades, como feito acima, pode-se calcular
diretamente o nmero total de combinaes possveis por meio de:
C5,3 =
5!
= 10
3! (5 3)!
Dessa forma, para calcular a probabilidade de nascimento de 3 machos, sem importar com
5
5 x
P[X = x] = Cn,x p q
(n-x)
Assim, uma notao comumente empregada para denotar que determinada varivel aleatria
possui distribuio binomial com parmetros p e n, :
X B (n, p)
Pode-se demonstrar que a esperana e a varincia de uma varivel aleatria que segue
uma distribuio binomial so dadas por:
Me(X) = E(X) = =
X = = np
Var(X) = 2x = 2 = npq
Ou seja, se avalissemos todas as possveis leitegadas de 5 leites de infinitas porcas teramos
um valor mdio de 5.(0,5) = 2,5 machos, com varincia entre leitegadas igual a 5.(0,5).(0,5) = 1,25
machos ao quadrado.
e x
x!
chuvas acima de 50 mm.h . Suponha que o nmero mdio de chuvas por ano com essa
intensidade seja 1,5. Ento, se o modelo de Poisson for um bom descritor, tem-se que:
e 1,5 1,5 0
= 0,2231
0!
P[X = 0] =
etc.
P[X = xi]
0,2231
0,3347
0,2510
etc.
A probabilidade de que X seja maior do que 2 pode ser obtida pelo teorema 1 de
probabilidades:
P[X > 2] = 1 - P[X 2]
pois o evento (X 2) o complemento do evento (X > 2). Como
P[X 2] = P[X = 0] + P[X = 1] + P[X = 2] = 0,8088
tem-se que:
P[X > 2] = 1 - 0,8088 = 0,1912
X =
=
2
tambm.
Assim, no exemplo das chuvas, a varincia associada ao nmero de precipitaes com intensidade
-1
-500 x 0,082
. (500 x 0,082) 1
0
f(x) =
(x a )2
exp
,
2b 2
2b 2
- < x <
sendo = 3,1416... Trata-se de um modelo que procura explicar o comportamento de uma varivel
aleatria contnua X que pode variar desde - at , sem explicar as causas desse
comportamento. Por isso que se trata de um modelo no-determinstico.
Conforme se observa, so necessrios dois parmetros para definir uma distribuio
normal, as constantes a e b. Na realidade, o primeiro corresponde mdia (ou esperana) da
varivel aleatria X, e o segundo corresponde varincia. Em outras palavras, a = e b = . Logo,
podemos escrever:
f(x) =
1
2 2
(x )2
exp
, - < x <
2 2
Para ilustrar de que maneira isso pode ser feito, considere um exemplo referente ao tempo
de vida dos aspersores da marca hipottica Agro-1000. Trata-se de uma populao infinita, pois
abrange todos os aspersores dessa marca que existiram, existem ou viro a ser fabricados um dia.
A varivel descritora o tempo de vida, expresso em horas de funcionamento at a quebra.
Suponha que essa varivel aleatria possa ter seu comportamento descrito por uma distribuio
normal, com mdia = 500h e = 2500h . Um produtor deseja saber qual a probabilidade de que
2
um aspersor tenha um tempo de vida entre 480 e 520 horas. Nesse caso, tem-se uma situao
como a da Figura 3.2.
Figura 3.2. Distribuio normal relativa ao tempo de vida dos aspersores da marca Agro-1000.
Para obter a probabilidade de que um aspersor dure entre 480 e 520 horas, necessrio
calcular a rea hachurada na Figura 3.2. O procedimento para se fazer isso corresponde ao
clculo da integral:
520
480
(x 500)2
exp
dx
250 2
250 2
sendo f(x) a funo densidade de probabilidade. No caso da curva normal, essa integral no tem
uma soluo explcita e, por causa disso, necessrio fazer uso de um procedimento alternativo,
como ser visto no prximo item.
Normal reduzida ou padronizada. Uma varivel aleatria com essa distribuio geralmente
simbolizada pela letra Z.
Uma propriedade interessante de uma varivel aleatria X que segue qualquer distribuio
normal a de que ela pode sempre ser transformada em uma varivel Z, pela expresso:
z=
= 2500
2
= 50
500
500 500
=0
50
z=
520 500
= 0,40
50
Falta agora calcular P[480 < X < 500]. No ponto X = 480, tem-se:
z=
480 500
= -0,40
50
E assim:
P[480 < X < 500] = P[0 < Z < 0,40] = 0,1554
P[480 < X < 520] = P[480 < X < 500] + P[500 < X < 520] = 0,1554 + 0,1554 = 0,3108
Figura 3.4. Trs curvas normais referentes a diferentes variveis aleatrias X1, X2 e X3, com
mesma mdia, mas com 1 > 2 > 3 (a mais alta tem 3 e a mais achatada 1 e a intermediria
2
2 ).
2
12
10
8
6
4
2
0
20
25
30
35
40
45
50
Figura 3.6. Aproximao normal a uma distribuio Binomial com parmetros n = 60 e p = 0,6.
Para calcular a probabilidade de que entre esses 60 candidatos, haver pelo menos 40
aptos ao servio, basta agora utilizar a tabela de Z, com apenas a seguinte modificao. Como se
trata de uma aproximao, alguns autores apontam que o valor de 40, por exemplo, por se tratar
de uma varivel discreta, equivale ao intervalo [39,5 ; 40,5] quando feita a correspondncia para
o caso contnuo. Dessa forma, deve-se calcular a probabilidade de X ser maior do que 39,5 , ao
invs de 40. Ou seja:
P[X 40] equivalente a P[X > 39,5] no caso contnuo.
Assim, quando X vale 39,5 , Z vale:
z=
39,5 36
= 0,92
3,79
por cm em uma lmina est para ser contado. Este nmero de bactrias uma varivel aleatria
X, que assume valores 0,1,2,3,4.... O parmetro desta Poisson a mdia de bactrias
2
encontrada em lminas semelhantes. Digamos que esta mdia estimada como sendo 27,6 / cm .
2
e 27,6
27,6 36
27,6 37
27,6 38
+ e 27,6
+ e 27,6
+ ...
36!
37!
38!
ou como
1 - P(X > 35) = 1- P(X 35) = 1- [P(X = 0) + P(X = 1) + ... +P(X = 35)] =
27,6 0
27,6 1
27,6 35
1- e 27,6
+ e 27,6
+ ... + e 27,6
= 0,9292
0!
1!
35!
A distribuio Normal pode ser usada para o clculo aproximado de uma Poisson, trazendo
1) Sabe-se que 5% de um rebanho bovino est com febre aftosa. Qual a probabilidade de que num
lote de 6 animais retirados deste rebanho, tenha-se:
Esse um caso clssico de uma Distribuio Binomial, ou seja, os resultados esto condicionados
a sucesso ou insucesso. Como p = 0,05 e q = 1 - p, portanto q = 0,95. Observe que n = 6.
Sendo:
P(X = x) = C n,x p x q n x
sendo: C n,x =
n!
x! (n x)!
P ( X = 0) =
6!
0,05 0 0,95 6 = 0,735
0!6!
Portanto, a probabilidade de no encontrar nenhum animal infectado neste lote de seis animais
de 73,5%.
b) Dois animais com febre aftosa
P ( X = 2) =
6!
0,052 0,95 4 = 0,0304
2!4!
P ( X = 1) =
6!
0,05 1 0,95 5 = 0,232
1!5!
Como j se tem a probabilidade para nenhum animal e para um animal infectado para este lote,
podemos, enfim, calcular a probabilidade para mais de um animal infectado (P(X >1)).
P ( X > 1) = P ( X = 2) + P ( X = 3) + ... + P ( X = 6)
P ( X > 1) = 1 [P ( X = 0) + P ( X = 1)] = 1 [0,735 + 0,232] = 0,033
Portanto, a probabilidade de que, neste lote de 6 animais, tenha-se mais de um animal infectado
de 3,7%.
2) Um jogador de basquete converte 90% dos lances livres. Qual a probabilidade de que este
jogador converta 4 de 6 lances livres de uma partida.
Este um outro exemplo clssico da Distribuio Binomial. Temos p = 0,9 e q = 0,1 pois p + q = 1.
Sendo n = 6 e x = 4.
P ( X = 4) =
6!
0,94 0,12 = 0,0984
4!2!
p = 0,002
50 e p 0,10
q = 0,998
x
x!
3,62
= 0,1770
2!
P ( X = 2) = e 3,6
Assim, a probabilidade de que duas pessoas apresentem reao alrgica ao soro de 17,70%.
b) No mximo quatro pessoas tenham reao alrgica?
No mximo quatro pessoas significa dizer que podem ser: nenhuma pessoa tendo reao alrgica
ou uma ou duas ou trs ou quatro pessoas apresentando a reao. Dessa forma, para encontrar a
probabilidade de no mximo quatro pessoas apresentar a reao, tem-se que calcular a
probabilidade para cada uma delas e posteriormente soma-las.
P ( X = 0) = e 3,6
3,60
= 0,0273
0!
P ( X = 1) = e 3,6
3,61
= 0,0984
1!
P ( X = 3) = e 3,6
3,6 3
= 0,2125
3!
P ( X = 4) = e 3,6
3,6 4
= 0,1912
4!
P ( X = 2) = 0,1770
Portanto:
4) Numa lmina verificou-se que existiam em mdia 3 bactrias.cm . A lmina foi subdividida em
2
300 quadrados de 1 cm .
a) Em quantos desses quadrados voc espera encontrar no mximo 1 bactria?
Este exerccio um caso onde se aplica a Distribuio de Poisson diretamente.
P ( X = 0) = e
P ( X = 1) = e
x
x!
x
x!
= 2,718 3
30
= 0,0498 = 4,98%
0!
= 2,718 3
31
= 0,1494 = 14,94%
1!
P ( X > 4) = 1 [P ( X = 0) + P ( X = 1) + P ( X = 2) + P ( X = 3) + P ( X = 4)]
Como as probabilidades para 0 e para 1 foram calculadas no item anterior, calcula-se para 2, 3 e 4.
P ( X = 2) = e
P ( X = 3) = e
P ( X = 4) = e
x
x!
x
x!
x
x!
= 2,718 3
32
= 0,224
2!
= 2,718 3
33
= 0,224
3!
= 2,718 3
34
= 0,168
4!
5) Usando a curva normal padronizada, determine as seguintes reas com representao grfica:
a) Entre 0,0 e 1,32:
Correspondendo rea de interesse a parte hachurada de azul. Assim, o valor correspondente na
tabela de z compreendido entre estes valores de 0,4066.
0,4066
d) Abaixo de 1,20.
A probabilidade ser a soma de: 0,5 + 0,3849 = 0,8849
6) Uma distribuio normal tem mdia 50 e varincia 36. Encontre as seguintes reas em %:
a) Abaixo de 43.
Calculando z:
z=
43 50
= 1,17
6
b) Acima de 46.
z=
46 50
= 0,667
6
z=
x 60 50
=
= 1,67
6
Como a distncia dos dois extremos para a mdia so iguais, a probabilidade ser:
0,4525 x 2 = 0,905.
d) Entre 55 e 65.
Temos que calcular o z para cada um destes valores:
z1 =
x 55 50
=
= 0,83
z2 =
x 65 50
=
= 2,5
7) Num povoamento florestal os dimetros altura do peito (DAP) apresentam distribuio normal
com mdia 18,2 cm e desvio padro 3,4 cm.
a) Foram cortadas 1200 rvores que tinham DAP acima de 20,0 cm. Quantas rvores existiam no
povoamento?
Considerando x > 20,0 cm
z=
x 20,0 18,2
=
= 0,53
3,4
z=
x 16,0 18,2
=
= 0,65
3,4
Ento, a probabilidade de existir rvores com DAP abaixo de 16 cm ser 0,5 0,2422 = 0,2578.
Utilizando a regra de trs:
w --------------------------
25,78%
xA
x 70
0,524 = A
x A = 72,1
4
x
x 70
Abaixo Z = C
0,524 = C
x C = 67,9
Acima
Z=
Assim, as notas acima de 72,1 tero conceito A, as notas abaixo de 72,1 e acima de 67,9 tero
conceito B, e aquelas abaixo de 67,9 tero conceito C.
2) Numa grande criao de coelhos 40% so machos. Entre 20 coelhos retirados aleatoriamente,
qual a probabilidade de:
a) Retirar 5 coelhos machos.
b) Retirar pelo menos 2 coelhos machos.
c) Retirar no mximo 2 coelhos machos.
3) Uma vacina apresenta eficincia de 99,98% na imunizao dos indivduos contra determinado
vrus. Toda a populao de uma cidade de 10000 habitantes foi vacinada. Qual a
probabilidade de que nesta cidade:
a) Uma pessoa seja infectada?
b) Pelo menos trs pessoas sejam infectadas?
c) No mnimo uma pessoa seja infectada?
5) Uma certa viga de ao tem resistncia mdia de 7.500 psi. Suponha que essa resistncia tenha
distribuio normal com desvio padro de 650 psi. Determine as probabilidades para as seguintes
capacidades de resistncia:
a) Menor que 6.900 psi.
b) Maior que 7.000 psi.
c) Maior que 10.000 psi.
6) Na populao humana sabido que 30% das pessoas apresentam algum tipo de problema de
viso. Numa classe de 40 estudantes, qual a probabilidade de encontrar:
a) 8 alunos com problemas visuais.
b) Mais de 13 alunos com problemas visuais.
c) De 11 a 15 alunos com problemas visuais.
Obs: Neste exerccio utilize a aproximao da Distribuio Binomial pela Normal.
UNIDADE 4
AMOSTRAGEM
4.1. INTRODUO
Simples (AAS)
Amostragem
aleatria
Estratificada (AAE)
Por Conglomerado (AAC)
Sistemtica (AS)
Independente da natureza da amostragem (AAS, AAE, AAC ou AS), ela pode ainda ser
com reposio ou sem reposio:
Amostragem
Sem reposio
Com reposio
N de amostras possveis = N
Por outro lado, se ela for feita sem reposio, ento o nmero de amostras possveis :
o
464
533
282
623
592
074
481
613
874
602
269
678
269
273
346
355
110
211
113
200
417
046
914
201
628
549
704
707
295
847
615
452
454
129
643
552
975
441
091
486
197
153
541
802
980
798
603
373
156
Agora, suponha que se queira coletar uma amostra de tamanho n = 5, de uma populao
com N = 10 elementos. Um procedimento de sorteio pode ser: associando um nmero que vai de 0
a 9, a todos os elementos da populao, pode-se sorte-los olhando-se o ltimo algarismo dos
nmeros da Tabela 4.1, a partir, por exemplo, do primeiro valor. Procedendo-se dessa forma, terse-ia o seguinte sorteio:
o
1 elemento da amostra:
o
2 elemento da amostra:
o
3 elemento da amostra:
o
4 nmero aleatrio = 847. Como o elemento 7 da populao j foi sorteado, passa-se para
o
1 a 34 873
873
34 a 73 386
386
73 a 126 246
246
126 a 282186
186
282 ou mais
112
112
ni =
Ni
N n
Estrato i
rea da Propriedade
(i = 1, 2, ... 5)
Nmero de
Nmero de
Propriedades (Ni)
Elementos (ni)
1 a 34
873
48
34 a 73
386
21
73 a 126
246
14
126 a 282
186
10
282 ou mais
112
1803
100
Total
N
n
Por exemplo, se em um povoamento florestal existem 10.000 rvores, das quais sero amostradas
50, ento k = 10.000 / 50 = 200. Em seguida, sorteia-se a primeira rvore dentre as 10.000.
Supondo que a 1 rvore sorteada seja a de nmero 1.080, ento somaremos e diminuiremos a
este valor a constante k=200. Assim, as rvores amostradas seriam:
80, 280, 480, 680, 880, 1080, 1280, 1480, 1680, 1880, 2080, 2280, ...., 9.880
No
entanto,
amostragem
sistemtica debve ser realizada com cuidado em situaes onde os elementos sorteados podem
guardar algum tipo de relao entre si, ou periodicidade, decorrente do fato de serem coletados
sistematicamente.
Os enfoques da inferncia estatstica mais comumente utilizados pressupem que a
amostragem seja aleatria simples, para validar, como ser visto, os mtodos de construo de
intervalos de confiana e testes de hipteses. Apesar desta exigncia, a utilizao de
procedimentos de amostragem AAE, AAC, e AS so utilizados para gerar amostrasque, na prtica,
sejam consideradas aleatrias.
x
O melhor estimador seria a mdia:
f)
x=
i =1
3) Para se obter a opinio dos brasileiros sobre a reforma agrria, entrevistaram-se 90% dos
associados de uma sociedade ruralista. Pergunta-se:
a) Qual o tipo de amostragem empregado?
Basicamente poderamos dizer que esta uma amostra no probabilstica, pois todos os
brasileiros, nesse caso, no possuem a mesma probabilidade de pertencer amostra, uma vez
que somente 90% dos associados de uma sociedade ruralista sero os entrevistados.
b) Tal procedimento de amostragem confivel? Justifique.
4) Uma empresa cafeeira do sul de Minas Gerais dispe de 3200 funcionrios distribudos nas
diversas atividades, conforme o quadro abaixo. Deseja-se sortear uma amostra de 20 empregados
desta empresa, com o objetivo de conhecer alguns de seus aspectos scioeconmicos e culturais.
A populao em estudo se distribui dentro das seguintes categorias:
Atividade
N Empregados
Campo
1600
Armazm
720
Indstria
480
Administrao
240
Gerncia
160
a) Na sua opinio, seria razovel levantar as informaes desejadas por meio de uma
amostragem aleatria simples de n = 160 funcionrios? Justifique.
Nessa situao a amostra aleatria simples no seria a mais indicada, pois ela no mostraria o
verdadeiro perfil dos empregados da empresa. O ideal seria utilizar uma amostra proporcional
estratificada.
b)
A amostra proporcional estratificada deve ser composta de forma que o nmero de empregados de
cada setor seja proporcionalmente representado na amostra. Assim, pode-se calcular essa
amostra, usando inmeros recursos matemticos, como por exemplo:
Para os empregados do campo:
3200 --------------------- 100%
1600 ------------------------ x
x=
160000
= 50%
3200
Nmero de
empregados
1600
720
480
240
160
3200
Campo
Armazm
Indstria
Administrao
Gerncia
Total
Amostra proporcional
estratificadas
80
36
24
12
8
160
153
144
27
102
125
121
61
5) Faa o sorteio de uma amostra sistemtica n = 10, para estimar o volume de madeira de um
povoamento florestal de eucalipto com 2500 rvores dispostas em 25 fileiras com 100 plantas
em cada uma delas. Apresente um croqui identificando as plantas sortedas.
N = 2500 rvores
n = 10 rvores
K=
N 2500
=
= 250 possveis amostras.
n
10
Assim, sorteamos um nmero raiz ou ponto de partida e, a partir dele, conforme nossa escolha,
dependendo da sua grandeza, adicionamos ou retiramos dele 250. Por exemplo, para este caso, o
nmero raiz sorteado no gerador de nmeros aleatrios da calculadora foi o nmero 3, assim, a
nossa amostra ser composta pelas rvores correspondentes aos nmeros:
3
253
503
753
1003
1253
1503
1753
2003
2253
Fileiras
Plantas
1 2 3 . . . . . . . . . . . . . . . . . . . . . . .50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .100
1
2
.
.
6
.
.
11
.
.
.
16
.
.
.
21
.
.
.
25
4) Um indivduo retirou trs tomates da superfcie de cada uma das caixas de tomates que
estavam no estoque de um supermercado, para caracteriz-lo quanto qualidade. Isto uma
amostra representativa? Justifique.
6)
Nmero de cooperados
0 a 20
368
21 a 50
61
51 a 100
45
101 a 500
71
501 a 1.000
17
1.001 a 3.000
Amostra
UNIDADE 5
ESTIMAO ESTATSTICA
5.1. INTRODUO
Na atividade cientfica, quando tudo que se dispe de uma parte dos elementos de uma
populao que se queira descrever (ou seja, como j definimos, uma amostra), ento a obteno
de concluses a respeito da populao estar presa inerente incompleteza da amostra,
acarretando um certo grau de incerteza nestas concluses. Lidar com esta incerteza, controlando-a
e medindo-a, a tarefa da inferncia estatstica. Convm ressaltar que, sendo assim, deve ficar
claro que s tem sentido falar-se em inferncia estatstica quando no se conhece todos os
elementos da populao. Quando temos conhecimento de toda a populao (pois um censo foi
feito), ento devemos falar em estatsticas descritivas.
A inferncia estatstica definida como sendo o processo de obteno de informaes (ou
de descries) sobre uma populao a partir de amostras. A descrio populacional pode se dar,
como tem sido largamente comentado, mediante distribuies de frequncia e por meio de
medidas descritoras, tais como mdia e desvio-padro. Estas ltimas so chamadas de
parmetros populacionais.
Conceito 5.1. Parmetro populacional. Valor que descreve uma populao, em geral
desconhecido.
Quando se dispe apenas de uma parte dos elementos da populao (uma amostra), o
mximo que se pode conseguir so valores aproximados para os parmetros desconhecidos,
conhecidos como estimativas. Assim, definem-se os conceitos a seguir.
Conceito 5.4. Estimador. Corresponde expresso algbrica que permite obter uma estimativa,
ou, a varivel aleatria que usada no processo de estimao
Exemplificando, considere que se tenha calculado uma mdia amostral x , tendo sido
encontrado o valor 3,5. Esse valor uma estimativa, ou seja, uma aproximao, para o parmetro
populacional . A expresso que permitiu obter essa estimativa:
n
X
X =
i =1
por X , como tambm por X * , respectivamente a mdia, a mediana, e a moda de uma amostra.
Qual destes trs estimadores melhor?
Nessas situaes, conveniente que haja critrios que permitam selecionar algum deles,
com base em determinadas propriedades. Em Estatstica, um procedimento geral para a gerao
de tais critrios consiste na observao do comportamento dos estimadores, caso infinitas
amostras fossem tomadas da populao. Obviamente, se diferentes amostras so coletadas da
Deve ser notado que o conjunto de infinitas amostras tomadas de uma populao em si mesmo
uma populao infinita, e assim a distribuio de frequncia de X (ou seja, sua distribuio de
amostragem) corresponde a um modelo probabilstico, ou seja, uma distribuio de probabilidade.
Dentre as vrias propriedades desejadas para um estimador, isto , dentre as vrias
propriedades que uma distribuio de amostragem pode ter, sero vistas aqui apenas duas: a notendenciosidade e a preciso.
5.3. NO-TENDENCIOSIDADE
Para a compreenso dessa propriedade, suponha um parmetro qualquer . Este pode
ser a mdia da populao, a varincia , o desvio-padro , a proporo p, entre outros. Um
2
()
E =
Um estimador no-tendencioso tambm chamado de no-viciado, no-viesado. Todas estas
nomenclaturas so equivalentes.
Este aspecto est ilustrado na Figura 5.2, que apresenta a distribuio de amostragem de
dois estimadores 1 e 2 , que estimam o mesmo parmetro .
Outra vez como exemplo, podemos verificar que tanto X , quanto X e X * so no-tendenciosos
para , isto ,
E ( X ) = , E ( X ) = , E ( X* ) = .
Ento, como escolher entre eles? Por causa disto, necessrio usar outro critrio, o critrio de
preciso, que ser estudado seguir.
5.4. PRECISO
Para ilustrar esse conceito, considere ainda mais uma vez um estimador qualquer
. Se infinitas amostras forem coletadas, seu valor vai variar de amostra para amostra, ou seja,
esse conjunto de valores do estimador apresentar uma certa varincia, dada por
()
Var = s q2 .
Essa varincia nos fala sobre o conceito de preciso. Esse conceito um conceito relativo, pois, se
a varincia de um estimador 1 menor que a de um outro estimador 2 , ento 1 mais preciso
que 2 , isto , sempre precisamos de pelo menos dois estimadores para dizer qual mais preciso
do que qual. A Figura 5.3 ilustra esse aspecto. Trata-se de dois estimadores no-tendenciosos,
mas 1 deve ser preferido, por ser mais preciso. Observe que poderamos, se quisssemos, definir
preciso como
s q2
< s q2 .
2
prtica,
claro,
retiramos
apenas
uma
amostra
de
tamanho
n,
e,
Estimador no-tendencioso,
pouco preciso
Estimador no-tendencioso,
mdio preciso
Estimador no-tendencioso,
muito preciso
Estimador tendencioso,
pouco preciso
Estimador tendencioso,
mdio preciso
Podemos ajuntar essas duas questes em uma s questo: qual a probabilidade de que
o erro absoluto de estimao | - | seja menor ou igual um dado valor, digamos, c. Em
smbolos:
P (| - | c)
Como exemplo, considere o seguinte problema: uma amostra aleatria de n = 315 clientes
de uma provedora de Internet mostrou, que , em mdia, estes mantm um uso de 118,1 MBytes de
memria ocupada com arquivos em sua caixa postal de emails, com um desvio-padro amostral
igual 189,7 MBytes. Qual seria o valor mdio desta ocupao em todos os seus N = 114.337
clientes? A estimao por ponto d o valor
= x = 118,1 MBytes
para a mdia desejada. Mas, alm dessa estimativa pontual, gostaramos de saber algo do tipo
abaixo:
| - |
o valor ao lado
50 Mbytes
40 MBytes
30 MBytes
20 MBytes
10 MBytes
MBytes
MBytes
0,1 MBytes
Esse problema resolvido, na Estatstica, por meio do conceito de intervalos de confiana (IC), ou,
equivalentemente, estimao por intervalo.
Assim posto, vemos que existem, ento, dois tipos de estimao: por ponto e por intervalo.
Quando simplesmente se obtm um s valor de estimativa para um parmetro, diz-se que se trata
de uma estimao por ponto, ou pontual. No entanto, como temos dito, quase sempre a estimao
por ponto, sozinha, pouco informativa, porque ela no fornece uma idia do grau de erro e de
confiana que se comete ao assumir o valor da estimativa como sendo igual ao do parmetro
desconhecido. Esse erro e confiana podem ser quantificados da seguinte forma. A partir da
distribuio de amostragem dos estimadores possvel elaborar um intervalo [a, b], de tal maneira
que a probabilidade de que uma dada amostra contenha o verdadeiro valor do parmetro
desconhecido seja conhecida eestabelecida, ou seja:
P[a < < b] = 1
onde o parmetro sendo estimado. A probabilidade 1 mede o grau de confiana que se tem
na estimao de , e , portanto, chamada de coeficiente de confiana. O intervalo [a, b]
denominado intervalo (IC) de confiana, e a sua elaborao chamada de estimao por intervalo.
Um intervalo de confiana pode ser interpretado segundo os seguintes argumentos:
(i)
Se muitas e muitas amostras fossem coletadas, e, para cada uma dessas amostras
fosse constitudo um IC, ento uma proporo de ( 1 ).100% destes IC conteriam o
verdadeiro valor do parmetro sendo estimado.
x
= X =
i =1
Pode-se demonstrar, como j dito, que esse estimador no-tendencioso e, alm disso, dentre os
no tendenciosos possveis, o de maior preciso (mnima varincia). Este o estimador
recomendado tanto para populaes finitas como infinitas.
No tocante a , seu estimador dado por:
2
S =
n
1
. (x i x )2
n 1 i =1
Esse o estimador para 2 que vamos usar, seja a populao finita ou infinita, pois S no2
D =
1
.
n
(x
x)
i =1
Esse estimador alternativo tem sua existncia justificada pelo argumento de que ele de mxima
verossimilhana, isto , de valor mais provvel. Porm, pode-se demonstrar que D2 tendencioso
(no exato), levando a subestimativas de 2 . Essa deficincia de D que nos faz escolher S
2
para estimar 2 .
Teorema 5.1
Seja uma populao descrita por uma varivel X com distribuio Normal N(, ). Se infinitas
2
amostras de tamanho n so coletadas nessa populao, ento a mdia X dessas amostras ter
distribuio Normal com mdia e varincia /n. Outra maneira de afirmar esta normalidade de
2
X
tem distribuio Normal com mdia 0 e varincia 1 (esta a
Observe que, neste teorema acima, a varincia populacional deve ser conhecida,
2
podendo-se ento utilizar diretamente este teorema para calcular probabilidades associadas a X ,
pois, se:
2
X N ,
n
Z=
X
N (0,1) , isto ,
Teorema 5.2
Seja uma populao descrita por uma varivel X com distribuio Normal N(, ). E sejam infinitas
2
X- m
S2
n
(t)
t
Observe que ela se parece com a Normal, pois simtrica com forma de sino. Porm,
comparando-a com a Normal-padro (mdia 0 e varincia 1), a t mais achatada, isto , mais
esparramada.
tal que:
/2
/2
/2
/2
Figura 5.4. Distribuio t de Student. A rea hachurada corresponde aos valores de /2, para os
quais
t so tabelados.
2
A distribuio t permite determinar valores para a e para b, pois o valor de t obtido a partir de X
2
X- m
S2
n
t ] = P[T < - t ]
P[T >
Na Figura 5.5, ilustram-se essas consideraes para = 1 - = 95%. Assim, dividindo a rea fora
do intervalo por 2, tem-se, de maneira geral:
/2 =
1
2
Mas como T=
[ t
< T < t 2 = 1-
X
ento:
S
n
P = 1-
X
P t
t = 1 -
S
2
2
P t
X t
P X t
P X t
S
n
S
=1-
n
X + t
2
X + t
2
S
=1-
n
S
=1-
n
S2
n
a = X - ta
2
b = X + ta
2
S2
n
$ = x = 0,85 cm.h-1
-1 2
s = 0,0161 (cm.h ) =
E, assim, como:
P x
t 2
s2
s2
< < x + t 2
= 1-
n
n
ento:
0,0161
0,0161
P 0,85 t 2
< < 0,85 + t 2
= 1-
10
10
1 0,95
= 0,025
2
a = 0,85 2,262
0,0161
= 0,85 - 0,0908 = 0,7592
10
b = 0,85 + 2,262
0,0161
= 0,85 + 0,0908 = 0,9408
10
-1
-1
95% certos de que a VIB mdia no menor do que 0,7592 cm.h e no maior do
-1
s
s2
=
n
n
utilizada na construo de intervalos de confiana para , a partir de amostras de tamanho n, d
uma idia da preciso com que o parmetro estimado. Ou seja, quanto menor essa grandeza,
menor ser o comprimento do intervalo de confiana. Na realidade, ela corresponde a estimativa
do desvio padro da varivel X . Esse desvio padro recebe o nome especial de erro-padro da
mdia.
Conceito 5.5. Erro-padro da Mdia. Desvio-padro da varivel X . O erro-padro o desviopadro da mdia amostral e confere uma idia acerca da preciso com que estimada.
a) A amostra grande (n elevado, acima de 30, adequado em muitas situaes, ou mais ainda,
acima de 50).
Se a amostra possui um elevado nmero de elementos, ento o seguinte teorema pode ser
utilizado:
O teorema 5.3 acima, conhecido como o Teorema Central do Limite, poderia, se fosse
2
conhecido, ser diretamente empregado para a construo de intervalos de confiana, pois sabe-se
que:
Z=
tem distribuio Normal N(0, 1) e com valores tabelados. Dessa maneira, pode-se fazer:
2
2
= 1-
P x z
<
<
x
+
z
2
2
n
n
oriunda de uma manipulao algbrica muito semelhante que foi vista para a distribuio t.
No entanto, quase sempre a varincia populacional desconhecida. Devemos ento
2
substituir z por t, j que substitumos por s . Resta ainda a questo: quando consideraremos n
2
como grande? Para responder a essa questo, consideraremos, aqui, o critrio emprico de n 50.
Com isso, um intervalo de confiana aproximado dado por:
s2
s2
1-
P x t
x
t
<
<
+
2
2
n
n
p =
x
n
p q
p q
P p z / 2
< p < p + z / 2
=1-
n
n
(p ) =
pq
n
(p ) =
p q
n
p =
38
x
=
= 0,63
n
60
(p ) =
p q
=
n
0,63.0,37
= 0,06
60
p q
n
Que fornece, no intervalo de confiana, a margem de erro (para cima ou para baixo) em relao ao
verdadeiro valor de p, desconhecido. Note-se que, se p fosse conhecido, a varincia pq/n tambm
seria conhecida, e assim a margem de erro utilizando a varivel Z seria ainda mais apropriada:
z / 2
pq
n
z / 2
pq
= 0,02
n
1,96
0,5.0,5
= 0,02
n
0,25
2
= (0,02)
n
E assim:
n=
(1,96)2 0,25
(0,02)2
= 2401
Ou seja, seria necessrio entrevistar 2401 eleitores para uma pesquisa eleitoral com margem de
erro igual a 2%. Em geral, na divulgao dessas pesquisas, no se fala nada a respeito do
coeficiente de confiana, o que deveria ser feito.
s2
s2
=1-
P x t / 2
< < x + t / 2
n
n
O termo:
t/2
s2
=d
n
2
a margem de erro da amostragem. Se uma estimativa preliminar s for disponvel (por exemplo,
utilizando uma amostra-piloto), ento o dimensionamento da amostra seria dado por:
n=
t 2 / 2 s 2
d2
-1 2
95% de no se ter uma margem de erro maior que 0,07 dado por:
n=
t 2 / 2 0,0200
(0,07)2
t 02,025 0,0200
(0,07)2
t 02,025 0,0200
(0,07 )2
32 elementos
Isto quer dizer que o engenheiro dever utilizar uma amostragem com 32 pontos na vrzea. Com
-1
estes 32 pontos, sua estimativa de mdia no diferir da verdadeira mdia em mais de 0,07 cm.h :
( x - ) 0,07 cm.h .
-1
p =
x 129
=
= 0,6 = 60%
n 213
sendo que e = Z /2
pq
, portanto:
n
0,6.0,4
213
e = z /2
pq
0,6.0,4
= 1,645
= 0,055
n
213
d) Quantas propriedades devero ser visitadas no futuro para se estimar p com um erro de 3% e
confiana de 95%?
Aqui podemos utilizar uma frmula com o n j isolado para facilitar os clculos:
s X = 1,5
Dados: x = 20,0
x t /2
n = 25
sX
n
1,5
20,0 1,711
25
20,0 0,5133
Assim:
IC(90%) 19,487 < < 20,5133
3) Determine um intervalo de confiana de 98% para a verdadeira proporo populacional, se x =
50 e n = 200.
p =
x
50
=
= 0,25
n 200
Construindo o intervalo:
p Z /2
pq
n
0,25 2,33
0,25.0,75
200
0,25 0,07
IC(98%) 0,18 < p < 0,32
4) Numa Universidade, foi tomada uma amostra de 40 estudantes, anotando-se as suas alturas em
cm. Os resultados forneceram:
40
40
x i = 6.950
i =1
2
i
= 1.213.463
i =1
cm
173,75
40
6.950
xi
x
=
1n
40 i
40
xi
40
1
i =1
2
2
s =
xi
n 1 i =1
n
s = 12,30 cm
x z /2
s
n
173,75 1,96
12,30
40
173,75 3,81
IC( )95% 169,94 < < 177,56
Com confiana de 95%, podemos afirmar que a verdadeira mdia da populao se encontra
inserida entre 169,94 e 177,56.
Obs. Voc mesmo pode fazer este IC com a t para 40-1 = 39 graus de liberdade, e verificar se h
grande diferena. Voc ver que no h.
c) Construa o intervalo de confiana de 99% para a mdia da populao. Interprete.
IC( )99% x e
Usando a aproximao da z:
x z /2
s
n
173,75 2,575
12,30
40
173,75 5,0
IC( )99% 168,75 < < 178,75
Com confiana de 99%, podemos afirmar que a verdadeira mdia da populao se encontra
inserida entre 168,75 e 178,75.
d) Confronte os resultados de (a) e (b) e discuta as diferenas.
Observemos os dois intervalos:
IC( )95% 169,94 < < 177,56 Amplitude intervalar de 7,62
IC( )99% 168,75 < < 178,75 Amplitude intervalar de 10,00
z s
1,96 12,30
n = /2
=
= 49,40 50
e
3,43
Portanto, para estimarmos a mdia da populao com 95% de confiana e um erro 10% menor, o
tamanho da nova amostra dever ser de 50 estudantes.
de 30 k.h .
a) Estime a verdadeira mdia populacional
b) Construa um intervalo de confiana de 95% para a mdia populacional
2) Num concurso de produtividade de milho realizado na cidade de Lavras MG, foram sorteadas
2
24
26
25
27
33
32
27
26
24
23
25
27
a) O produtor em questo afirma que na sua lavoura, o rendimento mdio da ordem de 7,5
-1
t.ha . Voc concorda com a afirmao do produtor? Trabalhe com um coeficiente de confiana
de 95% e justifique sua resposta. Observe que os dados das parcelas esto expressos em
-2
-1
0,001t
= 0,25 t.ha 1
0,004ha
s X = 2,0
x = 15,0
n = 16
5) Num levantamento amostral sobre hbitos de higiene e sade envolvendo bairros da periferia da
cidade de Lavras MG, foram obtidas as seguintes respostas pergunta: Com qual frequncia
voc lava sua caixa dgua?
Frequncia
Resposta
Absoluta
Relativa
Percentual
Nunca
De 3 em 3 meses
De 6 em 6 meses
Anual
Raramente
13
11
4
22
18
0,1912
0,1618
0,0588
0,3235
0,2647
19,12
16,18
5,88
32,35
26,47
Total
68
1,0000
100,00
Considerando que o ideal seria que as caixas dgua fossem lavadas exatamente de 6 em 6
meses, construa um intervalo com 95% de confiana para a proporo de residncias que esto
fora da condio ideal de higiene para as caixas dgua.
6) Foi feita uma AAS de tamanho n=30 de um rebanho de Gado Holands do sul de Minas Gerais,
com o objetivo de descrever a produo de leite. Os dados obtidos em kg na amostra foram:
17,7
20,7
19,3
19,3
18,0
16,9
19,7
20,1
21,0
21,2
23,3
15,3
23,7
18,8
25,2
18,0
22,8
21,1
18,8
25,9
19,3
19,6
26,6
14,3
19,7
32,7
14,1
16,8
19,7
19,3
30
x i = 608,9
i=1
30
2
i
= 12.787,07
i =1
7) Uma pesquisa realizada entre 218 eleitores escolhidos ao acaso indicou que 65 deles eram
favorveis ao candidato A.
a)
b) Qual deve ser o tamanho da amostra para que o erro de estimao caia pela metade?
UNIDADE 6
TESTES ESTATSTICOS
6.1. INTRODUO
HIPTESE:
Se ele tiver razes para rejeitar essa hiptese, isso implicar em uma deciso, qual seja, por
exemplo, a de pulverizar a lavoura de caf com algum inseticida. Por outro lado, se ele no rejeitar
essa hiptese, ento sua outra deciso ser a de no pulverizar a lavoura. Poderamos tomar
como hiptese outra afirmao, a saber: A infestao da broca igual ou est acima do nvel de
controle, para a qual seguir-se-iam os mesmos tipos de consideraes.
A verificao de uma hiptese de interesse, acerca da populao, chamada teste de
hiptese, ou, mais apropriadamente, teste estatstico. A teoria de testes faz parte de um conjunto
de conceitos e mtodos chamado de teoria da deciso, pois frequentemente h rejeio, ou no,
de hipteses, alm de serem em si mesmas decises (rejeitar uma deciso e aceitar, isto , no
rejeitar, tambm uma deciso), tais testes de hiptese tambm se desdobram gerencialmente,
implicando em mais algumas outras decises posteriores, como seria o caso anterior de pulverizar
com inseticida.
Conceito 6.1. Teste estatstico. Verificao da validade, ou no, de hipteses sobre a populao,
mediante critrios estatsticos.
Conceito 6.2. Teoria da deciso. Em grande medida corresponde teoria de testes, pois a
aceitao ou a rejeio de hipteses frequentemente implica em alguma deciso acerca da
populao.
HIPTESE:
claro que se ele, baseando em critrios estatsticos, rejeitar esta hiptese, ser conveniente
procurar outro modelo probabilstico para descrever a distribuio de chuvas.
Por outro lado, as hipteses podem se referir ao(s) parmetro(s) do modelo probabilstico,
por sua vez tido como satisfatrio. O exemplo da broca do caf anterior mostra essa situao. A
probabilidade (ou a proporo) de frutos brocados um parmetro da distribuio Binomial e o
teste ir se referir a ela, admitindo o modelo probabilstico da distribuio Binomial como
satisfatrio.
Um teste estatstico deve ser construdo e avaliado segundo dois critrios de desempenho:
(i) Riscos (ou probabilidades) de decises erradas.
(ii) Custo para a tomada de deciso.
Um terceiro critrio poderia ser aventado, a saber o da utilidade da deciso tomada, mas tal critrio
carrega uma medida grande de subjetividade, e no ser considerado aqui. Simplesmente ser
admitido aqui que toda e qualquer deciso tomada a partir de um teste estatstico j previamente
considerada til para o analista.
H0: p 5%
H1: p > 5%
p =
x
n
Digamos que, numa amostra de n = 400 frutos, conta-se 48 frutos brocados, totalizando ento
p =
48
= 0,12 = 12%.
400
A princpio, considerando que 12% maior do que 5%, seramos levados rejeitar H0 e aceitar H1 .
Porm, surge a pergunta: sendo estes 12% a proporo da amostra, no deveramos ser
cautelosos em decidir sobre a proporo da populao (5% da populao) ? A resposta ,
obviamente, sim, e a cautela traduz-se por calcular a probabilidade de uma amostra de n = 400
frutos apresentar p = 12% se esta amostra obtida aleatoriamente de uma populao com
p = 5% (ou menos). Ora, na estimao de propores j havamos concludo que p N ( p,
pq
), o
n
Na tabela da Normal, o valor de rea acima de 6,42 no est nem mesmo indicado (a tabela pra
no valor de 3,99), implicando que, com aproximao de 4 decimais, tal rea acima 0,0000. De
fato, tal rea na exatamente zero, pois a Normal assinttica, e, teoricamente, nunca uma rea
acima zerada. Utilizando o Excel (poderia ser outro software estatstico, como o R, por exemplo,
veja
Captulo
8),
essa
rea
com
mais
decimais
seria
de
aproximadamente
6,42
Essa probabilidade muito pequena, aproximadamente zero, o que nos leva a concluir que a
probabilidade de uma populao com p = 0,05 gerar aleatoriamente uma amostra que resulte em
Conceito 6.3. Regra de Deciso. Procedimento pelo qual opta-se por rejeitar ou aceitar a hiptese
de nulidade.
Conceito 6.5. Erro Tipo II. Consiste no erro que se comete ao aceitar H0, sendo que ela falsa.
Conceito 6.7. Poder do Teste. Consiste na probabilidade de rejeio de H0, quando de fato ela
falsa.
A verdade na populao
Deciso tomada
H0 aceita
H0 verdadeira
H0 falsa
Deciso correta
Deciso errada
Probabilidade = 1 -
H0 rejeitada
Deciso errada
Deciso correta
(Erro Tipo I)
Probabilidade = 1 -
Probabilidade =
agrcola observou a ocorrncia de chuvas por ano com intensidade acima de 30 mm.h em uma
regio nos 35 anos anteriores (compondo a sua amostra), tendo encontrado os seguintes valores
(Tabela 6.2):
Tabela 6.2. Nmero de chuvas ocorridas nos 35 anos passados em uma regio com intensidade
acima de 30 mm.h-1.
1961: 2
1966: 1
1971: 0
1976: 2
1981: 3
1986:2
1991: 2
1962: 0
1967: 3
1972: 2
1977: 4
1982: 2
1987:2
1992: 6
1963: 3
1968: 2
1973: 4
1978: 5
1983: 0
1988: 1
1993: 5
1964: 2
1969: 3
1974: 2
1979: 2
1984: 6
1989: 3
1994: 3
1965: 1
1970: 1
1975: 3
1980: 0
1985: 2
1990: 4
1995: 1
A distribuio de frequncia absoluta dessa varivel descritora de natureza discreta est na Tabela
6.3 (a frequncia fe apresentada na tabela a frequncia esperada e ser logo em seguida
explicada).
Suponha que o engenheiro deseje verificar se a distribuio de frequncia pode ser
descrita por uma distribuio de Poisson, para que possa fazer previses futuras. Em outras
palavras, o problema consiste no teste:
H0: a ocorrncia de chuvas acima de 30mm/h tem distribuio Poisson.
H1: a ocorrncia de chuvas acima de 30mm/h no tem distribuio Poisson.
fo
fe
0
1
2
3
4
5
6
7 ou mais
Total
4
5
12
7
3
2
2
0
35
3,17
7,62
9,15
7,32
4,39
2,11
0,84
0,40
35,00
Para tanto, calcula-se, para cada nmero de chuvas, a frequncia absoluta esperada (fe), caso os
dados da amostra tivessem exatamente distribuio de Poisson. Em seguida, so confrontadas
essas frequncias esperadas fe com as observadas (fo). Se as diferenas puderem ser
consideradas como meramente casuais, ento aceita-se H0. Para tanto, determina-se o valor de
qui-quadrado calculado C2 pela expresso:
C2 =
i =1
(fei foi )2 =
fei
(foi fei )2
i =1
fei
onde k o nmero de classes. Este valor comparado com o valor da tabela de qui-quadrado,
para determinado nvel de significncia . Se o valor de
ento rejeita-se H0, pois ento muito pouco provvel que a amostra em questo tenha acontecido
sob H0 verdadeira, pois a probabilidade das variaes de fo em relao a fe terem acontecido por
puro acaso baixa (igual ou menor que ). Para se saber o nmero de graus de liberdade v para a
consulta tabela deve-se tomar:
v = (nmero de classes) (nmero de parmetros estimados) 1
A distribuio de Poisson , como foi visto, indexada por um nico parmetro , que nada
mais do que a mdia (e tambm a varincia) da populao dos infinitos anos da regio. Sendo
a mdia, tem-se como estimador para este parmetro:
= X
x =
(2 + 0 + 3 + L + 3 + 1)
35
84
= 2,4
35
Esta mdia tambm poderia ser calculada pela distribuio de freqncias (Tabela 6.3):
x =
84
= 2,4
35
Os clculos sero feitos considerando = x = 84/35 = 2,4. Cada fe calculada por P(X = x).35,
veja tabela auxiliar abaixo.
P (X = x)
P (X = x).35
-2,4
0,0907*35 = 3,18
-2,4
0,2177*35 = 7,62
-2,4
0,2613*35 = 9,14
-2,4
7,32
-2,4
4,39
-2,4
2,11
-2,4
0,84
7 ou mais
0,40
1 (0,0907 + 0,2177 + 0,2613
+ 0,2090 + 0,1254 + 0,0602 +
0,0241) = 1-0,9884 = 0,0116
P(X = 0) =
2,718 2, 4 2,4 0
= 0,0907
0!
fe = 0,0907 x 35 = 3,18
A frequncia absoluta na classe 1 ser:
P(X = 1) =
2,718 2, 4 2,41
= 0,2177
1!
fe = 0,2177 x 35 = 7,62
Procedendo assim para as outras classes, tem-se:
P(X = 2) =
fe = 9,14
P(X = 3) =
fe = 7,32
(fei
fo i )2
fei
explodir para valores muito altos (observe que na frmula do C2 cada parcela do tipo acima),
fazendo o valor final do C2 ficar superestimado. Para alguns autores, aceitar fe < 5 em algumas
classes, mais do que possivelmente inflacionar exageradamente a parcela correspondente,
tambm prejudicaria a aproximao implcita no mtodo. Como todos esses critrios so
3,18
2,11
7,62
6 ou mais
1,24
9,14
Total
35,00
7,32
4,39
Veja que a tabela permaneceria quase como estava para a operao de teste de C2 (somente as
2 ltimas classes seriam agrupadas, pois tm fo menor do que 1). Porm, utilizando o critrio fe >
5, teremos que agrupar vrias classes. Assim, na Tabela 6.3 necessrio, em primeiro lugar,
agrupar aquelas classes com frequncias esperadas menores do que 5. Isso conduz distribuio
de frequncias apresentadas na Tabela 6.4. Com esse procedimento, o nmero de classes k
diminuiu de 7 para 4 classes.
fo
fe
0 ou 1
2
3
4 ou mais
Total
9
12
7
7
35
10,80 = 3,18+7,62
9,14
7,32
7,74 = 4,39+2,11+0,84+0,40
35,00
e x
,
x!
e P(X = 1) =
2,718 2, 4 2,41
= 0,2177 , temos que,
1!
portanto:
P(X = 0 ou X = 1) = 0,0907 + 0,2177 = 0,3084 e 0,3084.35 = 10,80, como seria se o valor fosse
calculado direto nas frequncias esperadas (3,18+7,62). Para 4 ou mais o clculo seria:
P(X 4) = 1 - P(X < 4) = 1 - 0,0907 - 0,2177 - 0,2613 - 0,2090 = 0,2213
o que d uma frequncia absoluta esperada de fe = 7,74.
Agora, s resta calcular o valor de qui-quadrado. Para facilitar o uso de sua expresso, os
passos esto apresentados na Tabela 6.5.
O valor de qui-quadrado , portanto:
C2 =
(fei foi )2
i =1
fei
= 1,272
Para verificar se H0 rejeitada ou no, deve-se consultar o valor da tabela de . Para tanto, deve2
fo
II
fe
( fo fe) 2
fe
0 ou 1
10,80
0,297
12
9,15
0,890
7,32
0,014
4 ou mais
7,74
0,071
Total
35
35,00
1,272
Assim:
v=4-1-1=2
Adotando-se um nvel de significncia de 0,05 (5%), tem-se que o valor tabelado dado por
(Tabela 3.2 do Apndice):
Como C2 = 1,272 foi menor que 02,05 = 5,991, ento opta-se por aceitar a hiptese H0, de que a
ocorrncia de chuvas pode ser descrita satisfatoriamente pela distribuio de Poisson. Todo este
arrazoado algbrico pode ser visualizado graficamente na Figura 6.1.
Regio de
Rejeio de
H0
2C
20,05 , do teste.
Observe que no corremos o risco de estarmos cometendo o Erro Tipo I, pois no estamos
rejeitando H0, porm, pelo fato de estarmos aceitando H0, corremos
o risco de estarmos
cometendo o Erro Tipo II, aceitando que a varivel estudada segue uma distribuio de Poisson
quando, na verdade, no segue. A probabilidade desse erro , um valor desconhecido.
O teste de qui-quadrado muito utilizado em situaes onde existem propores
a
esperadas com relao ocorrncia em classes, como em gentica. Por exemplo, a 1 Lei de
Mendel especifica que, se uma caracterstica est associada a dois fentipos possveis e se ela for
controlada por um gene apenas, ento as frequncias desses fentipos ocorrero numa razo de
3:1 em descendncia oriunda do cruzamento entre dois indivduos heterozigotos.
Mortos
Sobreviventes
Total
Bactria + droga
13
44
57
Bactria
25
29
54
Total
38
73
111
2
cal
=
(fei foi )2
i =1
fei
onde foi a frequncia observada na i-sima casela da tabela. Uma casela (ou clula) o
encontro entre uma linha e uma coluna. O nmero k de caselas sempre igual a l.c, l
nmero de linhas e c nmero de colunas. J fei a frequncia esperada na i-sima casela
da tabela. calculada pela frmula:
fe =Total marginal linha x Total marginal coluna
Total geral
Regio de
Aceitao
de H0
Regio de
Rejeio de
H0
2tab
2
tab
2
tab
separa a regio de
4 ) Estatstica de Teste:
2
cal
=
O valor de
2
tab
2
tab
5 )Como
o
2
cal
>
2
tab,
= 3,841.
rejeita-se H0
tc =
(x1 x 2 ) (1 1 )
1
1
s 2
+
n2 n2
n2
j =1
j =1
(x1j x1 )2 + (x 2 j x 2 )2
s2 =
n1 + n 2 2
(x 1 x 2 ) d 0
1
1
s 2
+
n1 n 2
(x 1 x 2 ) d 0
1
1
s 2
+
n1 n 2
(x 1 x 2 ) d 0
1
1
+
s 2
n
n
2
1
Esse tipo de teste empregado, por exemplo, quando uma empresa de reflorestamento,
que tradicionalmente cultiva um clone A de eucalipto, adquire numa instituio de pesquisa um
novo clone B. Assim, interessa saber se no plantio de novos talhes justificvel plantar o novo
clone B, ou seja, se ele mais produtivo. Se 1 - 2 = 0, ento no se justifica trocar o clone
cultivado na empresa. Se, por outro lado, A - B < 0, ento o clone B mais produtivo, e justifica-se
utiliz-lo. Assim, um teste de interesse seria:
>
Suponha-se que, para a realizao de tal teste, um experimento tenha sido conduzido com
25 parcelas de cada clone nas quais avaliou-se o DAP mdio das rvores, tendo-se encontrado
2
(18,61 15,61) 0
1
1
1,80
+
25
25
= 7,906
Utilizando a significncia de = 5%, tem-se que o valor tabelado de t para 48 graus de liberdade
deve ser obtido por interpolao: com 40 e 60 graus de liberdade, tem-se, respectivamente, 1,684
e 1,671 para os valores de t0,05, ou seja, diminuio de 0,013 ao se aumentar 20 graus de
liberdade. Assim:
20 ------------------0,013
8 -------------------
x = 0,005
E, portanto, o valor t para 48 graus de liberdade 1,684 - 0,005 = 1,679. Por ns mesmos
colocamos o sinal negativo, pois estamos vendo que o valor de t est do lado esquerdo da curva
de t: -1,679. Como 7,906 > -1,679 , aceita-se H0, isto , no h evidncias, neste teste, para
concluir que A e B sejam diferentes.
Observe que, nesse exemplo ilustrativo, consideramos, implicitamente, que as varincias
Ae
2
2B
s = 1,8000 cm . A maneira como deveramos julgar essa pressuposio poderia ser como fizemos
no Captulo 5: fazendo um intervalo de confiana para A /
2
2
A
2B
2
B
modo proceder um teste para a razo de varincias, que ser visto adiante.
Outra observao importante a coerncia entre hipteses H0 e H1 e evidncias amostrais:
nossas amostras resultaram em X A - X B = 18,61 15,61 = 3 cm, um valor positivo. Logo, seria
mais razovel julgar H0: A - B = 0 contra H1: A - B > 0 , pois, se A e B no foram iguais (A - B
= 0, H0), ento o mais razovel admitir que A ser maior do que B, porque as amostras sugerem
isto ( X A > X B ). Assim sendo, convm estabelecer como H1 aquilo que os dados sugerem, neste
caso, H1: A - B > 0. Faamos ento o teste assim:
H0: A - B = 0
H1: A - B > 0 (por sugesto das amostras)
Observe que a concluso mudou! Agora rejeitamos H0, isto , estamos concluindo que a mdia de
DAP do clone A maior do que a mdia de DAP do clone B. Observe como uma escolha mais
coerente da hiptese alternativa tornou o teste mais eficaz!
teste para diferena entre duas mdias, quando as varincias so diferentes usa a estatstica
tc =
(x1 x 2 ) (1 1 )
s12 s 22
+
n2 n2
v =
s12 s 22
+
n1 n 2
2
s12
s 22
n 2
n 2
+
n1 1 n 2 1
tc =
(480,4 458,1) 0
2
111,8
75,5
+
115
134
111,8 2 75,5 2
+
134
115
v =
111,8 2
115 +
114
22,30
= 1,81
12, 2975
75,5 2
134
133
22869,9753
2
103,6255 +13,6059
= 195,0840 v 195
t0,05(195) = 1,6527 .
RRH0:
Regio de
Rejeio de
H0
1,81
1,6527
Concluso: como 1,81 > 1,6527 , rejeitamos H0. Isto , ao observarmos, nas amostras, que
homens gastam em mdia mais memria que mulheres em seus webmails da citada provedora,
isto significa que, nas populaes, as mdias podem ser consideradas diferentes tambm.
Tabela 6.6. Retorno sobre investimento (ROI) de 12 empresas, antes e depois de um certo
programa de gesto da qualidade ser aplicado.
ROI
ROI
Empresa
Antes
Depois
Empresa
Antes
Depois
0,101
0,123
0,126
0,119
0,097
0,106
0,111
0,122
0,131
0,119
0,091
0,122
0,088
0,091
0,085
0,117
0,157
0,158
0,100
0,127
0,099
0,099
0,095
0,108
Esse tipo de dados chamado dados emparelhados, ou dados pareados, visto que cada
empresa gera um par de resultados, um antes e um depois isto , a mesma empresa (o mesmo
indivduo) gera um par de dados correlacionados. Nesse tipo de dados, no se pode usar os testes
para diferena de mdias 1 - 2 , exatamente porque tais dados so correlacionados, pois esto
vinculados, cada par, no mesmo indivduo (empresa), Para este tipo de dados o teste :
H0 : D = d0 (na maioria das vezes d0 = 0, isto , o antes igual no depois)
H1 : D > d0 ou D < d0 ou D d0
Estatstica para teste:
tc =
d d0
sD / n
Diferena D
Empresa
Diferena D
sD =
= 0,01238
H0 : D =0
H1 : D >0 (sugesto dos dados, j que d = 0,01275 > 0).
= 5%
Estatstica para teste:
tc =
0,01275 0
= 3,57
0,01238
12
Concluso: como tc = 3,57 > t5%(11) = 1,796, rejeitamos H0 ao nvel de significncia de 5%,
isto , o programa de qualidade aumentou o ROI das empresas.
12
22
Como saber se duas populaes podem ser consideradas como tendo varincias iguais
ou diferentes? Isso corresponde a uma hiptese, dado que raramente as populaes sob
comparao so conhecidas em sua totalidade. Assim, um teste de hiptese de interesse seria:
H0:
12
=1
22
H0:
onde
12
1
22
nas quais pressupe-se distribuio Normal, podem ser feitos mediante a distribuio F.
a) Teste Unilateral do Tipo:
H0:
12
= q0
22
H1:
12
< q0
22
s2 1
1
, onde fc = 12
f
s2 q0
12
= q0
22
H1:
12
> q0
22
s12 1
s 22 q 0
12
= q0
22
H0:
12
q0
22
1
f / 2
s12 1
s 22 q 0
H1 :
H2
2
= 1 (ou H2 = M
)
M2
H2
2
> 1 (ou H2 > M
).
1
M
= 2,5%
Estatstica para teste:
fc =
111,8 2
s 2H 1
.
=
75,5 2
s 2M 1
= 2,19
v1 v2
2,19
RAH0
RRH0
1,423
Frequncia
Verde
275
Amarela
156
Albino
28
Total
459
Proporo
9 6 1
:
:
16 16 16
Verde
275
258
Amarela
156
172
Albino
28
29
Total
459
459
Teste de Deciso:
1) H0: Os dados seguem a proporo 9 : 6 : 1.
2) HA: Ao dados no seguem a proporo 9 : 6 : 1.
3) = 5%
4) Estatstica de Teste: Distribuio de 2 .
2
cal
=
i =1
O valor de
2
tabelado com v = 2 GL: tab
= 5,991
2
2
Como: cal
< tab
2) Suponhamos que experimentou-se o efeito de certa droga no controle de certa bactria, usando
ratos. Foram utilizados 111 animais divididos em 2 grupos, 57 deles recebendo uma dose-padro
de bactrias patognicas seguidas pela droga e um grupo de controle de 54 que receberam
apenas a bactria. Depois de um adequado perodo de tempo, quando a doena poderia provocar
a morte, obtiveram-se os seguintes resultados:
Tratamento
Indivduos
Sobreviventes
44
29
73
Mortos
13
25
38
Bactria +droga
Bactria
Total
Total
57
54
111
2
cal
=
i =1
(fe fo) 2 (13 20) 2 (25 18) 2 (44 37) 2 (29 36) 2
=
+
+
+
= 7,85
fe
20
18
37
36
3) O nmero de chegadas de pacientes em determinado hospital foi anotado minuto a minuto para
uma amostra de 70 perodos (de um minuto). Os dados colhidos foram os seguintes:
N Chegadas
Frequncia
15
17
11
O modelo de Poisson foi proposto para modelar estes nmeros de chegadas. Qual sua opinio,
embase-a estatisticamente?
Primeiro, construamos as hipteses a serem testadas:
X =
x f
i i
(0 9) + (1 15 ) + ... + (7 2) = 2,47
70
Agora, precisa-se de alguns clculos auxiliares, que podem ser feitos em um quadro auxiliar:
fe = P(x) . n
(fo fe)
(fo fe)2
(fo fe)2/fe
0,084 x 70 = 5,88
3,12
9,70
1,65
15
0,210 x 70 = 14,70
0,30
0,09
0,01
17
0,260 x 70 = 18,20
-1,20
1,44
0,08
11
0,210 x 70 = 14,70
-3,70
13,69
0,93
0,130 x 70 = 9,10
-2,10
4,41
0,48
0,063 x 70 = 4,53
0,47
0,22
0,05
0,030 x 70 = 2,10
3,11
9,67
3,35
0,011 x 70 = 0,79
Total
70
X = n Ch.
fo
6,55
O clculo das probabilidades para cada uma das chegadas ser calculada assim:
P ( X = 0) = e
x
x!
= e 2,47
2,47 0
= 0,084 . Para as outras probabilidades seguem-se o mesmo
0!
princpio.
Busca-se agora o 2 tabelado:
Os graus de liberdade ser obtido por, v = ( k 1 ) 1, onde k o nmero de classes para o
nmero de chegadas, p o nmero de parmetros estimados (neste caso estimou-se , um
parmetro estimado, portanto p = 1), e o 1 fora do parntese um grau de liberdade perdido ao
se calcular a mdia apenas baseado nos dados amostrais :
v=(k1)1= (81)1=6
Utilizando = 5%, 2 tabelado com v = 6 GL igual a 12,59.
2
2
Concluso: Como cal
< tab
, aceita-se H0 com confiana de 95%, ou seja, o modelo de Poisson
o mais adequado para modelar o nmero de chegadas. H inmeros usos gerenciais para esta
concluso: por exemplo, se o gestor do hospital deseja dimensionar o nmero de atendentes que
devem ficar de prontido na recepo do hospital, ele pode se valer do conhecimento de que o
nmero de chegadas segue a distribuio de Poisson para esse dimensionamento.
- 940
- 290
- 282
88
Tipo de cooperativa
Total
Estado
Consumidor
SP
PR
RS
Total
Produtor
214
51
111
376
Escola
237
102
304
643
Outros
78
126
139
343
119
22
48
189
648
301
602
1551
3) O gerente de um supermercado deve decidir sobre a quantidade de cada sabor de sorvete que
se deve estocar a fim de atender demanda dos consumidores, sem que haja perda de sabores
menos procurados. O fornecedor de sorvete afirma que, entre os sabores mais populares, os
clientes tm suas preferncias: 62% preferem creme, 18% cupuau, 12% goiaba e 8% baunilha
com calda. Uma amostra de 200 clientes acusou os resultados a seguir. Com o nvel de 0,05 de
significncia, teste se o fornecedor identificou corretamente as preferncias dos consumidores.
Sabor
Clientes
creme
120
cupuau
40
goiaba
18
baunilha
22
4) Em um estudo sobre acidentes de trabalho constatou-se que 147 deles exigiram tratamento
mdico. Desses acidentes, 31 ocorreram na Segunda feira, 42 na Tera, 18 na Quarta, 25 na
Quinta, e 31 na Sexta. Teste a afirmao de que os acidentes ocorrem com a mesma proporo
nos cinco dias da semana utilizando =5%.
UNIDADE 7
REGRESSO E CORRELAO
7.1. INTRODUO
Alm de se calcular o grau de correlao entre duas variveis, pode-se tambm fazer um estudo
para ajustar uma equao ao conjunto de dados, de forma que ele possa expressar uma relao
matemtica entre as variveis.
Conceito 7.2. Regresso. o estudo que busca ajustar uma equao a um conjunto de dados de
forma que a relao entre as variveis possa ser descrita matematicamente.
y = a + bx
onde:
b=
y
x
y = a + bx
Inclinao
10
12
14
16
18
20
22
11,8
10,2
12,1
13,2
15,1
15,4
15,6
x o nvel de protena em %
y a produo de leite em kg.dia-1
Fazendo o grfico:
kg.dia-1
Analisando o grfico, percebe-se que os dados ajustam-se a uma regresso linear simples. Mas,
nem sempre o modelo linear simples adequado para um determinado conjunto de dados. Assim,
alguns estudos iniciais devem ser realizados para que se possa determinar o modelo mais
apropriado. Observe tambm que consideramos o modelo linear adequado para representar (ou
descrever) a associao entre y e x, mesmo os pontos representando os dados no se sobrepondo
perfeitamente sobre a reta! Por qu isto? Podemos dar mais de uma resposta:
i.
ii.
iii.
y = b0 + b1 x1 + b2 x2 + ... + bp x p + e
onde:
a parte matemtica como j apresentado acima.
acrescenta-se a componente e , que um nmero real sempre desconhecido (mas no
um parmetro), o qual abriga toda a variao encontrada nos dados que no explicada
pelo modelo matemtico.
y = a + bx + e
Os pontos dispostos em (b) e (d) apresentam relao linear entre as variveis, o que no ocorre
em (a) e (c). O grfico de (c) por exemplo, parece indicar relao quadrtica entre y e x, pois h
aparncia de um arco de parbola no grfico:
Uma relao assim seria uma equao do tipo y = a + bx + cx 2 com c>0 (parbola com a boca
para baixo). Apesar desta relao ser quadrtica, ns a consideramos ainda linear, pois
permanece sendo uma combinao linear dos parmetros a, b e c. Porm, no linear simples.
Seria uma equao de regresso linear quadrtica, ou simplesmente regresso quadrtica. J o
grfico de (a), por exemplo, do tipo que no poderia ser bem representado por nenhuma
regresso linear, nem simples, nem quadrtica, nem polinomial com qualquer grau. H uma
sugesto de uma relao exponencial do tipo y = a + be cx , a qual no uma combinao linear
dos parmetros a, b e c. Este tipo de regresso denominada no-linear. Aqui abordaremos
somente regresso linear simples.
Como j realado, ento, na Estatstica, o modelo (matemtico) linear simples incorpora as
variaes devidas ao aleatrio, tornando-se um modelo estatstico:
y i = a + bx i + e i
O termo
ei est relacionado ao erro aleatrio percebido em cada uma das i-simas observaes.
x1
x2
xn
y1
y2
yn
mnimos, podemos determinar a equao da reta. Pode-se assim, obter a estimativa de regresso
por meio da equao:
y i = a + bx i
regressora).
b =
xi
i =1
xi y i
i =1
yi
i =1
n
xi
n
i =1
2
xi
n
i =1
y
a =
i =1
i =1
Para os dados do exemplo das vacas holandesas, com o auxlio de um quadro auxiliar
para os clculos, temos:
xi
yi
xi yi
x i2
y i2
10
11,8
118,0
100,0
139,2
12
10,2
122,4
144,0
104,0
14
12,1
169,4
196,0
146,4
16
13,2
211,2
256,0
174,2
18
15,1
271,8
324,0
228,0
20
15,4
308,0
400,0
237,2
22
15,6
343,2
484,0
243,4
Totais: 112,00
93,40
1.544,00
1.904,00
1.272,46
Calculando a e b :
b =
a =
(112,0)(93,4)
7
= 0,44
(112,0) 2
1904,0
7
1544,0
93,4
112,0
0,44
= 6,257 6,30
7
7
Logo, a equao estimada ou ajustada para a produo de leite em funo do nvel de protena
dada:
y i = 6,30 + 0,44 x i
Esta equao pode ser interpretada da seguinte maneira: no intervalo estudado espera-se um
-1
aumento mdio de 0,44 kg.dia na produo de leite das vacas a cada 1% (x variando de 10 a 22
% de protena) de aumento no nvel de protena da rao. A interpretao est diretamente ligada
ao valor do coeficiente angular da reta ( b ). Para o exemplo:
y = 0,44 kg.dia 1
x = 1%
Deve-se ressaltar o perigo em extrapolar as concluses alm do alcance dos dados amostrais,
pois alm do intervalo estudado, a relao existente entre as variveis pode no se verificar.
n
yi
n
i=1
2
SQTotal = y i
n
i=1
SQTotal = 1272,46
(93,4) 2
= 26,24
7
n
n
xi
yi
n
x i y i i =1 i =1
n
i =1
SQRL =
2
n
xi
n
i =1
2
xi
n
i =1
Para o exemplo:
( 49,6) 2
= 21,97
112,0
O desvio da regresso linear mede o valor da variao ocorrida na produo de leite devido
SQRL =
variao nos diversos nveis de protena na rao. Em termos percentuais da Variao Total, a
variao devida Regresso Linear denominada Coeficiente de Determinao ( r 2 ):
r2 =
SQRL
21,97
100% =
100% = 83,7%
SQTOTAL
26,24
Para o exemplo:
SQResduo = 26,24 21,97 = 4,27
Mede a variao ocorrida na produo de leite que no foi devido variao dos nveis de protena
da rao. Em termos percentuais:
4,27
100% = 16,3% da variao em
26,24
y explicada por x .
7.5. CORRELAO
A partir das evidncias de que existe relacionamento entre as variveis, existe a
necessidade de quantificao do grau de correlao entre elas. Isto j foi feito atravs das somas
de quadrados descritas acima, porm, tradicional e conveniente fazer-se tambm, e
principalmente, esta quantificao calculando o chamado coeficiente de correlao ( r ):
x y
i
r =
xi
i =1
i =1
n
x i2
i =1
xi
i =1
n
yi
i =1
n
yi
n
y i2 i =1
i =1
n
r =
49,6
(112,0)(26,24)
= 0,915
Interpretando o resultado: pode-se afirmar que existe alta associao direta (positiva) entre o nvel
de protena da rao e a produo de leite.
exemplo:
3) Use os valores dados abaixo para estimar a equao de regresso e plote a reta de regresso:
20
x = 200 ,
i =1
20
20
20
y = 300 , xy = 6.200 , x
i =1
i =1
= 3.600 ,
n = 20
i =1
20
20 20
n
xy
x
y
b=
=
=2
2
2
20(3.600 ) (200 )
20 2 20
n
x
x
i
=
1
i
=
1
a=
20
y b
i =1
x
i =1
300 2( 200 )
= 5
20
y = -5 + 2 x .
4) Foi feito um estudo sobre a adio de sulfato de clcio (CaSO4) uria e seu efeito no ganho de
peso de novilhos tratados com cana. Os resultados obtidos foram os seguintes:
x
10
15
20
495
560
590
620
615
x = 50 ,
i =1
y = 2.880 ,
i =1
xy = 30.300 ,
i =1
= 750 ,
i =1
= 1.669.350
i =1
5
5 5
n
xy
x
y
i
=
i
=
i
=
1
1
1
b=
5 2 5
n
x
x
i =1
i =1
=6
a=
y b
i =1
x
i =1
2.880 6(50)
= 516
5
y = 516 + 6 x .
y
5
(2.880 )2 = 10.470
i =1
= 1.669.350
SQTotal =
y2
5
n
i =1
Este valor encontrado para o SQTotal mede toda a variao ocorrida no peso dos novilhos.
2- Soma de Quadrados de Regresso Linear (SQRL):
2
5 5
x
y
5
i =1 i =1
xy
i =1
n
= (1.500 ) = 9.000
SQRL =
2
250
5
x
5
i =1
x2
n
i =1
Este valor encontrado para a SQRL mede a variao do peso dos novilhos devido
variao do teor de sulfato de clcio na uria.
3- Soma de Quadrados dos Desvios (SQDesvio): Pode ser encontrado pela diferena.
SQDesvio = SQTotal SQRL = 10.470 9.000 = 1.470
Este valor encontrado mede a variao ocorrida no peso dos novilhos que no foi devido
variao do teor de sulfato de clcio na uria.
5
5 5
n
xy
x
y
i =1 i =1 i =1
r =
y
2
5
5 5 2 i =1
2
x
x
y
n
n
i =1
i =1 i =1
1.500
250 10.470
= 0,93
Portanto, r = 0,93 mostra que existe alta correlao positiva entre o teor de sulfato de
clcio e o ganho de peso dos novilhos.
r = 0,93
r = 0,8649
Portanto, 86,49% da variao ocorrida no ganho de peso dos novilhos se deve ao teor de
sulfato de clcio na uria.
a)
20
x = 163 ,
i =1
x = 37 ,
i =1
20
xy = 2.300
i =1
i =1
b)
20
y = 150 ,
i =1
= 1.600
i =1
y = 15 ,
xy = 230
i =1
= 1.560
i =1
4) Numa pesquisa foram medidos os teores de alumnio em diversos solos onde cultivado soja e
anotando-se suas respectivas produtividades. Foram obtidos os seguintes resultados:
x
0,9
1,1
1,2
1,5
1,6
1,8
2,0
1,0
0,9
0,8
0,9
0,6
0,5
0,5
Sendo:
+++
x teor de Al
em mE/100 cc de solo;
5) necessrio de tempos em tempos realizar estimativas do peso de ovelhas; por exemplo, para
predizer o efeito de certas drogas ou para predizer datas de disponibilizao no mercado.
Infelizmente, pesar cada ovelha difcil, ento necessrio realizar estimativas do peso das
ovelhas de um modo mais fcil. Um estudo foi realizado para investigar a relao entre o peso vivo
da ovelha e a sua circunferncia de trax. A tabela mostra as medidas de uma amostra aleatria
de 66 ovelhas estudadas cuja circunferncia de trax encontra-se entre 60 cm e 90 cm.
CG
LW
CG
LW
CG
LW
CG
LW
CG
LW
CG
(y)
(x)
(y)
(x)
(y)
(x)
(y)
(x)
(y)
(x)
(y)
(x)
30
76
20
63
28
77
29
73
18
62
19
67
24
71
28
70
25
71
30
74
28
70
27
69
20
63
22
65
27
72
21
64
27
71
31
74
25
69
28
72
28
74
28
74
30
73
23
67
25
67
25
67
25
65
48
89
28
72
22
63
19
62
20
62
20
64
17
60
22
69
35
75
35
77
35
78
35
78
46
86
48
90
44
84
37
84
43
81
32
73
43
84
31
73
31
73
39
78
36
81
33
80
44
82
39
80
45
86
43
88
41
87
36
82
43
80
33
79
35
78
38
78
36
76
35
74
39
81
34
74
39
76
Tabela 1. Trs conjuntos de dados preparados para mostrar a necessidade de se construir sempre
o grfico de disperso num estudo de regresso.
Conjunto de dados A
X
Y
10
8,04
13
11
14
12
6,95
7,58
8,81
8,33
9,96
7,24
4,26
10,84
4,82
5,68
Conjunto de dados B
X
10
13
11
14
12
9,14
8,14
8,74
8,77
9,26
8,10
6,13
3,10
9,13
7,26
4,74
Conjunto de dados C
X
19
6,58
5,76
7,71
8,84
8,47
7,04
5,25
5,56
7,91
6,89
12,50
Fonte: Moore, D. A Estatstica Bsica e sua prtica. LTC editora, Rio de Janeiro, 2000.