Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
Centro Tecnolgico
o
Departamento de Informtica e Estat
a
stica
ESTAT
ISTICA BASICA APLICADA AS CIENCIAS
AGRONOMICAS E BIOLOGICAS
Com Noes de Experimentao
co
ca
FLORIANOPOLIS
Santa Catarina - Brasil
Julho - 2003
Sumrio
a
1 Introduo Geral
ca
1.1 A Cincia Estat
e
stica na Pesquisa Agronmica e Biolgica
o
o
1.1.1 Forma de coleta dos dados . . . . . . . . . . . . . .
1.1.2 Erro Experimental ou Res
duo . . . . . . . . . . . .
1.1.3 Anlise Exploratria de Dados . . . . . . . . . . . .
a
o
1.1.4 Inferncia Estat
e
stica . . . . . . . . . . . . . . . . .
1.1.5 Teoria da Probabilidade e seus Modelos . . . . . . .
1.2 A Estat
stica e o Mtodo Cient
e
co . . . . . . . . . . . . .
1.3 Aspectos do Planejamento Estat
stico de um Experimento
1.3.1 Experimentos com um Fator e mais de um Fator . .
1.3.2 Tratamento Controle . . . . . . . . . . . . . . . . .
1.3.3 Variveis e Covariveis . . . . . . . . . . . . . . . .
a
a
1.3.4 Repetio e Casualizao . . . . . . . . . . . . . . .
ca
ca
1.4 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
6
7
8
11
13
19
20
21
22
22
23
25
25
25
26
29
29
35
38
42
47
48
53
53
65
2.2
2.1.3.10 Ramo-e-Folhas . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.1.3.11 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . . 70
Algumas Medidas Associadas ` Variveis Quantitativas . . . . . . . . . . . . 72
a
a
2.2.1 Medidas de Tendncia Central . . . . . . . . . . . . . . . . . . . . . . 72
e
2.2.2 Medidas de Disperso . . . . . . . . . . . . . . . . . . . . . . . . . . 80
a
2.2.2.1 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . . 88
2.2.3 O Uso da Mediana e dos Quartis na Interpretaao de um Conjunto de
c
Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
2.2.4 Desenho Esquemtico (em ingls leia-se Box Plot) . . . . . . . . . . . 93
a
e
2.2.4.1 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . . 97
2.2.5 Coeciente de Correlaao . . . . . . . . . . . . . . . . . . . . . . . . . 98
c
2.2.5.1 Exerc
cios propostos . . . . . . . . . . . . . . . . . . . . . . 103
2.2.6 Ajuste da Equaao de uma Reta . . . . . . . . . . . . . . . . . . . . . 105
c
2.2.6.1 Exerc
cios propostos . . . . . . . . . . . . . . . . . . . . . . 110
Simples
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
112
112
116
120
123
124
126
128
132
137
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
183
183
187
189
189
193
195
199
203
.
.
.
.
.
.
.
.
.
209
209
212
213
215
217
219
220
228
236
.
.
.
.
.
.
.
.
.
238
238
238
241
243
247
252
254
256
264
8.4
8.5
8.6
277
278
283
297
297
300
305
Bibliograa
314
316
326
328
330
332
334
337
339
1
1.1
Introduo Geral
ca
A Cincia Estat
e
stica na Pesquisa Agronmica e Biolgica
o
o
A estat
stica uma cincia que se preocupa com o planejamento de uma pesquisa, envole
e
vendo desde a forma de coleta das observaoes, obtidas em experimentos ou levantamentos,
c
at a maneira como ser feita a organizao, a descriao, o resumo dos dados, e a avaliaao
e
a
ca
c
c
e armaao sobre caracter
c
sticas de interesse do pesquisador.
As anlises estat
a
sticas dependem da forma de como os dados so coletados, e o planejaa
mento estat
stico da pesquisa indica o esquema sob o qual os dados sero obtidos. Portanto,
a
o planejamento da pesquisa e a anlise estat
a
stica dos dados obtidos esto intimamente
a
ligados.
Planejamento da pesquisa Anlise estat
a
stica
Dessa forma, o pesquisador deve possuir um razovel conhecimento de estat
a
stica para
Em alguns casos, como por exemplo, na descriao de novas espcies orestais, os dados
c
e
so obtidos atravs da simples observao de como o fenmeno acontece na natureza. Neste
a
e
ca
o
caso, no so feitas alteraoes no fenmeno em estudo. Outro exemplo, o estudo sobre os
a a
c
o
e
efeitos da poluiao ambiental de uma regio sobre animais roedores de determinada espcie.
c
a
e
Neste caso, um certo nmero de animais (amostra), capturados na regio estudada, ser analu
a
a
isado contando o nmero de microncleos existentes a cada cinco mil clulas (caracter
u
u
e
stica
estudada).
Levantamento: observa-se o fenmeno na natureza
o
Por outro lado, em muitas outras situaes, as observaes precisam ser geradas e so
co
co
a
feitas comumente sob condioes controladas pelo pesquisador, e os fatos, eventos ou fenmenos
c
o
1.1.2
Quando instala-se um experimento, desejamose vericar o efeito de diferentes tratamentos, sendo que, os demais efeitos, que no os de tratamentos, devem ser controlados ao
a
mximo do ponto de vista prtico. Portanto, as pulverizaoes com produtos qu
a
a
c
micos, as
capinas, as mensuraoes, etc. devem ser feitas de modo o mais homogneo poss em todo
c
e
vel
o experimento. Da mesma forma, a disponibilidade de gua, a temperatura, a umidade e
a
as sementes utilizadas, devem ser as mais similares poss
veis. Acontece que, na prtica, por
a
maiores que sejam os esforos dos pesquisadores para homogeneizar todos esses efeitos, isto
c
no poss
a e
vel, sempre levando ` ocorrncia de variaoes casuais ou aleatrias. Isto pode ser
a
e
c
o
vericado quando, ao repetir o experimento, sob condies as mais prximas poss
co
o
veis do
experimento anterior, obtemos resultados diferentes. Essas variaoes so chamadas de erro
c
a
experimental ou simplesmente erro. E bom chamar a atenao que apesar do termo erro,
c
isto no signica que o experimento foi mal feito. Muitos preferem o termo res
a
duo para
caracterizar essas variaes aleatrias. Vale a pena ressaltar que essas variaoes tambm
co
o
c
e
ocorrem para dados obtidos atravs de levantamentos.
e
Finney (1952) diz que o propsito da cincia estat
o
e
stica fornecer uma base objetiva para
e
a anlise de problemas nos quais os dados esto sujeitos a variao do acaso. Por maiores que
a
a
ca
sejam os conhecimentos de um pesquisador sobre, por exemplo, nutriao e siologia animal,
c
ele jamais ser capaz de predizer com exatido qual vai ser o peso de um su criado
a
a
no
sob determinadas condioes. Existe um grande nmero de causas que fazem este resultado
c
u
variar, como, por exemplo, variaoes genticas, de temperatura ambiental, umidade, doenas,
c
e
c
etc. Assim, quando o elemento acaso est presente em um problema, diculdades reais so
a
a
introduzidas. Observe que estamos interessados em estudar os fenmenos ditos aleatrios,
o
o
isto , aqueles em que o elemento do acaso est presente.
e
a
E importante ressaltar que quase tudo que fazemos no nosso cotidiano so fenmenos
a
o
aleatrios e, portanto, apresentam uma chance de ocorrncia devido ao acaso. Assim sendo,
o
e
seria desejvel determinar qual a sua probabilidade de ocorrncia. Para tal nalidade
a
e
e
precisamos estabelecer o modelo probabil
stico adequado.
Fenmeno aleatrio Modelo probabil
o
o
stico
A seguir, vamos apresentar duas partes importantes da estat
stica, quais sejam: anlise
a
exploratria de dados e inferncia estatstica.
o
e
1.1.3
Tabela 1.1: Valores da duraao em dias do quinto estdio ninfal de Triatoma klugi com
c
a
alimentao em galo, MIP, UFSC, Florianpolis, SC, 2001.
ca
o
26 37 39 40 41 42 42
43 44 45 45 45 45 45
47 48 48 48 48 48 49
49 49 51 51 51 52 53
53 53 56 57 60 62 62
13
12
Nmero de observaes
11
10
9
8
7
6
5
4
3
2
1
0
26
31
36
41
47
52
57
62
Figura 1.1: Histograma da duraao, em dias, do quinto estdio ninfal de Triatoma klugi
c
a
1.1. Esses resultados foram representados atravs de um histograma dado na gura 1.1.
e
Duas interpretaoes so: 1) um valor para representar os dados igual a 48 dias; 2) observac a
e
se no histograma uma cauda mais longa em direo aos valores menores, assim, diz-se que
ca
a distribuio levemente assimtrica ` esquerda, ou seja, existe uma concentraao maior
ca e
e
a
c
de valores em torno e acima do valor representativo. A anlise exploratria de dados ser
a
o
a
estudada na seao 2.
c
1.1.4
Inferncia Estat
e
stica
3200
4150
4380
4000
2850
1980 2220
2330 3700
2830 3420
2630 3150
1780 2100
2470
3346
3522
3246
2328
na tabela 1.2. Para cada dose de nitrognio so plantados 5 canteiros de terra de 20m2 cada,
e
a
portanto, o tamanho da amostra para cada dose de nitrognio 5,ou seja, foram feitas 5
e
e
repetioes dos tratamentos. Para cada amostra existe uma correspondente populao; cada
c
ca
populaao formada por todos os valores poss
c e
veis de produao em kg/ha para a dose corc
respondente. Aps realizada a anlise estat
o
a
stica e a interpretao dos resultados a partir de
ca
um modelo que relacione a produo com as doses de nitrognio, ser indicada qual(is) a(s)
ca
e
a
melhor(es) dose(s) de nitrognio para a cultura do milho.
e
A estat
stica inferencial, dada a sua grande importncia, apresenta um grande nmero
a
u
10
para obter outras cinco repetioes, essa diferena poderia se modicar. E mais importante
c
c
pensar do seguinte modo. Suponha que seja praticvel repetir o experimento continuamente,
a
isto , aumentar o nmero de repetioes indenidamente. A diferena mdia das produoes
e
u
c
c
e
c
entre as duas doses provavelmente ir estabilizar num determinado valor. Este valor pode
a
ser considerado como sendo a diferena verdadeira entre as duas doses. Ento o problema de
c
a
resumir os dados pode ser colocado desta outra forma: o que pode-se dizer sobre a diferena
c
verdadeira entre a dose 3 e o controle? Esses so problemas de inferncia que sero tratados
a
e
a
neste curso nas sees 6, 7 e 8.
co
1.1.5
11
conana que a diferena mdia de produao, em kg/ha de milho, entre a dose 3 e o controle,
c
c
e
c
da cultivar A est entre 694 e 1589 kg/ha. Ento poss determinar limites dentro dos
a
a e
vel
quais a verdadeira diferena deve encontrar-se, com um certo grau de certeza, dada por uma
c
probabilidade, xada pelo pesquisador. Esses intervalos so conhecidos em estat
a
stica como
intervalos de conana. A espinha dorsal da inferncia estat
c
e
stica a teoria da probabilidade,
e
com seus modelos probabil
sticos, a qual deve necessariamente fazer parte de um curso de
estat
stica.
O que um modelo no sentido geral da palavra? Modelo uma verso simplicada de
e
e
a
algum evento, fenmeno, acontecimento da vida real. Exemplos: um globo uma verso
o
e
a
simplicada do planeta terra; uma maquete de um prdio, um layout (distribuiao interna),
e
c
etc.
Um dos propsitos da cincia descrever e fazer previses de eventos do mundo real, do
o
e
e
o
mundo no qual ns vivemos. Uma maneira pela qual isto feito, construindo-se modelos
o
e
e
matemticos (que so expresses matemticas) que adequadamente descrevem os fenmenos
a
a
o
a
o
do mundo real. Exemplo: desejamos fazer um estudo sobre a distribuio de uma espcie
ca
e
vegetal num habitat. Vamos supor que a distribuio dessa espcie no habitat aleatria,
ca
e
e
o
casual, sendo assim, essa distribuio se ajustar ao que conhecido como modelo de Poisson.
ca
a
e
Outro exemplo: suponhamos que 10 vacas de mesma idade e raa so tratadas com uma
c a
determinada rao A para aumentar a produo de leite (total da lactao). Admitimos que
ca
ca
ca
a probabilidade de aumento de produao na lactaao de = 0, 65. Ento podemos estar
c
c e
a
interessados em saber qual a probabilidade de exatamente 8 vacas aumentarem a produao
e
c
na lactaao. Nesse caso o modelo a ser usado o binomial. Estes modelos sero estudados
c
e
a
na seao 4.
c
Na construao de um modelo deve-se simplicar as coisas e certos pormenores devem ser
c
desprezados, claro que estes pormenores no devem ter importncia para o entendimento
e
a
a
do fenmeno em estudo. A resoluo do problema matemtico pode estar correta e, mesmo
o
ca
a
assim, estar em grande discordncia com os dados observados, simplesmente por que as
a
hipteses bsicas feitas no so conrmadas. Por isso, muito importante deduzir certas
o
a
a a
e
conseqncias do modelo e, a seguir, comparar esses resultados previstos pelo modelo com
ue
12
Amostragem
Teoria de probabilidades
Inferncia estatstica
Tpicos especiais
1.2
A Estat
stica e o Mtodo Cient
e
co
estat
stica). E claro que deve haver uma correspondncia perfeita entre estas duas hipteses.
e
o
Por exemplo, no caso do experimento de aplicaao de diferentes doses de nitrognio podec
e
mos formular a seguinte hiptese cient
o
ca: poss aumentar a produao de milho (kg/ha)
e
vel
c
atravs da aplicao de nitrognio. E a seguinte hiptese estat
e
ca
e
o
stica: existe diferenas enc
1
Hiptese cient
o
ca: Dado um problema bem denido, identicado, vamos imaginar uma explicao para
ca
algum aspecto do problema que nos tenha despertado interesse. Essa a hiptese, e deve ser coerente com
e
o
as observaes importantes j feitas, aliada aos conhecimentos tericos que o pesquisador possue sobre o
co
a
o
assunto.
13
14
(2)
Observaes
ou dados
Planejamento estatstico
do experimento
Anlise estatstica
(1)
Formulao de
hipteses
(3)
Verificao das
hipteses formuladas
(4)
Desenvolvimento
da teoria
c
Vericar a capacidade e comprimento de brotaao;
estudar a produao de massa verde;
c
vericar a sobrevivncia das erveiras decepadas.
e
a
4) Formulao da hiptese cientca. E vivel a recuperao de ervais nativos e improca
o
ca
dutivos atravs da prtica da decepa.
e
a
5) Escolha dos fatores que devem ser inclu
dos no estudo e seus correspondentes n
veis
(tratamentos). O pesquisador deve escolher os fatores a serem estudos, a faixa na qual esses
fatores sero variados, e os n
a
veis espec
cos utilizados no experimento. Neste projeto o
fator, tambm conhecido como varivel independente, a decepa, e as alturas em que ser
e
a
e
a
realizada a mesma so os tratamentos (n
a
veis do fator). Foram utilizadas quatro alturas
de decepa (4 tratamentos), quais sejam: tratamento 1 - altura de decepa a 0,00 m do solo;
tratamento 2 - altura de decepa a 0,30 m do solo; tratamento 3 - altura de decepa a 0,60 m
15
A estat
stica bastante rica em planos (delineamentos) experimentais. E nesse item que a
e
estat
stica participa fortemente do planejamento da pesquisa, ou seja, a sua contribuiao
c e
bastante grande, de tal forma que pode-se chamar esta etapa de planejamento estat
stico do
16
unidades experimentais (pois temos 4 tratamentos); como cada unidade experimental tem
8 plantas, ento, um bloco tem 32 plantas. Os blocos esto controlando as diferenas de
a
a
c
dimetros entre as plantas, assim, o bloco I formado por 32 plantas com dimetros entre
a
e
a
10 e 13 cm (exclusive); o bloco II formado por 32 plantas com dimetros entre 13 e 16 cm
e
a
(exclusive); o bloco III formado por 32 plantas com dimetros entre 16 e 19 cm (exclusive);
e
a
o bloco IV formado por 32 plantas com dimetros entre 19 e 22 cm (exclusive) e o bloco V
e
a
formado por 32 plantas com dimetros superiores a 22 cm. Portanto, cada tratamento ser
e
a
a
repetido 5 vezes, uma em cada bloco. Dentro de cada bloco houve o sorteio (aleatorizaao)
c
de qual unidade receber o tratamento 1, qual receber o tratamento 2, e assim por diante.
a
a
Este delineamento experimental denominado de blocos completos ao acaso.
e
9) Coleta dos dados. Aqui so feitas as medidas das variveis estabelecidas pelo pesquisador.
a
a
As variveis, logicamente, devem avaliar diretamente os efeitos dos tratamentos de acordo
a
com objetivos do experimento. Tambm podem ser coletadas variveis complementares, que
e
a
sero uteis para explicar o comportamento dos tratamentos.
a
10) Anlise estat
a
stica dos resultados. O objetivo da anlise estat
a
stica vericar as
e
hipteses formuladas no in da pesquisa cient
o
cio
ca. Por exemplo, comparar as mdias de
e
produao de massa foliar obtidas com cada uma das alturas de decepa, ou, estabelecer uma
c
relao funcional entre a produo de massa foliar e a altura de decepa das plantas.
ca
ca
Existem excelentes softwares estat
sticos para realizar as anlises. A anlise de res
a
a
duos
uma importante tcnica para vericar, por exemplo, se o modelo adequado.
e
e
e
11) Relatrio nal (publicao). Apresentar tabelas e grcos de forma a mostrar os
o
ca
a
efeitos esperados, comparar os resultados obtidos com os objetivos do experimento para
vericar se as questes propostas foram respondidas. Apresentar medidas de preciso das
o
a
estimativas. Se poss
vel, fazer referncias a outras pesquisas similares e uma avaliaao de
e
c
todas as etapas com sugestes para poss
o
veis alteraoes em pesquisas futuras.
c
A experimentaao uma importante fase do processo de aprendizagem, onde ns formuc e
o
lamos hipteses, realizamos o experimento para pesquisar sobre essas hipteses e, de acordo
o
o
com os resultados, formulamos novas hipteses, e assim sucessivamente. Isto sugere que a
o
experimentao iterativa.
ca e
Projeto 2 - Anlise de Alguns Aspectos da Dinmica de Populaes de Duas
a
a
co
Amostras de Biomphalaria tenagophila Submetidas a Diferentes Concentraoes de
c
Matria Orgnica no Meio.
e
a
1) Identicao do problema. A importncia do genro Biomphalaria no contexto da
ca
a
e
sade pblica brasileira deve-se ao fato de que dentre as 19 espcies que constituem este
u
u
e
17
genro, dez delas so encontradas no Brasil, sendo que trs so hospedeiras intermedirias
e
a
e a
a
do Schistosoma mansoni, causador da esquistossomose mansoni, um dos mais importantes
problemas de sade pblica em muitos pa tropicais e subtropicais. Sua ocorrncia acenu
u
ses
e
e
tuada entre populaes carentes de alguns pa subdesenvolvidos. Segundo a Organizaao
co
ses
c
Mundial da Sade, so estimados 200 milhes de pessoas como tendo sido contaminadas
u
a
o
pelo S. mansoni, enquanto, outros 500 a 600 milhes correm o risco de contra
o
-la. As trs
e
espcies hospedeiras so: B. straminea; B. glabrata e B. tenagophila.
e
a
No Brasil, estima-se em 5,5 milhes de pessoas infectadas, isto parece ser uma subestio
mativa, pois o Instituto de Medicina Tropical (IMT), da Faculdade de Medicina da USP,
estimou em 10 milhes o nmero de pessoas infectadas.
o
u
Em Santa Catarina, o primeiro foco de transmisso ocorreu em So Francisco do Sul,
a
a
atravs da B. tenagophila. Hoje, tem-se registro de B. tenagophila em 26 munic
e
pios do
nordeste do Estado.
Na Ilha de Santa Catarina, pesquisadores obtiveram registros de B. tenagophila, B.
oligoza e Drepanotrema sp, em 8 pontos estratgicos.
e
Em consequncia da alta endemicidade da esquistossomose no pa a distribuiao dos
e
s,
c
planorb
deos vem sofrendo constantes investigaes, sendo que especial atenao tem sido
co
c
dada, ainda, ao controle da expanso das espcies vetoras, apesar que a rea ocupada por
a
e
a
cada uma das espcies vetoras do S. mansoni, est aumentando.
e
a
O genro Biomphalaria apresenta uma grande tolerncia a diferentes condies ecolgicas,
e
a
co
o
isto permitiu sua ampla distribuiao geogrca. Muitos autores analisaram o comportamento
c
a
reprodutivo e crescimento em funo de uma srie de variveis, sendo que os efeitos de
ca
e
a
temperatura, tipo ou ausncia de alimentaao, inuncia do fotoperiodismo e densidade
e
c
e
populacional so alguns que receberam maior ateno.
a
ca
As condies do meio exigidas pelas biomfalrias para colonizar um ambiente, so:
co
a
a
riquezas de microora e matria orgnica, pouca turbidez, boa insolao, pH em torno de
e
a
ca
6 a 8, teor de NaCl abaixo de 3 por 1000 e temperatura mdia entre 20 C e 25 C. Cabe
e
aqui ressaltar, todavia, que as bionfalrias suportam modicaes considerveis nas caraca
co
a
ter
sticas f
sicas, qu
micas e biolgicas de seus ambientes, podendo, inclusive, utizar-se da
o
estivaao como uma estratgia para suportar a adversidade do meio.
c
e
Sabendo-se que os representantes do gnero Biomphalaria so constantementes encone
a
trados em grande variedades de colees de gua doce, paradas ou pouco correntes, natural
co
a
ou articialmente alagadas, que um unico espcime capaz de produzir, por autofecundao,
e
e
ca
uma populao de numerosos indiv
ca
duos e que B. tenagophila est em provvel extenso em
a
a
a
Santa Catarina, torna-se importante estudar os fatores biticos e abiticos que interferem
o
o
18
na biologia, distribuiao e adaptaao aos ambientes por eles explorados. Assim sendo, o
c
c
objetivo do presente trabalho avaliar crescimento, desempenho reprodutivo, sobrevivncia
e
e
e fecundidade de duas amostras de B. tenagophila, considerando-se diferentes condies do
co
meio.
2) Objetivo geral. Determinar o efeito de diferentes condioes do meio (poluiao) sobre a
c
c
biologia de B. tenagophila.
3) Objetivos espec
cos:
Vericar (estudar) o crescimento de B. tenagophila.
Estudar o desempenho reprodutivo da espcie.
e
4) Hiptese cientca. Num meio com poluio, o desenvolvimento biolgico da espcie
o
ca
o
e
prejudicado.
e
5) Escolha do fator que deve ser inclu no estudo e seus correspondentes n
do
veis. Nesse
projeto, o fator em estudo poluio, tambm chamado de varivel independente, os difere
ca
e
a
entes n
veis de poluiao so os tratamentos. Nesse trabalho foram utilizados dois tratamentos,
c a
quais sejam: 1) Sem poluiao (com troca de gua) e 2) com poluiao (completa a gua).
c
a
c
a
6) Escolha da unidade experimental. Nesse experimento a unidade experimental um
e
caramujo. Cada unidade experimental formada por um copo de vidro (mini-aqurio), com
e
a
60 ml de gua deionizada, contendo um caramujo.
a
7) Escolha das variveis que sero medidas nas unidades experimentais. Algumas variveis
a
a
a
avaliadas neste experimento foram: dimetro em trs diferentes tempos (nascimento, na 1a
a
e
desova e no nal do experimento); idade na 1a desova; nmero de ovos desenvolvidos; nmero
u
u
de ovos viveis; nmero de ovos inviveis; nmero total de ovos.
a
u
a
u
8) Determinao das regras e procedimentos pelos quais os tratamentos so atribu
ca
a
dos `s
a
unidades experimentais. Nesse experimento a amostra total foi composta por 51 caramujos
(i.. 51 unidades experimentais). Atravs de um processo aleatrio foram escolhidos 23
e
e
o
caramujos para receberem o tratamento T e 28 caramujos para receberem o tratamento C.
A regra de estabelecer os tratamentos `s unidades experimentais foi completamente ao acaso.
a
9) Coleta de dados; Anlise estatstica dos dados e Relatrio nal. Idem ao que foi
a
o
comentado para o projeto 1.
1.3
19
9
8
Textura
7
6
5
4
Dose 1
Dose 2
Dose 3
Dose 4
2
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
Dose 5
Figura 1.4: Efeito da interao entre doses de leite de vaca e doses de coagulante
ca
1.3.1
Nos projetos 1 e 2, vimos dois experimentos com apenas 1 fator. No projeto 1 o fator
a decepa e, no projeto 2 a poluio. Em muitos caso, temos experimentos com mais de
e
e
ca
um fator. Considere um experimento com cinco (5) doses de leite de vaca e cinco (5) doses
de coagulante. Aqui temos 2 fatores em estudo, doses de leite e coagulante, com 5 n
veis
cada um, caracterizando um . E interessante salientar que a escolha dos fatores e seus n
veis
incumbncia do pesquisador. Nos experimentos fatoriais poss estudar-se a interao
e
e
e
vel
ca
que existe entre os fatores, isto , como o comportamento dos n
e
e
veis de um fator dentro
dos n
veis do outro fator. A gura 1.4 ilustra o efeito da interaao entre os fatores leite de
c
vaca e coagulante.
Os fatores podem ser quantitativos ou qualitativos. A temperatura de um forno, os n
veis
de nitrognio e de fsforo so exemplos de fatores quantitativos, enquanto que, fabricantes
e
o
a
de drogas, diferentes locais e meios de cultura so fatores qualitativos.
a
20
Tratamento Controle
21
peratura ambiente (25 C) e o experimento foi feito a 2 C (frango cr). O que ? O tratau
e
mento controle consiste em se realizar todos os procedimentos que so feitos nas unidades
a
experimentais usadas para os outros tratamentos, exceto a aplicaao do efeito em estudo.
c
Exemplo: num estudo sobre aditivos em alimentos, um tratamento pode consistir de uma
porao de um vegetal contendo um aditivo particular que servido a um degustador. O
c
e
tratamento controle consistiria de uma porao do mesmo vegetal servido ao degustador, na
c
mesma situao experimental, exceto que no seria utilizado o aditivo no alimento. E funca
a
damental que o tratamento controle seja conduzido nas mesmas condioes experimentais dos
c
outros tratamentos.
1.3.3
Variveis e Covariveis
a
a
O que pode constituir problema, as vezes, a forma como a varivel medida, pois disso
e
a e
depende a preciso das observaoes e o tipo de anlise a ser executada. Exemplo: se os
a
c
a
valores da varivel sabor de um alimento dada numa escala de 1 a 10, pode-se aumentar a
a
e
preciso e facilitar a anlise, utilizando-se como observao, a mdia de 3 valores da mesma
a
a
ca
e
unidade experimental.
Quando temos uma varivel que inuencia as variveis dependentes, chama-se a mesma
a
a
de covarivel. Exemplos: 1) se o tempo necessrio para executar um experimento 30 dias,
a
a
e
e se a temperatura do ambiente tem inuncia na varivel dependente (resposta), ento, a
e
a
a
temperatura deve ser mantida constante. Se isso no for poss
a
vel, ento, deve-se medir a
a
temperatura para cada unidade experimental; 2) num experimento para comparar 4 meios
de cultura em frangos congelados onde a varivel dependente a populaao de Staphilococus
a
e
c
aureus, cada frango apresenta uma populaao inicial de Staphilococus diferente, neste caso,
c
a populaao inicial de Staphilococus a covarivel; 3) Num experimento para estudar a
c
e
a
produao de 10 variedades de soja, o nmero de sementes que germinam nos canteiros
c
u
e
a covarivel. Estas variveis entram na anlise como covariveis e, observe que elas no
a
a
a
a
a
podem ser controladas pelo pesquisador. Este fato que as diferencia de uma varivel de
e
a
perturbaao (nuisance variable).
c
1.3.4
Repetio e Casualizao
ca
ca
22
1.4
Exerc
cios Propostos
23
24
2
2.1
2.1.1
25
38
34
30
26
22
18
14
10
10
12
14
16
18
20
22
26
Ciclo
Altura planta
Altura espiga
(kg/ha)
(dias)
(cm)
(cm)
6388
65
242
103
dentado
6166
65
258
134
semi-dentado
6047
65
240
104
semi-dentado
5889
66
243
108
semi-dentado
5823
69
257
128
dentado
ms
5513
68
241
108
semi-dentado
5202
64
235
108
dentado
5172
68
240
103
dentado
5166
69
253
123
dentado
ms
10
4975
70
250
117
semi-dentado
ms
11
4778
70
242
114
dentado
mr
12
4680
66
245
111
semi-duro
ms
13
4660
69
239
110
semi-duro
mr
14
5403
73
264
138
dentado
ms
15
5117
76
282
149
dentado
mr
16
5063
72
274
151
dentado
17
4993
71
279
134
semi-dentado
18
4980
72
274
140
dentado
ms
19
4770
73
244
140
dentado
20
4685
71
265
139
semi-duro
mr
21
4614
73
248
110
semi-dentado
22
4552
73
265
128
semi-dentado
23
3973
74
261
124
semi-dentado
mr
24
4550
71
259
129
semi-duro
25
5056
64
252
104
semi-duro
mr
26
4500
70
271
109
dentado
ms
27
4760
68
243
137
semi-duro
28
5110
66
252
141
semi-dentado
ms
29
4960
70
262
120
dentado
ms
30
4769
73
260
118
dentado
31
4849
74
250
119
semi-dentado
32
1
Rendimento mdio
e
Tipo gro
a
5230
71
255
138
semi-duro
(escala)
Ferrugem
E
D
a
veis
dentro de um determinado intervalo. Esta variveis, dependendo da preciso utia
a
lizada na mediao, so capazes de diferenciar animais, plantas para valores muito pec a
28
Feita a coleta dos dados, atravs de censos, de levantamentos por amostragem (Survey,
e
em ingls), ou de experimentos, os mesmos apresentam-se, geralmente, de maneira desore
ganizada, ainda sem valor informativo sobre o fenmeno em estudo, portanto, os mesmos
o
devem ser organizados e resumidos, para possibilitarem a obteno de informaoes uteis para
ca
c
o trabalho de pesquisa.
O estudo das distribuies de freqncias nos permite conhecer a forma, a maneira como
co
ue
os valores de uma varivel se comporta, isto , poss ter uma boa idia global dos valores,
a
e e
vel
e
ou seja, da distribuiao. Uma distribuiao de freqncias pode ser representada em forma
c
c
ue
de tabela ou grco.
a
2.1.3.1 Distribuies de Freqncias de Variveis Qualitativas. Representao
co
ue
a
ca
em Tabelas
Feita a coleta dos dados relativa `s variveis denidas no in
a
a
cio da pesquisa, o investigador tem interesse, agora, em conhecer o comportamento dessas variveis considerando
a
os elementos pesquisados, por exemplo, conhecer a distribuiao da varivel resistncia `
c
a
e
a
ferrugem pesquisada em 32 h
bridos de milho, na regio de Chapec, SC.
a
o
29
Este estudo pode ser feito atravs da construo de distribuioes de freqncias, chamandoe
ca
c
ue
se de frequncia, por exemplo, o nmero de h
e
u
bridos para a categoria S, MS, MR, e R,
respectivamente. Chama-se, portanto, distribuio de freqncias, a correspondncia entre
ca
ue
e
categorias ou valores poss
veis de uma varivel e as respectivas freqncias. Inicialmente
a
ue
vamos representar as distribuioes de freqncias em tabelas.
c
ue
Alguns aspectos importantes devem ser levados em considerao na construao de uma
ca
c
tabela, quais sejam:
tulo completo; as trs questes que devem ser respondidas
e
o
1. Toda tabela deve conter um t
num t
tulo so: o qu se est estudando? onde foi feito o estudo? e quando?. O t
a
e
a
tulo
deve ser colocado na parte superior da tabela.
2. Se os dados no so prprios deve-se indicar a fonte dos mesmos. Ela vai na parte
a a
o
inferior da tabela.
3. As notas e chamadas so utilizadas para fazer esclarecimentos de ordem geral e esa
pec
cas, respectivamente. Ambas so numeradas, geralmente em algarismos arbicos,
a
a
pode-se, ainda, utilizar letras minsculas ou s
u
mbolos, como por exemplo, asterisco.
Tambm so colocadas na parte inferior da tabela.
e
a
4. Os totais e subtotais devem ser bem destacados.
e
u
5. De preferncia usar o mesmo nmero de casas decimais para os algarismos.
6. No devem ser fechadas lateralmente.
a
7. Quando algum valor da tabela nulo pela prpria natureza do fenmeno em estudo,
e
o
o
deve-se utilizar o h
fen (-) para substitu
-lo. Quando no se tem informao sobre
a
ca
algum valor deve-se colocar trs pontos (...). Se existe dvida sobre a exatido da
e
u
a
informaao deve-se usar ponto de interrogao (?). Se algum valor for omitido para
c
ca
evitar individualizao, deve-se usar a letra x. O s
ca
mbolo de pargrafo () utilizado
a
e
para reticar uma informao publicada anteriormente.
ca
Exemplo. A tabela 2.1 apresenta os dados sobre resistncia ` ferrugem de 32 h
e
a
bridos
de milho (coluna 7). A distribuio de freqncias para essa varivel apresentada na tabela
ca
ue
a e
2.2, cuja construao passamos a discutir.
c
Na tabela 2.2, a primeira coluna mostra todas as categorias da varivel resistncia `
a
e
a
ferrugem. Na segunda coluna temos as freqncias absolutas, resultantes da contagem de
ue
30
10
6
9
7
0,313
0,188
0,281
0,219
31,250
18,750
28,125
21,875
TOTAL
32
1,000
31,250
50,000
-
100,000
quantas observaes se identicam com cada categoria. A notao para as freqncias abco
ca
ue
solutas ni , assim temos, n1 = 10, n2 = 6, n3 = 9, n4 = 7. A terceira coluna apresenta
e
uma medida relativa de cada freqncia, obtida da diviso de cada freqncia absoluta pelo
ue
a
ue
nmero total de observaoes, resultando nas propores ou freqncias relativas (fi = ni /n).
u
c
co
ue
Por exemplo, a freqncia relativa da categoria R calculada por: f1 = 10 32 = 0, 3125.
ue
e
Multiplicando por 100 as freqncias relativas, temos as percentagens de ocorrncias de cada
ue
e
resultado observado (coluna 4). A ultima coluna da tabela apresenta a porcentagem acumu
lada, dada pela porcentagem da respectiva coluna adicionada da(s) anterior(es) ` ela. Por
a
exemplo, os 50% da categoria MR o resultado da adio de 18,75% e 31,25%. Observa-se
e
ca
na tabela 2.2 que temos praticamente 50% de h
bridos resistentes e 50% de suscept
veis.
Deixamos as categorias MS e S com traos pois no tem sentido prtico o clculo das porc
a
a
a
centagens acumuladas neste caso, ou seja, no tem sentido armarmos que 100% dos h
a
bridos
so suscept
a
veis.
Essas medidas relativas so particularmente importantes na comparaao entre distribuioes
a
c
c
de freqncias, como veremos a seguir em distribuies bidimensionais, isto , quando temos
ue
co
e
duas variveis em estudo. Quando temos mais do que duas variveis o racioc o mesmo.
a
a
nio e
Tabelas Bidimensionais
A tabela 2.3 mostra trs distribuioes de freqncias, uma para cada regio preferencial.
e
c
ue
a
Dizemos que esta tabela bidimensional, pois apresenta a distribuiao de duas variveis,
e
c
a
quais sejam: 1) resistncia ` ferrugem e 2) regio.
e
a
a
Como os totais marginais da tabela 2.3 so diferentes, e isto diculta a interpretao,
a
ca
interessante trabalhar com porcentagens, tornando, assim, os resultados comparveis. As
e
a
31
10
6
9
7
3
12
3
1
12
2
3
2
25
20
15
10
TOTAL
32
19
19
70
31,2
18,8
28,1
21,9
15,8
63,2
15,8
5,2
63,2
10,5
15,8
10,5
35,8
28,6
21,4
14,3
TOTAL
100,0
100,0
100,0
100,0
porcentagens podem ser calculadas de trs formas: 1) xando-se os totais de linhas em 100%;
e
2) xando-se os totais de colunas em 100% e 3) xando-se o total geral em 100%. Isto vai
de acordo com o objetivo da pesquisa, uma delas ser a mais adequada.
a
Na tabela 2.4 xamos os totais de colunas em 100%. Este tipo de distribuiao serve para
c
comparar a distribuiao das regies conforme a resistncia ` ferrugem, ou seja, para uma
c
o
e
a
dada regio podemos analisar a varivel resistncia ` ferrugem. Com respeito a essa tabela,
a
a
e
a
observamos que em Campos Novos a porcentagem de h
bridos moderadamente resistentes
e
bem superior `s outras duas regies, 63,2% em Campos Novos contra 18,8% em Chapec e
a
o
o
10,5% em Iara. Por outro lado, vemos que Iara apresenta a maior porcentagem de h
c
c
bridos
resistentes ` ferrugem (63,2%), bem superior ` Chapec (31,2%) e Campos Novos (15,8%).
a
a
o
Percebe-se que em Chapec a distribuiao mais homognea nas categorias da resistncia.
o
c e
e
e
32
40,0
30,0
60,0
70,0
12,0
60,0
20,0
10,0
48,0
10,0
20,0
20,0
100,0
100,0
100,0
100,0
TOTAL
45,7
27,1
27,1
100,0
14,3
8,6
12,9
10,0
4,3
17,1
4,3
1,4
17,1
2,9
4,3
2,8
35,7
28,6
21,4
14,3
TOTAL
45,7
27,1
27,1
100,0
33
180 a 300
19
25
301 a 422
36
24
60
Total
45
49
94
(Amostra A: indiv
duos agrupados numa bacia e Amostra I: indiv
duos isolados em copos
de vidro), produziu os resultados da tabela 2.7:
a) Dos indiv
duos que tiveram tempo de vida entre 58 e 179 dias, qual a porcentagem
deles para a condio Agrupados? e Isolados?
ca
b) Qual a porcentagem de indiv
duos para tempo de vida entre 180 e 300 dias e condiao
c
Isolados?
c) Dos indiv
duos submetidos ` condio de Agrupados, qual a porcentagem de indiv
a
ca
duos
teve tempo de vida entre 301 e 422?
Observou-se 9 indiv
duos com tempo de vida entre 58 e 179 dias, portanto, as porcentagens so dadas por: 3/9=33,33% e 6/9=66,67%, respectivamente. A resposta do item b)
a
: 19/94=0,2021=20,21%. Observou-se um total de 45 indiv
e
duos submetidos a condio
ca
de Agrupados, portanto, a porcentagem dos que tem tempo de vida entre 301 e 422 :
e
36/45=0,80=80%.
34
2.1.3.2
deixar uma distncia entre os retngulos. E usado quando as inscrioes a serem colocadas
a
a
c
sob os retngulos forem muito extensas. Sempre que poss ordenar as barras em ordem
a
vel
decrescente. A gura 2.3 mostra o grco de barras da distribuio da tabela 2.2.
a
ca
35
Resistncia ferrugem
ms
mr
10
11
Nmero de hbridos
36
Resistentes
Semi-duro
Susceptvel
Tipo de gro
M. susceptvel
M. resistente
Semi-dentado
Dentado
Nmero de hbridos
Nmero de observaes
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
Dentado
Semi-dentado
Semi-duro
Tipo de gro
37
resistentes, 35,7 %
Resistncia ferrugem
Figura 2.6: Distribuiao das proporoes (%) da resistncia ` ferrugem, para o tipo de gro
c
c
e
a
a
dentado, para a regio I, 1987/88
a
Os grcos de linhas so adequados para dados ordenados ao longo do tempo (sries
a
a
e
temporais) e servem para comparar distribuioes. Na gura 2.7, apresentamos o grco de
c
a
linhas da varivel acidez em cido ltico (%) de 4 tratamentos, denominados aqui por PA,
a
a
a
PB, PC e C.
Exerc
cio resolvido
1. Um pesquisador est procurando vericar se existe associao entre hbito de crescia
ca
a
mento (3=indeterminado trepador e 4=indeterminado prostrado) e porte (Tr=trepador,
EB=ereto na base e Pr=prostrado) na cultura do feijo de vagem. Para esse m foi cona
duzido um experimento na UFSC, safra 1991/92, cujos resultados esto na tabela 2.8.
a
a) Construa a distribuiao de frequncia conjunta para as variveis hbito de crescimento e
c
e
a
a
porte. Resposta tabela 2.9.
b) Faa um grco para a distribuio de freqncia conjunta do item a). Resposta gura
c
a
ca
ue
2.8.
2.1.3.3 Exerc
cios Propostos
1. Um pesquisador est procurando vericar se existe associaao entre local (1= Rio
a
c
vermelho; 2= Costa da lagoa) e nmero de abortos para crianas do sexo feminino. Para
u
c
esse m foi feito um levantamento, cujos resultados esto apresentados na tabela 2.10 (Obs:
a
A unidade de amostragem uma fam
e
lia):
a) Construa a distribuiao de freqncias conjunta para as variveis local e nmero de
c
ue
a
u
abortos.
b) Faa um grco para a distribuio de freqncias conjunta do item a).
c
a
ca
ue
38
0,76
0,72
0,68
0,64
0,60
C
0,56
PC
PB
0,52
PA
0,48
14
21
28
Tempo em dias
Figura 2.7: Comportamento da varivel acidez em cido ltico (%) nos diversos tratamentos
a
a
a
durante a maturaao de salame tipo italiano,UFSC, 1992
c
Tr
EB
Pr
Tr
Tr
Tr
Pr
EB
Tr
Tr
4
4
3
3
3
3
4
4
4
4
Tr
Tr
Pr
Pr
Pr
EB
EB
EB
Tr
Tr
4
4
3
4
4
4
4
4
3
4
39
Tr
Tr
Tr
Tr
Tr
Tr
Tr
Tr
Pr
Tr
4
4
4
3
4
3
4
3
4
4
Pr
Tr
Pr
Pr
Tr
Pr
Pr
Pr
Tr
Tr
4
3
3
3
4
4
4
4
3
4
Tr
Pr
Pr
Pr
Tr
Tr
Tr
Tr
Pr
Tr
1 6,3%
2 12,5%
13 81,3%
28 82,4%
3 8,8%
3 8,8%
29 58,0%
5 10,0%
16 32,0%
Total
16 100,0%
34 100,0%
50 100,0%
40
0
0
1
0
0
0
0
2
2
0
1
1
0
0
2
2
2
2
2
2
2
2
2
2
2
2
2
2
0
1
1
1
1
1
0
0
0
0
0
0
0
0
2
2
2
2
2
2
2
2
2
2
1
1
1
1
0
0
1
1
2
0
0
0
0
1
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
2
1
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
2. Um economista agr
cola est estudando os fatores que afetam a adoo de uma nova
a
ca
variedade de arroz altamente produtiva. Os resultados obtidos esto na tabela 2.11.
a
a) Faa um grco para tabela 2.11, mostrando o comportamento da adoao segundo a
c
a
c
situao de posse da terra (perl linha). Faa a interpretao dos resultados.
ca
c
ca
3. Foi conduzido um experimento com o objetivo de avaliar o poder germinativo de
duas cultivares de cebola: A) Bola Precoce-EMPASC 352 e B) Norte 14. Foram utilizadas
para o teste de germinaao, 4 repetioes de 100 sementes, totalizando 400 sementes para
c
c
cada cultivar. A varivel de estudo o nmero de sementes que germinam. Os resultados
a
e
u
Tabela 2.11: Distribuio conjunta de freqncias
ca
ue
Posse
Adoo
ca
Total
Adota No adota
a
Proprietrio
a
Vrios arendatrios
a
a
Unico arendatrio
a
102
42
5
26
10
2
128
52
7
Total
149
38
187
41
392
381
8
19
400
400
Total
773
27
800
21
1
12
14
2
19
35
34
Total
22
26
21
69
obtidos esto na tabela 2.12. Faa um grco mostrando o comportamento das cultivares
a
c
a
com relaao ` germinao das sementes. Faa a interpretaao dos resultados.
c a
ca
c
c
4. A tabela 2.13 representa a distribuiao conjunta das variveis local de coleta e peso
c
a
de mexilhes. Faa um grco para representar a distribuio conjunta. Obtenha uma
o
c
a
ca
concluso relevante.
a
2.1.3.4 Tabelas de Contingncia
e
E muito freqnte nas Cincias Biolgicas o interesse em vericar se duas variveis qualiue
e
o
a
tativas apresentam-se associadas, isto , se o conhecimento de uma varivel ajuda a entender
e
a
uma outra varivel. Construindo uma distribuiao de freqncia conjunta das duas variveis,
a
c
ue
a
ou seja, uma tabela de contingncia, podemos satisfazer de forma exploratria esse objetivo.
e
o
Vamos vericar que a simples construo da distribuiao conjunta das freqncias ser um
ca
c
ue
a
poderoso instrumento para ajudar na compreenso dos dados. Como veremos, as tabelas
a
constru
das na seo anterior, so chamadas de tabelas de contingncia e sero agora introca
a
e
a
duzidas formalmente.
Para se construir uma tabela de contingncia, deve-se observar conjuntamente as duas
e
variveis nos elementos em estudo. Por exemplo, vamos observar para cada aluno, o grau
a
de satisfaao com o curso e o preparo dos professores. Se desejamos descrever a varivel
c
a
grau de satisfao com o curso, sabendo-se que a mesma tem associao com o preparo dos
ca
ca
42
B1
B2
...
Br
TOTAIS
A1
A2
.
As
n11
n21
.
ns1
n12
n22
.
ns2
...
...
...
...
n1r
n2r
.
nsr
n1.
n2.
.
ns.
TOTAIS
n.1 =
s
i=1
ni1
n.2 =
s
i=1
ni2
... n.r =
s
i=1
nir
n.. =
s
i=1
r
j=1
nij
43
Tabela 2.15: Distribuiao conjunta das freqncias das variveis resistncia ` ferrugem e
c
ue
a
e
a
tipo de gro para 32 h
a
bridos de milho, 1987/88.
Tipo de gro Resistncia ` ferrugem1 Totais
a
e
a
R MR MS
S
Dentado
Semi-dentado
Semi-duro
5
4
1
2
1
3
6
2
1
1
4
2
14
11
7
Total
10
6
9
7
32
R = resistente; MR = moderadamente resistente; MS = moderadamente suscept
vel; S =
suscept
vel.
Tabela 2.16: Distribuio conjunta das percentagens das variveis resistncia ` ferrugem e
ca
a
e
a
tipo de gro para 32 h
a
bridos de milho, 1987/88.
Tipo de gro Resistncia ` ferrugem1 Totais
a
e
a
R
MR MS
S
Dentado
Semi-dentado
Semi-duro
35,7
36,4
14,3
14,3
9,1
42,8
42,9
18,2
14,3
7,1
36,4
28,6
100,0
100,0
100,0
Total
31,2 18,8 28,1 21,9 100,0
R = resistente; MR = moderadamente resistente; MS = moderadamente suscept
vel; S =
suscept
vel.
colunas) e a distribuiao marginal do tipo de gro (totais de linhas), enquanto que a tabela
c
a
toda representa a distribuio conjunta das duas variveis.
ca
a
Como os totais marginais da tabela 2.15 so diferentes, torna-se dif fazer alguma
a
cil
interpretao. Para facilitar, podemos incluir as freqncias relativas, em porcentagem,
ca
ue
que podem ser calculadas em relaao aos totais de linhas, colunas ou em relaao ao total
c
c
geral. Os totais (linhas, colunas ou geral) em porcentagens so comparveis, pois reduz-se
a
a
as freqncias a um mesmo total.
ue
A tabela 2.16 apresenta as porcentagens calculadas em relaao aos totais de linhas. Sendo
c
assim, vamos estudar a distribuiao da resistncia ` ferrugem para cada um dos diferentes
c
e
a
tipos de gros (os pers so as linhas).
a
a
Interpretao: observa-se, para os h
ca
bridos selecionados, um indicativo de associao
ca
44
entre a resistncia ` ferrugem e o tipo de gro, pois, enquanto o tipo de gro semi-duro apree
a
a
a
senta a menor porcentagem de resistncia ` ferrugem (14,3%), o tipo de gro semi-dentado
e
a
a
apresenta a menor porcentagem de moderadamente resistentes (9,1%) e o tipo de gro dena
tado apresenta a menor porcentagem de h
bridos suscet
veis ` ferrugem (7,1%). Podemos
a
vericar esta associao de outra forma. Observamos na amostra selecionada que 31,2%
ca
dos h
bridos so resistentes (R) ` ferrugem. Ora, se no existe associao (dependncia)
a
a
a
ca
e
entre as variveis, esperar
a
amos esta mesma porcentagem (31,2%) para todos os 3 tipos
de gros. Observamos, na amostra de h
a
bridos, uma porcentagem de 35,7% para dentado,
36,4% para semi-dentado e 14,3% para semi-duro, este ultimo resultado bastante abaixo dos
31,2% esperados. Isto nos leva a acreditar que realmente existe associaao entre a resistncia
c
e
` ferrugem e o tipo de gro dos h
a
a
bridos de milho amostrados.
Exerc
cios resolvidos
1. Para os dados da tabela 2.8 podemos considerar que o hbito est associado com o
a
a
porte? justique.
Sim, pois vericamos que para o hbito de crescimento 3, 81,3% dos materiais apresentam
a
porte prostrado. Por outro lado, para hbito 4, 82,4% dos materiais apresentam porte
a
trepador. Procure entender esta associaao atravs do grco da gura 2.8
c
e
a
2. Os dados da tabela de contingncia 2.17 tem por objetivo analisar a segregaao
e
c
dos dados de uma prognie de uma espcie X segregando para dois fatores: precocidade e
e
e
virescncia (tipo de decincia de clorola). Sabe-se que a precocidade recessiva em relao
e
e
e
ca
` ciclo tardio e controlada, neste caso, por um par de genes. O tipo virescente tambm
a
e
e e
recessivo em relaao ao normal e controlado por um par de genes.
c
a) Fixe os totais de colunas em 100%. Resposta tabela 2.17.
b) Faa um grco para a tabela, vericando a distribuiao da precocidade segundo a
c
a
c
virescncia (perl coluna). Resposta gura 2.9.
e
c) Os dois pares de genes so herdados independentemente ou h evidncia de associao?
a
a
e
ca
justique com apresentao de valores. Existe uma associaao fraca entre as variveis, pois
ca
c
a
para virescncia normal observa-se que 77,11% apresentam precocidade tardia. Observa-se
e
quase a mesma porcentagem (75,83%) para virescente e tardio. Portanto, no houve uma
a
mudana razovel quando mudamos de n de virescncia, indicando associao fraca.
c
a
vel
e
ca
3. A tabela de contingncia 2.18 refere-se ao nmero de pssaros de uma particular
e
u
a
espcie, classicados de acordo com duas variveis qualitativas, que so: 1 ) local da oresta
e
a
a
e 2 ) estaao do ano. Os pssaros foram observados alimentando-se de acordo com as duas
c
a
variveis. Um pesquisador levantou a hiptese (no in do trabalho), de que os pssaros
a
o
cio
a
alimentam-se nestes 3 locais da oresta nas mesmas propores na primavera e no outono.
co
45
3470 77,11%
1030 22,89%
910 75,83%
290 24,17%
4380 76,84%
1320 23,16%
5700 100,00%
do ano
Arvores
Arbusto
Cho
a
Primavera
Outono
30 50,8%
13 21,3%
20 33,9%
22 36,1%
9 15,3%
26 42,6%
59 100,0%
61 100,0%
Total
43 35,8%
42 35,0%
35 29,2%
120 100,0%
46
60
50
50
40
40
30
30
20
20
10
porcentagens
60
10
rvores Arbustos
Cho
Primavera
rvores Arbustos
Cho
Outono
47
24
289
9
100
13
565
46
954
Total
313
109
578
1000
48
2 /n(min(l 1, c 1)),
Independncia de Variveis
e
a
Quando se constroi uma distribuio conjunta de freqncias, um dos principais objetivos,
ca
ue
procurar estabelecer a associaao existente entre as variveis, isto , desejamos conhecer o
e
c
a
e
grau de dependncia entre as variveis, pois conhecendo o grau de dependncia entre elas,
e
a
e
podemos prever o melhor resultado de uma varivel sabendo-se o resultado da outra. Por
a
exemplo, se desejamos saber o local da oresta onde os pssaros se alimentam, se nos tivermos
a
informao sobre a estao do ano, vamos ter condioes de estimar com maior preciso o
ca
ca
c
a
49
local onde os pssaros se alimentam, pois existe uma dependncia entre o local da oresta e
a
e
a estaao do ano.
c
A dependncia no no sentido de que uma determina a outra. Por exemplo, num estudo
e
a e
para vericar se existe associaao entre a satisfaao com o emprego e os salrios percebidos,
c
c
a
no signica que melhorando as condioes de trabalho (satisfaao), vai melhorar os salrios.
a
c
c
a
Em primeiro lugar, observamos que, independentemente da estao do ano, 35,8% dos
ca
pssaros se alimentam nas rvores, 35% nos arbustos e 29,2% no cho.
a
a
a
Ora, se existe independncia entre o local da oresta e a estaao do ano, esperamos estas
e
c
mesmas porcentagens para cada categoria da estaao do ano. Comparando-se as frequncias,
c
e
podemos interpretar que existe dependncia entre as variveis.
e
a
Quando existe dependncia entre as variveis interessante conhecer a magnitude dessa
e
a
e
associaao, ou seja, conhecer se a associaao fraca, moderada ou forte. Portanto, imporc
c e
e
tante termos uma medida de associao entre variveis categorizadas.
ca
a
u
e
a
Teoricamente este valor varia entre 0 (zero) e 1 (um), 0 C 1, sendo nulo quando as
variveis so independentes. Quando existe uma associaao perfeita entre as duas variveis,
a
a
c
a
o coeciente de contingncia de Pearson vale 1.
e
Para o clculo do coeciente necessrio, em primeiro lugar, calcularmos uma outra
a
e
a
estat
stica, chamada de Qui-Quadrado, e representada pela letra grega elevada a potncia
e
2
2. Ento, passamos de imediato ao clculo do , atravs do exemplo da tabela 2.18.
a
a
e
Na hiptese de independncia, esperamos para local da oresta rvores e estao primavo
e
a
ca
era, 590, 358 = 21, 122 pssaros; para local da oresta rvores e estao outono, esperamos
a
a
ca
61 0, 358 = 21, 838 pssaros, e assim para todas as caselas restantes da tabela. Um modo
a
prtico de se encontrar as freqncias esperadas sob a hiptese de independncia, dado por:
a
ue
o
e
e
f e11 =
59 43
n1. n.1
=
= 21, 141.
n..
120
A notaao f e11 indica a freqncia esperada para a estao primavera (linha 1) e local rvores
c
ue
ca
a
(coluna 1). Se o leitor no est lembrado desses
a
a
ndices, veja novamente a tabela 2.14.
Para a casela 21, isto , estao outono (linha 2) e local rvores (coluna 1), temos:
e
ca
a
f e21 =
61 43
n2. n.1
=
= 21, 858.
n..
120
50
do ano
Arvores Arbusto
Cho
a
Primavera
Outono
30 21,14
13 21,86
20 20,65
22 21,35
9 17,21
26 17,79
59
61
43
42
35
120
Total
do ano
a
Arvores Arbusto Cho
Primavera
Outono
8,86
-8,86
-0,65
0,65
-8,21
8,21
=
i=1
(oi ei )2
ei
(2.1)
2 =
= 15, 0501.
a
E fcil perceber que se 2 = 0, as duas variveis so independentes e que se 2 > 0 indica
a
a
51
associaao das variveis. O valor de Qui-Quadrado no possui um limite superior, pois varia
c
a
a
de 0 (zero) a + ( mais innito). Na seao 8.5.2 iremos fazer o teste de qui-quadrado, que
c
e
um teste conrmatrio, no sentido de poder armar se existe ou no associao signicativa
o
a
ca
(estatisticamente comprovada) entre as variveis.
a
Descritivamente, Karl Pearson props o chamado coeciente de contingncia, represeno
e
tado pela letra C, denido por:
2
C=
,
(2.2)
2 + n
onde n o nmero total de observaoes. Para o exemplo em estudo temos:
e
u
c
15, 0501
= 0, 3338,
15, 0501 + 120
C=
indicando que existe associaao, porm podemos dizer que a associao fraca.
c
e
ca e
Quando existe uma associaao perfeita, esse coeciente no atinge o valor 1, por isso, foi
c
a
sugerido uma correao, a qual consiste em calcular,
c
C =
C
(t 1)/t
(2.3)
onde t o m
e
nimo entre o nmero de colunas e o nmero de linhas da tabela de contingncia.
u
u
e
Para o exemplo, onde t = 2, temos:
0, 3338
C =
(2 1)/2
= 0, 4721.
Agora, temos uma associaao moderada entre as variveis. Devemos considerar as variveis
c
a
a
como moderadamente associadas.
Exerc
cio resolvido
1. Para os dados da tabela 2.9, obter o coeciente de contingncia de Pearson e interpree
tar.
O valor de qui-quadrado :
e
2 = 7, 3877 + 3, 4766 + 0, 1000 + 0, 0470 + 12, 1278 + 5, 7072 = 28, 8464.
O valor do coeciente de conngncia :
e
e
C=
28, 8464
= 0, 6049.
28, 8464 + 50
0, 6049
1/2
= 0, 8554.
52
2.1.3.7 Exerc
cios Propostos
1. Com os dados da tabela 2.10, calcule o coeciente de contigncia de Pearson e conclua.
e
2. Com os dados da tabela 2.8, calcule o coeciente de contigncia de Pearson e conclua.
e
3. Com os dados da tabela 2.12, calcule o coeciente de contingncia de Pearson e
e
interprete.
4. Calcule o coeciente de contingncia de Pearson e o de Cramr para os dados da
e
e
tabela 2.13. Faa a interpretaao.
c
c
2.1.3.8 Distribuies de Freqncias de Variveis Quantitativas: Diagrama de
co
ue
a
Pontos, Grco de Colunas e Histograma
a
Inicialmente faremos uma breve introduao sobre o estudo de distribuioes de frequncias
c
c
e
para variveis aleatrias quantitativas e, aps, discutiremos as tcnicas para este estudo.
a
o
o
e
Quando a varivel em estudo quantitativa, discreta ou cont
a
e
nua, as principais caracter
sticas a serem observadas numa distribuiao de frequncias so:
c
e
a
o
1. valor tpico ou representativo, que como o prprio nome indica, corresponde a escolha
de um unico valor para representar todo o conjunto de valores;
53
2
parcela (rea de 19,44 m ) varia no intervalo de 23 a 27 plantas (5 valores diferentes),
a
nmero de gros por vagem de soja. Nesse caso diz-se que no h perda de informaao
u
a
a a
c
e as distribuioes de frequncias so feitas de forma idntica `s variveis qualitativas
c
e
a
e
a
a
(categorizadas). Tambm pode-se fazer o diagrama de pontos; b) quando temos muitos
e
valores diferentes da varivel procedemos de forma idntica ao de varivel cont
a
e
a
nua,
isto , vamos criar faixas de ocorrncia. Por exemplo, ciclo da cultura de 150 gentipos
e
e
o
de feijo.
a
Passamos, agora, ao estudo da construao das distribuies de frequncias para variveis
c
co
e
a
aleatrias quantitativas. Os mtodos abordados so: Diagrama de Pontos, Dados Agrupados
o
e
a
em Classes e Ramo-e-Folhas.
Diagrama de Pontos
Quando temos poucas observaes de uma varivel em estudo (at aproximadamente 25),
co
a
e
a distribuiao pode ser representada por um diagrama de pontos, isto , cada observaao
c
e
c
corresponde a um ponto na reta dos nmeros reais. E poss representar duas ou mais disu
vel
tribuies no mesmo diagrama, para isso basta identicar cada distribuiao por um s
co
c
mbolo
diferente (criar uma legenda). A gura 2.11 ilustra esse diagrama com os pesos ao nascer de
24 bezerros machos das raas Charoleza e Gir, em kg. Os dados para as duas raas so:
c
c
a
Charoleza
Gir
47
40
45 37
43 44
41 46
46 48
54
47 34
51 54
25 40 45
55 56 57
48 40
55 54
Charoleza
Gir
20
25
30
35
40
45
50
55
60
55
Dieta 2
Dieta 1
550
570
590
610
630
650
670
690
710
730
750
770
790
810
830
Ganho de peso
Dieta 2
820
670
580
700
570
675
570
590
590
590
600
610
560
630
570
56
13
18
11 15
22 22
24 20
20 17
20 19
25
1
3
4
8
14
30
0,0333
0,1000
0,1333
0,2667
0,4667
1,0000
3,33
10,00
13,33
26,67
46,67
100,00
3,33
13,33
26,67
46,67
100,00
d) valores discrepantes;
e) formaao de subgrupos.
c
ue
a
2.23. Na primeira coluna da tabela temos os valores observados da varivel, quais sejam: 23,
a
24, 25, 26 e 27.
57
58
Figura 2.14: Grco de colunas do nmero de plantas sadias de mandioca, Chapec, SC,
a
u
o
1984
N de plantas colhidas sadias
28
3,33%
13,33%
10,00%
26,67%
46,67%
N de parcelas
27
26
25
24
23
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
22
23
24
25
26
27
28
2
4
Freqncias
6
8
10
12
14
16
10 0
1 11
4 4 5
10 3 14
12 4
3 2
1 2
28 4
Faa uma representaao grca para os dados (grco de ordenadas ou de colunas). Faa a
c
c
a
a
c
interpretao do grco.
ca
a
59
Freqncia
ue
Freqncia
ue
Freqncia
ue
Freq. rel.
mdio
e
absoluta
acumulada
relativa
Porcentagem
acumulada
Porcentagem
acumulada
3973
4456
0,0313
0,0313
3,13
3,13
4456
4939
12
13
0,3750
0,4063
37,50
40,63
4939
5422
13
26
0,4063
0,8126
40,63
81,26
5422
5905
29
0,0937
0,9063
9,37
90,63
5905
6388
32
0,0937
1,0000
9,37
100,00
TOTAL
32
1,0000
100,00
denidas de acordo com resultados lgicos da varivel, por exemplo, denir 5 classes com
o
a
amplitudes de 500 kg. Outra forma decidirmos pelo nmero de classes a ser utilizado e,
e
u
a seguir, fazer a diviso da amplitude total dos dados pelo nmero de classes, sendo que,
a
u
o resultado encontrado ser a amplitude de cada classe. Por exemplo, amplitude total dos
a
dados da tabela 2.24
e
= 6388 3973 = 2415 kg/ha. Se desejamos ter 5 classes, isso
implica que a amplitude de cada classe ser igual a i = 2415/5 = 483 kg/ha. Veja a
a
primeira coluna da tabela 2.25. Nesta tabela temos a distribuio de freqncias completa
ca
ue
da varivel em estudo.
a
A freqncia absoluta ou simplesmente freqncia de classe (segunda coluna da tabela),
ue
ue
representada por ni , o nmero indicativo da quantidade de valores, indiv
e
u
duos, itens,
elementos, etc. pertencentes a essa classe. A freqncia absoluta acumulada de uma classe
ue
a soma da freqncia dessa classe com as freqncias das classes anteriores (coluna 3). A
e
ue
ue
freqncia relativa ou proporo, representada por fi , denida pelo quociente da freqncia
ue
ca
e
ue
absoluta da classe e o nmero total de observaes, ou seja, fi = ni /n, onde n = 32 (coluna 4).
u
co
Tambm temos a freqncia relativa acumulada, calculada da mesma forma que a freqncia
e
ue
ue
absoluta acumulada (coluna 5). A porcentagem (coluna 6) a forma que a maioria das
e
pessoas entendem, mais expl
e
cito, tem maior xito, e simplesmente a multiplicaao das
e
e
c
proporoes por 100, isto , 100fi . Da mesma forma podemos ter as freqncias percentuais
c
e
ue
acumuladas (coluna 7).
A representao grca dessas distribuies recebe um nome especial, histogramas, e
ca
a
co
e
mostrado na gura 2.15. E um grco de colunas justapostas em que a altura de cada coluna
a
representa a freqncia absoluta ou porcentagem de ocorrncias da classe. Este grco, como
ue
e
a
a maioria dos demais deste livro, foi feito no programa Statistica.
60
14
40,63%
Freqncia absoluta
13
12
11
37,5%
10
9
8
7
6
5
4
3
2
9,37%
9,37%
3,13%
1
0
<= 4456
(4456;4939]
(4939;5422]
(5422;5905]
> 5905
61
14
37,5%
40,63%
Freqncia absoluta
12
10
8
6
9,37%
4
2
0
9,37%
3,3%
4214,5
4697,5
5180,5
5663,5
6146,5
62
de brotos de
1,34 1,37
1,35 1,37
1,36 1,39
1,36 1,41
explantes de
1,43 1,47
1,43 1,47
1,44 1,49
1,46 1,50
abacaxi
1,52 1,68
1,57 1,73
1,61 1,77
1,62
39
1,0000
100,00
ser o suciente para nos dar uma boa idia do fenmeno, deve por em evidncia a
e
o
e
regularidade do fenmeno. Assim, vale a pena salientar, que a deciso sobre o nmero
o
a
u
de classes cabe ao pesquisador.
Exerc
cios resolvidos
1. Os dados da tabela 2.26 foram obtidos de um experimento desenvolvido para avaliar o
comportamento In Vitro de abacaxi (Ananas comosus) cv. Primavera e refere-se a varivel
a
altura dos brotos de explantes, em cm. (dados ordenados crescentemente).
a) Preencha a tabela de distribuio de freqncias 2.27.
ca
ue
b) Construa um histograma.
c) Faa algumas interpretaes relevantes.
c
co
d) Pode-se dizer que esta amostra oriunda de uma populao com distribuiao normal?
e
ca
c
Justique. Observao: leia mais adiante o tpico O modelo normal.
ca
o
As freqncias absolutas, relativas e percentagens para as 6 classes so dadas por: 4, 6,
ue
a
12, 10, 4, 3, 0,1026, 0,1538, 0,3077, 0,2564, 0,1026, 0,0769, 10,26, 15,38, 30,77, 25,64, 10,26
e 7,69, respectivamente. O histograma dado na gura 2.17. A distribuiao aproximadae
c e
mente simtrica. Um valor representativo do conjunto de dados 1,36. No observa-se valor
e
e
a
discrepante. Pode-se dizer que a varivel altura de explantes de abacaxi segue aproximadaa
mente uma distribuiao normal.
c
63
16
Nmero de explantes
14
Esperado sob
Modelo Normal
12
10
8
6
4
2
0
0,782
0,934
1,086
1,238
1,390
1,542
1,694
1,846
0,3458
0,3482
0,3487
0,3490
0,3547
0,3574
0,3648
0,3796
0,3815
0,3874
0,3924
0,3931
0,3971
0,4015
0,4125
0,4142
0,4182
0,4326
0,4358
0,4573
0,4582
0,4657
0,4670
0,4823
0,4862
0,4921
0,5010
0,5231
0,5521
0,5841
0,6284
0,6357
0,6489
0,6570
0,6704
0,6780
0,6842
0,6898
0,6945
0,6950
0,6970
0,7125
0,7126
0,7154
0,7179
0,7256
0,7321
0,7783
0,7884
0,7894
0,7912
0,8023
0,8046
0,8451
0,8467
0,8468
0,8564
0,8654
0,8665
0,9214
0,9421
0,9573
0,9689
64
10
Borda Mata
Mata Fechada
7
6
5
4
3
2
> ,927
(,885;,927]
(,843;,885]
(,801;,843]
(,759;,801]
(,717;,759]
(,676;,717]
(,634;,676]
(,55;,592]
(,592;,634]
(,508;,55]
(,466;,508]
(,424;,466]
(,34;,382]
(,382;,424]
(,298;,34]
<= ,256
1
(,256;,298]
Freqncias absolutas
25,60
25,90
25,90
27,75
28,30
29,05
Tabela 2.29:
29,95 32,20
31,25 32,20
31,70 33,75
41,75
42,80
43,95
44,05
45,20
46,74
mata fechada. A distribuiao mais simtrica na amostra da borda da mata, com os dados
c e
e
concentrando-se mais na parte central.
2.1.3.9 Exerc
cios Propostos
1. Os dados da tabela 2.29 referem-se a biometria total, em mm, do Macrobrachium
potiuna (Mller, 1880) da fam Palaemonidae. Obs. os dados encontram-se ordenados.
u
lia
a) Construa a tabela de distribuio de freqncias com 6 classes para os dados.
ca
ue
b) Construa o histograma.
c) Indique um valor representativo para os dados; comente sobre a assimetria; esta amostra
oriunda de uma populao com distribuio aproximadamente normal? justique.
e
ca
ca
2. Dispe-se de uma relaao de 36 produoes em kg/ha de milho do munic de Chapec
o
c
c
pio
o
e uma relaao de 36 produoes, tambm em kg/ha, do munic de Campos Novos. A tabela
c
c
e
pio
de distribuiao de freqncias dada em 2.30. Construa o pol
c
ue
e
gono de freqncias mltiplo.
ue
u
Com base no pol
gono de frequncia mltiplo, discuta e compare as duas distribuies
u e
u
co
quanto as principais caracter
sticas.
O Modelo Normal
65
4552
4904
5256
5608
5960
6312
6664
Total
1
3
5
8
8
6
5
6613
7095
7577
8059
8541
9023
9505
36
7095
7577
8059
8541
9023
9505
9987
1
2
4
13
7
7
2
36
Ramo-e-Folhas
Tanto os histogramas, como os demais tipos de grcos vistos anteriormente, do uma boa
a
a
idia da forma da distribuiao da varivel em estudo, isto , do comportamento dos dados.
e
c
a
e
Um outro modo de representao de um conjunto de valores, com o objetivo de se ter uma
ca
idia geral dos dados, o ramo-e-folhas. Uma vantagem do ramo-e-folhas sobre o histograma
e
e
que no primeiro no h perda de informao dos dados, pois trabalha-se com todos os dados
e
a a
ca
originais. E poss
vel, tambm, atravs do ramo-e-folhas obter-se algumas outras informaoes
e
e
c
mais gerais sobre os dados, o que ser mostrado atravs de um exemplo. O ramo-e-folhas
a
e
e
util quando o conjunto de dados no muito numeroso, pois, caso contrrio, a interpretaao
a e
a
c
66
Frequncias tericas
0,60
0,45
0,30
0,15
0,00
-3,50
-1,75
0,00
1,75
3,50
Valores padronizados
16
Freqncia absoluta
14
12
10
8
6
4
2
0
3068
3672
4275
4879
5483
6087
6690
67
3
4
5
6
973
500 550 552 614 660 680 685 760 769 770 778 849 960 975 980 993
056 063 110 117 166 172 202 230 403 513 823 889
047 166 388
Unidade 1,0
3|973 = 3973
973
500
056
513
047
550
063
823
166
552 614 660 680 685 760 769 770 778 849 960 975 980 993
110 117 166 172 202 230 403
889
388
Unidade 1,0
3o|973=3973
68
3
4*
4
4
4
4
5*
5
5
5
5
6*
6
6
973
823 889
047 166
388
Unidade 1,0
3 |973 = 3973 kg/ha
69
calos, em cm,
0,00 0,00
0,00 0,00
0,38 0,39
0,54 0,56
0,80 0,81
de Mandevilla velutina
0,00 0,00 0,00
0,00 0,00 0,20
0,42 0,42 0,42
0,57 0,60 0,61
0o
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2 3 3 3 3 3
4 4 4 4 4 5 5 5 5
00|0 = 0,0
6 6 6 6 6
0q
8 8
unidade: 0,10
70
de peso
9,54
13,04
18,17
21,60
26,79
da carne, em gramas,
9,53 11,13 11,76
14,05 14,88 16,22
18,53 19,17 19,65
21,99 22,74 23,71
27,20 30,20 30,85
de mexilhes do manguezal
o
12,69 12,92
16,38 16,92
19,80 19,81
25,14 25,34
33,97 36,35
9o
49
54
1o
622 638 692 764 814 853 914 965 980 981
2o
90|49 = 9,49
3o
10|101=11,01
635
unidade: 0,01
53
71
39 39
45 46
40 41
46 47
41 41
47 49
42 44
49 51
dos tratamentos. Quais os valores para representar os dois tratamentos? Qual dos dois
tratamentos apresenta maior disperso? Comente sobre a assimetria das distribuies. Tm
a
co
e
valores discrepantes? Pode-se dizer que estas duas amostras so oriundas de duas populaoes
a
c
com distribuiao pelo menos aproximadamente normal? justique?
c
2. Faa um ramos-e-folhas da varivel durao do primeiro estdio ninfal de Triatoma
c
a
ca
a
klugi, em dias, alimentadas em galo, cujos valores so:
a
21 21
21 22
22 22
22
23 23
23 23
23 25
26
28 28
28 30
30 33
35
35 36
39 39
40 40
42
42 45
46 46
48 50
59
2.2
2.2.1
mediana dos resultados da varivel. E importante chamar a ateno desde j, que sempre
a
ca
a
72
que for apresentada uma medida de tendncia central necessrio apresentar tambm uma
e
e
a
e
medida de variabilidade, disperso, que sero tratadas na prxima seao.
a
a
o
c
O objetivo dessa seao apresentar as principais medidas de tendncia central, as quais
c e
e
so assim chamadas devido ao fato dos dados naturalmente tenderem a se concentrar em
a
torno desses valores centrais. As trs medidas de tendncia central mais utilizadas para
e
e
resumir um conjunto de dados so:
a
A mdia aritmtica
e
e
A mediana
A moda
Estas medidas aplicam-se para dados isolados, como tambm para dados organizados
e
numa distribuiao de freqncias em classes, sendo assim, ser mostrado o procedimento de
c
ue
a
clculo dessas medidas para os dois casos, quais sejam: 1) dados isolados e 2) agrupados em
a
classes.
A mdia aritmtica a idia que ocorre a grande maioria das pessoas quando se fala
e
e
e
e
em mdia; como ela possui certas propriedades importantes, ela a medida de posiao mais
e
e
c
utilizada. Contudo, ela pode nos levar a erros de interpretao, assim, a mediana pode
ca
ser a medida mais recomendada em muitas situaoes. Ainda nesta seo indicaremos estas
c
ca
situaes.
co
A mdia aritmtica (M e), a soma dos valores numricos de uma varivel dividida pelo
e
e
e
e
a
nmero deles. Por exemplo, considere os pesos ao nascer, em kg, de 10 bezerros da raa
u
c
Charoleza:
47 51
45 50 50
52 46
49 53
51
47 + 51 + 45 + 50 + 50 + 52 + 46 + 49 + 53 + 51
= 49, 4kg.
10
Genericamente, a M e, quando todos os valores so diferentes uns dos outros, dada por:
a
e
x1 + x2 + ... + xn
1
M e(X) =
=
n
n
xi
(2.4)
i=1
onde n o nmero de dados da amostra e X uma varivel em estudo, por exemplo, peso
e
u
e
a
ao nascer. A letra grega , leia-se sigma (maiscula), como pode ser visto na equao 2.4,
u
ca
representa um somatrio, isto , uma soma de valores.
o
e
73
M e(X) =
f i xi .
i=1
Exemplo. Para os dados dos pesos ao nascer de bezerros da raa Charoleza, com k = 8
c
valores diferentes, temos:
(1 45) + (1 46) + (1 47) + (1 49) + (2 50) + (2 51) + (1 52) + (1 53)
(1 + 1 + 1 + 1 + 2 + 2 + 1 + 1)
= (0, 10 45) + (0, 10 46) + (0, 10 47) + (0, 10 49) + (0, 20 50) +
M e(X) =
46 48 54
56 44
43 55
57
Encontre a mdia aritmtica da amostra dos pesos ao nascer de bezerros da raa Gir.
e
e
c
O diagrama de pontos para as duas raas dado na gura 2.26. Percebe-se que os dois
c e
conjuntos de dados so bastante diferentes, entretanto, apresentam a mesma mdia, ento,
a
e
a
74
Mdias
38
42
46
50
54
58
62
Charoleza
Gir
Pesos ao nascer
Figura 2.26: Diagrama de pontos para peso ao nascer das raas Charoleza e Gir
c
onde ni , fi e si so a freqncia absoluta, freqncia relativa e o ponto mdio da i-sima
a
ue
ue
e
e
classe, respectivamente, e k o nmero de classes do histograma.
e
u
Exemplo. Para a distribuio de freqncias da tabela 2.25, que diz respeito aos
ca
ue
rendimentos, em kg/ha, de h
bridos de milho, a mdia aritmtica tem como resultado,
e
e
M e(X) = 5105, 031kg. Vamos ao clculo.
a
M e(X) = 0, 0313(4214, 5) + 0, 3750(4697, 5) + 0, 4063(5180, 5) + 0, 0937(5663, 5) + 0, 0937(6146, 5)
= 5105, 031 kg
75
4
i=1 ni xi
4
i=1 ni
1328000
= 2656, 00 u.m.
500
Assim, existem desvios positivos, negativos e nulos. Para os dados de pesos ao nascer de
bezerros da raa Charoleza, temos:
c
d1 =45-49,4=-4,4 d2 =46-49,4=-3,4 d3 =47-49,4=-2,4 d4 =49-49,4=-0,4 d5 =50-49,4=0,6
d6 =50-49,4=0,6 d7 =51-49,4=1,6 d8 =51-49,4=1,6 d9 =52-49,4=2,6 d10 =53-49,4=3,6
A primeira propriedade que a soma dos desvios calculados em relao a mdia aritmtica
e
ca
e
e
do conjunto de dados nula:
e
n
di = 0.
(xi x) =
i=1
i=1
No exemplo: -4,4-3,4-2,4-0,4+0,6+0,6+1,6+1,6+2,6+3,6=0.
A segunda propriedade que a soma dos quadrados dos desvios em relao a mdia
e
ca
e
e
um m
nimo. Formalmente, temos:
n
n
2
d2 = m
nimo.
i
(xi x) =
i=1
i=1
76
Posio da Md:5,5
38
42
46
50
54
58
62
Pesos ao nascer
Figura 2.27: Diagrama de pontos para peso ao nascer da raa Charoleza - clculo da mediana
c
a
Veremos a utilizao dessas propriedades quando tratarmos do estudo de medidas de
ca
disperso.
a
Uma segunda medida de tendncia central a mediana. A mediana divide um conjunto
e
e
de dados ao meio, onde 50% dos valores se posicionam abaixo da mediana, e 50% dos valores
se posicionam acima da mediana, portanto, a mediana, uma medida baseada na ordenaao
e
c
dos dados (rank, em ingls).
e
Denio: a mediana de um conjunto de valores, o valor M d que ocupa a posio
ca
e
ca
(n + 1)/2, quando os dados esto ordenados crescentemente. Se (n + 1)/2 for fracionrio,
a
a
toma-se como mediana, a mdia dos dois valores de posioes mais prximas a (n + 1)/2.
e
c
o
Exemplo. Vamos calcular a mediana dos pesos ao nascer de bezerros, em kg, da raa
c
Charoleza. Atravs do diagrama de pontos da gura 2.27, podemos observar que a dise
tribuio de freqncias apresenta uma assimetria ` esquerda, nesse caso recomendvel o
ca
ue
a
e
a
uso da mediana em preferncia ` mdia. A posio da mediana dada por: i = (10 + 1)/2 =
e
a e
ca
e
5, 5. Na gura 2.27 est indicada esta posiao. Como a posiao um nmero fracionrio, a
a
c
c e
u
a
c
a
mediana ser a mdia aritmtica entre os valores que ocupam a 5a e a 6a posiao, ento,
a
e
e
M d = (50 + 50)/2 = 50 kg.
Uma medida estreitamente relacionada com a mediana so os quartis. Embora no
a
a
sejam medidas de tendncia central, sero aqui tratadas devido a semelhana com o clculo
e
a
c
a
da mediana. Os quartis dividem um conjunto de dados em 4 partes iguais, do seguinte
modo: aproximadamente 25% dos dados sero inferiores ao primeiro quartil (Q1 ), ou seja,
a
25% dos dados esto localizados em posiao inferior ao primeiro quartil; 50% dos dados
a
c
ocupam posiao inferior ao segundo quartil (M d), que a mediana, e aproximadamente 75%
c
e
dos dados ocupam posio inferior ao terceiro quartil (Q3 ), portanto, 25% dos valores esto
ca
a
localizados em posio superior ao terceiro quartil.
ca
Denio: dado um conjunto de dados ordenados, podemos obter, de forma aproximada,
ca
77
Q3
Q1
Md
38
42
46
50
54
58
62
Pesos ao nascer
Figura 2.28: Diagrama de pontos para peso ao nascer da raa Charoleza - 1 e 3 quartis
c
o primeiro quartil, (Q1 ), como sendo a mediana dos valores de posies menores ou iguais
co
` posiao da mediana. A mediana dos valores de posioes maiores ou iguais ` posiao da
a
c
c
a
c
mediana corresponde ao terceiro quartil, (Q3 ).
Exemplo. Vamos calcular o Q1 e o Q3 para os dados de pesos ao nascer, em kg, de
bezerros da raa Charoleza. A posiao do elemento primeiro quartil : i = (n + 1)/2 =
c
c
e
(5 + 1)/2 = 3, logo Q1 = 47Kg. O valor de n igual a 5 pois temos cinco valores em
e
posiao menor ou igual ` posiao da mediana. A posiao do elemento terceiro quartil :
c
a
c
c
e
i = (n + 1)/2 = (5 + 1)/2 = 3, logo Q3 = 51Kg. Na gura 2.28 esto indicados o 1 e o 3
a
quartil, juntamente com a mediana.
O clculo da mediana e dos quartis para um histograma sero feitos por meio de argua
a
mentos geomtricos, atravs da proporcionalidade existente entre rea e base de retngulos.
e
e
a
a
Geometricamente, a mediana o valor da abcissa que determina uma linha vertical que
e
divide o histograma em duas partes de reas iguais, ento, 50% da rea do histograma est
a
a
a
a
abaixo da mediana e 50% da rea est acima da mediana. Da mesma forma, o 1 quartil o
a
a
e
valor da abcissa que determina uma linha vertical que divide o histograma em duas partes
de reas diferentes, ou seja, 25% da rea est abaixo do 1 quartil e 75% da rea est acima
a
a
a
a
a
do 1 quartil. O terceiro quartil o valor da abcissa que determina uma linha vertical que
e
divide o histograma em duas partes de reas diferentes, ou seja, 75% da rea est abaixo do
a
a
a
3 quartil e 25% da rea est acima do 3 quartil.
a
a
Exemplo. Vamos encontrar os valores da mediana e dos quartis para a varivel rendia
mento de gros, em kg/ha, de h
a
bridos de milho. O histograma dado na gura 2.15. A
e
classe mediana aquela cuja porcentagem acumulada , de pelo menos, 50%, ento, no exeme
e
a
plo, a mediana um valor que encontra-se na terceira classe, cujos limites inferior e superior
e
so: 4939 e 5422, respectivamente. Agora, vamos usar a regra da proporcionalidade, que
a
e
78
dada por:
5422 4939
M d 4939
=
.
40, 6
9, 4
No lado esquerdo do sinal de igualdade, temos o limite superior (5422) subtra do limite
do
inferior (4939) da classe mediana, dividido pela porcentagem de observaoes desta classe
c
(40,6). No lado direito do sinal de igualdade, temos um outro retngulo cuja rea vale 9,4%,
a
a
obtida da seguinte forma: somando-se as reas das classes anteriores ` classe mediana, temos
a
a
3,13+37,50=40,63%, assim, 50,0-40,6=9,4%; a base deste novo retngulo M d 4939,
a
e
cujo valor M d estamos interessados em determinar.
Obtemos o valor da mediana fazendo-se:
M d = 11, 8276(9, 4) + 4939 = 5050, 828 kg.
O clculo dos quartis feito de maneira anloga ao clculo da mediana. A classe que
a
e
a
a
contm o 1 quartil aquela cuja porcentagem acumulada de pelo menos 25%, no exemplo,
e
e
e
a
o 1 quartil encontra-se na segunda classe, cujos limites inferior e superior so: 4456 e
4939, respectivamente; a porcentagem de observaoes nesta classe de 37,5%. Pela regra da
c
e
proporcionalidade encontramos:
4939 4456
Q1 4456
=
Q1 = 4738, 072 kg.
37, 5
21, 9
O valor 21,9 obtido fazendo-se 25,0-3,1.
e
A classe que contm o 3 quartil aquela cuja percentagem acumulada seja de pelo
e
e
menos 75%, no exemplo, a terceira classe, cujo limite inferior, superior e porcentagem de
e
observaoes valem: 4939, 5422 e 40,6, respectivamente. Aplicando a regra obtemos:
c
5422 4939
Q3 4939
=
Q3 = 5348, 241 kg.
40, 6
34, 4
Na gura 2.29 apresentamos o histograma da varivel rendimento de gros, em kg/ha,
a
a
acompanhado dos quartis.
Finalmente, temos a moda (Mo), denida com o valor que ocorre com maior freqncia
ue
num conjunto de dados. Pela prpria denio percebe-se que a moda pode no existir, pois
o
ca
a
pode no existir um valor mais freqnte que os demais, ou existindo, pode no ser a unica,
a
ue
a
79
14
40,63%
13
37,5%
12
Freqncia absoluta
11
10
9
8
7
6
5
4
9,37%
9,37%
3
2
3,13%
1
0
Q1=4738 Md=5051Q3=5348
Rendimento mdio (kg/ha)
Medidas de Disperso
a
80
Xi
5,4
5,4
5,8
6,4
6,4
6,6
6,6
6,8
6,8
7,0
7,3
7,3
7,5
8,2
8,8
8,8
6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94
x
( x i x ) -1,54 -1,54 -1,14 -0,54 -0,54 -0,34 -0,34 -0,14 -0,14 0,06 0,36 0,36 0,56 1,26 1,86 1,86
( x i x ) 2 2,37 2,37 1,30 0,29 0,29 0,12 0,12 0,02 0,02 0,00 0,13 0,13 0,31 1,59 3,46 3,46
Figura 2.30: Clculo da varincia do dimetro da roseta foliar de bromlias expostas ao sol
a
a
a
e
Desvio interquart
lico
Para os mtodos estat
e
sticos, as medidas de disperso so de fundamental importncia,
a a
a
pois a necessidade do uso da estat
stica devida a existncia de variabilidade nos dados
e
e
observados.
Para a varincia e o desvio padro, o princ bsico analisar os desvios das observaes
a
a
pio a
e
co
em relaao ` mdia. Em cada caso, o valor zero para a varincia ou desvio padro, indica
c a e
a
a
ausncia de variaao; a variao vai aumentando ` medida que aumenta o valor da medida
e
c
ca
a
de disperso.
a
A varincia uma medida de disperso que nos fornece uma idia da variabilidade dos
a
e
a
e
dados em torno da mdia. Ela o quociente entre a soma dos quadrados dos desvios dos
e
e
dados observados, tomados em relaao a sua mdia aritmtica e o nmero de dados (n)
c
e
e
u
2
5,8 6,4
7,3 7,3
6,4 6,6
7,5 8,2
6,6
8,8
6,8
8,8
n
i=1 (xi
x)2
.
n1
15, 98
= 1, 065 cm2 .
15
81
(2.6)
Foi tambm selecionada uma outra amostra de 16 valores de dimetros da roseta foliar
e
a
de bromlias em ambiente de sombra. Os resultados foram:
e
13,4
15,4
13,7
15,7
14,4 14,6
16,2 16,4
14,6
16,7
14,8 15,2
17,5 17,8
15,2
17,8
Para esses dados o valor da varincia s2 = 1, 893 cm2 . Obtenha esse valor. A concluso
a
e
a
que podemos tirar que, para a varivel dimetro, as bromlias em ambiente de sombra so
e
a
a
e
a
mais heterogneas (apresentam maior variabilidade) do que as expostas ao sol.
e
Para os dados de peso ao nascer de bezerros, obtemos s2 = 6, 92 kg 2 e s2 = 36, 48 kg 2 ,
CH
G
para as raas Charoleza e Gir, respectivamente. Portanto, a raa Gir muito mais hetc
c
e
erognea do que a raa Charoleza, para peso no nascimento.
e
c
A varincia apresenta um inconveniente de ordem prtica, pois como ela expressa
a
a
e
em unidades ao quadrado, isto causa problemas de interpretaao. Uma outra medida de
c
variabilidade, calculada atravs da varincia, o desvio padro da amostra (s). Na prtica o
e
a
e
a
a
desvio padro preferido em relao a varincia, pois ele expresso na mesma unidade dos
a e
ca
a
e
dados originais. O desvio padro nada mais do que a ra quadrada da varincia, logo:
a
e
z
a
s=
s2 .
(2.7)
k
i=1 (xi
x)2 ni
,
n1
(2.8)
82
N
i=1 (xi
)2
(2.9)
s
100.
x
(2.10)
E uma medida de disperso relativa porque estabelece uma relaao entre o desvio padro
a
c
a
e a mdia. Sendo uma medida independente da unidade da varivel util para se estudar
e
a
e
comparativamente duas ou mais distribuies.
co
Exemplo. Os dois conjuntos de dados abaixo referem-se ao comprimento do corpo e
peso de fmeas de Penaeus paulensis (Crustacea, Decapoda, Penaidae), respectivamente,
e
obtidos nas despescas dos viveiros do Centro de Cincias Agrrias da Universidade Federal
e
a
de Santa Catarina. O comprimento do corpo dado em mm, enquanto que o peso dado
e
e
em g.
27
30
0,14
0,18
26 26
30 33
0,16
0,23
25 25
33 33
0,14 0,12
0,28 0,28
0,12
0,32
25 25
35 35
23 23
35 36
0,12 0,11
0,31 0,33
0,09
0,36
0,07
0,33
A mdia e o desvio padro para cada uma das amostras so: xC = 29, 1667 mm, yP =
e
a
a
4,6305
29,1667
83
0,0984
0,2050
baixo
mdio
e
alto
muito alto
k
i=1 (si
x)2 ni
n1
(2.11)
k
i=1 (si
)2 ni
para dados populacionais
(2.12)
N
onde: k o nmero de classes; si o ponto mdio da i-sima classe; ni o nmero de dados
e
u
e
e
e
e
u
observados na i-sima classe e N o tamanho da populaao. A unica alteraao das frmulas
e
e
c
c
o
anteriores a substituiao dos valores originais, xi , pelos pontos mdios, si .
e
c
e
Exemplo. para a distribuio de frequncias da tabela 2.24, que diz respeito aos rendica
e
mentos, em kg/ha, de h
bridos de milho, o valor da varincia dado por:
a
e
2
1
{[(4214, 5 5105, 0)2 1] + [(4697, 5 5105, 0)2 12] + [(5180, 5 5105, 0)2 13]
32 1
+ [(5663, 5 5105, 0)2 3] + [(6146, 5 5105, 0)2 3]}
s2 =
s2 = 227409, 74 (kg/ha)2 .
O desvio padro vale:
a
s = s2 = 476, 87 kg/ha.
Da mesma forma que a mdia aritmtica, a varincia uma medida de disperso, que
e
e
a
e
a
representa bem a realidade, quando os dados apresentam pelo menos aproximadamente uma
84
Q3 Q1 .
Exemplo. Para os valores de rendimento de gros, em kg/ha, de h
a
bridos de milho, o
valor do desvio interquart
lico 5348,2-4738,1=610,1. Temos que 50% dos valores encontrame
se no intervalo de 4738,1 a 5348,2.
a
entre a mdia mais 1 desvio padro e a mdia menos 1 desvio padro. O responsvel pelos
e
a
e
a
a
dados (Agrnomo, Bilogo), deve avaliar se estes intervalos so amplos (pouco precisos), ou
o
o
a
no (precisos), para o fenmeno real em estudo.
a
o
Vimos a importncia de se identicar as observaoes discrepantes num conjunto de dados.
a
c
Numa distribuio aproximadamente normal, algum(ns) valor(es) maior(es) que x + 3s, ou,
ca
a
peso de fmeas de Penaeus paulensis encontramos x = 0, 2050 e s = 0, 0984. Temos que
e
x + 3s = 0, 2050 + 3(0, 0984) = 0, 5000 e x 3s = 0, 2050 3(0, 0984) = 0, 0902. Como na
amostra estudada no temos nem um valor acima de 0,50 conclu
a
mos, por este critrio, que
e
no existe valor discrepante.
a
85
68%
95,5%
-3,50
-1,75
0,00
1,75
3,50
-3,50
-1,75
0,00
1,75
3,50
99,7%
-3,50
-1,75
0,00
1,75
3,50
Figura 2.31: Distribuio dos dados, sob o modelo normal, de acordo com e .
ca
86
8 4 5
6 3
temos que pelo menos 75% das observaoes encontram-se no intervalo [0;8]. Vericando-se
c
os dados da amostra encontramos 100% das observaes nesse intervalo.
co
Exerc
cio resolvido
1. Utilizando os dados da tabela 2.33, calcule a mdia, a varincia, o desvio padro e o
e
a
a
coeciente de variaao para cada um dos tratamentos.
c
Sem rizbio
o
34,35
20,45
4,52
13,16%
20
i=1
x=
xi /20
s =
x)2 /(20 1)
s = s2
s
CV (%) = x .100
20
i=1 (xi
Com rizbio
o
43,3
19,91
4,46
10,30%
Suspeitos
x 2s
Discrepantes
x 3s
Sem rizbio
o
34, 35 4, 52
[29,83;38,87]
Com rizbio
o
43, 3 4, 46
[38,84;47,76]
87
Tabela 2.34: Distribuiao de frequncia da varivel altura de calos em cm, num per
c
e
a
odo de
30 dias in vitro da espcie Mandevilla velutina
e
Altura de calos Ponto mdio (si ) Frequncia absoluta (ni )
e
e
0,00
0,14
0,28
0,42
0,56
0,70
0,14
0,28
0,42
0,56
0,70
0,84
0,07
0,21
0,35
0,49
0,63
0,77
15
1
5
8
7
2
Total
38
encontramos:
Q1
Sem rizbio
o
Com rizbio
o
Md
Q3
31
40,5
34
44
37,5
46,5
2.2.2.1 Exerc
cios Propostos
1. A tabela de distribuio de frequncias 2.34 foi constru a partir dos dados da tabela
ca
e
da
2.31. Observe que a distribuio assimtrica. Calcular a mdia, varincia, desvio padro,
ca e
e
e
a
a
mediana e quartis da distribuio. Considere o conjunto 1 formado pela mdia e varincia,
ca
e
a
e o conjunto 2 formado pela mediana e quartis. Qual dos dois conjuntos voc recomendaria
e
para essa distribuiao?
c
88
78
80
80
82
86
88
89
90
91
92
93
95
96
97
97
99
42,88
36,22
28,86
22,56
22,92
27,94
41,45
42,59
15,25
33,29
25,34
25,67
17,64
33,97
11,13
9,49
16,92
12,91
14,05
14,88
19,17
21,60
20,01
19,81
16,22
t=
s
1
n1
1
n2
onde s =
(2.13)
Caso |t| < 2 as produes mdias so semelhantes, caso contrrio so diferentes. Qual a
co
e
a
a
a
e
sua concluso?
a
3. Na tabela 2.36 temos os resultados da varivel peso de carne, em gramas, de mexilhes
a
o
do Sambaqui e do Manguezal. a) calcule a mdia e a mediana para cada um dos locais. Onde
e
houve maior crescimento?
b) Calcule o Q1 e o Q3 para cada um dos locais. Explique o signicado destes nmeros.
u
c) Compare os dois locais quanto a homogeneidade (calcule uma medida de disperso e
a
conclua).
d) Calcule o coeciente de variao para cada local e interprete. A concluso a mesma do
ca
a e
item c? Qual das duas concluses a denitiva?.
o e
4. A tabela 2.37 apresenta uma amostra de valores de peso de mexilho do Sambaqui.
a
a) Construa o histograma. A distribuiao apresenta a forma do modelo normal? Justique.
c
89
3
6
5
7
4
4
2
2
1
1
8,57
17,14
14,29
20,00
11,43
11,43
5,71
5,71
2,86
2,86
b) Localize a classe que contm o percentil de ordem 90 (P90 ). Interprete este valor.
e
c) Acima de que peso encontram-se 85% dos mexilhes (Calcule o P15 )?
o
2.2.3
O objetivo do uso da mediana e dos quartis obter informaoes sobre a forma, o valor
e
c
representativo, a disperso e os valores discrepantes da distribuiao dos dados observados.
a
c
Atravs destas estat
e
sticas poss obter-se todas as informaes relevantes de uma dise
vel
co
tribuio.
ca
Sabemos que a mdia e o desvio padro so afetados, de forma exagerada, por valores
e
a a
extremos (valores altos ou baixos), portanto no so medidas indicadas para distribuies
a a
co
assimtricas, pois no representam bem a realidade dos fatos. Alm disso, somente com a
e
a
e
mdia e o desvio padro no temos idia da forma como os dados se distribuem. A sugesto
e
a a
e
a
fazer uso das seguintes medidas:
e
i) Mediana.
ii) Os valores extremos (inferior e superior) do conjunto de dados.
iii) O 1 e 3 quartis.
Obtemos, ento, o que se denomina na literatura por esquema dos cinco nmeros ou esquema
a
u
extremos-e-quartis.
90
1,4
6,3
1,9
6,5
2,8 3,1
6,7 6,7
3,5 3,5
6,8 6,9
3,6 3,9
8,1 8,6
4,3 4,5
10,4 12,7
4,6
16,3
4,8
16,8 16,9
Tabela 2.39: Clculo dos quartis e extremos para dados de crescimento do pseudobulbo de
a
Laelia purpurata
Md Q1 Q3 Ei Es Q1 1, 5(Q3 Q1 ) Q3 + 1, 5(Q3 Q1 )
Luz direta
2,7
2,1 4,8
1,6
9,5
-1,95
8,85
Luz indireta
6,3
3,6 8,1
1,4 16,9
-3,15
14,85
91
Valores discrepantes
99,3%
Valores discrepantes
Figura 2.32: Area (99,3%) entre os pontos limites na distribuiao normal. A rea no
c
a
a
achurada corresponde aos outliers
50% dos
dados
Q1 Mediana Q3
Ei
Es
92
18
Comprimento do pseudobulbo
16
14
12
10
8
6
4
2
0
Luz direta
Luz indireta
No Outlier Max
No Outlier Min
75%
25%
Mediana
Outliers
Condio
93
Ei
Q1
Md
Q3
Es
Ei
Q1
Md
Q3
Es
Figura 2.35: Em distribuies dispersas os valores dos quartis e extremos cam mais afastaco
dos da mediana
25% (Q1 ) a 75% (Q3 ) e representado gracamente por uma caixa. Os comprimentos
e
das caudas so dados pelas linhas cont
a
nuas que vo da caixa (retngulo) aos valores mais
a
a
afastados que no sejam outliers. Observe na tabela 2.39 que os extremos superiores cam
a
iguais a 8,8 e 12,7, para luz direta e indireta, respectivamente, ou seja, os extremos inferiores
e superiores so os menores e os maiores valores da distribuiao, desde que no sejam outliers.
a
c
a
Os outliers esto representados por pequenos c
a
rculos vazios e observa-se na gura 2.34 a
presena dos mesmos em ambos os ambientes. No se observa valores discrepantes para os
c
a
valores inferiores das distribuioes.
c
Nas guras 2.35 e 2.36 temos o comportamento dos quartis e mediana quanto a disperso
a
e a assimetria. As posioes relativas dos Q1 , Q3 e M d do uma idia da assimetria da
c
a
e
distribuio. No nosso exemplo, a distribuio com luz direta mais assimtrica do que com
ca
ca
e
e
luz indireta. Observe na gura 2.37 como ca o desenho esquemtico para uma distribuio
a
ca
normal. Podemos ver claramente que a amostra para luz direta no originria de uma
a e
a
populaao com distribuiao normal; mesma concluso para luz indireta.
c
c
a
Exerc
cios resolvidos
1. Construir o desenho esquemtico para a varivel rendimento de gros em kg/ha da
a
a
a
tabela 2.1. Os valores da mediana e dos quartis foram calculados considerando os dados
individualmente, isto , no so agrupados em classes e aparecem na legenda da gura
e a a
2.38. Encontre estes valores. Este desenho esquemtico foi feito no programa Statistica.
a
Obtenha informaoes relevantes sobre a varivel em estudo. Voc saberia fazer esta gura
c
a
e
na mo? O rendimento mdio 4986,5 kg/ha. O desvio interquart
a
e
e
lico vale 493,5 kg/ha.
94
E1
Q1
Md
Q3
E1
Es
Q1
Md
Q3
Es
Ei
Q1
Md
Q3
Es
95
Box Plot
6600
6200
5800
5400
5000
4600
Non-Outlier Max = 58
Non-Outlier Min = 45
4200
75% = 5216
25% = 4722,5
Median = 4986,5
3800
Outliers
RENDIMENTO
Total de hemcitos
6
5
4
3
2
1
Cultivo
Mangue
Non-Outlier Max
Non-Outlier Min
75%
25%
Mediana
Outliers
Extremos
Local
Figura 2.39: Desenho esquemtico para nmero total de hemcitos em dois locais.
a
u
o
So observados 4 valores discrepantes, um h
a
brido com produao aqum dos demais e, 3
c
e
h
bridos com produes acima dos demais. A distribuio assimtrica ` direita, portanto,
co
ca e
e
a
no segue uma distribuiao normal.
a
c
2. Na gura 2.39 representa-se duas distribuioes de freqncias, uma para local Cultivo e
c
ue
outra para Mangue. Os resultados referem-se a varivel nmero total de hemcitos no bivalve
a
u
o
Crossostrea rhizophorae coletados em ambiente de cultivo e mangue. Descreva e compare as
principais informaoes (valor t
c
pico, simetria, disperso, outliers) das duas distribuioes.
a
c
O nmero total mediano de hemcitos nos dois locais praticamente o mesmo e, em
u
o
e
torno de 2, 5.103 /mm3 . As duas distribuioes so assimtricas. No mangue, a distribuio
c
a
e
ca
apresenta valores discrepantes.
96
88 89
93 95
99
90 91
96 97
92
97
Area umida
Area seca
13,8
14,3
14,5
15,0
15,0
15,5
15,5
15,5
15,6
15,6
15,8
15,8
15,8
15,8
16,0
16,0
16,0
16,1
16,1
16,3
16,3
16,3
16,3
16,5
16,5
16,6
16,6
16,6
16,8
16,8
16,9
17,0
17,0
17,2
17,4
7,3
7,6
7,8
7,8
8,0
8,2
8,2
8,3
8,3
8,4
8,4
8,4
8,6
8,6
8,6
8,6
9,0
9,0
9,0
9,0
9,3
9,3
9,3
9,6
9,6
9,8
9,8
10,4
10,4
10,9
10,9
11,7
11,7
12,0
2.2.4.1 Exerc
cios Propostos
1. Para se estudar o comportamento de duas variedades de cana-de-aucar, realizou-se
c
um experimento onde foram obtidos os resultados indicados na tabela 2.40.
a) Calcular a M d, Q1 , Q3 , Q3 Q1 , Q1 1, 5(Q3 Q1 ) e Q3 + 1, 5(Q3 Q1 ) para cada uma
das variedades.
b) Faa o desenho esquemtico mltiplo para os dados das variedades 1 e 2.
c
a
u
c) Compare os dois conjuntos de dados atravs do desenho do item b).
e
2. Para se estudar o comportamento de uma planta t
pica de dunas, a Hydrocotille sp,
quanto ao seu desenvolvimento, mediu-se o tamanho do pec (cm), em duas reas: seca e
olo
a
umida. Selecionou-se de cada uma dessas reas, amostras aleatrias de plantas e mediu-se o
a
o
tamanho dos pec
olos. Os dados so dados na tabela 2.41.
a
a) Calcular a M d, Q1 , Q3 , Q3 Q1 , Q1 1, 5(Q3 Q1 ) e Q3 + 1, 5(Q3 Q1 ) para cada uma
das variedades.
b) Faa o desenho esquemtico mltiplo para os dados das reas seca e umida.
c
a
u
a
97
10 60 110
160
220 280
340 400
460
520
Radiao
ca
18 55 190
300
410 460
570 770
815
965
Coeciente de Correlao
ca
Diagrama de Disperso
a
Um primeiro passo para vericar se existe correlao entre duas variveis quantitativas
ca
a
e
construir um grco de disperso, que nada mais do que a representaao grca dos pares
a
a
e
c
a
de valores num sistema cartesiano. No eixo das abcissas colocamos a varivel X e no eixo
a
das ordenadas a varivel Y.
a
Exemplo. Considere os dados referentes ` produo de matria seca de uma planta (Y)
a
ca
e
e a quantidade de radiaao fotossinttica ativa (X). Os dados obtidos experimentalmente so
c
e
a
apresentados na tabela 2.42.
O diagrama de disperso mostrado na gura 2.40. Atravs da pura observaao da
a e
e
c
distribuio dos pontos, conclu
ca
mos que existe uma dependncia entre as variveis produao
e
a
c
(Y) e radiao (X), porque no conjunto das observaes, a medida que aumenta a radiaao
ca
co
c
fotossinttica, tambm aumenta a produao de matria seca. Em termos prticos, isso
e
e
c
e
a
98
600
Produo (g/m
2)
500
400
300
200
100
0
200
400
600
800
1000
2)
Radiao (%)
0,48
0,44
0,40
0,36
0,32
0,28
0,1
0,3
0,5
0,7
0,9
1,1
1,3
Espaamento (m)
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
Espaamento
c
0,53
0,51 0,48
0,45
0,44 0,41
0,40
0,39 0,36
0,30
99
Tabela 2.43: Valores de salinidade (g/l) e temperatura para a regio III da Lagoa da Cona
ceio
ca
Estao Temperatura (Y) Salinidade (X)
ca
23
23A
24
25
26
27
27A
28
24,0
23,0
23,0
26,0
25,5
25,0
24,3
23,0
3,85
9,61
2,26
2,06
2,89
9,61
10,58
11,40
26,5
26,0
Temperatura
25,5
25,0
24,5
24,0
23,5
23,0
22,5
11
13
Salinidade
O Coeciente de Correlao
ca
O coeciente de correlaao, representado pela letra r, utilizado para quanticar a
c
e
100
Y
r>0
101
Y
r<0
da tabela, indica-se os produtos das variveis padronizadas; a soma dos mesmos, cujo valor
a
igual a 9,953 que, como espervamos, positiva. Para completar o clculo do coeciente
e
a
e
a
de correlaao basta dividir 9,953 pelo nmero de pares de valores (mdia), cujo valor igual
c
u
e
e
102
Y
r=0
9, 953
= 0, 9953.
10
Portanto, para esse exemplo, o grau de associaao linear est quanticada em 0,9953. Indic
a
cando uma relaao linear muito forte positiva entre as duas variveis.
c
a
Uma frmula prtica para o clculo do coeciente de correlao dada por:
o
a
a
ca e
Correlao(X,Y) =
ca
Corr(X, Y ) =
n(
n(
xy) (
x2 ) (
x)2
x
n(
y)
y2) (
y)2
(2.14)
10(1669880) (4553)(2560)
10(3022399)
45532
10(925800)
25602
5043120
= 0, 9953.
5067155, 33
2.2.5.1 Exerc
cios propostos
1. A tabela 2.46 apresenta os valores de condutividade (mho) e salinidade (g/l) para a
regio III da Lagoa da Conceiao.
a
c
a) Construir o grco de disperso. Conclua sobre a dependncia entre as variveis X e Y.
a
a
e
a
b) Quantique a dependncia entre X e Y atravs do coeciente de correlaao. Existe uma
e
e
c
dependncia forte, mdia ou fraca?
e
e
103
1
2
3
4
5
6
7
8
9
10
18
55
190
300
410
460
570
770
815
965
10
60
110
160
220
280
340
400
460
520
-437,3
-400,3
-265,3
-155,3
-45,3
4,7
114,7
314,7
359,7
509,7
-246,0
-196,0
-146,0
-96,0
-36,0
24,0
84,0
144,0
204,0
264,0
-1,419
-1,299
-0,861
-0,504
-0,147
0,015
0,372
1,021
1,167
1,654
-1,496
-1,192
-0,888
-0,584
-0,219
0,146
0,511
0,876
1,240
1,605
2,123
1,548
0,764
0,294
0,032
0,002
0,190
0,894
1,448
2,656
18
55
190
300
410
460
570
770
815
965
10
60
110
160
220
280
340
400
460
520
324
3025
36100
90000
168100
211600
324900
592900
664225
931225
100
3600
12100
25600
48400
78400
115600
160000
211600
270400
180
3300
20900
48000
90200
128800
193800
308000
374900
501800
Totais
4553
2560
3022399
925800
1669880
104
Tabela 2.46: Valores de condutividade (mho) e salinidade (g/l) para a regio III da Lagoa
a
da Conceiao
c
Estao Condutividade (Y) Salinidade (X)
ca
23
24
25
26
27
28
19,92
11,78
14,11
16,10
36,52
51,46
9
14
22
29
36
43
3,85
2,26
2,06
2,89
9,61
11,40
aroma de caf torrado e mo
e
do
Resultado mdio da equipe de
e
provadores para cada amostra
y1 y2
y3
4,8
4,0
3,7
3,2
3,7
2,5
4,7
4,7
3,7
3,5
3,0
2,8
4,7
4,8
3,5
3,2
3,3
2,7
105
entre duas variveis, por exemplo, r = 0, 90; o ajuste de um modelo linear simples tem como
a
resultado uma equao matemtica que descreve esse relacionamento. A partir do momento
ca
a
que temos um modelo ajustado, o conjunto de dados passa a ser representado atravs deste.
e
Vamos procurar estabelecer uma equao matemtica linear, isto , ajustar a equaao de
ca
a
e
c
uma reta para descrever o relacionamento entre duas variveis. Olhando-se para a gura
a
2.40, observa-se que existe uma relaao linear positiva entre as variveis produao (Y ) e
c
a
c
radiao (X), portanto, podemos ajustar a equaao de uma reta aos dados. As variveis Y
ca
c
a
e X so tambm denominadas de variveis dependentes e independentes, respectivamente.
a
e
a
Utilizaao:
c
1. Temos duas variveis que medem aproximadamente a mesma coisa, mas uma delas
a
e
relativamente dispendiosa, ou dif de lidar, enquanto que a outra no. Por exemcil
a
plo, a resistncia e a dureza de um material podem estar relacionadas, de modo que
e
conhecendo-se a dureza podemos estimar a resistncia. Se o teste de resistncia destroi
e
e
o material, enquanto que o teste de dureza no o destroi, uma pessoa interessada em
a
estimar a resistncia, obviamente preferir conar nos resultados do teste de dureza
e
a
para estimar a resistncia. A nalidade de uma equao de regresso seria ento estie
ca
a
a
mar valores de uma varivel, com base em valores conhecidos da outra. Esse estudo
a
tambm conhecido como calibrao da equao de regresso.
e e
ca
ca
a
ca
co
a e
a
2. Outra aplicao das equaes de regresso explicar valores de uma varivel em termos
da outra. Isto , podemos suspeitar de uma relaao de causa e efeito entre duas
e
c
variveis. Por exemplo, quantidade de fertilizante e produao de trigo.
a
c
a
c
3. Predizer valores futuros de uma varivel. Por exemplo, predizer produoes futuras.
A Equao da Reta
ca
Uma reta dada pela equao matemtica:
e
ca
a
yi = + xi
onde o parmetro representa o ponto onde a reta corta o eixo dos y e o parmetro o
a
a
e
coeciente angular, ou ainda, o quanto varia a mdia de y para o aumento de uma unidade
e
da varivel x. Esses parmetros esto representados na gura 2.46. Por exemplo, a reta
a
a
a
estimada por,
yi = 5 + 3xi
106
yi = + xi
x=1
y
x
x+1
y = 5 + 3xi
2,0
3,0
5,0
11
14
20
e a denominaremos de reta estimada pelos dados. Um critrio conhecido como mtodo dos
e
e
m
nimos quadrados, fornece as seguintes expresses para as estimativas dos parmetros da
o
a
equao:
ca
b =
n(
xy) ( x)( y)
n( x2 ) ( x)2
107
clculos intermedirios
a
a
xy
x2
10
60
110
160
220
280
340
400
460
520
180
3300
20900
48000
90200
128800
193800
308000
374900
501800
324
3025
36100
90000
168100
211600
324900
592900
664225
931225
2560
1669880
3022399
18
55
190
300
410
460
570
770
815
965
4553
yb x
n
onde n o nmero de pares (x, y) observados (tamanho da amostra).
e
u
Exemplo. Ilustraremos a obtenao da equaao da reta com as observaoes de produao
c
c
c
c
(Y ) e radiaao (X) (descritos anteriormente). A tabela 2.48 apresenta os dados originais e
c
os clculos intermedirios para se encontrar as estimativas dos parmetros. Encontramos:
a
a
a
a =
10(1669880) (4553)(2560)
= 0, 5312;
10(3022399) (4553)2
2560 0, 5312(4553)
a =
= 14, 1537.
10
A equaao da reta estimada com base nos dados da amostra ca:
c
b =
Os valores observados, juntamente com a equaao estimada da reta esto na gura 2.47.
c
a
Como era esperado, observa-se um bom ajuste da equaao da reta aos dados observados.
c
A distncia de cada um dos valores observados at a equao da reta chamada de desvio
a
e
ca
e
ou res
duo e so representados por ei . O clculo dos desvios dado por:
a
a
e
e i = yi yi .
108
y=14,154+0,531*x+eps
650
550
produo
450
350
250
150
50
-50
-100
100
300
500
700
900
1100
radiao
Desvios ou res
duos
23,71
43,37
115,08
173,51
231,94
258,50
319,93
423,16
447,07
526,74
-13,71
16,63
-5,08
-13,51
-11,94
21,50
23,07
-23,16
12,93
-6,74
109
30
20
Residuos
10
0
-10
-20
-30
-50
50
150
250
350
450
550
650
Valores estimados
c
polinmio de 2 grau seria o indicado. Assim, podemos querer estimar (avaliar) a produao
o
para um valor de radiao igual a 100. Este valor obtido fazendo-se:
ca
e
yi = 14, 154 + 0, 531 100 = 67, 254.
2.2.6.1 Exerc
cios propostos
1. a) Obtenha a equaao da reta para os dados da tabela 2.46, isto , para condutividade
c
e
(Y ) e salinidade (X).
b) De acordo com esta funao, quais seriam os valores estimados () para os valores de x da
c
y
tabela 2.46.
c) O que voc acha da discrepncia entre os valores observados e estimados (y y )?
e
a
110
220
180
140
100
60
20
-20
10
111
18 10,0
46 3,3
100 1,0
150 0,33
182 0,1
0,056
0,022
0,01
0,0067
0,0055
3.1
Introduo
ca
O importante estudo de probabilidade anterior aos anos de 1500, sculo XVI. Nessa
e
e
poca , as aplicaoes eram dirigidas aos jogos de azar. Pessoas se utilizavam do conhecimento
e
c
da teoria das probabilidades para planejar estratgias de apostas. Conta-se que um senhor
e
conhecido como Cavaleiro de Mer, amigo do francs Pascal (1610), e grande apreciador
e
e
de jogos, solicitava ao mesmo, que calculasse suas chances de ganho.
No entanto, somente no sculo XX, que o clculo de probabilidade teve um desenvolvie
e
a
mento bastante grande, e baseado numa teoria matemtica atravs de axiomas (condioes)
a
e
c
rigorosos, denioes e teoremas.
c
A probabilidade um ramo da matemtica cuja grande aplicaao na estat
e
a
c e
stica, como
veremos a seguir. At o presente momento do nosso curso de estat
e
stica, estudamos, de
forma emp
rica, isto , sem uma justicativa cient
e
ca (s descrevendo e no explicando), o
o
a
comportamento dos fenmenos, eventos da natureza, atravs da construo das distribuies
o
e
ca
co
de frequncias. Aqui, temos especial interesse em experincias aleatrias, casuais, ou seja,
e
e
o
devemos realizar o experimento para saber qual ser o resultado. Por exemplo, no poss
a
a e
vel
saber qual ser a produo por hectare de uma linhagem X de feijo, se este no for plana
ca
a
a
tado, colhido e mensurado. Outros exemplos de experimentos aleatrios: 1) germinaao de
o
c
sementes; 2) sobrevivncia de enxertos; 3) nmero de microncleos/3000 clulas; 4) nmero
e
u
u
e
u
de plantas numa determinada rea.
a
112
M H
2
5
Freqncia terica
ue
o
Total
3
5
Total
Freqncias
ue
1
6
1
6
1
6
1
6
1
6
1
6
113
A primeira grande aplicaao de probabilidade nas biocincias, foi com as leis da heredc
e
2
itariedade (Mendel, 1822-1884) . Outras aplicaes podem ser: chance de sobrevivncia
co
e
(germina ou no germina), distribuiao e interao de espcies animais ou vegetais, risco de
a
c
ca
e
doenas, ocorrncia de mutaoes, previso de safras, na previso de chuvas, geadas, granizos,
c
e
c
a
a
etc.
Uma aplicao, particularmente importante para o nosso curso, quando um pesquisador
ca
e
conduz um experimento. Quando um experimento instalado, desejamos comparar os efeitos
e
dos tratamentos (variaoes de um fator a ser estudado). Para se estimar os efeitos dos
c
tratamentos e tambm para executar os testes estat
e
sticos necessrio o uso de repetioes
e
a
c
(aplicao do mesmo tratamento em diversas unidades experimentais e que formar a amostra
ca
a
de estudo), atravs das quais vamos ter a possibilidade de calcular a variabilidade dos dados,
e
ou seja, a varincia. O pesquisador esfora-se ao mximo para manter todas as condioes
a
c
a
c
experimentais o mais constantes poss
veis, s deixando variar os tratamentos. Por exemplo,
o
num experimento agr
cola de campo, vamos aplicar um inseticida, herbicida ou fungicida
de forma homognea em todo o experimento; a fertilidade do solo deve ser igual para todos
e
os tratamentos. A temperatura, a umidade, a luminosidade, devem ser mantidas constante
dentro de um laboratrio. A temperatura deve ser constante em todos os pontos dentro de
o
uma estufa . E assim por diante. Pois bem, por maior que seja esse esforo para manter toc
das as condies experimentais o mais constantes poss
co
veis, os valores obtidos nas repetioes
c
dos tratamentos dicilmente resultam em valores iguais, quase com certeza absoluta que
e
todos os valores vo diferir uns dos outros. Pode-se concluir que sempre vo existir variaoes.
a
a
c
Logo, um pequisador no pode armar com 100% de certeza que o tratamento A melhor
a
e
que o B, e assim por diante. Portanto, todas as concluses tomadas, ou as inferncias reo
e
alizadas, so feitas com certo grau de incerteza; essa incerteza ns expressamos em termos
a
o
de probabilidade. Ento, quando um pesquisador diz que o tratamento A melhor que o B,
a
e
ao n de signicncia de 5%, ele admite que pode estar tomando uma deciso errnea e
vel
a
a
o
que a probabilidade de erro de no mximo igual a 5%. Estes experimentos cujos resultae
a
dos podem no ser os mesmos, de repetio para repetiao, so chamados de experimentos
a
ca
c
a
aleatrios, probabilsticos ou estocsticos.
o
a
Todas as inferncias realizadas tem certo grau de incerteza expressadas por
e
probabilidades.
2
114
7
T3
24
2
20
8
T1
42
3
T5
T5
T1
T6
T2
T6
T6
T3
14
T5
T3
T1
T1
23
35
T6
20
30
T5
19
T2
14
34
9
29
15
24
23
T5
T1
T4
T4
24
33
25
28
21
23
11
18
T1
T6
T2
T3
18
32
26
27
9
22
14
7
18
12
T3
T4
31
T5
19
26
11
21
13
16
14
11
21
6
T6
T2
25
T2
26
20
13
15
20
10
35
5
19
T3
12
14
22
9
10
4
13
T4
T4
15
36
T4
20
T2
21
Figura 3.1: No canto superior esquerdo est indicado a unidade experimental; no centro `
a
a
direita o tratamento e, no canto inferior esquerdo, est indicado o nmero de brotos por
a
u
explante
A seguir apresentamos um exemplo de um experimento no delineamento inteiramente
casualizado.
Avaliao do Comportamento In Vitro de abacaxi Ananas comosus cv.
ca
Primavera
Objetivo: determinao de um meio de cultura onde produza um maior nmero de mudas
ca
u
por explante (meristema) inoculado.
Tratamentos:
Meio de cultura 1 (T1)
Meio de cultura 2 (T2)
Meio de cultura 3 (T3)
Meio de cultura 4 (T4)
Meio de cultura 5 (T5)
Meio de cultura 6 (T6)
Unidade experimental: Um tubo de ensaio.
Variveis observadas: 1) nmero de brotos por explante inoculado; 2) tamanho dos brotos
a
u
em cm; 3) nmero de folhas por broto, etc.
u
Delineamento Experimental: delineamento inteiramente casualizado com 20 repeties.
co
Obs: na gura 3.1 apresentamos esse delineamento utilizando somente os resultados de 6
repetioes. Condies experimentais controladas ao mximo: Temperatura de 24 C 1 C ;
c
co
a
fotoper
odo de 16hs luz; intensidade luminosa de 4000 lux, meristemas uniformes (tamanho).
115
3.2
Conceitos Fundamentais
116
AA
AA
gentipos
Aa
Aa
AA
Aa
zigotos
1/2
1/2
117
Poder
amos tambm estar interessados no evento heterozigoto, ento, temos:
e
a
B = {Aa}.
Portanto, eventos so subconjuntos do espao amostral, , ou seja, um conjunto de
a
c
e
resultados de um experimento. Se um evento coincide com o espao amostral, , ele se
c
chama evento certo e temos,
A =
A = {AA, Aa}
A evento dos fentipos com dominncia.
o
a
Observaao: o alelo A dominante sobre a, portanto, Aa tem o mesmo fentipo que AA.
c
e
o
Se um evento no possui nenhum elemento do espao amostral, temos o evento imposs
a
c
vel,
A = (phi).
Exemplo: D={homozigoto recessivo}={aa}.
Quando o evento constitu de apenas um elemento temos o evento simples. Como
e
do
exemplos temos os eventos A e B.
Do exemplo acima, podemos fazer uma generalizaao. Todo o fenmeno ou experimento
c
o
no qual est envolvido um elemento casual, aleatrio, ou de incerteza, ter seu modelo
a
o
a
de probabilidades.
Um modelo probabil
stico ca denido, especicado, constru no momento em que esdo,
tabelecemos o espao amostral () e as probabilidades dos pontos amostrais; para o exemplo,
c
temos o seguinte modelo probabil
stico:
Cruzamentos
AA
Frequncias tericas
e
o
Aa
1/2 1/2
Total
1
Esse espao amostral discreto, pois podemos enumerar todos os resultados do experimento.
c
e
Essa enumerao pode ser nita ou innita.
ca
Exemplo de modelo. Cruzamos o gentipo Aa (pai) e Aa (me). Os resultados dos
o
a
cruzamentos esto indicados na gura 3.3.
a
Observaoes:
c
1. As quatro recombinaoes AA, Aa, aA e aa so igualmente provveis.
c
a
a
118
Pai
Aa
Aa
espermatozide
zigoto
Me
AA
Aa
vulos
aa
aA
AA
Frequncia terica
e
o
1
4
Aa
1
4
1
4
aa Total
1
2
1
4
Sp
sp
Sp
sp
Sp Sp
sp Sp
Sp sp
sp sp
Observaoes:
c
c
a
a
1. As quatro recombinaoes so igualmente provveis.
119
Sp Sp
sp Sp
sp sp
Total
Frequncia terica
e
o
1
4
2
4
1
4
Observao: Um espao amostral pode ser denido de diferentes maneiras para um mesmo
ca
c
experimento, dependendo dos objetivos do problema a ser estudado. Por exemplo, suponha
que lancemos uma moeda cinco vezes. Se estamos interessados apenas na sequncia de caras
e
e coroas obtida, um espao amostral :
c
e
1 = {ckkkk, kckkk, kkckk, kkkck, ...}.
Observao: so poss
ca
a
veis 25 =32 pontos amostrais. Mas se estamos interessados no
nmero de caras obtidas, ento, um espao amostral :
u
a
c
e
2 = {0, 1, 2, 3, 4, 5}.
Temos, aqui, outro exemplo de espao amostral discreto.
c
Exemplo: Considere um experimento que consiste em medir as alturas H de homens
adultos. Um espao amostral conveniente :
c
e
= {H : H > 0},
isto , o conjunto de todos os nmeros reais positivos. Se A indica o evento a altura de
e
u
homens adultos superior a 150 cm e inferior a 200 cm, ento A={H:150<H<200}. Esses
e
a
so exemplos de espaos amostrais cont
a
c
nuos, pois o intervalo contm um nmero innito de
e
u
valores.
Outro exemplo: Considere um experimento que consiste em medir as alturas h de
plantas de milho. Um espao amostral conveniente ={h:h>0}, isto , o conjunto de
c
e
e
todos os nmeros reais positivos.
u
3.3
120
o
pontos 5 e 6 ocorrem em B.
Uma outra operao entre eventos a interseco, representada pelo s
ca
e
ca
mbolo . Ento,
a
(AB) a ocorrncia dos eventos A e B, simultaneamente, ou seja, formado pelos pontos
e
e
e
amostrais que pertencem ao eventos A e B. Em aritmtica, assemelha-se com o produto
e
(AB). A representaao grca da interseco dada na gura 3.5.
c
a
ca e
Exemplo: Duas fam
lias, por exemplo, solanaceaes (pimenta, pimento, tomate) e mira
121
mpar, A={1,3,5}, qual o evento que ocorre sempre que A no ocorre? Resposta: Ac ={2,4,6}.
e
a
Exemplo: Vamos considerar todas as espcies pertencentes a ordem Himenoptera como
e
sendo o espao amostral, . Estamos interessados na fam Formicidae, este o nosso
c
lia
e
evento. Qual ser o complementar desse evento? Consistir de todas as espcies da ordem
a
a
e
Himenoptera, mas no pertencente a fam Formicidae.
a
lia
Algumas outras operaes envolvendo interseco, reunio e complemento so dadas por:
co
ca
a
a
a)
b)
c)
d)
e)
f)
Exerc
cio. Construa os diagramas de Venn para os itens a) e b).
122
3.4
A Probabilidade de Um Evento
Seja qual for o evento, por exemplo, chuva, gentipos homozigticos, produao de uma
o
o
c
cultura, saiu face
mpar ,etc., a probabilidade de um evento A, denotada por P(A) um
e
nmero entre 0 e 1, que indica a chance de ocorrncia de A. Quanto mais prximo de 1
u
e
o
e
P(A) = maior a chance de ocorrncia de A, e quanto mais prxima de 0 P(A) =
e
e
o
e
menor a chance de ocorrncia do evento A. Denio:
e
e
ca
Seja um experimento aleatrio e um espao amostral associado a esse
o
c
experimento. A cada evento A associamos um nmero real representado por P(A)
u
e denominado probabilidade de A, que expressa a chance de ocorrncia de A .
e
123
3.5
Conceito de Probabilidade
124
1
1
= 50% e P (Aa) = = 50%
2
2
P (Ei )= 1.
1
2
= 1.
2
b) 1 P (B) = 1
1
2
= 1.
2
c) P [(A B)c ] = 1 P (A B) = 1 1 = 0.
d) P [(A B)c ] = 1 P (A B) = 1 0 = 1.
125
e)
logo,
P (Ac B) = P (B) P (A B) =
3.6
1
1
0= .
2
2
A Regra da Adio
ca
33
4
2
0
1
7
28
7
2
1
6
8
61
11
4
1
7
15
Total
47
52
99
O evento A indica o evento que acontece quando, ocorrer uma morte na colnia, esta
o
pessoa deve ter at um ano de idade. O evento M acontece quando, ocorrer uma morte na
e
colnia, esta pessoa for do sexo masculino. Os demais eventos tem signicados anlogos.
o
a
Sendo assim, a probabilidade de ocorrncia do evento A, isto , a pessoa falecida tiver idade
e
e
entre 0 e 1 ano dada por,
e
P (A) =
61
= 61, 62%.
99
126
33
= 33, 33%,
99
isto , temos uma probabilidade de 33,33% da pessoa falecida ser do sexo masculino e ter
e
at um ano de idade.
e
Agora, se desejarmos calcular a probabilidade de ocorrncia de A e/ou de M, isto ,
e
e
P (A M ), como ser o clculo? O resultado ser dado por:
a
a
a
P (A M ) = P (A) + P (M ) P (A M )
P (A M ) = 0, 6162 + 0, 4747 0, 3333
P (A M ) = 0, 7576
P (A M ) = 75, 76%.
Devemos subtrair P (A M ), pois, caso contrrio, estar
a
amos contando duas vezes as
pessoas falecidas do sexo masculino e com idade entre 0 e 1 ano.
De modo geral, se A e B so dois eventos quaisquer, a chamada regra da adio dada
a
ca e
por:
P (A B) = P (A) + P (B) P (A B).
(3.1)
Esta regra vlida para mais do que dois eventos, ou seja, podemos generaliz-la. Por
e a
a
exemplo, para trs eventos: A, B e C, a regra ca:
e
P (A B C) = P (A) + P (B) + P (C) P (A B) P (A C) P (B C) + P (A B C).
Se considerarmos os eventos A e C, a P (A C) calculada do seguinte modo:
e
61
= 0, 6162 = 61, 62%;
99
4
P (C) =
= 0, 040 = 4, 00%;
99
P (A C) = 0, 6162 + 0, 040 = 0, 6562 = 65, 62%,
P (A) =
127
1
2
3
4
5
6
1
1
1
1
1
1
2
1
2
3
4
5
6
2
2
2
2
2
2
3
1
2
3
4
5
6
3
3
3
3
3
3
4
1
2
3
4
5
6
4
4
4
4
4
4
5
1
2
3
4
5
6
5
5
5
5
5
5
6
1
2
3
4
5
6
6
6
6
6
6
6
A = {36 45 54 63}
B = {41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66}
C = {11 21 12 31 22 13}
4
18
3
19
+
= .
36 36 36
36
4
6
0
10
P (A C) = P (A) + P (C) P (A C) =
+
= .
36 36 36
36
P (A B) = P (A) + P (B) P (A B) =
3.7
Vamos voltar a tabela 3.2 para explicar o que uma probabilidade condicional. Dado
e
que ocorra a morte de uma pessoa com idade entre 0 e 1 ano, a probabilidade dessa pessoa
ser do sexo feminino de 28 = 0,4590= 45,9%. Isto porque de um total de 61 falecimentos
e
61
com idade entre 0 e 1 ano, 28 so do sexo feminino.
a
Representamos uma probabilidade condicional da seguinte forma:
P (Feminino| idade entre 0 e 1 ano) =
28
= 45, 9%.
61
L-se, assim: a probabilidade da pessoa falecida ser do sexo feminino, dado que (|) ela tem
e
idade entre 0 e 1 ano de 45,9%. A barra vertical indica o evento que ocorreu, o evento
e
conhecido, isto , sabe-se que a pessoa falecida tem entre 0 e 1 ano, dado isso, deseja-se
e
128
AB
Figura 3.7: espao reduzido da probabilidade condicional
c
saber qual a probabilidade dela ser do sexo feminino. Podemos agora dar uma deniao
e
c
de probabilidade condicional.
Denio: Para dois eventos quaisquer A e B, associados a um experimento, sendo
ca
P (B) > 0, denimos a probabilidade condicional de A, quando B tiver ocorrido, como
sendo:
P (A B)
P (A|B) =
.
(3.2)
P (B)
Para se entender a expresso 3.2, basta pensar que o espao amostral cou reduzido, ou
a
c
restrito ao evento B. Veja gura 3.7. A presena da interseco no numerador justicada
c
ca
e
facilmente considerando que a ocorrncia de A, quando se sabe que B ocorreu, corresponde
e
` ocorrncia de A e de B simultaneamente, isto , de sua intersecao.
a
e
e
c
Para o exemplo mencionado, se A e F, indicam, respectivamente, os eventos idade entre
0 e 1 ano e sexo feminino, temos:
P (F |A) =
P (F A)
28 99
=
.
P (A)
61 99
Observe que =99, e A=61, sendo que desaparece (simplicaao), portanto, o novo espao
c
c
de resultados A. Assim,
e
28
P (F |A) =
= 45, 9%.
61
De modo geral, sempre que calculamos a P(A), dado que B tenha ocorrido, estamos
sempre calculando a P(A) em relao ao espao amostral reduzido de B, isto , o espao
ca
c
e
c
amostral ca reduzido de para B.
Exemplo: Numa populaao os animais podem ser fecundos e no fecundos. Vinte por
c
a
cento (20%) dos animais da raa X so fecundos; trinta por cento (30%) dos animais da raa
c
a
c
Y so no fecundos e setenta e cinco por cento (75%) dos animais so da raa X. Considere
a a
a
c
129
os eventos:
H={o animal da raa X}
e
c
A={o animal fecundo}
e
Raa
c
Total
X (H)
Y (M)
60
7,5
15
17,5
75
25
Total
67,5
32,5
100
(3.3)
Cegueira
Surdez
Frequncia
e
Surdez(S) No Surdez(S)
a
total
No Cegueira(C)
a
0,0004
0,0046
0,0796
0,9154
0,0800
0,9200
Frequncia total
e
0,0050
0,9950
1,0000
130
Probabilidades
21
54
23
54
32
54
32
54