Você está na página 1de 352

Universidade Federal de Santa Catarina

Centro Tecnolgico
o
Departamento de Informtica e Estat
a
stica

ESTAT
ISTICA BASICA APLICADA AS CIENCIAS

AGRONOMICAS E BIOLOGICAS
Com Noes de Experimentao
co
ca

Prof. Paulo Jos Ogliari, Dr.


e
Prof. Dalton Francisco de Andrade, PhD.

Este material consiste numa experincia para


e
preparao de um livro que possa ser utica
lizado nos cursos de graduao em Engenca
haria Agronmica e Cincias Biolgicas, e por
o
e
o
prossionais nessas reas que necessitam de
a
conhecimentos em Estat
stica Bsica.
a

FLORIANOPOLIS
Santa Catarina - Brasil
Julho - 2003

Sumrio
a
1 Introduo Geral
ca
1.1 A Cincia Estat
e
stica na Pesquisa Agronmica e Biolgica
o
o
1.1.1 Forma de coleta dos dados . . . . . . . . . . . . . .
1.1.2 Erro Experimental ou Res
duo . . . . . . . . . . . .
1.1.3 Anlise Exploratria de Dados . . . . . . . . . . . .
a
o
1.1.4 Inferncia Estat
e
stica . . . . . . . . . . . . . . . . .
1.1.5 Teoria da Probabilidade e seus Modelos . . . . . . .
1.2 A Estat
stica e o Mtodo Cient
e
co . . . . . . . . . . . . .
1.3 Aspectos do Planejamento Estat
stico de um Experimento
1.3.1 Experimentos com um Fator e mais de um Fator . .
1.3.2 Tratamento Controle . . . . . . . . . . . . . . . . .
1.3.3 Variveis e Covariveis . . . . . . . . . . . . . . . .
a
a
1.3.4 Repetio e Casualizao . . . . . . . . . . . . . . .
ca
ca
1.4 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

2 Anlise Exploratria de Dados


a
o
2.1 Organizaao, Resumo e Representaao de Dados . . . . . . . . . . . . . . . .
c
c
2.1.1 Introduao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
c
2.1.2 Classicaao das Variveis Selecionadas para o Estudo . . . . . . . .
c
a
2.1.3 Distribuioes de Freqncias. Representao em Tabelas e Grcos .
c
ue
ca
a
2.1.3.1 Distribuioes de Freqncias de Variveis Qualitativas. Repc
ue
a
resentao em Tabelas . . . . . . . . . . . . . . . . . . . . .
ca
2.1.3.2 Representaes Grcas de Variveis Qualitativas . . . . . .
co
a
a
2.1.3.3 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . .
2.1.3.4 Tabelas de Contingncia . . . . . . . . . . . . . . . . . . . .
e
2.1.3.5 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . .
2.1.3.6 Coeciente de Contingncia de Pearson . . . . . . . . . . . .
e
2.1.3.7 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . .
2.1.3.8 Distribuioes de Freqncias de Variveis Quantitativas: Dic
ue
a
agrama de Pontos, Grco de Colunas e Histograma . . . .
a
2.1.3.9 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . .

5
5
5
6
7
8
11
13
19
20
21
22
22
23
25
25
25
26
29
29
35
38
42
47
48
53
53
65

2.2

2.1.3.10 Ramo-e-Folhas . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.1.3.11 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . . 70
Algumas Medidas Associadas ` Variveis Quantitativas . . . . . . . . . . . . 72
a
a
2.2.1 Medidas de Tendncia Central . . . . . . . . . . . . . . . . . . . . . . 72
e
2.2.2 Medidas de Disperso . . . . . . . . . . . . . . . . . . . . . . . . . . 80
a
2.2.2.1 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . . 88
2.2.3 O Uso da Mediana e dos Quartis na Interpretaao de um Conjunto de
c
Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
2.2.4 Desenho Esquemtico (em ingls leia-se Box Plot) . . . . . . . . . . . 93
a
e
2.2.4.1 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . . 97
2.2.5 Coeciente de Correlaao . . . . . . . . . . . . . . . . . . . . . . . . . 98
c
2.2.5.1 Exerc
cios propostos . . . . . . . . . . . . . . . . . . . . . . 103
2.2.6 Ajuste da Equaao de uma Reta . . . . . . . . . . . . . . . . . . . . . 105
c
2.2.6.1 Exerc
cios propostos . . . . . . . . . . . . . . . . . . . . . . 110

3 Modelos de Probabilidades para Experimentos


3.1 Introduao . . . . . . . . . . . . . . . . . . . . .
c
3.2 Conceitos Fundamentais . . . . . . . . . . . . .
3.3 Operaoes com Eventos . . . . . . . . . . . . . .
c
3.4 A Probabilidade de Um Evento . . . . . . . . .
3.5 Conceito de Probabilidade . . . . . . . . . . . .
3.6 A Regra da Adiao . . . . . . . . . . . . . . . .
c
3.7 Probabilidade Condicional e Independncia . . .
e
3.8 Teorema de Bayes . . . . . . . . . . . . . . . . .
3.9 Exerc
cios Propostos . . . . . . . . . . . . . . .

Simples
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

112
112
116
120
123
124
126
128
132
137

4 Modelos de Probabilidades para Variveis Aleatrias Discretas


a
o
142
4.1 Introduao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
c
4.2 O Conceito de Varivel Aleatria Discreta e Funao de Probabilidade . . . . 143
a
o
c
4.3 O Valor Esperado de Uma Varivel Aleatria Discreta. Varincia. Propriedades145
a
o
a
4.4 Alguns Modelos Probabil
sticos para Variveis Aleatrias Discretas . . . . . 154
a
o
4.5 Distribuiao de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
c
4.6 A Distribuiao Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
c
4.7 Distribuiao de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
c
4.8 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

5 Modelos de Probabilidades para Variveis Aleatrias Cont


a
o
nuas
5.1 Introduao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
c
5.2 O Valor Esperado de Uma Varivel Aleatria Cont
a
o
nua . . . . . . . . . . .
5.3 A Distribuiao Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
c
5.3.1 Introduao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
c
5.3.2 A Distribuio Normal Padro . . . . . . . . . . . . . . . . . . . . .
ca
a
5.3.3 O Uso da Tabela da Distribuio Normal Padro . . . . . . . . . .
ca
a
5.3.4 A Distribuio Normal como Aproximaao da Distribuiao Binomial
ca
c
c
5.3.5 Exerc
cios propostos . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Introduo ` Inferncia Estat
ca a
e
stica
6.1 Introduao . . . . . . . . . . . . . . . . . . . . . . . .
c
6.2 Estat
sticas e Parmetros . . . . . . . . . . . . . . . .
a
6.3 Como Selecionar Uma Amostra . . . . . . . . . . . .
6.4 Amostragem Casual Simples . . . . . . . . . . . . . .
6.4.1 Obtenao de Uma Amostra Aleatria Simples
c
o
6.5 Distribuioes Amostrais . . . . . . . . . . . . . . . .
c
6.5.1 Distribuiao Amostral da Proporao . . . . .
c
c
6.5.2 Distribuiao Amostral da Mdia . . . . . . . .
c
e
6.6 Exerc
cios Propostos . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

7 Avaliao dos Parmetros


ca
a
7.1 Introduao . . . . . . . . . . . . . . . . . . . . . . . . . . .
c
7.2 Propriedades dos Estimadores . . . . . . . . . . . . . . . .
7.3 Mtodos para Encontrar Estimadores . . . . . . . . . . . .
e
7.4 Estimativas Pontuais e Intervalares . . . . . . . . . . . . .
7.4.1 Intervalo de Conana para a Mdia da Populao
c
e
ca
7.4.2 Intervalo de Conana para Uma Proporo . . . .
c
ca
7.4.3 Erro de Estimaao ou de Amostragem . . . . . . .
c
7.4.4 Determinaao do Tamanho da Amostra . . . . . . .
c
7.5 Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

183
183
187
189
189
193
195
199
203

.
.
.
.
.
.
.
.
.

209
209
212
213
215
217
219
220
228
236

.
.
.
.
.
.
.
.
.

238
238
238
241
243
247
252
254
256
264

8 Testes de Hipteses Sobre os Parmetros


o
a
268
8.1 Introduao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
c
8.2 Testes de Hipteses Unilaterais e Bilaterais . . . . . . . . . . . . . . . . . . . 275
o
8.3 Erros Tipo I e Tipo II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275

8.4

8.5

8.6

Testes de Mdias Populacionais . . . . . . . . . . . . . . . . . . . . . . . . .


e
8.4.1 Teste de Uma Mdia Populacional Quando a Varincia Populacional
e
a
for Desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4.2 Teste de Duas Mdias Populacionais com Varincias Populacionais Dee
a
sconhecidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Teste Para Proporoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
c
8.5.1 Teste Para Uma Proporo Populacional . . . . . . . . . . . . . . . .
ca
8.5.2 Teste de Duas ou Mais Propores (Teste de Qui-Quadrado) . . . . .
co
Exerc
cios Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

277
278
283
297
297
300
305

Bibliograa

314

Apndice 1: Tabela da distribuio binomial


e
ca

316

Apndice 2: Tabela da distribuio de Poisson


e
ca

326

Apndice 3: Tabela da distribuio normal padro


e
ca
a

328

Apndice 4: Tabela da distribuio t de Student


e
ca

330

Apndice 5: Tabela da distribuio de Qui-Quadrado


e
ca

332

Apndice 6: Tabela da distribuio F


e
ca

334

Apndice 7: Tabela de n meros aleatrios


e
u
o

337

Respostas de Alguns dos Exerc


cios

339

1
1.1

Introduo Geral
ca
A Cincia Estat
e
stica na Pesquisa Agronmica e Biolgica
o
o

A estat
stica uma cincia que se preocupa com o planejamento de uma pesquisa, envole
e
vendo desde a forma de coleta das observaoes, obtidas em experimentos ou levantamentos,
c
at a maneira como ser feita a organizao, a descriao, o resumo dos dados, e a avaliaao
e
a
ca
c
c
e armaao sobre caracter
c
sticas de interesse do pesquisador.
As anlises estat
a
sticas dependem da forma de como os dados so coletados, e o planejaa
mento estat
stico da pesquisa indica o esquema sob o qual os dados sero obtidos. Portanto,
a
o planejamento da pesquisa e a anlise estat
a
stica dos dados obtidos esto intimamente
a
ligados.
Planejamento da pesquisa Anlise estat
a
stica
Dessa forma, o pesquisador deve possuir um razovel conhecimento de estat
a
stica para

desenvolver suas pesquisas, ou, ento, consultar um estat


a
stico para auxili-lo. E importante
a
frisar que esta consulta deve ser feita antes do in da pesquisa, ainda durante a fase de
cio
elaboraao do projeto.
c
1.1.1

Forma de coleta dos dados

Em alguns casos, como por exemplo, na descriao de novas espcies orestais, os dados
c
e
so obtidos atravs da simples observao de como o fenmeno acontece na natureza. Neste
a
e
ca
o
caso, no so feitas alteraoes no fenmeno em estudo. Outro exemplo, o estudo sobre os
a a
c
o
e
efeitos da poluiao ambiental de uma regio sobre animais roedores de determinada espcie.
c
a
e
Neste caso, um certo nmero de animais (amostra), capturados na regio estudada, ser analu
a
a
isado contando o nmero de microncleos existentes a cada cinco mil clulas (caracter
u
u
e
stica
estudada).
Levantamento: observa-se o fenmeno na natureza
o
Por outro lado, em muitas outras situaes, as observaes precisam ser geradas e so
co
co
a
feitas comumente sob condioes controladas pelo pesquisador, e os fatos, eventos ou fenmenos
c
o

a serem estudados so forados a sofrer variaoes sistemticas, mediante a aplicao de


a
c
c
a
ca
tratamentos. Na experimentaao, entende-se por tratamento, as variaes de um fator a
c
co
ser estudado. Um exemplo disto, seria analisar a produao de milho mediante a aplicao
c
ca
de diferentes doses de nitrognio. As diferentes doses de nitrognio constituiriam os tratae
e
mentos. Os outros fatores, como por exemplo, diferenas na fertilidade e umidade do solo,
c
existncia de pragas e ervas daninhas, que podero inuir nos resultados obtidos (produo
e
a
ca
nal de milho), so minimizados, tanto quanto poss
a
vel, do ponto de vista prtico. Neste
a
caso temos ento um experimento. A funao do experimento determinar as relaes de
a
c
e
co
causa e efeito, como por exemplo, vericar como as doses de nitrognio (causa) inuenciam
e
na produao de milho (efeito).
c
Experimento: causa efeito

1.1.2

Erro Experimental ou Res


duo

Quando instala-se um experimento, desejamose vericar o efeito de diferentes tratamentos, sendo que, os demais efeitos, que no os de tratamentos, devem ser controlados ao
a
mximo do ponto de vista prtico. Portanto, as pulverizaoes com produtos qu
a
a
c
micos, as
capinas, as mensuraoes, etc. devem ser feitas de modo o mais homogneo poss em todo
c
e
vel
o experimento. Da mesma forma, a disponibilidade de gua, a temperatura, a umidade e
a
as sementes utilizadas, devem ser as mais similares poss
veis. Acontece que, na prtica, por
a
maiores que sejam os esforos dos pesquisadores para homogeneizar todos esses efeitos, isto
c
no poss
a e
vel, sempre levando ` ocorrncia de variaoes casuais ou aleatrias. Isto pode ser
a
e
c
o
vericado quando, ao repetir o experimento, sob condies as mais prximas poss
co
o
veis do
experimento anterior, obtemos resultados diferentes. Essas variaoes so chamadas de erro
c
a

experimental ou simplesmente erro. E bom chamar a atenao que apesar do termo erro,
c
isto no signica que o experimento foi mal feito. Muitos preferem o termo res
a
duo para
caracterizar essas variaes aleatrias. Vale a pena ressaltar que essas variaoes tambm
co
o
c
e
ocorrem para dados obtidos atravs de levantamentos.
e
Finney (1952) diz que o propsito da cincia estat
o
e
stica fornecer uma base objetiva para
e
a anlise de problemas nos quais os dados esto sujeitos a variao do acaso. Por maiores que
a
a
ca
sejam os conhecimentos de um pesquisador sobre, por exemplo, nutriao e siologia animal,
c
ele jamais ser capaz de predizer com exatido qual vai ser o peso de um su criado
a
a
no
sob determinadas condioes. Existe um grande nmero de causas que fazem este resultado
c
u

variar, como, por exemplo, variaoes genticas, de temperatura ambiental, umidade, doenas,
c
e
c
etc. Assim, quando o elemento acaso est presente em um problema, diculdades reais so
a
a
introduzidas. Observe que estamos interessados em estudar os fenmenos ditos aleatrios,
o
o
isto , aqueles em que o elemento do acaso est presente.
e
a

E importante ressaltar que quase tudo que fazemos no nosso cotidiano so fenmenos
a
o
aleatrios e, portanto, apresentam uma chance de ocorrncia devido ao acaso. Assim sendo,
o
e
seria desejvel determinar qual a sua probabilidade de ocorrncia. Para tal nalidade
a
e
e
precisamos estabelecer o modelo probabil
stico adequado.
Fenmeno aleatrio Modelo probabil
o
o
stico
A seguir, vamos apresentar duas partes importantes da estat
stica, quais sejam: anlise
a
exploratria de dados e inferncia estatstica.
o
e

1.1.3

Anlise Exploratria de Dados


a
o

Todo o trabalho de anlise estat


a
stica inicia com a anlise exploratria de dados. Em
a
o
muitos casos, com uma boa anlise exploratria de dados, atende-se aos objetivos da pesquisa
a
o
(principalmente em alguns estudos realizados atravs de levantamentos), enquanto em outros,
e
ela serve como uma primeira aproximaao da anlise nal.
c
a
O conceito de estat
stica, como poder ser visto ainda neste cap
a
tulo, bastante amplo
e
e engloba a noao usual que as pessoas tm do que seja estat
c
e
stica. Esse conceito usual
logo relaciona a estat
stica com tabelas, grcos, taxas,
a
ndices, nos quais os dados obtidos
so representados. Assim, ouvimos falar da produtividade mdia do milho no Estado de
a
e
Santa Catarina,
ndice pluviomtrico mensal, anual,
e
ndice da inao, taxa de desemprego,
ca
estat
sticas da sade pblica, estat
u
u
sticas da loteria, do aumento da produao de ma em
c
ca
Santa Catarina, etc. Essa parte, utilizado para descrever fatos, , de forma bastante aproe
priada, apresentado nos livros como anlise exploratria de dados. Ela se preocupa com
a
o
a organizaao, apresentaao, simplicaao e descriao (e no explicao) dos dados. Este
c
c
c
c
a
ca
enfoque de anlise exploratria de dados foi introduzido por Tukey (1971), no seu livro:
a
o
Exploratory Data Analysis. A anlise exploratria de dados utiliza-se muito de tcnicas
a
o
e
visuais e procura vislumbrar alguma regularidade quase sempre presente num conjunto de
dados, podendo sugerir modelos que possam ser utilizados na inferncia estat
e
stica.
Exemplo. Foi feito um experimento para estudar a durao, em dias, do quinto estdio
ca
a
ninfal de Triatoma klugi com alimentao em galo. Os resultados so apresentados na tabela
ca
a

Tabela 1.1: Valores da duraao em dias do quinto estdio ninfal de Triatoma klugi com
c
a
alimentao em galo, MIP, UFSC, Florianpolis, SC, 2001.
ca
o
26 37 39 40 41 42 42
43 44 45 45 45 45 45
47 48 48 48 48 48 49
49 49 51 51 51 52 53
53 53 56 57 60 62 62
13
12

Nmero de observaes

11
10
9
8
7
6
5
4
3
2
1
0

26

31

36

41

47

52

57

62

Durao do quinto estdio ninfal em dias

Figura 1.1: Histograma da duraao, em dias, do quinto estdio ninfal de Triatoma klugi
c
a
1.1. Esses resultados foram representados atravs de um histograma dado na gura 1.1.
e
Duas interpretaoes so: 1) um valor para representar os dados igual a 48 dias; 2) observac a
e
se no histograma uma cauda mais longa em direo aos valores menores, assim, diz-se que
ca
a distribuio levemente assimtrica ` esquerda, ou seja, existe uma concentraao maior
ca e
e
a
c
de valores em torno e acima do valor representativo. A anlise exploratria de dados ser
a
o
a
estudada na seao 2.
c
1.1.4

Inferncia Estat
e
stica

H ainda todo um campo bastante amplo da cincia estat


a
e
stica que se refere ` anlise e
a a
` interpretao do conjunto total de dados, observando-se somente uma parte deles. Essa
a
ca

parte, conhecida como Estat


e
stica Indutiva ou Inferencial e normalmente escapa a noao
c
corrente da grande maioria das pessoas.
Para deixar mais clara a nalidade da estat
stica inferencial, necessrio fazer a apree
a
sentao de dois conceitos fundamentais, que so: Populao e Amostra.
ca
a
ca
Uma populao consiste de todos os valores poss
ca
veis de uma caracter
stica desejvel.
a
Os valores que compem uma populaao, podem ser diferentes entre si, e a mesma pode
o
c
apresentar um tamanho innito. Na experimentao a deniao de populaao conceitual.
ca
c
c e
So exemplos de populaes: todos os valores poss
a
co
veis da produao de milho em kg/ha
c
de uma cultivar; todos os pesos ao nascer de coelhos da raa gigante; todos os valores de
c
dimetro altura do peito de uma espcie do manguezal do Itacorubi; todos os valores de
a
e
microncleos por cinco mil clulas examinadas de roedores de uma determinada regio.
u
e
a
Amostra uma parte (subconjunto) da populao. Exemplos: os pesos ao nascer de
e
ca
coelhos de uma ninhada pode ser uma amostra de uma populaao innita; uma amostra
c
ser formada por 100 pesos de pacotes de caf selecionados; 50 valores de microncleos
a
e
u
por cinco mil clulas examinadas de peixes do gnero bagre selecionados; cinco valores de
e
e
produao de milho da dose 1 de nitrognio, cada um tomado num canteiro de 5 2 m2 , etc.
c
e
intuitivo que, quanto maior a amostra, mais precisas e conveis devero ser as inE
a
a
ferncias realizadas sobre a populao. Levando esse racioc
e
ca
nio ao extremo, concluiremos
que os resultados mais exatos seriam obtidos pelo exame completo de toda a populaao, ao
c
qual se costuma denominar de Censo ou Recenseamento. Porm, a utilizaao de amostras
e
c
pode ser feita de tal maneira que se obtenham resultados conveis, em termos prticos, de
a
a
forma equivalente ou at mesmo superiores aos que seriam conseguidos atravs do censo. Na
e
e
experimentao biolgica e agronmica, geralmente no temos acesso a toda a populaao,
ca
o
o
a
c
portanto, somos obrigados a trabalhar com amostras, por exemplo, no podemos conhecer
a
todos os valores poss
veis de produo de milho em kg/ha de uma cultivar; no podemos
ca
a
determinar todos os comprimentos de baleias de uma rea de proteao. O fato que no
a
c
e
a e
necessrio examinar toda a populaao para se chegar `s concluses desejadas. Desde que o
a
c
a
o
tamanho da amostra seja convenientemente determinado, e que a mesma seja representativa
da populao, ou seja, possua as mesmas caracter
ca
sticas bsicas da populao no que diz
a
ca
respeito as variveis que deseja-se pesquisar, inferencias sucientemente precisas e conveis
a
a
podem ser realizadas.
Como exemplo, podemos citar o experimento que tem como objetivo vericar o comportamento da produao de milho sob o efeito de diferentes doses de nitrognio. As doses foram
c
e
denidas pelo pesquisador. Nesse caso, geralmente, a cultivar de milho escolhida para participar do experimento a cultivar mais plantada na regio. Os resultados so apresentados
e
a
a

Tabela 1.2: Produao de milho em kg/ha, submetidos ` diferentes doses de nitrognio, no


c
a
e
Oeste Catarinense, 1993.
Tratamentos
Repetioes
c
Total Mdia
e
I
II
III
IV
V
Dose 1
Dose 2
Dose 3
Dose 4
Controle

3200
4150
4380
4000
2850

1980 2220
2330 3700
2830 3420
2630 3150
1780 2100

2850 2100 12350


4050 2500 16730
3900 3080 17610
3780 2670 16230
2900 2010 11640

2470
3346
3522
3246
2328

na tabela 1.2. Para cada dose de nitrognio so plantados 5 canteiros de terra de 20m2 cada,
e
a
portanto, o tamanho da amostra para cada dose de nitrognio 5,ou seja, foram feitas 5
e
e
repetioes dos tratamentos. Para cada amostra existe uma correspondente populao; cada
c
ca
populaao formada por todos os valores poss
c e
veis de produao em kg/ha para a dose corc
respondente. Aps realizada a anlise estat
o
a
stica e a interpretao dos resultados a partir de
ca
um modelo que relacione a produo com as doses de nitrognio, ser indicada qual(is) a(s)
ca
e
a
melhor(es) dose(s) de nitrognio para a cultura do milho.
e
A estat
stica inferencial, dada a sua grande importncia, apresenta um grande nmero
a
u

de mtodos de anlise. Seriam necessrios vrios cursos de estat


e
a
a
a
stica para estud-los. E
a
bom deixar claro que para se executar uma anlise estat
a
stica, por mais sosticada que seja
o mtodo utilizado, deve-se, primeiramente, proceder ` anlise exploratria dos dados.
e
a a
o
Como j foi comentado anteriormente, uma caracter
a
stica dos experimentos biolgicos e
o
agronmicos, que os seus resultados tendem a variar de repetiao para repetio, ou, de
o
e
c
ca
outra forma, toda vez que se repetir o experimento, sob condioes bastante semelhantes, os
c
seus resultados no so os mesmos. Esta variabilidade nos resultados do experimento deixa
a a
o pesquisador com dvidas quanto ao(s) melhor(es) tratamento(s). Neste caso, os mtodos
u
e
estat
sticos iro auxili-lo.
a
a
Para ilustrar esta variao vamos considerar os resultados da tabela 1.2 relativos `s
ca
a
produoes de milho, em kg/ha, de cinco tratamentos, incluindo o controle (dose 0). O
c
objetivo do experimento comparar os cinco tratamentos com ralaao ` produao. Mais
e
c a
c
especicamente pode-se estabelecer dois objetivos para o experimento, quais sejam: 1o )
testar a hiptese de que no existem diferenas entre os tratamentos; 2o ) estimar a diferena
o
a
c
c
de produao entre dois tratamentos.
c
Todos os experimentos so conduzidos com estes dois objetivos: testar hipteses e estimar
a
o
as diferenas dos efeitos de tratamentos.
c

10

Com respeito ao teste de hiptese de que no h diferena entre as mdias da dose 3 e


o
a a
c
e
o controle, por exemplo, observa-se uma diferena entre as duas mdias de 3522-2328=1194
c
e
kg/ha, que uma diferena bem considervel para a cultura do milho. Vericando-se os
e
c
a
dados, observa-se que a produao da dose 3, na repetiao II, foi inferior ` produao do
c
c
a
c
controle nas repetioes I e IV. Isto indica que tem-se que levar em consideraao ` variabilidade
c
c a
dos dados ao se executar um teste de hiptese. Mais especicamente, vamos considerar a
o
variabilidade da estat
stica de interesse, neste exemplo, a mdia amostral. Devido a esta
e
variabilidade, os dados nunca concordam exatamente com a hiptese, e o problema decidir
o
e
se a diferena vericada devida ao efeito do tratamento ou se devida a variabilidade do
c
e
e
acaso. Isto conhecido como teste de signicncia. Essencialmente, um teste de signicncia
e
a
a
uma regra de deciso, com base nos resultados de um experimento, se deve-se rejeitar ou
e
a
no rejeitar a hiptese. Esta tcnica capacita o pesquisador a testar as suas hipteses sobre
a
o
e
o
a ao dos tratamentos, com a garantia de que a probabilidade de rejeitar a hiptese quando
ca
o
ela verdadeira pequena.
e
e
Com respeito a estimao da diferena de produao entre a dose 3 e o controle, descritica
c
c
vamente podemos dizer que para este experimento foi de 1194 kg/ha em favor da dose 3.
Mas esta uma medida que tem pouca importncia, pois se o experimento fosse repetido
e
a

para obter outras cinco repetioes, essa diferena poderia se modicar. E mais importante
c
c
pensar do seguinte modo. Suponha que seja praticvel repetir o experimento continuamente,
a
isto , aumentar o nmero de repetioes indenidamente. A diferena mdia das produoes
e
u
c
c
e
c
entre as duas doses provavelmente ir estabilizar num determinado valor. Este valor pode
a
ser considerado como sendo a diferena verdadeira entre as duas doses. Ento o problema de
c
a
resumir os dados pode ser colocado desta outra forma: o que pode-se dizer sobre a diferena
c
verdadeira entre a dose 3 e o controle? Esses so problemas de inferncia que sero tratados
a
e
a
neste curso nas sees 6, 7 e 8.
co
1.1.5

Teoria da Probabilidade e seus Modelos

Vimos que o objetivo da estat


stica indutiva ou inferencial tirar concluses sobre pope
o
ulaes com base nos resultados observados em amostras extra
co
das dessas populaes. Como
co
vamos trabalhar com uma amostra, o processo indutivo no pode ser exato. Ao se fazer ina
ferncias sobre a populaao, portanto, estamos sempre sujeitos a cometer erros, isto , o
e
c
e
pesquisador no pode fazer armativas com 100% de certeza. Isto, porm, no deve dea
e
a
sesperanar o pesquisador, pois a estat
c
stica indutiva ir dizer at que ponto pode-se estar
a
e
errando, isto , qual a probabilidade de erro. Por exemplo, pode-se armar com 95% de
e
e

11

conana que a diferena mdia de produao, em kg/ha de milho, entre a dose 3 e o controle,
c
c
e
c
da cultivar A est entre 694 e 1589 kg/ha. Ento poss determinar limites dentro dos
a
a e
vel
quais a verdadeira diferena deve encontrar-se, com um certo grau de certeza, dada por uma
c
probabilidade, xada pelo pesquisador. Esses intervalos so conhecidos em estat
a
stica como
intervalos de conana. A espinha dorsal da inferncia estat
c
e
stica a teoria da probabilidade,
e
com seus modelos probabil
sticos, a qual deve necessariamente fazer parte de um curso de
estat
stica.
O que um modelo no sentido geral da palavra? Modelo uma verso simplicada de
e
e
a
algum evento, fenmeno, acontecimento da vida real. Exemplos: um globo uma verso
o
e
a
simplicada do planeta terra; uma maquete de um prdio, um layout (distribuiao interna),
e
c
etc.
Um dos propsitos da cincia descrever e fazer previses de eventos do mundo real, do
o
e
e
o
mundo no qual ns vivemos. Uma maneira pela qual isto feito, construindo-se modelos
o
e
e
matemticos (que so expresses matemticas) que adequadamente descrevem os fenmenos
a
a
o
a
o
do mundo real. Exemplo: desejamos fazer um estudo sobre a distribuio de uma espcie
ca
e
vegetal num habitat. Vamos supor que a distribuio dessa espcie no habitat aleatria,
ca
e
e
o
casual, sendo assim, essa distribuio se ajustar ao que conhecido como modelo de Poisson.
ca
a
e
Outro exemplo: suponhamos que 10 vacas de mesma idade e raa so tratadas com uma
c a
determinada rao A para aumentar a produo de leite (total da lactao). Admitimos que
ca
ca
ca
a probabilidade de aumento de produao na lactaao de = 0, 65. Ento podemos estar
c
c e
a
interessados em saber qual a probabilidade de exatamente 8 vacas aumentarem a produao
e
c
na lactaao. Nesse caso o modelo a ser usado o binomial. Estes modelos sero estudados
c
e
a
na seao 4.
c
Na construao de um modelo deve-se simplicar as coisas e certos pormenores devem ser
c
desprezados, claro que estes pormenores no devem ter importncia para o entendimento
e
a
a
do fenmeno em estudo. A resoluo do problema matemtico pode estar correta e, mesmo
o
ca
a
assim, estar em grande discordncia com os dados observados, simplesmente por que as
a
hipteses bsicas feitas no so conrmadas. Por isso, muito importante deduzir certas
o
a
a a
e
conseqncias do modelo e, a seguir, comparar esses resultados previstos pelo modelo com
ue

dados reais (observados). E a validao do modelo.


ca
Para se desenvolver um curso bsico completo de estat
a
stica, deve-se abordar os pontos
ilustrados na gura 1.2. A ordem de apresentaao dos pontos seria: 1) anlise exploratria
c
a
o
dos dados; 2) probabilidades; 3) obtenao das amostras atravs de levantamentos ou experc
e
imentos; 4) inferncia estat
e
stica e 5) outros tpicos.
o
Como tpicos especiais em um curso pode-se citar: planejamento e anlise de experimeno
a

12

Amostragem

Anlise exploratria de dados

Teoria de probabilidades

Inferncia estatstica

Tpicos especiais

Figura 1.2: Esquema geral de um curso de estat


stica bsica
a
tos, anlise de regresso e correlao.
a
a
ca

1.2

A Estat
stica e o Mtodo Cient
e
co

Nesta seao pretende-se mostrar como a estat


c
stica pode ajudar o pesquisador a resolver
os problemas por ele identicados e colocados como sendo realmente importantes. Esta
exposiao ser feita atravs de dois exemplos que foram desenvolvidos por um rgo de
c
a
e
o a
pesquisa do governo do Estado de Santa Catarina (EPAGRI S.A.) e pelo Centro de Cincias
e
Biolgicas da Universidade Federal de Santa Catarina (CCB/UFSC), respectivamente.
o
Quando se faz uma pesquisa cient
ca o procedimento geral formular hipteses e teste
o
a
las. Inicialmente essas hipteses so formuladas em termos cient
o
a
cos, dentro da rea de esa
tudo (hiptese cient
o
ca)1 , e em seguida devem ser expressas em termos estat
sticos (hiptese
o

estat
stica). E claro que deve haver uma correspondncia perfeita entre estas duas hipteses.
e
o
Por exemplo, no caso do experimento de aplicaao de diferentes doses de nitrognio podec
e
mos formular a seguinte hiptese cient
o
ca: poss aumentar a produao de milho (kg/ha)
e
vel
c
atravs da aplicao de nitrognio. E a seguinte hiptese estat
e
ca
e
o
stica: existe diferenas enc
1

Hiptese cient
o
ca: Dado um problema bem denido, identicado, vamos imaginar uma explicao para
ca
algum aspecto do problema que nos tenha despertado interesse. Essa a hiptese, e deve ser coerente com
e
o
as observaes importantes j feitas, aliada aos conhecimentos tericos que o pesquisador possue sobre o
co
a
o
assunto.

13

tre as mdias verdadeiras de produo de milho quando submetido a diferentes doses de


e
ca
nitrognio. Para testar uma hiptese estat
e
o
stica, preciso um conjunto de observaoes, isto
e
c
, preciso coletar dados, valores a respeito do fato que estamos estudando, por exemplo,
e e
ns precisamos de dados sobre a produao de milho para as diferentes doses de nitrognio,
o
c
e
para que possamos testar a hiptese acima formulada. Como estamos tratando de expero
imentao, vamos obter nossas observaoes, nossos dados, atravs de um experimento, ou
ca
c
e
seja, as observaoes sero feitas sob condioes controladas, os fatos ou fenmenos a serem
c
a
c
o
estudados so planejados a sofrer variaes sistemticas, mediante a aplicao de tratamena
co
a
ca
tos. Por exemplo, a produo de milho sofre variaoes devido a aplicao de diferentes doses
ca
c
ca
de nitrognio. Os efeitos dos outros fatores, que no as doses de nitrognio, so minimizados
e
a
e
a
tanto quanto poss
vel, por exemplo, o efeito de diferenas de fertilidade do solo, ataque de
c
pragas e doenas, invasoras, sombreamento, etc. A hiptese acima formulada vai ser testada
c
o
por meio de uma anlise estat
a
stica. Esta, por sua vez, depende de como foi instalado o
experimento, ou seja, de como as observaes foram obtidas. Com isso podemos vericar
co
a grande importncia de um bom planejamento inicial do experimento, esta fase inclusive
a
chamada de planejamento estat
e
stico do experimento. Planejamento de experimento e
anlise estat
a
stica so feitos em seqncia e esto intimamente ligados. Por delineamento
a
ue
a
estat
stico de experimento, entendemos o processo de planejamento do experimento de tal
forma que os dados obtidos possam ser analizados atravs de mtodos estat
e
e
sticos, resultando
em concluses vlidas e objetivas (Montgomery, 2001). Podemos resumir isto que foi dito,
o
a
por meio da representaao grca da circularidade do mtodo cient
c
a
e
co (Peres e Saldiva,
1982), apresentada na gura 1.3.
Para xar melhor a idia de pesquisa cient
e
ca estatisticamente planejada, vamos atravs
e
de dois projetos de pesquisa, seguir as principais etapas do mtodo cient
e
co.
Projeto 1: Recuperao de Ervais Nativos Atravs da Decepa
ca
e
1) Identicao do problema. Inicia-se uma pesquisa cient
ca
ca com a denio do probca
lema, juntamente com a formulaao dos objetivos e hipteses. No planejamento do experic
o
mento, importante a participao de especialistas de diversas reas, pois quanto maior o
e
ca
a
conhecimento adquirido, melhor o entendimento sobre o fenmeno em estudo e, isto, facilio
tar a soluo nal do problema.
a
ca
Os ervais explorados para a produo de erva-mate so na grande maioria plantas nativas.
ca
a
Dada a grande demanda por erva-mate, as erveiras foram exploradas, isto , extra sua
e
da
massa foliar, atravs de mtodos inadequados; esta falta de manejo implicou na extino de
e
e
ca
espcies e outras esto em vias de extino, ento, os ervais nativos caram em sua quase
e
a
ca
a

14

(2)
Observaes
ou dados
Planejamento estatstico
do experimento

Anlise estatstica

(1)
Formulao de
hipteses

(3)
Verificao das
hipteses formuladas

(4)
Desenvolvimento
da teoria

Figura 1.3: Circularidade do mtodo cient


e
co
totalidade comprometidos. Buscando recuperar os ervais nativos, ir aplicar-se a tcnica da
a
e
decepa total das erveiras em diferentes n
veis de altura.
2) Objetivo geral. Determinar o efeito da decepa em plantas adultas e danicadas de
erveiras.
3) Objetivos especcos:

c
Vericar a capacidade e comprimento de brotaao;
estudar a produao de massa verde;
c
vericar a sobrevivncia das erveiras decepadas.
e
a
4) Formulao da hiptese cientca. E vivel a recuperao de ervais nativos e improca
o

ca
dutivos atravs da prtica da decepa.
e
a
5) Escolha dos fatores que devem ser inclu
dos no estudo e seus correspondentes n
veis
(tratamentos). O pesquisador deve escolher os fatores a serem estudos, a faixa na qual esses
fatores sero variados, e os n
a
veis espec
cos utilizados no experimento. Neste projeto o
fator, tambm conhecido como varivel independente, a decepa, e as alturas em que ser
e
a
e
a
realizada a mesma so os tratamentos (n
a
veis do fator). Foram utilizadas quatro alturas
de decepa (4 tratamentos), quais sejam: tratamento 1 - altura de decepa a 0,00 m do solo;
tratamento 2 - altura de decepa a 0,30 m do solo; tratamento 3 - altura de decepa a 0,60 m

15

do solo; tratamento 4 - altura de decepa a 0,90 m do solo. Este um experimento com um


e
fator.
6) Escolha da unidade experimental. As unidades experimentais so as que recebem
a
os tratamentos e devem ser as mais homogneas poss
e
veis, para que quando submetidas a
tratamentos diferentes, seus efeitos sejam facilmente detectados. Portanto, elas devem ser
orientadas no sentido de minimizar o erro experimental. As unidades experimentais pode ser
um animal, um conjunto de animais, uma pessoa, cinco mil clulas, uma planta, um conjunto
e
de plantas, um vaso, um frango, cinco reas de 5 cm2 em um frango, um tubo de ensaio,
a
etc. Nesse experimento, a unidade experimental formada por 8 plantas de erva-mate de
e
dimetros bem prximos. Ento, o tratamento 1 ser aplicado a 8 plantas de erva-mate,
a
o
a
a
o tratamento 2 a outras 8 plantas, e assim por diante, at o quarto tratamento. Embora
e
tenhamos 8 medidas da varivel resposta em cada unidade experimental, esses resultados
a
no so repeties independentes. Na realidade, s temos um resultado independente para
a a
co
o
cada tratamento, a mdia das oito rvores para cada varivel resposta em estudo.
e
a
a
A heterogeneidade das unidades experimentais que determina os diferentes planos exe
perimentais.
7) Escolha das variveis que sero medidas nas unidades experimentais. Denominama
a
se de variveis as caracter
a
sticas que sero mensuradas, avaliadas pelos pesquisadores nas
a
unidades experimentais. As variveis so pr-estabelecidas pelo pesquisador e devem medir
a
a
e
diretamente os tratamentos de acordo com os objetivos do trabalho. Algumas variveis
a
medidas nesse experimento foram: percentagem de brotao, nmero de brotos, comprimento
ca
u
dos brotos, produo de massa verde para a indstria e sobrevivncia das erveiras decepadas.
ca
u
e
O importante que os dados devem ser objetivos, precisos e verdadeiros, isto o m
e
e
nimo
que se espera de algum que ir publicar um trabalho de pesquisa.
e
a
8) Determinao das regras e procedimentos pelos quais os tratamentos so atribu
ca
a
dos
a
`s unidades experimentais: delineamentos experimentais. Trata-se de normas de designar
os tratamentos `s unidades experimentais e que denem os delineamentos experimentais.
a

A estat
stica bastante rica em planos (delineamentos) experimentais. E nesse item que a
e
estat
stica participa fortemente do planejamento da pesquisa, ou seja, a sua contribuiao
c e
bastante grande, de tal forma que pode-se chamar esta etapa de planejamento estat
stico do

experimento. Veja gura 1.3. E importante na fase de planejamento da pesquisa, escolher


adequadamente o delineamento, pois, caso contrrio, pode-se ter muita diculdade na anlise
a
a
estat
stica e, at mesmo, invalidar os resultados do experimento.
e
Neste experimento, os tratamentos foram atribu
dos `s unidades experimentais da seguinte
a
forma. Primeiramente foram formados cinco blocos, onde cada bloco constitu de 4
e
do

16

unidades experimentais (pois temos 4 tratamentos); como cada unidade experimental tem
8 plantas, ento, um bloco tem 32 plantas. Os blocos esto controlando as diferenas de
a
a
c
dimetros entre as plantas, assim, o bloco I formado por 32 plantas com dimetros entre
a
e
a
10 e 13 cm (exclusive); o bloco II formado por 32 plantas com dimetros entre 13 e 16 cm
e
a
(exclusive); o bloco III formado por 32 plantas com dimetros entre 16 e 19 cm (exclusive);
e
a
o bloco IV formado por 32 plantas com dimetros entre 19 e 22 cm (exclusive) e o bloco V
e
a
formado por 32 plantas com dimetros superiores a 22 cm. Portanto, cada tratamento ser
e
a
a
repetido 5 vezes, uma em cada bloco. Dentro de cada bloco houve o sorteio (aleatorizaao)
c
de qual unidade receber o tratamento 1, qual receber o tratamento 2, e assim por diante.
a
a
Este delineamento experimental denominado de blocos completos ao acaso.
e
9) Coleta dos dados. Aqui so feitas as medidas das variveis estabelecidas pelo pesquisador.
a
a
As variveis, logicamente, devem avaliar diretamente os efeitos dos tratamentos de acordo
a
com objetivos do experimento. Tambm podem ser coletadas variveis complementares, que
e
a
sero uteis para explicar o comportamento dos tratamentos.
a
10) Anlise estat
a
stica dos resultados. O objetivo da anlise estat
a
stica vericar as
e
hipteses formuladas no in da pesquisa cient
o
cio
ca. Por exemplo, comparar as mdias de
e
produao de massa foliar obtidas com cada uma das alturas de decepa, ou, estabelecer uma
c
relao funcional entre a produo de massa foliar e a altura de decepa das plantas.
ca
ca
Existem excelentes softwares estat
sticos para realizar as anlises. A anlise de res
a
a
duos
uma importante tcnica para vericar, por exemplo, se o modelo adequado.
e
e
e
11) Relatrio nal (publicao). Apresentar tabelas e grcos de forma a mostrar os
o
ca
a
efeitos esperados, comparar os resultados obtidos com os objetivos do experimento para
vericar se as questes propostas foram respondidas. Apresentar medidas de preciso das
o
a
estimativas. Se poss
vel, fazer referncias a outras pesquisas similares e uma avaliaao de
e
c
todas as etapas com sugestes para poss
o
veis alteraoes em pesquisas futuras.
c
A experimentaao uma importante fase do processo de aprendizagem, onde ns formuc e
o
lamos hipteses, realizamos o experimento para pesquisar sobre essas hipteses e, de acordo
o
o
com os resultados, formulamos novas hipteses, e assim sucessivamente. Isto sugere que a
o
experimentao iterativa.
ca e
Projeto 2 - Anlise de Alguns Aspectos da Dinmica de Populaes de Duas
a
a
co
Amostras de Biomphalaria tenagophila Submetidas a Diferentes Concentraoes de
c
Matria Orgnica no Meio.
e
a
1) Identicao do problema. A importncia do genro Biomphalaria no contexto da
ca
a
e
sade pblica brasileira deve-se ao fato de que dentre as 19 espcies que constituem este
u
u
e

17

genro, dez delas so encontradas no Brasil, sendo que trs so hospedeiras intermedirias
e
a
e a
a
do Schistosoma mansoni, causador da esquistossomose mansoni, um dos mais importantes
problemas de sade pblica em muitos pa tropicais e subtropicais. Sua ocorrncia acenu
u
ses
e
e
tuada entre populaes carentes de alguns pa subdesenvolvidos. Segundo a Organizaao
co
ses
c
Mundial da Sade, so estimados 200 milhes de pessoas como tendo sido contaminadas
u
a
o
pelo S. mansoni, enquanto, outros 500 a 600 milhes correm o risco de contra
o
-la. As trs
e
espcies hospedeiras so: B. straminea; B. glabrata e B. tenagophila.
e
a
No Brasil, estima-se em 5,5 milhes de pessoas infectadas, isto parece ser uma subestio
mativa, pois o Instituto de Medicina Tropical (IMT), da Faculdade de Medicina da USP,
estimou em 10 milhes o nmero de pessoas infectadas.
o
u
Em Santa Catarina, o primeiro foco de transmisso ocorreu em So Francisco do Sul,
a
a
atravs da B. tenagophila. Hoje, tem-se registro de B. tenagophila em 26 munic
e
pios do
nordeste do Estado.
Na Ilha de Santa Catarina, pesquisadores obtiveram registros de B. tenagophila, B.
oligoza e Drepanotrema sp, em 8 pontos estratgicos.
e
Em consequncia da alta endemicidade da esquistossomose no pa a distribuiao dos
e
s,
c
planorb
deos vem sofrendo constantes investigaes, sendo que especial atenao tem sido
co
c
dada, ainda, ao controle da expanso das espcies vetoras, apesar que a rea ocupada por
a
e
a
cada uma das espcies vetoras do S. mansoni, est aumentando.
e
a
O genro Biomphalaria apresenta uma grande tolerncia a diferentes condies ecolgicas,
e
a
co
o
isto permitiu sua ampla distribuiao geogrca. Muitos autores analisaram o comportamento
c
a
reprodutivo e crescimento em funo de uma srie de variveis, sendo que os efeitos de
ca
e
a
temperatura, tipo ou ausncia de alimentaao, inuncia do fotoperiodismo e densidade
e
c
e
populacional so alguns que receberam maior ateno.
a
ca
As condies do meio exigidas pelas biomfalrias para colonizar um ambiente, so:
co
a
a
riquezas de microora e matria orgnica, pouca turbidez, boa insolao, pH em torno de
e
a
ca
6 a 8, teor de NaCl abaixo de 3 por 1000 e temperatura mdia entre 20 C e 25 C. Cabe
e
aqui ressaltar, todavia, que as bionfalrias suportam modicaes considerveis nas caraca
co
a
ter
sticas f
sicas, qu
micas e biolgicas de seus ambientes, podendo, inclusive, utizar-se da
o
estivaao como uma estratgia para suportar a adversidade do meio.
c
e
Sabendo-se que os representantes do gnero Biomphalaria so constantementes encone
a
trados em grande variedades de colees de gua doce, paradas ou pouco correntes, natural
co
a
ou articialmente alagadas, que um unico espcime capaz de produzir, por autofecundao,

e
e
ca
uma populao de numerosos indiv
ca
duos e que B. tenagophila est em provvel extenso em
a
a
a
Santa Catarina, torna-se importante estudar os fatores biticos e abiticos que interferem
o
o

18

na biologia, distribuiao e adaptaao aos ambientes por eles explorados. Assim sendo, o
c
c
objetivo do presente trabalho avaliar crescimento, desempenho reprodutivo, sobrevivncia
e
e
e fecundidade de duas amostras de B. tenagophila, considerando-se diferentes condies do
co
meio.
2) Objetivo geral. Determinar o efeito de diferentes condioes do meio (poluiao) sobre a
c
c
biologia de B. tenagophila.
3) Objetivos espec
cos:
Vericar (estudar) o crescimento de B. tenagophila.
Estudar o desempenho reprodutivo da espcie.
e
4) Hiptese cientca. Num meio com poluio, o desenvolvimento biolgico da espcie
o

ca
o
e
prejudicado.
e
5) Escolha do fator que deve ser inclu no estudo e seus correspondentes n
do
veis. Nesse
projeto, o fator em estudo poluio, tambm chamado de varivel independente, os difere
ca
e
a
entes n
veis de poluiao so os tratamentos. Nesse trabalho foram utilizados dois tratamentos,
c a
quais sejam: 1) Sem poluiao (com troca de gua) e 2) com poluiao (completa a gua).
c
a
c
a
6) Escolha da unidade experimental. Nesse experimento a unidade experimental um
e
caramujo. Cada unidade experimental formada por um copo de vidro (mini-aqurio), com
e
a
60 ml de gua deionizada, contendo um caramujo.
a
7) Escolha das variveis que sero medidas nas unidades experimentais. Algumas variveis
a
a
a
avaliadas neste experimento foram: dimetro em trs diferentes tempos (nascimento, na 1a
a
e
desova e no nal do experimento); idade na 1a desova; nmero de ovos desenvolvidos; nmero
u
u
de ovos viveis; nmero de ovos inviveis; nmero total de ovos.
a
u
a
u
8) Determinao das regras e procedimentos pelos quais os tratamentos so atribu
ca
a
dos `s
a
unidades experimentais. Nesse experimento a amostra total foi composta por 51 caramujos
(i.. 51 unidades experimentais). Atravs de um processo aleatrio foram escolhidos 23
e
e
o
caramujos para receberem o tratamento T e 28 caramujos para receberem o tratamento C.
A regra de estabelecer os tratamentos `s unidades experimentais foi completamente ao acaso.
a
9) Coleta de dados; Anlise estatstica dos dados e Relatrio nal. Idem ao que foi
a

o
comentado para o projeto 1.

1.3

Aspectos do Planejamento Estat


stico de um Experimento

19

9
8

Textura

7
6
5
4

Dose 1
Dose 2

Dose 3
Dose 4

2
0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

5,0

5,5

Dose 5

Doses de leite de vaca

Figura 1.4: Efeito da interao entre doses de leite de vaca e doses de coagulante
ca
1.3.1

Experimentos com um Fator e mais de um Fator

Nos projetos 1 e 2, vimos dois experimentos com apenas 1 fator. No projeto 1 o fator
a decepa e, no projeto 2 a poluio. Em muitos caso, temos experimentos com mais de
e
e
ca
um fator. Considere um experimento com cinco (5) doses de leite de vaca e cinco (5) doses
de coagulante. Aqui temos 2 fatores em estudo, doses de leite e coagulante, com 5 n
veis

cada um, caracterizando um . E interessante salientar que a escolha dos fatores e seus n
veis
incumbncia do pesquisador. Nos experimentos fatoriais poss estudar-se a interao
e
e
e
vel
ca
que existe entre os fatores, isto , como o comportamento dos n
e
e
veis de um fator dentro
dos n
veis do outro fator. A gura 1.4 ilustra o efeito da interaao entre os fatores leite de
c
vaca e coagulante.
Os fatores podem ser quantitativos ou qualitativos. A temperatura de um forno, os n
veis
de nitrognio e de fsforo so exemplos de fatores quantitativos, enquanto que, fabricantes
e
o
a
de drogas, diferentes locais e meios de cultura so fatores qualitativos.
a

E importante para o planejamento e a anlise estat


a
stica distinguirmos as seguintes
situaes:
co
a) um pesquisador deseja conduzir um experimento para vericar o efeito do starter
Lactobacillus plantarum em salame tipo italiano sobre o tempo de maturaao dos mesmos.
c

20

Para essa nalidade utilizou 3 concentraoes do starter, quais sejam: 2, 5 10 ; 5, 0 105


c
5
e 10, 0 10 clulas viveis/grama de massa. Ele deseja saber se h diferenas entre as 3
e
a
a
c
concentraes. Portanto, nesse experimento, temos um fator (starter) de efeito xo, isto , as
co
e
concentraes foram denidas pelo pesquisador, ou seja, no foi feita uma escolha aleatria
co
a
o
dos n
veis, assim, as concluses desse experimento se referem apenas as concentraoes utio
c
lizadas no experimento.
b) um tecnologista quer comparar a qualidade de po fabricado por diferentes padarias
a
da cidade de Florianpolis. Neste caso, as padarias so os tratamentos. Ele deseja que seus
o
a
resultados sejam vlidos para todas as padarias de Florianpolis, ento, em lugar de escolher
a
o
a
intencionalmente algumas padarias que pretende compar-las, dever sorte-las a partir de
a
a
a
algum procedimento que garanta a aleatoriedade, como por exemplo, a tabela de nmero
u
aleatrios, dada no apndice 7, assim, o pesquisador estar fazendo um experimento onde
o
e
a
o fator dito aleatrio. Para saber se um efeito aleatrio, verique se os tratamentos em
e
o
e
o
comparao representam uma amostra aleatria de uma populaao. Se os tratamentos no
ca
o
c
a
so uma amostra aleatria, o efeito xo.
a
o
e
Sobre as concluses pode-se dizer: 1) os fatores so xos: neste caso, os resultados
o
a
(concluses) so vlidos apenas para os n
o
a a
veis do fator que esto presentes no experimento
a
e 2) os fatores so aleatrios: as concluses so vlidas para a populaao de n
a
o
o
a a
c
veis.
Os tratamentos so selecionados pelo pesquisador e deve ser feita de acordo com os
a
objetivos do trabalho. Um bom conhecimento do material experimental e alguma idia
e
sobre os efeitos dos tratamentos so muito uteis para dar mais objetividade aos trabalhos.
a

As concluses de um experimento dependem de como os dados foram coletados. No


o
projeto 1 estudou-se 4 alturas de decepas e procurou-se controlar a idade das plantas por
meio da blocagem, isto , foram agrupadas as rvores com idades prximas). Caso no
e
a
o
a
tivesse sido feito esse controle, o pesquisador no saberia dizer se as diferenas mdias da
a
c
e
varivel resposta seriam devido `s alturas de decepas ou da idade das rvores. Esse fato
a
a
a
e
conhecido como confundimento de fatores e a varivel idade conhecida como varivel de
a
e
a
perturbao (em ingls: nuisance variable).
ca
e
1.3.2

Tratamento Controle

E necessrio quando no se conhece a ecincia dos tratamentos em estudo, ou quando


a
a
e
a ecincia dos tratamentos conhecida mas no consistente em todas as condioes. Nem
e
e
a e
c
todos os experimentos necessitam do tratamento controle. Exemplo: alta presso em tema

21

peratura ambiente (25 C) e o experimento foi feito a 2 C (frango cr). O que ? O tratau
e
mento controle consiste em se realizar todos os procedimentos que so feitos nas unidades
a
experimentais usadas para os outros tratamentos, exceto a aplicaao do efeito em estudo.
c
Exemplo: num estudo sobre aditivos em alimentos, um tratamento pode consistir de uma
porao de um vegetal contendo um aditivo particular que servido a um degustador. O
c
e
tratamento controle consistiria de uma porao do mesmo vegetal servido ao degustador, na
c

mesma situao experimental, exceto que no seria utilizado o aditivo no alimento. E funca
a
damental que o tratamento controle seja conduzido nas mesmas condioes experimentais dos
c
outros tratamentos.
1.3.3

Variveis e Covariveis
a
a

O que pode constituir problema, as vezes, a forma como a varivel medida, pois disso
e
a e
depende a preciso das observaoes e o tipo de anlise a ser executada. Exemplo: se os
a
c
a
valores da varivel sabor de um alimento dada numa escala de 1 a 10, pode-se aumentar a
a
e
preciso e facilitar a anlise, utilizando-se como observao, a mdia de 3 valores da mesma
a
a
ca
e
unidade experimental.
Quando temos uma varivel que inuencia as variveis dependentes, chama-se a mesma
a
a
de covarivel. Exemplos: 1) se o tempo necessrio para executar um experimento 30 dias,
a
a
e
e se a temperatura do ambiente tem inuncia na varivel dependente (resposta), ento, a
e
a
a
temperatura deve ser mantida constante. Se isso no for poss
a
vel, ento, deve-se medir a
a
temperatura para cada unidade experimental; 2) num experimento para comparar 4 meios
de cultura em frangos congelados onde a varivel dependente a populaao de Staphilococus
a
e
c
aureus, cada frango apresenta uma populaao inicial de Staphilococus diferente, neste caso,
c
a populaao inicial de Staphilococus a covarivel; 3) Num experimento para estudar a
c
e
a
produao de 10 variedades de soja, o nmero de sementes que germinam nos canteiros
c
u
e
a covarivel. Estas variveis entram na anlise como covariveis e, observe que elas no
a
a
a
a
a
podem ser controladas pelo pesquisador. Este fato que as diferencia de uma varivel de
e
a
perturbaao (nuisance variable).
c
1.3.4

Repetio e Casualizao
ca
ca

Para que a metodologia estat


stica possa ser aplicada aos resultados de um experimento,
e
necessrio obedecer a dois princ
a
pios bsicos da experimentaao, o da repetio e da aleatora
c
ca

22

izao dos tratamentos. Um terceiro princ


ca
pio, o controle local, pode ou no ocorrer num
a
experimento.
A Repetio consiste, como o prprio nome indica, em repetir o mesmo tratamento vrias
ca
o
a
vezes. O uso de repeties dos tratamentos necessrio para podermos calcular a variabilico
e
a
dade e, com isso, executar os testes estat
sticos e, tambm, para fazer estimaao intervalar
e
c
dos efeitos dos tratamentos. De um modo geral, quanto maior o nmero de repetioes, mais
u
c
precisas vo ser as nossas estimativas. Na prtica, o nmero de repetioes vai depender
a
a
u
c
muito dos recursos e material experimental dispon
vel. O clculo do tamanho da amostra
a
e
um dos principais itens do planejamento de um experimento e, a sua determinaao, no
c
a e
trivial, e exige que se tenha algum conhecimento sobre a variabilidade dos dados, a preciso
a
e conana desejadas nos resultados. Ento, as principais nalidades do uso de repeties
c
a
co
so: 1) dar uma estimativa do erro experimental; 2) aumentar a preciso de um experimento,
a
a
reduzindo o desvio padro das mdias dos tratamentos e 3) estimaao e testes de hipteses.
a
e
c
o
O que caracteriza uma repetiao que ela deve gerar um resultado independente.
c e
A aleatorizao ou casualizao consiste no sorteio dos tratamentos `s unidades experca
ca
a
imentais por um processo bem denido, xo; necessria para termos certeza de que um
e
a
tratamento no seja beneciado ou prejudicado por alguma causa conhecida ou desconhecida,
a
tais como: intensidade de luz, constituio gentica, temperatura, umidade, ventilao, etc.
ca
e
ca
tambm fundamental para atender a suposiao de que os dados so oriundos de uma
E
e
c
a
amostra aleatria. Os mtodos estat
o
e
sticos requerem que as observaoes (ou os erros), sec
jam variveis aleatrias independentemente distribu
a
o
das. A casualizao faz com que esta
ca
suposiao seja vlida. O princ
c
a
pio da casualizao uma das principais contribuioes dos
ca e
c
estat
sticos ` cincia experimental, principalmente Ronald A. Fisher (1890 - 1962). S a
a e
o
casualizao garante que unidades com caracter
ca
sticas diferentes tenham igual probabilidade
de serem designadas para os diferentes tratamentos. Com a casualizaao, obtemos estimatic
vas no tendenciosas das mdias dos tratamentos e das diferenas entre as mdias; obtemos
a
e
c
e
uma estimativa no tendenciosa do erro experimental. Certas restrioes podem ser inclu
a
c
das
na casualizao (controle local), para levar em considerao alguma(s) fonte(s) de variaao
ca
ca
c
do material experimental. O delineamento em blocos completos ao acaso apresenta uma
restrio.
ca

1.4

Exerc
cios Propostos

1 - Planeje um experimento para comparar a produao de cinco variedades de milho.


c

23

2 - Planeje um experimento para testar o efeito da adubao nitrogenada (5 n


ca
veis), sobre
a produao de milho.
c
3 - Planeje um experimento na sua rea de pesquisa.
a
Para a resoluao desses exerc
c
cios, entende-se que um experimento est planejado quando
a
esto denidas:
a
1. enunciado do problema com formulaao do(s) objetivo(s) e da(s) hiptese(s);
c
o
3. escolha do(s) fator(es) que deve(m) ser inclu
do(s) no estudo;
3. as variveis respostas ou dependentes em anlise e a forma como sero medidas;
a
a
a
4. a unidade experimental;
5. os tratamentos em comparaao e decidir o nmero de unidades experimentais a serem
c
u
associadas a cada tratamento. Faa uma descriao dos mesmos;
c
c
6. a forma (maneira) como os tratamentos sero designados `s unidades experimentais;
a
a
7. bibliograa.

24

2
2.1
2.1.1

Anlise Exploratria de Dados


a
o
Organizao, Resumo e Representao de Dados
ca
ca
Introduo
ca

Como j comentamos anteriormente, a parte da Estat


a
stica que trata da organizao,
ca
apresentao, resumo e descrio dos dados conhecida como Anlise Exploratria de Dados.
ca
ca
e
a
o
Esta parte, geralmente limitava-se a construo de alguns tipos de grcos (linhas, colunas
ca
a
e setores) e ao clculo de algumas medidas de tendncia central e de variabilidade, como,
a
e
por exemplo, a mdia e a varincia. Atualmente, foram desenvolvidas muitas outras tcnicas
e
a
e
(Tukey, 1971), principalmente visuais, atravs das quais procura-se estudar a regularidade
e
presente nos dados. Esta anlise permite que o pesquisador adquire um bom conhecimento
a
e senso cr
tico sobre os seus dados observados.
Neste cap
tulo, atravs da Anlise Exploratria de Dados, procuraremos tirar o mximo
e
a
o
a
de informaoes de um conjunto de dados, ou seja, fazer todas as interpretaes necessrias
c
co
a
para responder aos objetivos de uma pesquisa.
Quando estamos trabalhando com um conjunto de dados, bastante provvel que o
e
a
mesmo apresente algum tipo de regularidade, ou seja, um padro de variao. Devido a esta
a
ca
regularidade presente nos dados poss ajustar-se um modelo. Este um dos principais
e
vel
e
objetivos da anlise exploratria de dados, isto , procurar estabelecer um modelo para um
a
o
e
conjunto de dados, o qual possa ser utilizado na anlise estat
a
stica inferencial. Exemplo do
que seja um modelo no aspecto geral: vamos vericar o tipo de relacionamento entre a taxa
de crescimento de uma pastagem cultivada no Planalto Catarinense e a temperatura do solo
a 10 cm de profundidade no per
odo de junho a novembro. A gura 2.1 mostra a distribuiao
c
dos pontos entre essas duas variveis. De modo visual, podemos vericar que existe uma
a
relao linear entre a temperatura do solo e a taxa de crescimento, desse modo, podemos
ca
traar uma reta a olhmetro, o mais prximo poss de todos os pontos, que ser o nosso
c
o
o
vel
a
modelo. Evidentemente que os pontos no caem sobre a reta (pode ocorrer para alguns). A
a
diferena entre os dados e o modelo chamada de erro. Explicao sobre o termo do erro
c
e
ca
foi dado na seo 1.1.2.
ca
Chama-se de modelo a parte da variabilidade dos dados que explicada pelo mesmo e
e
erro a parte da variabilidade dos dados no explicada pelo modelo. A gura 2.2 ilustra os
a
Dados, a parte do modelo e a parte do erro para uma observao. Os dois componentes
ca
so igualmente importantes. O estudo denominado de Anlise de Res
a
a
duos, nos fornece

25

Taxa de crescimento (kg/hadia)

38
34
30
26
22
18
14
10

10

12

14

16

18

20

22

Temperatura do solo - graus centgrados

Figura 2.1: Relaao entre temperatura do solo a 10 cm de profundidade e taxa de crescimento


c
de uma pastagem de inverno no Planalto Catarinense
informao se a parte do modelo adequada ou no para representar os dados, dentre outros
ca
e
a
aspectos importantes da anlise de dados.
a
2.1.2

Classicao das Variveis Selecionadas para o Estudo


ca
a

Um pesquisador quando est realizando um determinado experimento ou levantamento,


a
necessita avaliar certas caracter
sticas nas plantas, nos animais, instrumentos, pessoas, etc.
Por exemplo, registrar o dimetro altura de peito (DAP) de Avicenias do manguezal do
a
Itacorubi, a produo de milho por hectare, a resistncia ao ataque de pragas do feijo,
ca
e
a
fazer a contagem do nmero de vagens por planta, nmero de gros por vagem, etc. Estas
u
u
a
caracter
sticas chamam-se variveis, porque originam valores que tendem a variar quando se
a
fazem medidas sucessivas, por exemplo, vamos supor que plantemos quatro reas de 30m2 de
a
um h
brido de milho, com certeza vamos obter quatro valores diferentes de produao nessas
c
reas (unidades) experimentais.
a
Um pesquisador deve aprender a identicar quatro tipos de variveis, que sero descritas
a
a
atravs de um exemplo.
e
Exemplo. Um pesquisador instalou um experimento para avaliao do comportamento
ca
de h
bridos de milho, para isso, tomou algumas medidas agronmcias que esto apresentadas
o
a
na tabela 2.1
Muitas variveis, tais como, tipo de gro e resistncia ` ferrugem, apresentam como
a
a
e
a
resultado uma qualidade ou atributo, e outras variveis, tais como, rendimento mdio, ciclo
a
e

26

Tabela 2.1: Resultados de um experimento de competiao de h


c
bridos de milho para a regio
a
preferencial I com altitudes abaixo de 800m - safra:1987/1988
H
bridos

Ciclo

Altura planta

Altura espiga

(kg/ha)

(dias)

(cm)

(cm)

6388

65

242

103

dentado

6166

65

258

134

semi-dentado

6047

65

240

104

semi-dentado

5889

66

243

108

semi-dentado

5823

69

257

128

dentado

ms

5513

68

241

108

semi-dentado

5202

64

235

108

dentado

5172

68

240

103

dentado

5166

69

253

123

dentado

ms

10

4975

70

250

117

semi-dentado

ms

11

4778

70

242

114

dentado

mr

12

4680

66

245

111

semi-duro

ms

13

4660

69

239

110

semi-duro

mr

14

5403

73

264

138

dentado

ms

15

5117

76

282

149

dentado

mr

16

5063

72

274

151

dentado

17

4993

71

279

134

semi-dentado

18

4980

72

274

140

dentado

ms

19

4770

73

244

140

dentado

20

4685

71

265

139

semi-duro

mr

21

4614

73

248

110

semi-dentado

22

4552

73

265

128

semi-dentado

23

3973

74

261

124

semi-dentado

mr

24

4550

71

259

129

semi-duro

25

5056

64

252

104

semi-duro

mr

26

4500

70

271

109

dentado

ms

27

4760

68

243

137

semi-duro

28

5110

66

252

141

semi-dentado

ms

29

4960

70

262

120

dentado

ms

30

4769

73

260

118

dentado

31

4849

74

250

119

semi-dentado

32
1

Rendimento mdio
e

Tipo gro
a

5230

71

255

138

semi-duro

(escala)

r=resistente; mr=moderadamente resistente; ms=m. suscept


vel; s=suscept
vel
27

Ferrugem

E
D

Figura 2.2: Os componentes de um modelo


da cultura, apresentam como resultado medidas ou contagens. As variveis do primeiro
a
tipo so chamadas de variveis qualitativas e as do segundo tipo so chamadas de variveis
a
a
a
a
quantitativas.
Dentre as variveis qualitativas podemos distinguir dois tipos:
a
a
a
veis
variveis qualitativas ordinais: para estas variveis existe uma ordem nos poss
resultados da mesma. No exemplo, temos a resistncia ` ferrugem, dada numa escala.
e
a
o
o
Outro exemplo podem ser, 1 grau , 2 grau, superior.
variveis qualitativas nominais: para estas variveis no existe uma ordenao nos
a
a
a
ca
resultados. No exemplo, temos o tipo de gro como varivel desse tipo. Outros exa
a
emplos, podem ser: germina/no germina, os cursos da UFSC (Agronomia, Cincias
a
e
Biolgicas, etc.), a cr da or de soja.
o
o
Dentre as variveis quantitativas tambm podemos distinguir dois tipos:
a
e
variveis quantitativas discretas: estas variveis s podem assumir certos valores, em
a
a
o

geral nmeros inteiros e normalmente so resultantes de contagens. E poss formar


u
a
vel
uma lista (nita ou innita) dos valores. No exemplo, a varivel ciclo da cultura
a
discreta. Outros exemplos, podem ser: nmero de dias da emergncia ` orao,
e
u
e
a
ca
nmero de vagens por planta, nmero de gros por vagem.
u
u
a
variveis quantitativas contnuas: estas variveis assumem todos os valores poss
a

a
veis
dentro de um determinado intervalo. Esta variveis, dependendo da preciso utia
a
lizada na mediao, so capazes de diferenciar animais, plantas para valores muito pec a

28

quenos. So variveis cujos resultados geralmente so fracionrios. No exemplo, temos


a
a
a
a
a varivel rendimento mdio de gros de milho, altura da planta, altura de espiga.
a
e
a
A distino entre variveis cont
ca
a
nuas e discretas muitas vezes articial, pois depende da
e
aproximao (preciso) utilizada. Por exemplo, idade uma varivel de medida de tempo,
ca
a
e
a
portanto, por deniao, uma varivel aleatria cont
c e
a
o
nua, porm, em muitos casos ela
e
e
medida em anos completos (discretizao da varivel), o que a torna uma varivel discreta.
ca
a
a
Sero tratadas como variveis cont
a
a
nuas todas as que, pelo menos em teoria, possam assumir
qualquer valor dentro de um intervalo.
Para cada tipo de varivel existem tcnicas mais apropriadas para resumir as informaoes;
a
e
c
entretanto, vamos vericar que tcnicas usadas num caso podem ser adaptadas para outros,
e
pois poss transformar variveis quantitativas em qualitativas e vice-versa. Por exemplo,
e
vel
a
sexo: 1 masculino e 0 feminino; rendimento: colocar em categorias, por exemplo, baixa,
mdia e alta produao. O estudo de probablidades tambm apresenta os seus modelos de
e
c
e
acordo com cada tipo de varivel. Estes modelos sero estudados nas seoes 3, 4 e 5.
a
a
c
2.1.3

Distribuies de Freqncias. Representao em Tabelas e Grcos


co
ue
ca
a

Feita a coleta dos dados, atravs de censos, de levantamentos por amostragem (Survey,
e
em ingls), ou de experimentos, os mesmos apresentam-se, geralmente, de maneira desore
ganizada, ainda sem valor informativo sobre o fenmeno em estudo, portanto, os mesmos
o
devem ser organizados e resumidos, para possibilitarem a obteno de informaoes uteis para
ca
c
o trabalho de pesquisa.
O estudo das distribuies de freqncias nos permite conhecer a forma, a maneira como
co
ue
os valores de uma varivel se comporta, isto , poss ter uma boa idia global dos valores,
a
e e
vel
e
ou seja, da distribuiao. Uma distribuiao de freqncias pode ser representada em forma
c
c
ue
de tabela ou grco.
a
2.1.3.1 Distribuies de Freqncias de Variveis Qualitativas. Representao
co
ue
a
ca
em Tabelas
Feita a coleta dos dados relativa `s variveis denidas no in
a
a
cio da pesquisa, o investigador tem interesse, agora, em conhecer o comportamento dessas variveis considerando
a
os elementos pesquisados, por exemplo, conhecer a distribuiao da varivel resistncia `
c
a
e
a
ferrugem pesquisada em 32 h
bridos de milho, na regio de Chapec, SC.
a
o

29

Este estudo pode ser feito atravs da construo de distribuioes de freqncias, chamandoe
ca
c
ue
se de frequncia, por exemplo, o nmero de h
e
u
bridos para a categoria S, MS, MR, e R,
respectivamente. Chama-se, portanto, distribuio de freqncias, a correspondncia entre
ca
ue
e
categorias ou valores poss
veis de uma varivel e as respectivas freqncias. Inicialmente
a
ue
vamos representar as distribuioes de freqncias em tabelas.
c
ue
Alguns aspectos importantes devem ser levados em considerao na construao de uma
ca
c
tabela, quais sejam:
tulo completo; as trs questes que devem ser respondidas
e
o
1. Toda tabela deve conter um t
num t
tulo so: o qu se est estudando? onde foi feito o estudo? e quando?. O t
a
e
a
tulo
deve ser colocado na parte superior da tabela.
2. Se os dados no so prprios deve-se indicar a fonte dos mesmos. Ela vai na parte
a a
o
inferior da tabela.
3. As notas e chamadas so utilizadas para fazer esclarecimentos de ordem geral e esa
pec
cas, respectivamente. Ambas so numeradas, geralmente em algarismos arbicos,
a
a
pode-se, ainda, utilizar letras minsculas ou s
u
mbolos, como por exemplo, asterisco.
Tambm so colocadas na parte inferior da tabela.
e
a
4. Os totais e subtotais devem ser bem destacados.
e
u
5. De preferncia usar o mesmo nmero de casas decimais para os algarismos.
6. No devem ser fechadas lateralmente.
a
7. Quando algum valor da tabela nulo pela prpria natureza do fenmeno em estudo,
e
o
o
deve-se utilizar o h
fen (-) para substitu
-lo. Quando no se tem informao sobre
a
ca
algum valor deve-se colocar trs pontos (...). Se existe dvida sobre a exatido da
e
u
a
informaao deve-se usar ponto de interrogao (?). Se algum valor for omitido para
c
ca
evitar individualizao, deve-se usar a letra x. O s
ca
mbolo de pargrafo () utilizado
a
e
para reticar uma informao publicada anteriormente.
ca
Exemplo. A tabela 2.1 apresenta os dados sobre resistncia ` ferrugem de 32 h
e
a
bridos
de milho (coluna 7). A distribuio de freqncias para essa varivel apresentada na tabela
ca
ue
a e
2.2, cuja construao passamos a discutir.
c
Na tabela 2.2, a primeira coluna mostra todas as categorias da varivel resistncia `
a
e
a
ferrugem. Na segunda coluna temos as freqncias absolutas, resultantes da contagem de
ue

30

Tabela 2.2: Distribuiao de freqncias da resistncia ` ferrugem de 32 h


c
ue
e
a
bridos de milho
recomendados para a regio preferencial I com altitudes abaixo de 800m, 1987/88
a
Resistncia ` Freqncia absoluta Freqncia relativa Porcentagem % acumulada
e
a
ue
ue
ferrugem
de satisfeito
R
MR
MS
S

10
6
9
7

0,313
0,188
0,281
0,219

31,250
18,750
28,125
21,875

TOTAL

32

1,000

31,250
50,000
-

100,000

quantas observaes se identicam com cada categoria. A notao para as freqncias abco
ca
ue
solutas ni , assim temos, n1 = 10, n2 = 6, n3 = 9, n4 = 7. A terceira coluna apresenta
e
uma medida relativa de cada freqncia, obtida da diviso de cada freqncia absoluta pelo
ue
a
ue
nmero total de observaoes, resultando nas propores ou freqncias relativas (fi = ni /n).
u
c
co
ue
Por exemplo, a freqncia relativa da categoria R calculada por: f1 = 10 32 = 0, 3125.
ue
e
Multiplicando por 100 as freqncias relativas, temos as percentagens de ocorrncias de cada
ue
e
resultado observado (coluna 4). A ultima coluna da tabela apresenta a porcentagem acumu
lada, dada pela porcentagem da respectiva coluna adicionada da(s) anterior(es) ` ela. Por
a
exemplo, os 50% da categoria MR o resultado da adio de 18,75% e 31,25%. Observa-se
e
ca
na tabela 2.2 que temos praticamente 50% de h
bridos resistentes e 50% de suscept
veis.
Deixamos as categorias MS e S com traos pois no tem sentido prtico o clculo das porc
a
a
a
centagens acumuladas neste caso, ou seja, no tem sentido armarmos que 100% dos h
a
bridos
so suscept
a
veis.
Essas medidas relativas so particularmente importantes na comparaao entre distribuioes
a
c
c
de freqncias, como veremos a seguir em distribuies bidimensionais, isto , quando temos
ue
co
e
duas variveis em estudo. Quando temos mais do que duas variveis o racioc o mesmo.
a
a
nio e

Tabelas Bidimensionais
A tabela 2.3 mostra trs distribuioes de freqncias, uma para cada regio preferencial.
e
c
ue
a
Dizemos que esta tabela bidimensional, pois apresenta a distribuiao de duas variveis,
e
c
a
quais sejam: 1) resistncia ` ferrugem e 2) regio.
e
a
a
Como os totais marginais da tabela 2.3 so diferentes, e isto diculta a interpretao,
a
ca
interessante trabalhar com porcentagens, tornando, assim, os resultados comparveis. As
e
a

31

Tabela 2.3: Distribuiao de freqncias da resistncia ` ferrugem de h


c
ue
e
a
bridos de milho,
segundo as regies preferenciais
o
Resistncia `
e
a
Regies
o
TOTAL
ferrugem
Chapec Campos Novos Iara
o
c
R
MR
MS
S

10
6
9
7

3
12
3
1

12
2
3
2

25
20
15
10

TOTAL

32

19

19

70

Tabela 2.4: Distribuiao das porcentagens da resistncia ` ferrugem de h


c
e
a
bridos de milho,
para as regies preferenciais (Pers colunas)
o
Resistncia `
e
a
Regies
o
TOTAL
ferrugem
Chapec Campos Novos Iara
o
c
R
MR
MS
S

31,2
18,8
28,1
21,9

15,8
63,2
15,8
5,2

63,2
10,5
15,8
10,5

35,8
28,6
21,4
14,3

TOTAL

100,0

100,0

100,0

100,0

porcentagens podem ser calculadas de trs formas: 1) xando-se os totais de linhas em 100%;
e
2) xando-se os totais de colunas em 100% e 3) xando-se o total geral em 100%. Isto vai
de acordo com o objetivo da pesquisa, uma delas ser a mais adequada.
a
Na tabela 2.4 xamos os totais de colunas em 100%. Este tipo de distribuiao serve para
c
comparar a distribuiao das regies conforme a resistncia ` ferrugem, ou seja, para uma
c
o
e
a
dada regio podemos analisar a varivel resistncia ` ferrugem. Com respeito a essa tabela,
a
a
e
a
observamos que em Campos Novos a porcentagem de h
bridos moderadamente resistentes
e
bem superior `s outras duas regies, 63,2% em Campos Novos contra 18,8% em Chapec e
a
o
o
10,5% em Iara. Por outro lado, vemos que Iara apresenta a maior porcentagem de h
c
c
bridos
resistentes ` ferrugem (63,2%), bem superior ` Chapec (31,2%) e Campos Novos (15,8%).
a
a
o
Percebe-se que em Chapec a distribuiao mais homognea nas categorias da resistncia.
o
c e
e
e

32

Tabela 2.5: Distribuiao das porcentagens da resistncia ` ferrugem de h


c
e
a
bridos de milho
(Pers linhas)
Resistncia `
e
a
Regies
o
TOTAL
ferrugem
Chapec Campos Novos Iara
o
c
R
MR
MS
S

40,0
30,0
60,0
70,0

12,0
60,0
20,0
10,0

48,0
10,0
20,0
20,0

100,0
100,0
100,0
100,0

TOTAL

45,7

27,1

27,1

100,0

Tabela 2.6: Distribuiao conjunta das porcentagens em relaao ao total geral


c
c
Resistncia `
e
a
Regies
o
TOTAL
ferrugem
Chapec Campos Novos Iara
o
c
R
MR
MS
S

14,3
8,6
12,9
10,0

4,3
17,1
4,3
1,4

17,1
2,9
4,3
2,8

35,7
28,6
21,4
14,3

TOTAL

45,7

27,1

27,1

100,0

De outra forma, se desejamos saber, por exemplo, para os h


bridos resistentes, qual a
distribuio por regio, devemos xar os totais de linhas (Pers linhas). Os resultados
ca
a
so dados na tabela 2.5. Em Campos Novos observamos uma baix
a
ssima porcentagem de
h
bridos resistentes ` ferrugem (12%); Chapec e Iara apresentam praticamente a mesma
a
o
c
porcentagem, 40% e 48%, respectivamente. Para a categoria MR, Campos Novos se destaca
com 60%. Dos MS e S, Chapec se destaca com 60% e 70%, respectivamente.
o
Na tabela 2.6, expressamos as porcentagens em relao ao total geral. Observamos
ca
que Campos Novos apresenta a maior porcentagem de h
bridos moderadamente resistentes
(17,1%). Iara apresenta a maior porcentagem de h
c
bridos resistentes (17,1%), seguido de
Chapec com 14,3%.
o
Exerc
cio resolvido
1. Um estudo sobre o tempo de vida de duas amostras de Biomphalaria straminea

33

Tabela 2.7: Nmero de indiv


u
duos classicados segundo o tempo de vida, em dias, e condio
ca
a que as populaoes foram submetidas
c
Tempo de vida
Condio
ca
Total
em dias
Agrupadas Isoladas
58 a 179

180 a 300

19

25

301 a 422

36

24

60

Total

45

49

94

(Amostra A: indiv
duos agrupados numa bacia e Amostra I: indiv
duos isolados em copos
de vidro), produziu os resultados da tabela 2.7:
a) Dos indiv
duos que tiveram tempo de vida entre 58 e 179 dias, qual a porcentagem
deles para a condio Agrupados? e Isolados?
ca
b) Qual a porcentagem de indiv
duos para tempo de vida entre 180 e 300 dias e condiao
c
Isolados?
c) Dos indiv
duos submetidos ` condio de Agrupados, qual a porcentagem de indiv
a
ca
duos
teve tempo de vida entre 301 e 422?
Observou-se 9 indiv
duos com tempo de vida entre 58 e 179 dias, portanto, as porcentagens so dadas por: 3/9=33,33% e 6/9=66,67%, respectivamente. A resposta do item b)
a
: 19/94=0,2021=20,21%. Observou-se um total de 45 indiv
e
duos submetidos a condio
ca
de Agrupados, portanto, a porcentagem dos que tem tempo de vida entre 301 e 422 :
e
36/45=0,80=80%.

34

2.1.3.2

Representaes Grcas de Variveis Qualitativas


co
a
a

As representaes grcas de tabelas de distribuies de freqncias permitem uma boa


co
a
co
ue
visualizao da distribuio da varivel. Podemos ter uma rpida e concisa visualizaao da
ca
ca
a
a
c
variabilidade da varivel. A utilizao de grcos para ilustrar os resultados de uma pesquisa
a
ca
a
sempre recomendvel. A construao de grcos depende muito da habilidade art
e
a
c
a
stica de
cada um. No objetivo deste livro entrar em detalhes sobre a construo de grcos e,
a e
ca
a
sim, somente comentar sobre alguns pontos que devem ser respeitados.
1. Os grcos devem ser claros, simples, atrair a ateno e inspirar conana.
a
ca
c
2. Servem para realar certos aspectos importantes de uma pesquisa.
c
3. O tamanho deve ser adequado ` sua publicao em revistas, peridicos, cartazes, livros,
a
ca
o
etc.
tulo completo e deve ser colocado na parte inferior do grco.
a
4. Sempre devem ter um t
5. Devem ser constru
dos numa escala que no desgure os fatos ou as relaes que se
a
co
deseja destacar.
6. Devem ser mais largos do que altos.
7. Deve-se sempre especicar (dar nome) e graduar (criar escala) os eixos.
8. Quando os dados no so prprios deve-se citar a fonte. Esta deve ser colocada na
a a
o
parte inferior do grco.
a
9. Pode-se usar notas para esclarecimentos gerais.
Nesta seao veremos os grcos de barras, colunas, setores e linhas, que so particularc
a
a
mente importantes na representao de dados categorizados. Mostraremos os tipos padres
ca
o
de grcos. Os programas estat
a
sticos como o Statistica, Statgraphics, Minitab, SPSS, SAS
e, tambm, planilhas eletrnicas como o Excel, fornecem uma gama enorme de grcos.
e
o
a
Os grcos de barras tem por nalidade comparar grandezas, por meio de retngulos de
a
a
igual largura, dispostos horizontalmente, e com alturas proporcionais as grandezas. Deve-se

deixar uma distncia entre os retngulos. E usado quando as inscrioes a serem colocadas
a
a
c
sob os retngulos forem muito extensas. Sempre que poss ordenar as barras em ordem
a
vel
decrescente. A gura 2.3 mostra o grco de barras da distribuio da tabela 2.2.
a
ca

35

Resistncia ferrugem

ms

mr

10

11

Nmero de hbridos

Figura 2.3: Distribuiao de freqncias da resistncia ` ferrugem de h


c
ue
e
a
bridos de milho, para
a regio preferencial I, 1987/88
a
Para efetuar uma anlise comparativa de vrias distribuies, podemos construir um
a
a
co
grco de barras mltiplo. A gura 2.4 mostra o grco de barras mltiplo da distribuio
a
u
a
u
ca
do tipo de gro e da resistncia ` ferrugem, cujos dados esto na tabela 2.1. Observe a
a
e
a
a
necessidade de construao de uma legenda.
c
Quando os retngulos so colocados na posiao vertical, temos os grcos de colunas.
a
a
c
a
A nalidade desse tipo de grco a mesma dos grcos de barras, isto , servem para
a
e
a
e
comparar grandezas. Eles devem ser preferidos aos grcos de barras quando as legendas a
a
se inscreverem sob os retngulos forem pequenas. Na gura 2.5 temos o grco de colunas
a
a
para tipo de gro (os dados esto na tabela 2.1, coluna 6).
a
a
O grco de setores consiste em dividir a rea total de um c
a
a
rculo em subreas (setores)
a

proporcionais `s freqncias. E um grco ideal para representar dados de porcentagens. O


a
ue
a
nmero de setores deve ser adequado. Considerando o tipo de gro dentado da tabela 2.1,
u
a
temos as seguintes porcentagens, 42,9%, 35,7%, 14,3% e 7,1%, para as categorias, moderadamente suscept
vel, resistentes, moderadamente resistentes e suscept
vel, respectivamente,
cujo grco dado na gura 2.6.
a
e

36

Resistentes
Semi-duro

Susceptvel

Tipo de gro

M. susceptvel
M. resistente
Semi-dentado

Dentado

Nmero de hbridos

Nmero de observaes

Figura 2.4: Distribuio das freqncias do tipo de gro e resistncia ` ferrugem de h


ca
ue
a
e
a
bridos
de milho, para a regio I, 1987/88
a

15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

Dentado

Semi-dentado

Semi-duro

Tipo de gro

Figura 2.5: Distribuiao das freqncias dos tipos de gro para 32 h


c
ue
a
bridos de milho, para a
regio I, 1987/88
a

37

mod. resistentes, 14,3 %

resistentes, 35,7 %

mod. susceptvel, 42,9 %


susceptvel, 7,1 %

Resistncia ferrugem

Figura 2.6: Distribuiao das proporoes (%) da resistncia ` ferrugem, para o tipo de gro
c
c
e
a
a
dentado, para a regio I, 1987/88
a
Os grcos de linhas so adequados para dados ordenados ao longo do tempo (sries
a
a
e
temporais) e servem para comparar distribuioes. Na gura 2.7, apresentamos o grco de
c
a
linhas da varivel acidez em cido ltico (%) de 4 tratamentos, denominados aqui por PA,
a
a
a
PB, PC e C.
Exerc
cio resolvido
1. Um pesquisador est procurando vericar se existe associao entre hbito de crescia
ca
a
mento (3=indeterminado trepador e 4=indeterminado prostrado) e porte (Tr=trepador,
EB=ereto na base e Pr=prostrado) na cultura do feijo de vagem. Para esse m foi cona
duzido um experimento na UFSC, safra 1991/92, cujos resultados esto na tabela 2.8.
a
a) Construa a distribuiao de frequncia conjunta para as variveis hbito de crescimento e
c
e
a
a
porte. Resposta tabela 2.9.
b) Faa um grco para a distribuio de freqncia conjunta do item a). Resposta gura
c
a
ca
ue
2.8.
2.1.3.3 Exerc
cios Propostos
1. Um pesquisador est procurando vericar se existe associaao entre local (1= Rio
a
c
vermelho; 2= Costa da lagoa) e nmero de abortos para crianas do sexo feminino. Para
u
c
esse m foi feito um levantamento, cujos resultados esto apresentados na tabela 2.10 (Obs:
a
A unidade de amostragem uma fam
e
lia):
a) Construa a distribuiao de freqncias conjunta para as variveis local e nmero de
c
ue
a
u
abortos.
b) Faa um grco para a distribuio de freqncias conjunta do item a).
c
a
ca
ue

38

0,76

Acidez em cido ltico (%)

0,72
0,68
0,64
0,60
C

0,56

PC
PB

0,52

PA
0,48

14

21

28

Tempo em dias

Figura 2.7: Comportamento da varivel acidez em cido ltico (%) nos diversos tratamentos
a
a
a
durante a maturaao de salame tipo italiano,UFSC, 1992
c

Tabela 2.8: Hbito e porte para 50 materiais de feijo de vagem.


a
a
H P H P H P H P H P
4
4
3
4
4
4
3
3
4
4

Tr
EB
Pr
Tr
Tr
Tr
Pr
EB
Tr
Tr

4
4
3
3
3
3
4
4
4
4

Tr
Tr
Pr
Pr
Pr
EB
EB
EB
Tr
Tr

4
4
3
4
4
4
4
4
3
4

39

Tr
Tr
Tr
Tr
Tr
Tr
Tr
Tr
Pr
Tr

4
4
4
3
4
3
4
3
4
4

Pr
Tr
Pr
Pr
Tr
Pr
Pr
Pr
Tr
Tr

4
3
3
3
4
4
4
4
3
4

Tr
Pr
Pr
Pr
Tr
Tr
Tr
Tr
Pr
Tr

Tabela 2.9: Distribuio conjunta do hbito de crescimento e porte na cultura do feijo de


ca
a
a
vagem, UFSC, 1991/92
Porte
Hbito de crescimento
a
Total
3
4
Trepador
Ereto na base
Prostrado

1 6,3%
2 12,5%
13 81,3%

28 82,4%
3 8,8%
3 8,8%

29 58,0%
5 10,0%
16 32,0%

Total

16 100,0%

34 100,0%

50 100,0%

Figura 2.8: Grco da distribuio conjunta do item a).


a
ca

40

Tabela 2.10: Resultados de um estudo sobre locais e ocorrncia de aborto


e
Local Aborto Local Aborto Local Aborto Local Aborto Local Aborto
2
2
2
2
2
2
2
2
2
2
2
2
2
2

0
0
1
0
0
0
0
2
2
0
1
1
0
0

2
2
2
2
2
2
2
2
2
2
2
2
2
2

0
1
1
1
1
1
0
0
0
0
0
0
0
0

2
2
2
2
2
2
2
2
2
2
1
1
1
1

0
0
1
1
2
0
0
0
0
1
0
0
0
1

1
1
1
1
1
1
1
1
1
1
1
1
1
1

1
1
1
0
2
1
0
0
0
0
0
0
0
0

1
1
1
1
1
1
1
1
1

0
0
0
0
0
0
0
0
0

2. Um economista agr
cola est estudando os fatores que afetam a adoo de uma nova
a
ca
variedade de arroz altamente produtiva. Os resultados obtidos esto na tabela 2.11.
a
a) Faa um grco para tabela 2.11, mostrando o comportamento da adoao segundo a
c
a
c
situao de posse da terra (perl linha). Faa a interpretao dos resultados.
ca
c
ca
3. Foi conduzido um experimento com o objetivo de avaliar o poder germinativo de
duas cultivares de cebola: A) Bola Precoce-EMPASC 352 e B) Norte 14. Foram utilizadas
para o teste de germinaao, 4 repetioes de 100 sementes, totalizando 400 sementes para
c
c
cada cultivar. A varivel de estudo o nmero de sementes que germinam. Os resultados
a
e
u
Tabela 2.11: Distribuio conjunta de freqncias
ca
ue
Posse
Adoo
ca
Total
Adota No adota
a
Proprietrio
a
Vrios arendatrios
a
a

Unico arendatrio
a

102
42
5

26
10
2

128
52
7

Total

149

38

187

41

Tabela 2.12: Germinaao de sementes para duas cultivares de cebola.


c
Germinaao
c
Cultivares
Germinaram No germinaram Total
a
Bola Precoce
Norte 14

392
381

8
19

400
400

Total

773

27

800

Tabela 2.13: Distribuiao conjunta das variveis local e peso de mexilhes


c
a
o
Local
Peso
Total
[7;20) [20;33) [33;46)
Mangue
Sambaqui

21
1

12
14

2
19

35
34

Total

22

26

21

69

obtidos esto na tabela 2.12. Faa um grco mostrando o comportamento das cultivares
a
c
a
com relaao ` germinao das sementes. Faa a interpretaao dos resultados.
c a
ca
c
c
4. A tabela 2.13 representa a distribuiao conjunta das variveis local de coleta e peso
c
a
de mexilhes. Faa um grco para representar a distribuio conjunta. Obtenha uma
o
c
a
ca
concluso relevante.
a
2.1.3.4 Tabelas de Contingncia
e

E muito freqnte nas Cincias Biolgicas o interesse em vericar se duas variveis qualiue
e
o
a
tativas apresentam-se associadas, isto , se o conhecimento de uma varivel ajuda a entender
e
a
uma outra varivel. Construindo uma distribuiao de freqncia conjunta das duas variveis,
a
c
ue
a
ou seja, uma tabela de contingncia, podemos satisfazer de forma exploratria esse objetivo.
e
o
Vamos vericar que a simples construo da distribuiao conjunta das freqncias ser um
ca
c
ue
a
poderoso instrumento para ajudar na compreenso dos dados. Como veremos, as tabelas
a
constru
das na seo anterior, so chamadas de tabelas de contingncia e sero agora introca
a
e
a
duzidas formalmente.
Para se construir uma tabela de contingncia, deve-se observar conjuntamente as duas
e
variveis nos elementos em estudo. Por exemplo, vamos observar para cada aluno, o grau
a
de satisfaao com o curso e o preparo dos professores. Se desejamos descrever a varivel
c
a
grau de satisfao com o curso, sabendo-se que a mesma tem associao com o preparo dos
ca
ca

42

Tabela 2.14: Distribuiao conjunta de freqncias das variveis A e B, observados em n


c
ue
a
elementos
B
A

B1

B2

...

Br

TOTAIS

A1
A2
.
As

n11
n21
.
ns1

n12
n22
.
ns2

...
...
...
...

n1r
n2r
.
nsr

n1.
n2.
.
ns.

TOTAIS

n.1 =

s
i=1

ni1

n.2 =

s
i=1

ni2

... n.r =

s
i=1

nir

n.. =

s
i=1

r
j=1

nij

professores, ca mais fcil compreender a primeira varivel.


a
a
Vamos considerar que a varivel A tenha s categorias, A1 , A2 , ..., As e a varivel B tenha
a
a
r categorias, B1 , B2 , ..., Br . Por exemplo, a varivel grau de satisfao com o curso tem 5
a
ca
categorias, quais sejam: 1 - muito bom; 2 - bom; 3 - mdio; 4 - baixo e 5 - muito baixo.
e
A varivel preparo dos professores tambm tem 5 categorias, no caso, idnticas ` primeira
a
e
e
a
varivel.
a
Se observarmos as duas variveis, A e B, em um grupo de n elementos, objetos ou pessoas,
a
teremos uma classicaao como a indicada na tabela 2.14, a qual chamada de tabela de
c
e
contingncia.
e
Na tabela 2.14, n11 representa o nmero de elementos classicados na categoria A1 e B1
u
simultaneamente, em outras palavras, a freqncia observada de elementos que pertencem
e
ue
a categoria A1 e B1 simultaneamente. Os valores ni. = r nij , n.j = s nij e n.. =
j=1
i=1
s
r
i=1
j=1 nij representam os totais de linhas, colunas e o total geral, respectivamente.
Exemplo. Na tabela 2.15 apresenta-se a distribuio conjunta da resistncia ` ferrugem e
ca
e
a
tipo de gro para os 32 h
a
bridos de milho.
Cada casela d a frequncia observada de h
a
e
bridos que pertencem a categoria Ai e Bj ,
i = 1, 2, 3 e j = 1, 2, 3, 4, simultaneamente. Assim, observamos na casela (1;1), 5 h
bridos
resistentes ` ferrugem e com o tipo de gro dentado, e assim por diante.
a
a
Observem que os totais de colunas nos fornece a distribuio de freqncias da varivel
ca
ue
a
resistncia ` ferrugem, enquanto os totais de linhas nos do a distribuiao de freqncias
e
a
a
c
ue
da varivel tipo de gro. Tecnicamente estas distribuies so chamadas de distribuies
a
a
co
a
co
marginais, ento, temos a distribuio marginal da varivel resistncia ` ferrugem (totais de
a
ca
a
e
a

43

Tabela 2.15: Distribuiao conjunta das freqncias das variveis resistncia ` ferrugem e
c
ue
a
e
a
tipo de gro para 32 h
a
bridos de milho, 1987/88.
Tipo de gro Resistncia ` ferrugem1 Totais
a
e
a
R MR MS
S
Dentado
Semi-dentado
Semi-duro

5
4
1

2
1
3

6
2
1

1
4
2

14
11
7

Total
10
6
9
7
32
R = resistente; MR = moderadamente resistente; MS = moderadamente suscept
vel; S =
suscept
vel.

Tabela 2.16: Distribuio conjunta das percentagens das variveis resistncia ` ferrugem e
ca
a
e
a
tipo de gro para 32 h
a
bridos de milho, 1987/88.
Tipo de gro Resistncia ` ferrugem1 Totais
a
e
a
R
MR MS
S
Dentado
Semi-dentado
Semi-duro

35,7
36,4
14,3

14,3
9,1
42,8

42,9
18,2
14,3

7,1
36,4
28,6

100,0
100,0
100,0

Total
31,2 18,8 28,1 21,9 100,0
R = resistente; MR = moderadamente resistente; MS = moderadamente suscept
vel; S =
suscept
vel.

colunas) e a distribuiao marginal do tipo de gro (totais de linhas), enquanto que a tabela
c
a
toda representa a distribuio conjunta das duas variveis.
ca
a
Como os totais marginais da tabela 2.15 so diferentes, torna-se dif fazer alguma
a
cil
interpretao. Para facilitar, podemos incluir as freqncias relativas, em porcentagem,
ca
ue
que podem ser calculadas em relaao aos totais de linhas, colunas ou em relaao ao total
c
c
geral. Os totais (linhas, colunas ou geral) em porcentagens so comparveis, pois reduz-se
a
a
as freqncias a um mesmo total.
ue
A tabela 2.16 apresenta as porcentagens calculadas em relaao aos totais de linhas. Sendo
c
assim, vamos estudar a distribuiao da resistncia ` ferrugem para cada um dos diferentes
c
e
a
tipos de gros (os pers so as linhas).
a
a
Interpretao: observa-se, para os h
ca
bridos selecionados, um indicativo de associao
ca

44

entre a resistncia ` ferrugem e o tipo de gro, pois, enquanto o tipo de gro semi-duro apree
a
a
a
senta a menor porcentagem de resistncia ` ferrugem (14,3%), o tipo de gro semi-dentado
e
a
a
apresenta a menor porcentagem de moderadamente resistentes (9,1%) e o tipo de gro dena
tado apresenta a menor porcentagem de h
bridos suscet
veis ` ferrugem (7,1%). Podemos
a
vericar esta associao de outra forma. Observamos na amostra selecionada que 31,2%
ca
dos h
bridos so resistentes (R) ` ferrugem. Ora, se no existe associao (dependncia)
a
a
a
ca
e
entre as variveis, esperar
a
amos esta mesma porcentagem (31,2%) para todos os 3 tipos
de gros. Observamos, na amostra de h
a
bridos, uma porcentagem de 35,7% para dentado,
36,4% para semi-dentado e 14,3% para semi-duro, este ultimo resultado bastante abaixo dos

31,2% esperados. Isto nos leva a acreditar que realmente existe associaao entre a resistncia
c
e
` ferrugem e o tipo de gro dos h
a
a
bridos de milho amostrados.
Exerc
cios resolvidos
1. Para os dados da tabela 2.8 podemos considerar que o hbito est associado com o
a
a
porte? justique.
Sim, pois vericamos que para o hbito de crescimento 3, 81,3% dos materiais apresentam
a
porte prostrado. Por outro lado, para hbito 4, 82,4% dos materiais apresentam porte
a
trepador. Procure entender esta associaao atravs do grco da gura 2.8
c
e
a
2. Os dados da tabela de contingncia 2.17 tem por objetivo analisar a segregaao
e
c
dos dados de uma prognie de uma espcie X segregando para dois fatores: precocidade e
e
e
virescncia (tipo de decincia de clorola). Sabe-se que a precocidade recessiva em relao
e
e
e
ca
` ciclo tardio e controlada, neste caso, por um par de genes. O tipo virescente tambm
a
e
e e
recessivo em relaao ao normal e controlado por um par de genes.
c
a) Fixe os totais de colunas em 100%. Resposta tabela 2.17.
b) Faa um grco para a tabela, vericando a distribuiao da precocidade segundo a
c
a
c
virescncia (perl coluna). Resposta gura 2.9.
e
c) Os dois pares de genes so herdados independentemente ou h evidncia de associao?
a
a
e
ca
justique com apresentao de valores. Existe uma associaao fraca entre as variveis, pois
ca
c
a
para virescncia normal observa-se que 77,11% apresentam precocidade tardia. Observa-se
e
quase a mesma porcentagem (75,83%) para virescente e tardio. Portanto, no houve uma
a
mudana razovel quando mudamos de n de virescncia, indicando associao fraca.
c
a
vel
e
ca
3. A tabela de contingncia 2.18 refere-se ao nmero de pssaros de uma particular
e
u
a
espcie, classicados de acordo com duas variveis qualitativas, que so: 1 ) local da oresta
e
a
a
e 2 ) estaao do ano. Os pssaros foram observados alimentando-se de acordo com as duas
c
a
variveis. Um pesquisador levantou a hiptese (no in do trabalho), de que os pssaros
a
o
cio
a
alimentam-se nestes 3 locais da oresta nas mesmas propores na primavera e no outono.
co

45

Tabela 2.17: Segregao de dois caracteres numa prognie da espcie X


ca
e
e
Precocidade
Virescncia
e
Total
Normal
Virescente
Tardio
Precoce
Total

3470 77,11%
1030 22,89%

910 75,83%
290 24,17%

4380 76,84%
1320 23,16%

4500 100,00% 1200 bivariada


Distribuio 100,00%

5700 100,00%

Figura 2.9: Distribuio da precocidade segundo a virescncia


ca
e
Tabela 2.18: Distribuiao conjunta das variveis local e estao
c
a
ca
Estaao
c
Local da Floresta
Total

do ano
Arvores
Arbusto
Cho
a
Primavera
Outono

30 50,8%
13 21,3%

20 33,9%
22 36,1%

9 15,3%
26 42,6%

59 100,0%
61 100,0%

Total

43 35,8%

42 35,0%

35 29,2%

120 100,0%

46

60

50

50

40

40

30

30

20

20

10

porcentagens

60

10

rvores Arbustos

Cho

Primavera

rvores Arbustos

Cho

Outono

Figura 2.10: Associaao entre local e estaao


c
c
Em outras palavras, o pesquisador formulou a hiptese de que no existe associaao entre
o
a
c
as duas variveis. Voc aceita ou rejeita a hiptese formulada pelo pesquisador? justique.
a
e
o
Resposta: rejeitamos a hiptese formulada. Na primavera 50,8% dos pssaros alimentam-se
o
a
nas rvores, enquanto que no outono, o comportamento muda, isto , a maior porcentagem
a
e
(42,6%) alimentam-se no cho. Faa um grco de barras mltiplo para representar os dados
a
c
a
u
da tabela acima e visualizar esta associaao. Resposta na gura 2.10.
c
2.1.3.5 Exerc
cios Propostos
1. Um economista est estudando os fatores que afetam a adoao de uma nova variedade
a
c
de arroz altamente produtiva. Ele deseja saber se a adoao afetada pela situaao de posse
c e
c
da terra. Os resultados obtidos numa amostra de 187 agricultores esto organizados na
a
tabela de contingncia 2.11. O que o economista pode concluir?
e
2. Um estudo realizado a m de avaliar a ecincia de uma nova vacina antigripal, a
e
e
qual foi administrada aos membros de uma pequena comunidade. A vacina foi administrada
em duas doses, ao longo de duas semanas. Algumas pessoas tomaram as duas doses, outras
tomaram apenas a 1a dose e outras no tomaram qualquer dose. A tabela 2.19 mostra
a
os resultados obtidos para um total de 1000 habitantes dessa comunidade. Esses dados
apresentam uma evidncia suciente para garantir que tal vacina foi bem sucedida, reduzindo
e
o nmero de casos de gripe nessa comunidade? Em outras palavras, verique se existe
u
associaao nesta tabela. Justique com valores de proporoes obtidas xando-se os totais de
c
c
linhas em 100%.
3. Utilizando os dados da tabela 2.19, responda:
a) faa um grco para a distribuiao conjunta das porcentagens obtidas no exerc 2;
c
a
c
cio

47

Tabela 2.19: Distribuiao conjunta das variveis


c
a
Estado
Vacinaao
c
Total
de sade
u
No-vacinados Uma dose Duas doses
a
Gripados
No-gripados
a

24
289

9
100

13
565

46
954

Total

313

109

578

1000

b) calcule a proporao de no-vacinados entre os indiv


c
a
duos no-gripados;
a
c) calcule a proporao de no-gripados e que usaram duas doses de vacina.
c
a
4. De acordo com os dados da tabela 2.10, podemos dizer que a ocorrncia de aborto
e
est associada com o local? Justique.
a
5. Com os dados da tabela 2.12, verique se existe dependncia (associaao) entre as
e
c
cultivares e a germinaao de sementes. Justique.
c
6. Para os resultados da tabela 2.13 voc concluiria que o peso est associado com o
e
a
local? Justique com os dados de percentagens.
7. Faa um grco para a tabela 2.16 e observe a associaao existente entre o tipo de
c
a
c
gro e a resistncia ` ferreugem.
a
e
a
2.1.3.6 Coeciente de Contingncia de Pearson
e
Vamos agora pensar que estamos interessados em obter uma medida estat
stica que indique se existe ou no relaao entre duas variveis e qual a magnitude desta, isto , a grandeza
a
c
a
e
da associaao. Aqui, desejamos fazer um estudo da associao ou dependncia entre duas
c
ca
e
variveis categorizadas. No caso de estarmos trabalhando com variveis quantitativas, estas
a
a
podem ser transformadas em variveis categorizadas. Exemplo de categorizaao de uma
a
c
varivel quantitativa: seja a varivel rendimento de uma variedade transformada em trs
a
a
e
categorias:< 1500 kg/ha (rendimento baixo), 1500 e 3000 (rendimento normal) e > 3000
(rendimento alto).
Uma medida de associao que pode ser utilizada nesse caso o coeciente de contingncia
ca
e
e
de Pearson, representado pela letra C . Podemos atravs deste coeciente, por exemplo,
e
vericar a grandeza da associao entre o local da oresta onde os pssaros se alimentam e a
ca
a
estao do ano, veja tabela 2.18. Outro exemplo, vericar a magnitude da associaao entre
ca
c
a adoao de tecnologia e a situaao de posse da terra, veja a tabela 2.11.
c
c
Antes de passarmos ao estudo detalhado do clculo do coeciente de contingncia de
a
e
Pearson, vamos, sem muitos detalhes, citar e indicar os clculos de outras duas estat
a
sticas

48

para o estudo de associaao.


c
A primeira delas o coeciente de associaao de Yule, para tabelas 2 2, dado por:
e
c
Q=

(f11 f22 f12 f21 )


,
(f11 f22 + f12 f21 )

que varia de -1 a 1, onde, f11 representa a freqncia de ocorrncia da categoria 1 da varivel


ue
e
a
A e a categoria 1 da varivel B, e assim para os demais termos. Por exemplo, para a tabela
a
2.17 temos:
(3470.290 910.1030)
69000
Q=
=
= 0, 04.
(3470.290 + 910.1030)
1943600
Concluimos que existe uma associao muito fraca entre as duas variveis, pois o valor de Q
ca
a
prximo de zero.
e o
Um outro coeciente o de Cramr, para tabelas l c (l = nmero de linhas e c =
e
e
u
nmero de colunas da tabela), dado por:
u
V =

2 /n(min(l 1, c 1)),

que varia de 0 (zero) a 1;onde min(l 1, c 1) o m


e
nimo entre o nmero de linhas(l) menos
u
1 e o nmero de colunas(1) menos 1; n o total geral de freqncias da tabela; a estat
u
e
ue
stica
2
, leia-se Qui-Quadrado, ser mostrada em detalhes ainda nesta subseao. Para os dados
a
c
da tabela 2.18, temos V = 0, 3541. De acordo com este coeciente, a associao entre as
ca
duas variveis moderada para fraca.
a
e
Como foi dito inicialmente, a construao da distribuio conjunta das freqncias, nos
c
ca
ue
ajuda bastante na interpretao dos resultados. Na tabela 2.18, temos a distribuiao conjunta
ca
c
de freqncias das variveis local da oresta e estao do ano. Observe que para facilitar a
ue
a
ca
interpretao dos resultados, os totais de linhas foram xadas em 100%. A interpretaao j
ca
c a
foi feita anteriormente e o resultado foi um indicativo de associao entre o local da oresta
ca
e a estaao do ano. Vamos, agora, utilizar este exemplo para mostrar todos os passos no
c
clculo do coeciente de contingncia de Pearson.
a
e

Independncia de Variveis
e
a
Quando se constroi uma distribuio conjunta de freqncias, um dos principais objetivos,
ca
ue
procurar estabelecer a associaao existente entre as variveis, isto , desejamos conhecer o
e
c
a
e
grau de dependncia entre as variveis, pois conhecendo o grau de dependncia entre elas,
e
a
e
podemos prever o melhor resultado de uma varivel sabendo-se o resultado da outra. Por
a
exemplo, se desejamos saber o local da oresta onde os pssaros se alimentam, se nos tivermos
a
informao sobre a estao do ano, vamos ter condioes de estimar com maior preciso o
ca
ca
c
a

49

local onde os pssaros se alimentam, pois existe uma dependncia entre o local da oresta e
a
e
a estaao do ano.
c
A dependncia no no sentido de que uma determina a outra. Por exemplo, num estudo
e
a e
para vericar se existe associaao entre a satisfaao com o emprego e os salrios percebidos,
c
c
a
no signica que melhorando as condioes de trabalho (satisfaao), vai melhorar os salrios.
a
c
c
a
Em primeiro lugar, observamos que, independentemente da estao do ano, 35,8% dos
ca
pssaros se alimentam nas rvores, 35% nos arbustos e 29,2% no cho.
a
a
a
Ora, se existe independncia entre o local da oresta e a estaao do ano, esperamos estas
e
c
mesmas porcentagens para cada categoria da estaao do ano. Comparando-se as frequncias,
c
e
podemos interpretar que existe dependncia entre as variveis.
e
a
Quando existe dependncia entre as variveis interessante conhecer a magnitude dessa
e
a
e
associaao, ou seja, conhecer se a associaao fraca, moderada ou forte. Portanto, imporc
c e
e
tante termos uma medida de associao entre variveis categorizadas.
ca
a

Medida de Associao Entre Duas Variveis Categorizadas


ca
a
Trataremos do coeciente de contingncia de Pearson, representado pela letra C , que
e
descreve num unico nmero a dependncia entre duas variveis.

u
e
a
Teoricamente este valor varia entre 0 (zero) e 1 (um), 0 C 1, sendo nulo quando as
variveis so independentes. Quando existe uma associaao perfeita entre as duas variveis,
a
a
c
a
o coeciente de contingncia de Pearson vale 1.
e
Para o clculo do coeciente necessrio, em primeiro lugar, calcularmos uma outra
a
e
a
estat
stica, chamada de Qui-Quadrado, e representada pela letra grega elevada a potncia
e
2
2. Ento, passamos de imediato ao clculo do , atravs do exemplo da tabela 2.18.
a
a
e
Na hiptese de independncia, esperamos para local da oresta rvores e estao primavo
e
a
ca
era, 590, 358 = 21, 122 pssaros; para local da oresta rvores e estao outono, esperamos
a
a
ca
61 0, 358 = 21, 838 pssaros, e assim para todas as caselas restantes da tabela. Um modo
a
prtico de se encontrar as freqncias esperadas sob a hiptese de independncia, dado por:
a
ue
o
e
e
f e11 =

59 43
n1. n.1
=
= 21, 141.
n..
120

A notaao f e11 indica a freqncia esperada para a estao primavera (linha 1) e local rvores
c
ue
ca
a
(coluna 1). Se o leitor no est lembrado desses
a
a
ndices, veja novamente a tabela 2.14.
Para a casela 21, isto , estao outono (linha 2) e local rvores (coluna 1), temos:
e
ca
a
f e21 =

61 43
n2. n.1
=
= 21, 858.
n..
120

50

Tabela 2.20: Frequncias observadas e esperadas sob a hiptese de independncia


e
o
e
Estaao
c
Local da Floresta
Total

do ano
Arvores Arbusto
Cho
a
Primavera
Outono

30 21,14
13 21,86

20 20,65
22 21,35

9 17,21
26 17,79

59
61

43

42

35

120

Total

Tabela 2.21: Desvios entre as frequncias observadas e esperadas, no caso de independncia


e
e
das variveis
a
Estaao
c
Local da Floresta

do ano
a
Arvores Arbusto Cho
Primavera
Outono

8,86
-8,86

-0,65
0,65

-8,21
8,21

A diferena vericada na segunda casa decimal entre os dois procedimentos de clculo


c
a
e
devido ` aproximaes. Fazemos a mesma operao para as demais caselas. Todas as
a
co
ca
freqncias observadas e esperadas sob a hiptese de independncia, esto demonstradas
ue
o
e
a
na tabela 2.20. Encontre esses valores. Observando-se a tabela 2.20 podemos vericar as
discrepncias existentes entre os valores observados e esperados caso as variveis fossem
a
a
independentes. Na tabela 2.21, apresentamos os desvios entre os valores observados e os
esperados. A estat
stica Qui-Quadrado (2 ), que uma medida de afastamento global da
e
hiptese de independncia, isto , quanto maior o valor do 2 , maior ser o grau de associao
o
e
e
a
ca
entre as duas variveis, calculado atravs da seguinte expresso:
a
e
e
a
lc
2

=
i=1

(oi ei )2
ei

(2.1)

onde, oi a freqncia observada da i-sima casela; ei a freqncia esperada da i-sima


e
ue
e
e
ue
e
casela; l o nmero de linhas e c o nmero de colunas. Para o exemplo, temos:
e
u
e
u
8, 862 0, 652 8, 212 8, 862 0, 652
8, 212
+
+
+
+
+
21, 14
20, 65
17, 21
21, 86
21, 35 17, 79
= 3, 7133 + 0, 0205 + 3, 9166 + 3, 5910 + 0, 0198 + 3, 7889

2 =

= 15, 0501.
a
E fcil perceber que se 2 = 0, as duas variveis so independentes e que se 2 > 0 indica
a
a

51

associaao das variveis. O valor de Qui-Quadrado no possui um limite superior, pois varia
c
a
a
de 0 (zero) a + ( mais innito). Na seao 8.5.2 iremos fazer o teste de qui-quadrado, que
c
e
um teste conrmatrio, no sentido de poder armar se existe ou no associao signicativa
o
a
ca
(estatisticamente comprovada) entre as variveis.
a
Descritivamente, Karl Pearson props o chamado coeciente de contingncia, represeno
e
tado pela letra C, denido por:
2
C=
,
(2.2)
2 + n
onde n o nmero total de observaoes. Para o exemplo em estudo temos:
e
u
c
15, 0501
= 0, 3338,
15, 0501 + 120

C=

indicando que existe associaao, porm podemos dizer que a associao fraca.
c
e
ca e
Quando existe uma associaao perfeita, esse coeciente no atinge o valor 1, por isso, foi
c
a
sugerido uma correao, a qual consiste em calcular,
c
C =

C
(t 1)/t

(2.3)

onde t o m
e
nimo entre o nmero de colunas e o nmero de linhas da tabela de contingncia.
u
u
e
Para o exemplo, onde t = 2, temos:
0, 3338

C =

(2 1)/2

= 0, 4721.

Agora, temos uma associaao moderada entre as variveis. Devemos considerar as variveis
c
a
a
como moderadamente associadas.
Exerc
cio resolvido
1. Para os dados da tabela 2.9, obter o coeciente de contingncia de Pearson e interpree
tar.
O valor de qui-quadrado :
e
2 = 7, 3877 + 3, 4766 + 0, 1000 + 0, 0470 + 12, 1278 + 5, 7072 = 28, 8464.
O valor do coeciente de conngncia :
e
e
C=

28, 8464
= 0, 6049.
28, 8464 + 50

Portanto, com a correao temos:


c
C =

0, 6049
1/2

= 0, 8554.

Concluso: existe forte associaao entre hbito e porte.


a
c
a

52

2.1.3.7 Exerc
cios Propostos
1. Com os dados da tabela 2.10, calcule o coeciente de contigncia de Pearson e conclua.
e
2. Com os dados da tabela 2.8, calcule o coeciente de contigncia de Pearson e conclua.
e
3. Com os dados da tabela 2.12, calcule o coeciente de contingncia de Pearson e
e
interprete.
4. Calcule o coeciente de contingncia de Pearson e o de Cramr para os dados da
e
e
tabela 2.13. Faa a interpretaao.
c
c
2.1.3.8 Distribuies de Freqncias de Variveis Quantitativas: Diagrama de
co
ue
a
Pontos, Grco de Colunas e Histograma
a
Inicialmente faremos uma breve introduao sobre o estudo de distribuioes de frequncias
c
c
e
para variveis aleatrias quantitativas e, aps, discutiremos as tcnicas para este estudo.
a
o
o
e
Quando a varivel em estudo quantitativa, discreta ou cont
a
e
nua, as principais caracter
sticas a serem observadas numa distribuiao de frequncias so:
c
e
a

o
1. valor tpico ou representativo, que como o prprio nome indica, corresponde a escolha
de um unico valor para representar todo o conjunto de valores;

2. assimetria, por exemplo, no estudo da distribuiao da renda (em nmero de salrios


c
u
a
m
nimos) das fam
lias brasileiras, a grande maioria das fam
lias apresentam baixo
rendimento familiar, enquanto que uma minoria apresenta altos rendimentos, isto
provoca uma cauda longa ` direita da distribuiao, tornando-a assimtrica, veja gura
a
c
e
2.36;

3. disperso, uma medida da concentrao dos dados em torno do valor t


a e
ca
pico. E
necessrio ter um valor referncia para poder compar-lo;
a
e
a
4. valores discrepantes ou outliers, so valores muito pouco provveis de ocorrerem
a
a

na distribuio, algumas vezes so valores que se distanciam demais dos outros. E


ca
a
importante realizar um estudo para saber a razo da ocorrncia desses valores, pode-se
a
e
citar 3 principais causas: 1) erro de transcriao de dados; 2) algum fato importante
c
ocorreu durante o trabalho e 3) o valor verdadeiro e deve ser considerado como tal;
e
5. formao de subgrupos, por exemplo, ao estudar-se a distribuiao das alturas dos
ca
c
alunos, pode-se chegar a concluso que existem dois grupos, formados de acordo com
a
o sexo.

53

No caso do estudo de distribuies de frequncias de variveis quantitativas podemos


co
e
a
estabelecer duas situaes, quais sejam:
co
1 ) a varivel cont
a
e
nua, nesse caso, necessrio a criaao de classes de ocorrncias,
e
a
c
e
pois no existem ou so poucos os valores que se repetem. Observaao: quando temos
a
a
c
poucos valores, isto , o nosso conjunto de valores no grande, em torno de 25, a
e
a e
distribuiao pode ser representada por meio de um diagrama de pontos, ou seja, cada
c
observaao corresponde a um ponto na reta dos reais. Esta tcnica ser mostrada em
c
e
a
seguida.
2 ) a varivel discreta, nesse caso, temos duas situaes: a) quando temos poucos
a
e
co
resultados diferentes da varivel, fazemos a contagem dos dados para cada valor da
a
varivel. Exemplos, o nmero de plantas sadias de mandioca colhidas na rea util da
a
u
a

2
parcela (rea de 19,44 m ) varia no intervalo de 23 a 27 plantas (5 valores diferentes),
a
nmero de gros por vagem de soja. Nesse caso diz-se que no h perda de informaao
u
a
a a
c
e as distribuioes de frequncias so feitas de forma idntica `s variveis qualitativas
c
e
a
e
a
a
(categorizadas). Tambm pode-se fazer o diagrama de pontos; b) quando temos muitos
e
valores diferentes da varivel procedemos de forma idntica ao de varivel cont
a
e
a
nua,
isto , vamos criar faixas de ocorrncia. Por exemplo, ciclo da cultura de 150 gentipos
e
e
o
de feijo.
a
Passamos, agora, ao estudo da construao das distribuies de frequncias para variveis
c
co
e
a
aleatrias quantitativas. Os mtodos abordados so: Diagrama de Pontos, Dados Agrupados
o
e
a
em Classes e Ramo-e-Folhas.

Diagrama de Pontos
Quando temos poucas observaes de uma varivel em estudo (at aproximadamente 25),
co
a
e
a distribuiao pode ser representada por um diagrama de pontos, isto , cada observaao
c
e
c

corresponde a um ponto na reta dos nmeros reais. E poss representar duas ou mais disu
vel
tribuies no mesmo diagrama, para isso basta identicar cada distribuiao por um s
co
c
mbolo
diferente (criar uma legenda). A gura 2.11 ilustra esse diagrama com os pesos ao nascer de
24 bezerros machos das raas Charoleza e Gir, em kg. Os dados para as duas raas so:
c
c
a
Charoleza
Gir

47
40

45 37
43 44

41 46
46 48

Interpretao do diagrama de pontos:


ca

54

47 34
51 54

25 40 45
55 56 57

48 40
55 54

Charoleza
Gir

20

25

30

35

40

45

50

55

60

Peso ao nascer, em kg.

Figura 2.11: Distribuiao de freqncias do peso ao nascer de bezerros da raa Charoleza e


c
ue
c
Gir (kg)
c
a
Observamos que os pesos ao nascer de bezerros da raa Charoleza so menos dispersos
(esto mais prximos) do que a raa Gir. Portanto, os bezerros da raa Charoleza so
a
o
c
c
a
mais homogneos quanto ao peso ao nascer.
e
Ambas as distribuioes so assimtricas ` esquerda, pois temos poucos valores e mais
c
a
e
a
espalhados no lado esquerdo das distribuioes, isso gera uma cauda mais longa ` esc
a
querda.
c
a
Os valores representativos para as raas Charoleza e Gir so, 42 kg e 53 Kg, respectivamente. Estes valores dividem as distribuioes aproximadamente ao meio, por exemplo,
c
existem 6 pontos abaixo de 42 e 6 pontos acima de 42.
c
a
c
O valor 25 kg, na raa Charoleza, est bem afastado do restante da distribuiao, assim,
podemos consider-lo como um valor discrepante.
a
No observamos formaao de subgrupos em nenhuma das distribuies (raas).
a
c
co
c
Exerc
cio resolvido
1. Para comparar o ganho mdio de peso, GMP, em gramas por dia, de porcos submetidos
e
a duas dietas diferentes, D1 e D2 , foi conduzido um experimento com 20 porcos. Dez porcos

55

Dieta 2

Dieta 1

550

570

590

610

630

650

670

690

710

730

750

770

790

810

830

Ganho de peso

Figura 2.12: Diagrama de pontos para duas dietas de porcos


foram submetidos a cada uma das dietas. Os resultados para esse experimento foram:
Dieta 1
635
780
660
610
710

Dieta 2

820
670
580
700
570

675
570
590
590
590

600
610
560
630
570

Construir um diagrama de pontos para vericar se existe evidncia de diferenas entre os


e
c
dois tratamentos (dietas). O diagrama de pontos dado na gura 2.12. Conclua para as
e
duas dietas quanto ` disperso, assimetria, valores representativos e discrepantes.
a
a
A dieta 1 apresenta maior disperso do que a dieta 2. A dieta 2 apresenta assimetria `
a
a
direita (tem uma cauda mais longa para a direita), enquanto que a dieta 2 aproximadamente
e
simtrica. Os valores representativos so 715 e 590, para as dietas 1 e 2, respectivamente.
e
a
O valor 675, na dieta 2, est mais afastado da distribuiao dos demais valores. Os dados
a
c
indicam que a dieta 1 superior a dieta 2. Para fazermos uma armaao sobre a diferena
e
c
c
entre duas mdias devemos realizar um teste de hipteses, que ser tratado no cap
e
o
a
tulo 8.
Exerc
cios propostos
1. Os dados da tabela 2.22 correspondem ` varivel nmero de brotos por explante de
a
a
u
abacaxi avaliada em dois meios de cultura (dois tratamentos). Construir um diagrama de
pontos e comparar os dois meios de cultura quanto `:
a
a) disperso;
a
b) assimetria;
c) valores representativos;

56

Tabela 2.22: Nmero de brotos por explante de abacaxi


u
Meio 1 47 35 23 21 23 26 18
30 22 36 22 21 19
Meio 2

13
18

11 15
22 22

24 20
20 17

20 19
25

Tabela 2.23: Distribuio de frequncias e proporoes (em %) do nmero de plantas sadias


ca
e
c
u
de mandioca, Chapec, SC, 1984
o
Nmero de plantas Frequncia Proporo Porcentagem Porcentagem acumulada
u
e
ca
23
24
25
26
27
TOTAL

1
3
4
8
14
30

0,0333
0,1000
0,1333
0,2667
0,4667
1,0000

3,33
10,00
13,33
26,67
46,67
100,00

3,33
13,33
26,67
46,67
100,00

d) valores discrepantes;
e) formaao de subgrupos.
c

Distribuio de Freqncias de Variveis Discretas Sem Perda


ca
ue
a
de Informao
ca
A construao de distribuioes de freqncias de variveis discretas, quando os diferentes
c
c
ue
a
valores observados da varivel no so muitos, feita de forma idntica `s variveis qualia
a a
e
e
a
a
tativas (categorizadas). Vamos fazer a contagem para cada valor observado da varivel em
a
estudo. Como exemplo, vamos estudar a distribuiao do nmero de plantas sadias de manc
u
dioca colhidas na rea util da parcela. As freqncias e porcentagens so dadas na tabela
a

ue
a
2.23. Na primeira coluna da tabela temos os valores observados da varivel, quais sejam: 23,
a
24, 25, 26 e 27.

Representao Grca de Variveis Discretas Sem Perda de


ca
a
a
Informao
ca
Nesse caso, podemos citar os grcos de ordenadas e os grcos de colunas. A seguir
a
a
apresentamos os dois tipos de grcos (guras 2.13 e 2.14).
a
Observamos que 47% das unidades experimentais (parcelas) deram como resultado 27
plantas sadias (total de plantas/unidade); somente 3% das unidades apresentaram como

57

58
Figura 2.14: Grco de colunas do nmero de plantas sadias de mandioca, Chapec, SC,
a
u
o
1984
N de plantas colhidas sadias
28

3,33%

13,33%

10,00%

26,67%

46,67%

N de parcelas

27

26

25

24

23

15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
22

Figura 2.13: Diagrama de ordenadas do nmero de plantas sadias de mandioca


u
Nmero de plantas sadias colhidas na rea til
0
22

23

24

25

26

27

28

2
4

Freqncias

6
8
10
12
14
16

Tabela 2.24: Rendimentos mdios, em kg/ha, de 32 h


e
bridos de milho, regio Oeste, 1987/88
a
3973 4660 4770 4980 5117 5403 6166
4500 4680 4778 4993 5166 5513 6388
4550 4685 4849 5056 5172 5823
4552 4760 4960 5063 5202 5889
4614 4769 4975 5110 5230 6047
resultado 23 plantas sadias. A distribuio assimtrica ` esquerda (cauda longa para o
ca e
e
a
lado esquerdo da distribuiao). Um valor representativo seria o 27. No observamos valores
c
a
discrepantes. No faremos uma concluso para a disperso pois no temos duas ou mais
a
a
a
a
distribuies para comparao.
co
ca
Exerc
cio proposto
1. Deseja-se estudar o comportamento da varivel nmero de ovos inviveis de Bioma
u
a
phalaria taenagophila (caramujo) em ambiente polu
do. Para isso tomou-se uma amostra de
23 caramujos, obtendo-se os seguintes resultados:
9 11
4 7

10 0
1 11

4 4 5
10 3 14

12 4
3 2

1 2
28 4

Faa uma representaao grca para os dados (grco de ordenadas ou de colunas). Faa a
c
c
a
a
c
interpretao do grco.
ca
a

Dados Agrupados em Classes


Quando temos muitas observaoes de uma varivel quantitativa em estudo (acima de 25),
c
a
recomendvel a formaao de intervalos de valores, isto , construir classes de ocorrncias.
e
a
c
e
e
Por exemplo, uma classe pode ser de 8 a 16 cm de comprimento de camaro. Quanto
a
ao nmero de classes que deve ser usado, existe alguma recomendaao. Este nmero no
u
c
u
a
poder ser muito grande (maior que 15) e nem muito pequeno (menor que 5). Mas tambm
a
e
no h um rigor muito grande quanto ao nmero de classes a ser usado. Pode-se deixar
a a
u
como compromisso do pesquisador decidir sobre o nmero de classes a ser usado. Ningum
u
e
melhor do que a pessoa que conhece o fenmeno em estudo para decidir sobre a melhor
o
representao da distribuiao. Sempre que for poss
ca
c
vel, recomenda-se utilizar classes com a
mesma amplitude.
Os dados da tabela 2.24 referem-se aos rendimentos mdios, em kg/ha, de 32 h
e
bridos
de milho recomendados para a regio Oeste Catarinense. Vamos considerar estes dados
a
para ilustrar a construao da distribuiao de freqncias em classes. As classes podem ser
c
c
ue

59

Tabela 2.25: Distribuio de freqncias de 32 h


ca
ue
bridos de milho recomendados para o Oeste
Catarinense, 1987/88
Rendimento

Freqncia
ue

Freqncia
ue

Freqncia
ue

Freq. rel.

mdio
e

absoluta

acumulada

relativa

Porcentagem

acumulada

Porcentagem
acumulada

3973

4456

0,0313

0,0313

3,13

3,13

4456

4939

12

13

0,3750

0,4063

37,50

40,63

4939

5422

13

26

0,4063

0,8126

40,63

81,26

5422

5905

29

0,0937

0,9063

9,37

90,63

5905

6388

32

0,0937

1,0000

9,37

100,00

TOTAL

32

1,0000

100,00

denidas de acordo com resultados lgicos da varivel, por exemplo, denir 5 classes com
o
a
amplitudes de 500 kg. Outra forma decidirmos pelo nmero de classes a ser utilizado e,
e
u
a seguir, fazer a diviso da amplitude total dos dados pelo nmero de classes, sendo que,
a
u
o resultado encontrado ser a amplitude de cada classe. Por exemplo, amplitude total dos
a
dados da tabela 2.24
e
= 6388 3973 = 2415 kg/ha. Se desejamos ter 5 classes, isso
implica que a amplitude de cada classe ser igual a i = 2415/5 = 483 kg/ha. Veja a
a
primeira coluna da tabela 2.25. Nesta tabela temos a distribuio de freqncias completa
ca
ue
da varivel em estudo.
a
A freqncia absoluta ou simplesmente freqncia de classe (segunda coluna da tabela),
ue
ue
representada por ni , o nmero indicativo da quantidade de valores, indiv
e
u
duos, itens,
elementos, etc. pertencentes a essa classe. A freqncia absoluta acumulada de uma classe
ue
a soma da freqncia dessa classe com as freqncias das classes anteriores (coluna 3). A
e
ue
ue
freqncia relativa ou proporo, representada por fi , denida pelo quociente da freqncia
ue
ca
e
ue
absoluta da classe e o nmero total de observaes, ou seja, fi = ni /n, onde n = 32 (coluna 4).
u
co
Tambm temos a freqncia relativa acumulada, calculada da mesma forma que a freqncia
e
ue
ue
absoluta acumulada (coluna 5). A porcentagem (coluna 6) a forma que a maioria das
e
pessoas entendem, mais expl
e
cito, tem maior xito, e simplesmente a multiplicaao das
e
e
c
proporoes por 100, isto , 100fi . Da mesma forma podemos ter as freqncias percentuais
c
e
ue
acumuladas (coluna 7).
A representao grca dessas distribuies recebe um nome especial, histogramas, e
ca
a
co
e

mostrado na gura 2.15. E um grco de colunas justapostas em que a altura de cada coluna
a
representa a freqncia absoluta ou porcentagem de ocorrncias da classe. Este grco, como
ue
e
a
a maioria dos demais deste livro, foi feito no programa Statistica.

60

14

40,63%

Freqncia absoluta

13
12
11

37,5%

10
9
8
7
6
5
4
3
2

9,37%

9,37%

3,13%

1
0

<= 4456

(4456;4939]

(4939;5422]

(5422;5905]

> 5905

Rendimento mdio (kg/ha)

Figura 2.15: Histograma dos rendimentos mdios, em kg/ha, de 32 h


e
bridos recomendados
para o Oeste Catarinense, 1987/88
Uma representaao grca alternativa ao histograma o pol
c
a
e
gono de freqncias, e o seu
ue
uso particularmente importante quando deseja-se comparar duas ou mais distribuioes,
e
c
pois poss representar-se diversas distribuies no mesmo grco. Para construir um
e
vel
co
a
pol
gono de freqncias basta colocar num grco os pares (ni ; si ), e un
ue
a
-los com uma linha,
onde si corresponde ao ponto mdio da isima classe. Por exemplo, o ponto mdio da
e
e
e
primeira classe, s1 , igual a (4456+3973)/2=4214,5, portanto, o par (n1 ; s1 ) dado por
e
e
(1; 4214, 5). Usar o mesmo procedimento para os 4 pares restantes. Esse grco para a
a
varivel rendimento de gros de h
a
a
bridos de milho mostrado na gura 2.16.
e
Interpretao. A interpretaao pode ser feita atravs da tabela de distribuio de
ca
c
e
ca
freqncias, histograma ou do pol
ue
gono de freqncias. A maioria dos h
ue
bridos (78%), apresentam uma produao entre 4456 e 5422 kg/ha. Um valor representativo para esses dados
c
seria 5000 kg/ha. Temos aproximadamente 50% dos valores abaixo de 5000 kg/ha, conseqentemente, 50% acima deste valor. Existe uma tendncia dos dados se concentrarem
u
e
prximo ao valor representativo e, a medida que se afastam do valor t
o
pico, a concentraao
c
diminui. A distribuiao dos dados apresenta uma pequena assimetria ` direita, pois a cauda `
c
a
a
direita um pouco mais longa. Desconsiderando o valor 3973 kg/ha, a amplitude de variaao
e
c
dos valores est dentro do esperado, vai de 4500 a 6388 kg/ha, isto , a disperso dos valores
a
e
a
no muito grande. Seria bom vericar por que um h
a e
brido produziu razoavelmente menos
que os demais. No se observa formao de subgrupos.
a
ca
Comentrios:
a
e
1 Limites indeterminados ou classes abertas. E at comum aparecer tabelas de distribuioes
c

61

14
37,5%

40,63%

Freqncia absoluta

12
10
8
6
9,37%

4
2
0

9,37%

3,3%

4214,5

4697,5

5180,5

5663,5

6146,5

Figura 2.16: Pol


gono de freqncias dos rendimentos mdios, em kg/ha, de 32 h
ue
e
bridos
recomendados para o Oeste Catarinense, 1987/88
de freqncias em que a 1a classe e/ou a ultima, apresentam o limite inferior e/ou
ue

superior indenidos. Deve-se, sempre que poss


vel, evitar esse tipo de limites, pois
diculta no trabalho descritivo dos dados, principalmente no que diz respeito ao clculo
a
de estat
sticas.
a
2 Amplitudes de classes desiguais. As amplitudes de classes nem sempre so iguais para
todas as classes da mesma distribuiao de freqncia. As vezes isto ocorre pela prpria
c
ue
o
natureza da pesquisa. Por exemplo, deseja-se discrimar melhor os baixos salrios; ou
a
as idades menores da primeira relaao sexual de jovens. Neste caso, necessrio tomar
c
e
a
alguns cuidados com a anlise e construao do histograma. Deve-se utilizar no eixo
a
c
das ordenadas as densidades de freqncias. Densidade, no sentido geral, indica a
ue
concentraao por unidade da varivel, assim, as densidades de freqncias em cada
c
a
ue
classe so obtidas dividindo-se as freqncias absolutas pelas amplitudes de classe,
a
ue
isto , di = ni / i , onde i a amplitude da i-sima classe. De modo anlogo,
e
e
e
a
pode-se calcular as densidades de freqncias relativas, dadas por di = fi / i . Este
ue
procedimento garante que a rea total do histograma seja igual a 1. No poss
a
a e
vel
fazer-se uma interpretaao de um valor espec
c
co da densidade de proporo, pois como
ca
o nome indica, s poss vericar o comportamento dentro de um intervalo ou no
oe
vel
geral.
3 O nmero de classes estabelecido para a distribuio de freqncias bastante subjetivo,
u
ca
ue
e
pois trata-se de uma anlise exploratria de dados. Ento, o nmero de classes deve
a
o
a
u

62

Tabela 2.26: Altura


1,00 1,18 1,21 1,27
1,01 1,19 1,25 1,30
1,08 1,19 1,26 1,31
1,11 1,20 1,27 1,34

de brotos de
1,34 1,37
1,35 1,37
1,36 1,39
1,36 1,41

explantes de
1,43 1,47
1,43 1,47
1,44 1,49
1,46 1,50

abacaxi
1,52 1,68
1,57 1,73
1,61 1,77
1,62

Tabela 2.27: Distribuiao de freqncias da varivel altura de brotos de explantes de abacaxi.


c
ue
a
Altura
Freqncia absoluta Freqncia relativa Percentagem
ue
ue
1,00 1,13
1,13 1,26
1,26 1,39
1,39 1,52
1,52 1,65
1,65 1,78
Total

39

1,0000

100,00

ser o suciente para nos dar uma boa idia do fenmeno, deve por em evidncia a
e
o
e
regularidade do fenmeno. Assim, vale a pena salientar, que a deciso sobre o nmero
o
a
u
de classes cabe ao pesquisador.
Exerc
cios resolvidos
1. Os dados da tabela 2.26 foram obtidos de um experimento desenvolvido para avaliar o
comportamento In Vitro de abacaxi (Ananas comosus) cv. Primavera e refere-se a varivel
a
altura dos brotos de explantes, em cm. (dados ordenados crescentemente).
a) Preencha a tabela de distribuio de freqncias 2.27.
ca
ue
b) Construa um histograma.
c) Faa algumas interpretaes relevantes.
c
co
d) Pode-se dizer que esta amostra oriunda de uma populao com distribuiao normal?
e
ca
c
Justique. Observao: leia mais adiante o tpico O modelo normal.
ca
o
As freqncias absolutas, relativas e percentagens para as 6 classes so dadas por: 4, 6,
ue
a
12, 10, 4, 3, 0,1026, 0,1538, 0,3077, 0,2564, 0,1026, 0,0769, 10,26, 15,38, 30,77, 25,64, 10,26
e 7,69, respectivamente. O histograma dado na gura 2.17. A distribuiao aproximadae
c e
mente simtrica. Um valor representativo do conjunto de dados 1,36. No observa-se valor
e
e
a
discrepante. Pode-se dizer que a varivel altura de explantes de abacaxi segue aproximadaa
mente uma distribuiao normal.
c

63

16

Nmero de explantes

14
Esperado sob
Modelo Normal

12
10
8
6
4
2
0
0,782

0,934

1,086

1,238

1,390

1,542

1,694

1,846

Altura de explantes (cm)

Figura 2.17: Histograma da altura de explantes de abacaxi

Tabela 2.28: Area foliar espec


ca de Cecropia glazioui
Borda da mata
Mata fechada
0,2145
0,2540
0,2592
0,2891
0,2971
0,3013
0,3279

0,3458
0,3482
0,3487
0,3490
0,3547
0,3574
0,3648

0,3796
0,3815
0,3874
0,3924
0,3931
0,3971
0,4015

0,4125
0,4142
0,4182
0,4326
0,4358
0,4573
0,4582

0,4657
0,4670
0,4823
0,4862
0,4921
0,5010
0,5231

0,5521
0,5841
0,6284
0,6357
0,6489
0,6570
0,6704

0,6780
0,6842
0,6898
0,6945
0,6950
0,6970
0,7125

0,7126
0,7154
0,7179
0,7256
0,7321
0,7783
0,7884

0,7894
0,7912
0,8023
0,8046
0,8451
0,8467
0,8468

0,8564
0,8654
0,8665
0,9214
0,9421
0,9573
0,9689

2. Os dados da tabela 2.28 so relativos a resposta ` variaao de luz no crescimento das


a
a
c
plantas, medido atravs da rea foliar espec
e
a
ca aps 60 dias, da espcie Cecropia glazioui,
o
e
em amostras situadas em borda de mata e mata fechada, com intensidade de luz mdia
e
de 10,6% e 0,87%, respectivamente. A espcie C. glazioui uma planta pioneira, helita,
e
e
o
pereniflia, seletiva higrla, ocorrendo preferencialmente em capoeiras e capoeires de dero
o
o
rubadas recentes.
Compare as duas amostras atravs do pol
e
gono de freqncias mltiplo. Por pol
ue
u
gono de
freqncias mltiplo, entende-se que no mesmo grco (plano cartesiano), vamos representar
ue
u
a
as duas amostras (borda da mata e mata fechada), por duas linhas poligonais fechadas. O
pol
gono de freqncias mltiplo dado na gura 2.18.
ue
u
e
Observa-se que o crescimento foi maior na mata fechada do que na borda da mata, com
valores representativos de 0,70 e 0,40, respectivamente. A disperso dos dados maior na
a
e

64

10
Borda Mata
Mata Fechada

7
6
5
4
3
2

> ,927

(,885;,927]

(,843;,885]

(,801;,843]

(,759;,801]

(,717;,759]

(,676;,717]

(,634;,676]

(,55;,592]

(,592;,634]

(,508;,55]

(,466;,508]

(,424;,466]

(,34;,382]

(,382;,424]

(,298;,34]

<= ,256

1
(,256;,298]

Freqncias absolutas

rea foliar especfica

Figura 2.18: Pol


gono de freqncias mltiplo da rea foliar espec
ue
u
a
ca de C. glazioui

25,60
25,90
25,90

27,75
28,30
29,05

Tabela 2.29:
29,95 32,20
31,25 32,20
31,70 33,75

Biometria total de Macrobrachium potiuna


33,90 34,75 35,20 36,00 37,10 39,20
33,95 34,80 35,55 36,70 38,90 39,55
34,75 35,10 35,65 37,05 39,10 40,45

41,75
42,80
43,95

44,05
45,20
46,74

mata fechada. A distribuiao mais simtrica na amostra da borda da mata, com os dados
c e
e
concentrando-se mais na parte central.
2.1.3.9 Exerc
cios Propostos
1. Os dados da tabela 2.29 referem-se a biometria total, em mm, do Macrobrachium
potiuna (Mller, 1880) da fam Palaemonidae. Obs. os dados encontram-se ordenados.
u
lia
a) Construa a tabela de distribuio de freqncias com 6 classes para os dados.
ca
ue
b) Construa o histograma.
c) Indique um valor representativo para os dados; comente sobre a assimetria; esta amostra
oriunda de uma populao com distribuio aproximadamente normal? justique.
e
ca
ca
2. Dispe-se de uma relaao de 36 produoes em kg/ha de milho do munic de Chapec
o
c
c
pio
o
e uma relaao de 36 produoes, tambm em kg/ha, do munic de Campos Novos. A tabela
c
c
e
pio
de distribuiao de freqncias dada em 2.30. Construa o pol
c
ue
e
gono de freqncias mltiplo.
ue
u
Com base no pol
gono de frequncia mltiplo, discuta e compare as duas distribuies
u e
u
co
quanto as principais caracter
sticas.

O Modelo Normal

65

Tabela 2.30: Distribuio de frequncias do rendimento de milho para Chapec e Campos


ca
e
o
Novos
Rendimento Chapec Freq. absoluta Rendimento Campos Novos Freq. absoluta
o
4200
4552
4904
5256
5608
5960
6312

4552
4904
5256
5608
5960
6312
6664

Total

1
3
5
8
8
6
5

6613
7095
7577
8059
8541
9023
9505

36

7095
7577
8059
8541
9023
9505
9987

1
2
4
13
7
7
2
36

Uma distribuiao de freqncias muito importante em estat


c
ue
stica, aquela onde os dados
e
tendem a se concentrarem simetricamente em torno de um valor central, ou seja, os dados
esto em maior quantidade em torno do ponto mdio e, a medida que se afasta desse ponto,
a
e
a concentraao diminui; isso ocorre da mesma forma nos dois lados da distribuiao. Essa
c
c
distribuio conhecida como a distribuio normal ou Gaussiana, devido a Karl Gauss
ca e
ca
(1777-1855), e a sua forma terica dada na gura 2.19. Esse modelo ser estudado com
o
e
a
detalhes no cap
tulo 5.
A distribuiao dos rendimentos mdios, em kg/ha, dos h
c
e
bridos de milho, a princ
pio,
no d para dizer que os dados seguem um modelo normal, veja gura 2.20. Se o tamanho
a a
da amostra fosse maior, ter
amos uma melhor aproximao.
ca
2.1.3.10

Ramo-e-Folhas

Tanto os histogramas, como os demais tipos de grcos vistos anteriormente, do uma boa
a
a
idia da forma da distribuiao da varivel em estudo, isto , do comportamento dos dados.
e
c
a
e
Um outro modo de representao de um conjunto de valores, com o objetivo de se ter uma
ca
idia geral dos dados, o ramo-e-folhas. Uma vantagem do ramo-e-folhas sobre o histograma
e
e
que no primeiro no h perda de informao dos dados, pois trabalha-se com todos os dados
e
a a
ca

originais. E poss
vel, tambm, atravs do ramo-e-folhas obter-se algumas outras informaoes
e
e
c
mais gerais sobre os dados, o que ser mostrado atravs de um exemplo. O ramo-e-folhas
a
e
e
util quando o conjunto de dados no muito numeroso, pois, caso contrrio, a interpretaao

a e
a
c

66

Frequncias tericas

0,60

0,45

0,30

0,15

0,00
-3,50

-1,75

0,00

1,75

3,50

Valores padronizados

Figura 2.19: A representao grca do modelo Normal ou Gaussiano


ca
a

16

Freqncia absoluta

14
12
10
8
6
4
2
0
3068

3672

4275

4879

5483

6087

6690

Rendimento mdio de milho

Figura 2.20: Comparao da distribuiao dos rendimentos de gros de h


ca
c
a
bridos de milho e o
modelo normal

67

3
4
5
6

973
500 550 552 614 660 680 685 760 769 770 778 849 960 975 980 993
056 063 110 117 166 172 202 230 403 513 823 889
047 166 388

Unidade 1,0
3|973 = 3973

Figura 2.21: Ramo-e-folhas do rendimento mdio, em kg/ha, de 32 h


e
bridos de milho
*
3
3o
4*
4o
5*
5o
6*

973
500
056
513
047

550
063
823
166

552 614 660 680 685 760 769 770 778 849 960 975 980 993
110 117 166 172 202 230 403
889
388

Unidade 1,0
3o|973=3973

Figura 2.22: Ramo-e-folhas do rendimento mdio, em kg/ha, de 32 h


e
bridos de milho
torna-se dif
cil.
Exemplo (com discusso sobre a construo do ramo-e-folhas). Nas guras 2.21,
a
ca
2.22 e 2.23 temos os ramos-e-folhas da varivel rendimento de gros de h
a
a
bridos de milho.
A idia bsica para construir um ramo-e-folhas dividir cada observao em duas partes; a
e
a
e
ca
primeira parte, que ser denominada de ramo, colocada ` esquerda de uma linha vertical;
a
e
a
a segunda parte, que sero denominadas de folhas, colocada ` direita dessa linha vertical.
a
e
a
O critrio de diviso da observao deciso do pesquisador. Ele vai procurar um ramo-ee
a
ca e
a
folhas que represente bem o fenmeno biolgico/agronmico. Assim, para os rendimentos de
o
o
o
h
bridos de milho, considerando, por exemplo, o valor 3.973, o 3 (parte do milhar) o ramo
e
e 973 (centena) a folha, fazemos esta mesma diviso para todos os demais valores.
e
a
Na gura 2.21 temos apenas 4 ramos (fazendo analogia com o nmero de classes do
u
histograma que dever ser entre 5 e 15), ou seja, reduziu-se muito os dados. Para aumentar
a
o nmero de ramos podemos subdivid
u
-los em duas partes, garantindo que os ramos sejam
equiprovveis, isto , tenham a mesma chance de receber uma observao, assim, os ramos
a
e
ca
com o s
mbolo * recebem valores de 000 a 499 e os ramos com o s
mbolo recebem valores
de 500 a 999. Esse ramo-e-folhas mostrado na gura 2.22.
e
Podemos ainda subdividir os ramos em 5 partes, da seguinte forma: os ramos com o
s
mbolo recebem valores na faixa 000 a 199; ramos com o s
mbolo recebem valores na
faixa 200 a 399; ramos com o s
mbolo recebem valores na faixa 400 a 599; ramos com o
s
mbolo recebem valores na faixa 600 a 799 e ramos com o s
mbolo recebem valores na

68

3
4*
4
4
4
4
5*
5
5
5
5
6*
6
6

973

500 550 552


614 660 680 685 760 769 770 778
849 960 975 980 993
056 063 110 117 166 172
202 230
403 513

823 889
047 166
388

Unidade 1,0
3 |973 = 3973 kg/ha

Figura 2.23: Ramo-e-folhas do rendimento mdio, em kg/ha, de 32 h


e
bridos de milho
faixa 800 a 999. Este ramo-e-folhas dado na gura 2.23.
e
Interpretao: No primeiro ramo-e-folhas no observa-se que o valor 3973 esta distante
ca
a
da distribuio dos demais valores, isso indica que o ramo-e-folhas com apenas quatro ramos
ca
no adequado. O segundo ramo-e-folhas nos indica claramente a existncia de um h
a e
e
brido
(3.973) com produao abaixo dos demais. Observamos que existe uma queda brusca no lado
c
esquerdo e uma queda mais suave no lado direito, portanto, a distribuio assimtrica `
ca e
e
a
direita. Esta distribuio parece no seguir o modelo normal. Os valores esto bastante conca
a
a
centrados na faixa entre 4500 e 5400 kg/ha. Um valor t
pico para representar este conjunto
de dados 5000 kg/ha. No ramo-e-folhas da gura 2.23 observa-se 5 h
e
bridos com altos
rendimentos e cujos valores se distanciam dos demais. Se o interesse encontrar h
e
bridos
com alta produtividade esses cinco so os de maior interesse no estudo. O h
a
brido com baixa
produao tornou-se mais evidente, o que tambm desejvel. Observaao: A escolha do
c
e e
a
c
nmero de ramos equivalente a escolha do nmero de classes no histograma.
u
e
u
Exerc
cios resolvidos
1. Os dados da tabela 2.31 referem-se a uma avaliaao da formao de calos, mais
c
ca
especicamente, da altura de calos em cm, aps um per
o
odo de 30 dias in vitro para os
explantes de procedncia do cerrado da espcie Mandevilla velutina. Obs. importante que
e
e
e
os calos no se desenvolvam, pois quanto menor eles forem, maior ser o desenvolvimento
a
a

69

Tabela 2.31: Altura de


0,00 0,00 0,00
0,00 0,00 0,00
0,34 0,34 0,38
0,43 0,45 0,50
0,61 0,64 0,66

calos, em cm,
0,00 0,00
0,00 0,00
0,38 0,39
0,54 0,56
0,80 0,81

de Mandevilla velutina
0,00 0,00 0,00
0,00 0,00 0,20
0,42 0,42 0,42
0,57 0,60 0,61

0o

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

2 3 3 3 3 3

4 4 4 4 4 5 5 5 5

00|0 = 0,0

6 6 6 6 6

0q

8 8

unidade: 0,10

Figura 2.24: Ramo-e-folhas da altura de calos


das plantas.
a) Construa um ramo-e-folhas com cinco ramos. Resposta: veja gura 2.24
b) Faa algumas concluses a respeito dos dados. Podemos concluir que a distribuiao
c
o
c e
assimtrica ` direita; um valor representativo do conjunto de dados 0,38 cm; no apresenta
e
a
e
a
outliers; a grande maioria (80,1% ) dos valores est na faixa de 0,0 a 0,57; no apresenta
a
a
subgrupos. 2.24.
2. Os dados da tabela 2.32 referem-se aos pesos da carne de mexilhes do manquezal.
o
Construa um ramo-e-folhas para os dados. Resposta: veja gura 2.25. Observe nesta gura
que houve uma quebra nos ramos. A partir da quebra, cada valor um mltiplo de
e
u
o
10, isto , 10, 20 e 30. No ramo 1 vo os valores na faixa de 10 at 14,99 e, no ramo 1
e
a
e
vo os valores na faixa de 15 at 19,99. E assim para os demais ramos. Esta construao
a
e
c
do ramo-e-folhas foi necessria pois, se no tivssemos feito esta quebra no ramo, ter
a
a
e
amos
muitos ramos, o que tornaria muito dif a interpretao.
cil
ca
2.1.3.11 Exerc
cios Propostos
1. Os dados da tabela 2.33 correspondem a varivel altura de plantas, medida em cm,
a
para dois tratamentos. O tratamento 1 o controle (testemunha), isto , no foi feita
e
e a
a inoculaao do rizbio nas plantas. O tratamento 2 corresponde ` aplicaao do rizbio
c
o
a
c
o
nas plantas. A m de comparar os dois tratamentos faa um ramo-e-folhas para cada um
c

70

Tabela 2.32: Dados


9,49
12,92
17,64
20,01
25,67

de peso
9,54
13,04
18,17
21,60
26,79

da carne, em gramas,
9,53 11,13 11,76
14,05 14,88 16,22
18,53 19,17 19,65
21,99 22,74 23,71
27,20 30,20 30,85

de mexilhes do manguezal
o
12,69 12,92
16,38 16,92
19,80 19,81
25,14 25,34
33,97 36,35

9o

49

54

1o

101 176 269 292 292 304 405 488

622 638 692 764 814 853 914 965 980 981

2o

001 160 199 274 371

514 534 567 679 720

90|49 = 9,49

3o

020 085 397

10|101=11,01

635

unidade: 0,01

53

Figura 2.25: Ramo-e-folhas do peso da carne de mexilhes do manguezal


o

71

Tabela 2.33: Altura de plantas para dois tratamentos


Controle
25 29 29 30 31 31 32 32 33 33
35 36 36 37 37 38 38 40 41 43
Com rizbio 34 36
o
44 45

39 39
45 46

40 41
46 47

41 41
47 49

42 44
49 51

dos tratamentos. Quais os valores para representar os dois tratamentos? Qual dos dois
tratamentos apresenta maior disperso? Comente sobre a assimetria das distribuies. Tm
a
co
e
valores discrepantes? Pode-se dizer que estas duas amostras so oriundas de duas populaoes
a
c
com distribuiao pelo menos aproximadamente normal? justique?
c
2. Faa um ramos-e-folhas da varivel durao do primeiro estdio ninfal de Triatoma
c
a
ca
a
klugi, em dias, alimentadas em galo, cujos valores so:
a
21 21

21 22

22 22

22

23 23

23 23

23 25

26

28 28

28 30

30 33

35

35 36

39 39

40 40

42

42 45

46 46

48 50

59

a) Qual o valor representativo do conjunto de valores?


b) Comente sobre a assimetria da distribuio.
ca
c) Pode-se considerar algum(ns) valor(es) como sendo discrepante(s)?

2.2
2.2.1

Algumas Medidas Associadas ` Variveis Quantitativas


a
a
Medidas de Tendncia Central
e

Procuramos at aqui interpretar um conjunto de dados atravs do estudo de distribuiao


e
e
c
de freqncias, diagrama de pontos e do ramo-e-folhas, o que j foi um grande avano no
ue
a
c
sentido de conhecer o comportamento da(s) varivel(is) em estudo. Porm, um conjunto
a
e
de dados pode reduzir-se a uma ou apenas algumas medidas numricas que representam
e
todo o conjunto original dos dados. Estas medidas so de muito mais fcil compreenso
a
a
a
do que os dados originais, esta uma grande virtude da estat
e
stica, isto , reduzir um
e
conjunto de dados em apenas algumas medidas facilmente compreens
veis. Por exemplo,
para conhecer o rendimento t
pico de h
bridos de milho, podemos calcular a mdia ou a
e

mediana dos resultados da varivel. E importante chamar a ateno desde j, que sempre
a
ca
a

72

que for apresentada uma medida de tendncia central necessrio apresentar tambm uma
e
e
a
e
medida de variabilidade, disperso, que sero tratadas na prxima seao.
a
a
o
c
O objetivo dessa seao apresentar as principais medidas de tendncia central, as quais
c e
e
so assim chamadas devido ao fato dos dados naturalmente tenderem a se concentrar em
a
torno desses valores centrais. As trs medidas de tendncia central mais utilizadas para
e
e
resumir um conjunto de dados so:
a
A mdia aritmtica
e
e
A mediana
A moda
Estas medidas aplicam-se para dados isolados, como tambm para dados organizados
e
numa distribuiao de freqncias em classes, sendo assim, ser mostrado o procedimento de
c
ue
a
clculo dessas medidas para os dois casos, quais sejam: 1) dados isolados e 2) agrupados em
a
classes.
A mdia aritmtica a idia que ocorre a grande maioria das pessoas quando se fala
e
e
e
e
em mdia; como ela possui certas propriedades importantes, ela a medida de posiao mais
e
e
c
utilizada. Contudo, ela pode nos levar a erros de interpretao, assim, a mediana pode
ca
ser a medida mais recomendada em muitas situaoes. Ainda nesta seo indicaremos estas
c
ca
situaes.
co
A mdia aritmtica (M e), a soma dos valores numricos de uma varivel dividida pelo
e
e
e
e
a
nmero deles. Por exemplo, considere os pesos ao nascer, em kg, de 10 bezerros da raa
u
c
Charoleza:
47 51

45 50 50

52 46

49 53

51

Assim, a mdia, ser:


e
a
Me =

47 + 51 + 45 + 50 + 50 + 52 + 46 + 49 + 53 + 51
= 49, 4kg.
10

Genericamente, a M e, quando todos os valores so diferentes uns dos outros, dada por:
a
e
x1 + x2 + ... + xn
1
M e(X) =
=
n
n

xi

(2.4)

i=1

onde n o nmero de dados da amostra e X uma varivel em estudo, por exemplo, peso
e
u
e
a
ao nascer. A letra grega , leia-se sigma (maiscula), como pode ser visto na equao 2.4,
u
ca
representa um somatrio, isto , uma soma de valores.
o
e

73

Agora, quando temos um conjunto de n valores de uma varivel X, dos quais n1 so


a
a
iguais a x1 , n2 so iguais a x2 ,...., nk so iguais a xk , ento, a mdia aritmtica de X dada
a
a
a
e
e
e
por:
k
k
n i xi
ni xi
n1 x1 + n2 x2 + ... + nk xk
M e(X) =
= i=1
= i=1
(2.5)
k
n1 + n2 + ... + nk
n
ni
i=1
onde k o nmero de valores diferentes da varivel em estudo. Se fi = ni /n representa a
e
u
a
freqncia relativa da observaao xi , ento, M e pode ser escrita da seguinte maneira:
ue
c
a
k

M e(X) =

f i xi .
i=1

Exemplo. Para os dados dos pesos ao nascer de bezerros da raa Charoleza, com k = 8
c
valores diferentes, temos:
(1 45) + (1 46) + (1 47) + (1 49) + (2 50) + (2 51) + (1 52) + (1 53)
(1 + 1 + 1 + 1 + 2 + 2 + 1 + 1)
= (0, 10 45) + (0, 10 46) + (0, 10 47) + (0, 10 49) + (0, 20 50) +

M e(X) =

+ (0, 20 51) + (0, 10 52) + (0, 10 53)


= 49, 4kg.
Exerc
cio. Os valores da varivel peso ao nascer de uma amostra de 10 bezerros da raa
a
c
Gir foram:
51 40

46 48 54

56 44

43 55

57

Encontre a mdia aritmtica da amostra dos pesos ao nascer de bezerros da raa Gir.
e
e
c
O diagrama de pontos para as duas raas dado na gura 2.26. Percebe-se que os dois
c e
conjuntos de dados so bastante diferentes, entretanto, apresentam a mesma mdia, ento,
a
e
a

a mdia aritmtica, por si s, tem muito pouco valor cient


e
e
o
co. E preciso alguma medida de
variabilidade para acompanhar a mdia. Isto ser visto na prxima seao.
e
a
o
c
A principal restriao ao uso da mdia aritmtica que a mesma muito sens a valores
c
e
e
e
e
vel
excessivamente altos ou baixos (valores discrepantes ou outliers). Ela uma medida base
tante adequada quando os dados apresentam pelo menos aproximadamente uma distribuiao
c
normal. Quando a distribuio assimtrica deve-se utilizar preferencialmente a mediana.
ca e
e
No caso em que os dados esto agrupados em classes de ocorrncias, a expresso da mdia
a
e
a
e
aritmtica dada por:
e
e
k
k
ni si
M e = i=1
=
fi si
n
i=1

74

Mdias

38

42

46

50

54

58

62

Charoleza
Gir

Pesos ao nascer

Figura 2.26: Diagrama de pontos para peso ao nascer das raas Charoleza e Gir
c
onde ni , fi e si so a freqncia absoluta, freqncia relativa e o ponto mdio da i-sima
a
ue
ue
e
e
classe, respectivamente, e k o nmero de classes do histograma.
e
u
Exemplo. Para a distribuio de freqncias da tabela 2.25, que diz respeito aos
ca
ue
rendimentos, em kg/ha, de h
bridos de milho, a mdia aritmtica tem como resultado,
e
e
M e(X) = 5105, 031kg. Vamos ao clculo.
a
M e(X) = 0, 0313(4214, 5) + 0, 3750(4697, 5) + 0, 4063(5180, 5) + 0, 0937(5663, 5) + 0, 0937(6146, 5)
= 5105, 031 kg

Observao: em termos computacionais, os programas estat


ca
sticos calculam a mdia facile
mente, sem a necessidade de formar as classes.
Acontece, muitas vezes, que determinados valores de um conjunto de dados so mais
a
importantes que os demais, ou seja, tem pesos diferentes, merecendo assim um tratamento
especial.
Exemplo. Os tubrculos de batatas sementes so classicados, para efeito de comerciale
a
izao, em quatro tipos de tamanhos (dimetros), a saber:
ca
a
Tipo I - maior que 50 mm at 60 mm inclusive (50 a 60];
e
Tipo II - maior que 40 mm at 50 mm inclusive (40 a 50];
e
Tipo III - maior que 28 mm at 40 mm inclusive (28 a 40];
e
Tipo IV - de 23 mm at 28 mm inclusive [23 a 28].
e
As batatas sementes so comercializadas em caixas de 30 kg. Um agricultor produziu 500
a
caixas em um hectare (10.000 m2 ), assim distribu
das:

75

100 caixas do tipo I preo: 1500 u.m./cx;


c
180 caixas do tipo II preo: 3500 u.m./cx;
c
c
140 caixas do tipo III preo: 3000 u.m./cx;
80 caixas do tipo IV preo: 1600 u.m./cx.
c
Qual o preo mdio, por caixa, obtido pelo agricultor? Podemos usar a expresso 2.5 para
c
e
a
obter esse valor. Temos que a varivel X o preo da caixa de batata semente, portanto,
a
e
c
x1 o preo da caixa do tipo I, e assim por diante; ni o nmero de caixas produzidas por
e
c
e
u
cada tipo, i = 1, 2, 3, 4. Vamos ao clculo.
a
M e(X) =
=

4
i=1 ni xi
4
i=1 ni

(100 1500) + (180 3500) + (140 3000) + (80 1600)


100 + 180 + 140 + 80

1328000
= 2656, 00 u.m.
500

Propriedades da Mdia Aritmtica


e
e
A mdia aritmtica possui algumas propriedades importantes, dentre as quais vamos
e
e
discutir duas. Antes de apresent-las vamos ver o que signica um desvio ou res
a
duo de um
dado em relaao a sua mdia. Esse desvio calculado como:
c
e
e
di = xi x.

Assim, existem desvios positivos, negativos e nulos. Para os dados de pesos ao nascer de
bezerros da raa Charoleza, temos:
c
d1 =45-49,4=-4,4 d2 =46-49,4=-3,4 d3 =47-49,4=-2,4 d4 =49-49,4=-0,4 d5 =50-49,4=0,6
d6 =50-49,4=0,6 d7 =51-49,4=1,6 d8 =51-49,4=1,6 d9 =52-49,4=2,6 d10 =53-49,4=3,6
A primeira propriedade que a soma dos desvios calculados em relao a mdia aritmtica
e
ca
e
e
do conjunto de dados nula:
e
n

di = 0.

(xi x) =

i=1

i=1

No exemplo: -4,4-3,4-2,4-0,4+0,6+0,6+1,6+1,6+2,6+3,6=0.
A segunda propriedade que a soma dos quadrados dos desvios em relao a mdia
e
ca
e
e
um m
nimo. Formalmente, temos:
n

n
2

d2 = m
nimo.
i

(xi x) =

i=1

i=1

76

Posio da Md:5,5

38

42

46

50

54

58

62

Pesos ao nascer

Figura 2.27: Diagrama de pontos para peso ao nascer da raa Charoleza - clculo da mediana
c
a
Veremos a utilizao dessas propriedades quando tratarmos do estudo de medidas de
ca
disperso.
a
Uma segunda medida de tendncia central a mediana. A mediana divide um conjunto
e
e
de dados ao meio, onde 50% dos valores se posicionam abaixo da mediana, e 50% dos valores
se posicionam acima da mediana, portanto, a mediana, uma medida baseada na ordenaao
e
c
dos dados (rank, em ingls).
e
Denio: a mediana de um conjunto de valores, o valor M d que ocupa a posio
ca
e
ca
(n + 1)/2, quando os dados esto ordenados crescentemente. Se (n + 1)/2 for fracionrio,
a
a
toma-se como mediana, a mdia dos dois valores de posioes mais prximas a (n + 1)/2.
e
c
o
Exemplo. Vamos calcular a mediana dos pesos ao nascer de bezerros, em kg, da raa
c
Charoleza. Atravs do diagrama de pontos da gura 2.27, podemos observar que a dise
tribuio de freqncias apresenta uma assimetria ` esquerda, nesse caso recomendvel o
ca
ue
a
e
a
uso da mediana em preferncia ` mdia. A posio da mediana dada por: i = (10 + 1)/2 =
e
a e
ca
e
5, 5. Na gura 2.27 est indicada esta posiao. Como a posiao um nmero fracionrio, a
a
c
c e
u
a
c
a
mediana ser a mdia aritmtica entre os valores que ocupam a 5a e a 6a posiao, ento,
a
e
e
M d = (50 + 50)/2 = 50 kg.
Uma medida estreitamente relacionada com a mediana so os quartis. Embora no
a
a
sejam medidas de tendncia central, sero aqui tratadas devido a semelhana com o clculo
e
a
c
a
da mediana. Os quartis dividem um conjunto de dados em 4 partes iguais, do seguinte
modo: aproximadamente 25% dos dados sero inferiores ao primeiro quartil (Q1 ), ou seja,
a
25% dos dados esto localizados em posiao inferior ao primeiro quartil; 50% dos dados
a
c
ocupam posiao inferior ao segundo quartil (M d), que a mediana, e aproximadamente 75%
c
e
dos dados ocupam posio inferior ao terceiro quartil (Q3 ), portanto, 25% dos valores esto
ca
a
localizados em posio superior ao terceiro quartil.
ca
Denio: dado um conjunto de dados ordenados, podemos obter, de forma aproximada,
ca

77

Q3

Q1
Md

38

42

46

50

54

58

62

Pesos ao nascer

Figura 2.28: Diagrama de pontos para peso ao nascer da raa Charoleza - 1 e 3 quartis
c
o primeiro quartil, (Q1 ), como sendo a mediana dos valores de posies menores ou iguais
co
` posiao da mediana. A mediana dos valores de posioes maiores ou iguais ` posiao da
a
c
c
a
c
mediana corresponde ao terceiro quartil, (Q3 ).
Exemplo. Vamos calcular o Q1 e o Q3 para os dados de pesos ao nascer, em kg, de
bezerros da raa Charoleza. A posiao do elemento primeiro quartil : i = (n + 1)/2 =
c
c
e
(5 + 1)/2 = 3, logo Q1 = 47Kg. O valor de n igual a 5 pois temos cinco valores em
e
posiao menor ou igual ` posiao da mediana. A posiao do elemento terceiro quartil :
c
a
c
c
e
i = (n + 1)/2 = (5 + 1)/2 = 3, logo Q3 = 51Kg. Na gura 2.28 esto indicados o 1 e o 3
a
quartil, juntamente com a mediana.
O clculo da mediana e dos quartis para um histograma sero feitos por meio de argua
a
mentos geomtricos, atravs da proporcionalidade existente entre rea e base de retngulos.
e
e
a
a
Geometricamente, a mediana o valor da abcissa que determina uma linha vertical que
e
divide o histograma em duas partes de reas iguais, ento, 50% da rea do histograma est
a
a
a
a

abaixo da mediana e 50% da rea est acima da mediana. Da mesma forma, o 1 quartil o
a
a
e
valor da abcissa que determina uma linha vertical que divide o histograma em duas partes
de reas diferentes, ou seja, 25% da rea est abaixo do 1 quartil e 75% da rea est acima
a
a
a
a
a
do 1 quartil. O terceiro quartil o valor da abcissa que determina uma linha vertical que
e
divide o histograma em duas partes de reas diferentes, ou seja, 75% da rea est abaixo do
a
a
a
3 quartil e 25% da rea est acima do 3 quartil.
a
a
Exemplo. Vamos encontrar os valores da mediana e dos quartis para a varivel rendia
mento de gros, em kg/ha, de h
a
bridos de milho. O histograma dado na gura 2.15. A
e
classe mediana aquela cuja porcentagem acumulada , de pelo menos, 50%, ento, no exeme
e
a
plo, a mediana um valor que encontra-se na terceira classe, cujos limites inferior e superior
e
so: 4939 e 5422, respectivamente. Agora, vamos usar a regra da proporcionalidade, que
a
e

78

dada por:

5422 4939
M d 4939
=
.
40, 6
9, 4

No lado esquerdo do sinal de igualdade, temos o limite superior (5422) subtra do limite
do
inferior (4939) da classe mediana, dividido pela porcentagem de observaoes desta classe
c
(40,6). No lado direito do sinal de igualdade, temos um outro retngulo cuja rea vale 9,4%,
a
a
obtida da seguinte forma: somando-se as reas das classes anteriores ` classe mediana, temos
a
a
3,13+37,50=40,63%, assim, 50,0-40,6=9,4%; a base deste novo retngulo M d 4939,
a
e
cujo valor M d estamos interessados em determinar.
Obtemos o valor da mediana fazendo-se:
M d = 11, 8276(9, 4) + 4939 = 5050, 828 kg.
O clculo dos quartis feito de maneira anloga ao clculo da mediana. A classe que
a
e
a
a

contm o 1 quartil aquela cuja porcentagem acumulada de pelo menos 25%, no exemplo,
e
e
e

a
o 1 quartil encontra-se na segunda classe, cujos limites inferior e superior so: 4456 e
4939, respectivamente; a porcentagem de observaoes nesta classe de 37,5%. Pela regra da
c
e
proporcionalidade encontramos:
4939 4456
Q1 4456
=
Q1 = 4738, 072 kg.
37, 5
21, 9
O valor 21,9 obtido fazendo-se 25,0-3,1.
e
A classe que contm o 3 quartil aquela cuja percentagem acumulada seja de pelo
e
e
menos 75%, no exemplo, a terceira classe, cujo limite inferior, superior e porcentagem de
e
observaoes valem: 4939, 5422 e 40,6, respectivamente. Aplicando a regra obtemos:
c
5422 4939
Q3 4939
=
Q3 = 5348, 241 kg.
40, 6
34, 4
Na gura 2.29 apresentamos o histograma da varivel rendimento de gros, em kg/ha,
a
a
acompanhado dos quartis.
Finalmente, temos a moda (Mo), denida com o valor que ocorre com maior freqncia
ue
num conjunto de dados. Pela prpria denio percebe-se que a moda pode no existir, pois
o
ca
a
pode no existir um valor mais freqnte que os demais, ou existindo, pode no ser a unica,
a
ue
a

assim temos sries amodal, unimodal, bimodal, trimodal, etc.


e
Exemplo. Para os dados de pesos ao nascer de bezerros da raa charoleza temos duas
c
modas: Mo1 = 50 e Mo2 = 51, portanto, a srie bimodal. No caso do histograma, devemos
e e
encontrar a classe modal, isto , a classe que apresenta a mais alta freqncia. A moda
e
ue
e

79

14

40,63%

13

37,5%

12

Freqncia absoluta

11
10
9
8
7
6
5
4

9,37%

9,37%

3
2

3,13%

1
0

Q1=4738 Md=5051Q3=5348
Rendimento mdio (kg/ha)

Figura 2.29: Representao geomtrica da mediana, do primeiro quartil e do terceiro quartil


ca
e
por deniao o ponto mdio dessa classe. A utilidade da moda ocorre quando num conjunto
c
e
de dados, um, dois, ou um grupo de valores, ocorrem com muito maior freqncia do que
ue
outros.
2.2.2

Medidas de Disperso
a

Quando apresentamos uma medida de tendncia central para representar um conjunto


e
de dados, necessrio que esta medida seja acompanhada de um outra medida que resuma
e
a
a variabilidade dos dados, ou seja, a disperso dos dados. Na gura 2.26 esto representados
a
a
os pesos ao nascer das raas Charoleza e Gir, duas raas leiteiras. Observa-se que as duas
c
c
distribuies tm a mesma mdia amostral, porm, os valores para a raa Gir esto bem mais
co e
e
e
c
a
esparramados (dispersos) do que os valores da raa Charoleza. Dizemos que a variabilidade
c
na raa Gir maior do que na raa Charoleza. Enm, os dois conjuntos de dados so
c
e
c
a
bastante diferentes, apesar de apresentarem a mesma mdia amostral. Com isso, ca claro
e
que so necessrios, pelo menos dois tipos de medidas para descrever razoavelmente bem um
a
a
conjunto de dados. Uma medida de disperso quantica a magnitude da variabilidade dos
a
dados. Vamos apresentar as seguintes medidas de disperso:
a
a
Varincia
Desvio padro
a
Coeciente de variao
ca

80

Xi

5,4

5,4

5,8

6,4

6,4

6,6

6,6

6,8

6,8

7,0

7,3

7,3

7,5

8,2

8,8

8,8

6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94 6,94
x
( x i x ) -1,54 -1,54 -1,14 -0,54 -0,54 -0,34 -0,34 -0,14 -0,14 0,06 0,36 0,36 0,56 1,26 1,86 1,86

( x i x ) 2 2,37 2,37 1,30 0,29 0,29 0,12 0,12 0,02 0,02 0,00 0,13 0,13 0,31 1,59 3,46 3,46

Figura 2.30: Clculo da varincia do dimetro da roseta foliar de bromlias expostas ao sol
a
a
a
e
Desvio interquart
lico
Para os mtodos estat
e
sticos, as medidas de disperso so de fundamental importncia,
a a
a
pois a necessidade do uso da estat
stica devida a existncia de variabilidade nos dados
e
e
observados.
Para a varincia e o desvio padro, o princ bsico analisar os desvios das observaes
a
a
pio a
e
co
em relaao ` mdia. Em cada caso, o valor zero para a varincia ou desvio padro, indica
c a e
a
a
ausncia de variaao; a variao vai aumentando ` medida que aumenta o valor da medida
e
c
ca
a
de disperso.
a
A varincia uma medida de disperso que nos fornece uma idia da variabilidade dos
a
e
a
e
dados em torno da mdia. Ela o quociente entre a soma dos quadrados dos desvios dos
e
e
dados observados, tomados em relaao a sua mdia aritmtica e o nmero de dados (n)
c
e
e
u
2

menos 1. E representada por s quando os dados so oriundos de uma amostra e por 2 ,


a
leia-se sigma ao quadrado, quando os dados representam a populaao. Vamos ilustrar os
c
passos para o clculo da varincia atravs de um exemplo.
a
a
e
Exemplo. Vamos calcular a varincia para os dados de uma amostra de tamanho,
a
n = 16, do dimetro (em cm) da roseta foliar de bromlias expostas ao sol. Os dados
a
e
amostrais obtidos foram:
5,4 5,4
6,8 7,0

5,8 6,4
7,3 7,3

6,4 6,6
7,5 8,2

6,6
8,8

6,8
8,8

Os passos para o clculo da varincia so dados na gura 2.30. Precisamos do valor da


a
a
a
mdia aritmtica dos dados; no exemplo vale x = 6, 94. Aps so calculados os desvios dos
e
e
o a
dados em relao ` mdia, (xi x); em seguida estes desvios so elevados ao quadrado,
ca a e
a
(xi x)2 . Finalmente, aplicamos a expresso da varincia amostral que dada por:
a
a
e
s2 =

n
i=1 (xi

x)2

.
n1

No exemplo, com base nos resultados de 2.30, temos:


s2 =

15, 98
= 1, 065 cm2 .
15

81

(2.6)

Foi tambm selecionada uma outra amostra de 16 valores de dimetros da roseta foliar
e
a
de bromlias em ambiente de sombra. Os resultados foram:
e
13,4
15,4

13,7
15,7

14,4 14,6
16,2 16,4

14,6
16,7

14,8 15,2
17,5 17,8

15,2
17,8

Para esses dados o valor da varincia s2 = 1, 893 cm2 . Obtenha esse valor. A concluso
a
e
a
que podemos tirar que, para a varivel dimetro, as bromlias em ambiente de sombra so
e
a
a
e
a
mais heterogneas (apresentam maior variabilidade) do que as expostas ao sol.
e
Para os dados de peso ao nascer de bezerros, obtemos s2 = 6, 92 kg 2 e s2 = 36, 48 kg 2 ,
CH
G
para as raas Charoleza e Gir, respectivamente. Portanto, a raa Gir muito mais hetc
c
e
erognea do que a raa Charoleza, para peso no nascimento.
e
c
A varincia apresenta um inconveniente de ordem prtica, pois como ela expressa
a
a
e
em unidades ao quadrado, isto causa problemas de interpretaao. Uma outra medida de
c
variabilidade, calculada atravs da varincia, o desvio padro da amostra (s). Na prtica o
e
a
e
a
a
desvio padro preferido em relao a varincia, pois ele expresso na mesma unidade dos
a e
ca
a
e
dados originais. O desvio padro nada mais do que a ra quadrada da varincia, logo:
a
e
z
a
s=

s2 .

(2.7)

Exemplo. Para os dados amostrais do dimetro da roseta foliar de bromlias, em cm,


a
e
expostas ao sol e em ambiente de sombra, os valores do desvio padro so, sSol = 1, 032 cm
a a
e sSombra = 1, 376 cm, respectivamente. O desvio padro uma medida relativa, assim, s
a e
o
faz sentido armar que um desvio grande (ou pequeno) comparativamente ` outro. Nesse
e
a
exemplo, o desvio padro para expostas ao sol menor do que para ambiente de sombra.
a
e
Podemos dizer que, para expostas ao sol, a disperso dos valores em torno da mdia , em
a
e
e
mdia igual a 1,032 cm e, para ambiente de sombra, a disperso dos valores em torno da
e
a
mdia , em mdia igual a 1,376 cm.
e
e
e
Existe uma expresso mais geral para o clculo da varincia e desvio padro dada por:
a
a
a
a
s2 =

k
i=1 (xi

x)2 ni

,
n1

(2.8)

onde k o nmero de valores diferentes de xi ; ni a frequncia de ocorrncia do i-simo


e
u
e
e
e
e
valor. Para os dados de dimetro de roseta expostas ao sol, tambm podemos calcular a
a
e
varincia usando 2.8.
a
s2 =

(2 2, 37) + (1 1, 30) + (2 0, 29) + (2 0, 12) + ... + (2 3, 46)


= 1, 065 cm2 .
16 1

82

Em algumas situaes, como por exemplo, quando a populaao no muito grande,


co
c a e
e
prefer realizar o censo, isto , obter as informaes sobre todos os elementos, plantas,
vel
e
co
pessoas etc. que constituem esta populaao. Nesse caso temos a varincia populacional,
c
a
2
representada por , leia-se sigma ao quadrado, e calculada atravs da expresso:
e
e
a
2 =

N
i=1 (xi

)2

(2.9)

onde = N xi /N , a mdia obtida com todos os dados da populaao, N o tamanho da


e
e
c
e
i=1
populaao, isto , o nmero total de dados. Da mesma forma, o desvio padro populacional
c
e
u
a
obtido atravs da ra quadrada da varincia e representado por . Num estudo sobre a
e
e
z
a
e
consanguinidade na comunidade da Costa da Lagoa da Conceio foram levantados os dados
ca
de todos os moradores (populao).
ca
O coeciente de variao utilizado quando temos interesse em comparar variabilidades
ca e
em situaoes onde as mdias so muito diferentes ou as unidades de medida so diferentes.
c
e
a
a
Nesse caso, utilizamos o coeciente de variaao pois uma medida relativa percentual da
c
e
variabilidade dos dados em torno da mdia, isto ,
e
e
CV (%) =

s
100.
x

(2.10)

E uma medida de disperso relativa porque estabelece uma relaao entre o desvio padro
a
c
a
e a mdia. Sendo uma medida independente da unidade da varivel util para se estudar
e
a
e
comparativamente duas ou mais distribuies.
co
Exemplo. Os dois conjuntos de dados abaixo referem-se ao comprimento do corpo e
peso de fmeas de Penaeus paulensis (Crustacea, Decapoda, Penaidae), respectivamente,
e
obtidos nas despescas dos viveiros do Centro de Cincias Agrrias da Universidade Federal
e
a
de Santa Catarina. O comprimento do corpo dado em mm, enquanto que o peso dado
e
e
em g.
27
30
0,14
0,18

26 26
30 33

0,16
0,23

25 25
33 33

0,14 0,12
0,28 0,28

0,12
0,32

25 25
35 35

23 23
35 36

0,12 0,11
0,31 0,33

0,09
0,36

0,07
0,33

A mdia e o desvio padro para cada uma das amostras so: xC = 29, 1667 mm, yP =
e
a
a

0, 2050 g, sC = 4, 6305 mm e sP = 0, 0984 g. Assim, os coecientes de variaao valem:


c
cvC =

4,6305
29,1667

100 = 15, 88% cvP =

83

0,0984
0,2050

100 = 48, 00%.

Portanto, a variabilidade na varivel peso muito maior do que na varivel comprimento. A


a
e
a
variabilidade mais signicativa para peso. Observe que pelos valores dos desvios padres
e
o
a concluso seria diferente.
a
O coeciente de variao bastante utilizado em dinmica de populaes vegetais ou
ca e
a
co
animais. Outra aplicaao importante do coeciente de variao na estat
c
ca e
stica experimental,
pois ele indica a preciso do experimento, ou seja, a capacidade de realizarmos novamente
a
o experimento, sob as mesmas condioes, e produzir resultados semelhantes. Quais so os
c
a
valores de C.V. aceitveis na experimentaao? Em ensaios agr
a
c
colas de campo, para culturas
anuais como soja, milho e feijo e varivel rendimento de gros, temos a seguinte orientao:
a
a
a
ca
C.V. 10%
10% < C.V. 20%
20% < C.V. 30%
C.V. > 30%

baixo

mdio
e

alto
muito alto

Os valores dos coecientes de variaao dependem do tipo de pesquisa e varivel em estudo,


c
a
sendo assim, no existe um orientao geral, cada caso um caso.
a
ac
e
Para dados agrupados em classes (histograma), podemos calcular a varincia atravs das
a
e
seguintes expresses:
o
s2 =

k
i=1 (si

x)2 ni

n1

para dados amostrais

(2.11)

k
i=1 (si

)2 ni
para dados populacionais
(2.12)
N
onde: k o nmero de classes; si o ponto mdio da i-sima classe; ni o nmero de dados
e
u
e
e
e
e
u
observados na i-sima classe e N o tamanho da populaao. A unica alteraao das frmulas
e
e
c

c
o
anteriores a substituiao dos valores originais, xi , pelos pontos mdios, si .
e
c
e
Exemplo. para a distribuio de frequncias da tabela 2.24, que diz respeito aos rendica
e
mentos, em kg/ha, de h
bridos de milho, o valor da varincia dado por:
a
e
2

1
{[(4214, 5 5105, 0)2 1] + [(4697, 5 5105, 0)2 12] + [(5180, 5 5105, 0)2 13]
32 1
+ [(5663, 5 5105, 0)2 3] + [(6146, 5 5105, 0)2 3]}

s2 =

s2 = 227409, 74 (kg/ha)2 .
O desvio padro vale:
a

s = s2 = 476, 87 kg/ha.
Da mesma forma que a mdia aritmtica, a varincia uma medida de disperso, que
e
e
a
e
a
representa bem a realidade, quando os dados apresentam pelo menos aproximadamente uma

84

distribuio normal. Para distribuioes assimtricas, uma medida da variabilidade dada


ca
c
e
e
pelo desvio interquartlico, calculada por:

Q3 Q1 .
Exemplo. Para os valores de rendimento de gros, em kg/ha, de h
a
bridos de milho, o
valor do desvio interquart
lico 5348,2-4738,1=610,1. Temos que 50% dos valores encontrame
se no intervalo de 4738,1 a 5348,2.

A Mdia e o Desvio Padro Sob um Modelo Normal


e
a
Um caso importante acontece quando os dados numa distribuiao de freqncias, apc
ue
resentam o histograma com a forma de sino, esta distribuio comumunte chamada de
ca e
distribuio normal ou Gaussiana (Karl F. Gauss). Nessa distribuio sempre temos:
ca
ca
1. 68% dos dados esto compreendidos entre a mdia mais ou menos um desvio padro
a
e
a
( 1; + 1).
2. 95,4% dos dados esto compreendidos entre a mdia mais ou menos dois desvios padres
a
e
o
( 2; + 2).
3. 99,7% dos dados esto compreendidos entre a mdia mais ou menos trs desvios padres
a
e
e
o
( 3; + 3).
Esses resultados podem ser visualizados na gura 2.31.
Nos trabalhos cient
cos, bastante comum e aconselhvel, a representao dos dados
e
a
ca
na forma x s ou x(s). Isso indica, que sob normalidade dos dados, 68% dos dados esto

a
entre a mdia mais 1 desvio padro e a mdia menos 1 desvio padro. O responsvel pelos
e
a
e
a
a
dados (Agrnomo, Bilogo), deve avaliar se estes intervalos so amplos (pouco precisos), ou
o
o
a
no (precisos), para o fenmeno real em estudo.
a
o
Vimos a importncia de se identicar as observaoes discrepantes num conjunto de dados.
a
c
Numa distribuio aproximadamente normal, algum(ns) valor(es) maior(es) que x + 3s, ou,
ca

menor(es) que x 3s, so considerados valores discrepantes ou outliers. Para a amostra de

a
peso de fmeas de Penaeus paulensis encontramos x = 0, 2050 e s = 0, 0984. Temos que
e
x + 3s = 0, 2050 + 3(0, 0984) = 0, 5000 e x 3s = 0, 2050 3(0, 0984) = 0, 0902. Como na
amostra estudada no temos nem um valor acima de 0,50 conclu
a
mos, por este critrio, que
e
no existe valor discrepante.
a

Uma Regra Emp


rica para a Disperso
a

85

68%
95,5%

-3,50

-1,75

0,00

1,75

3,50

-3,50

(a) Aproximadamente 68% dos dados


esto entre
a

-1,75

0,00

1,75

3,50

(b) Aproximadamente 95,4% dos dados


esto entre 2
a

99,7%

-3,50

-1,75

0,00

1,75

3,50

(c) Aproximadamente 99,7% dos dados


esto entre 3
a

Figura 2.31: Distribuio dos dados, sob o modelo normal, de acordo com e .
ca

86

Existe uma regra emp


rica determinada por um matemtico russo chamado Tchebyshe,
a
que diz o seguinte: dado um nmero k > 1, e uma amostra de n observaoes, y1 , y2 , ..., yn
u
c
e
1
certo que pelo menos 1 k2 dessas observaes pertencero ao intervalo x ks e x + ks.
co
a

Esta regra importante, principalmente quando no se conhece a distribuiao dos dados.


e
a
c
Exemplo. O objetivo estudar o nmero de insetos de determinada espcie por rvore
e
u
e
a
de Pinus elliotti. Uma amostra de tamanho n = 16 rvores foi realizada e os resultados
a
foram:
0 2 5 1 6 3 3 2
4 0 7

8 4 5

6 3

A mdia e o desvio padro valem x = 3, 6875 e s = 2, 3866, respectivamente. Para k = 2


e
a

temos que pelo menos 75% das observaoes encontram-se no intervalo [0;8]. Vericando-se
c
os dados da amostra encontramos 100% das observaes nesse intervalo.
co
Exerc
cio resolvido
1. Utilizando os dados da tabela 2.33, calcule a mdia, a varincia, o desvio padro e o
e
a
a
coeciente de variaao para cada um dos tratamentos.
c
Sem rizbio
o
34,35
20,45
4,52
13,16%

20
i=1

x=

xi /20
s =
x)2 /(20 1)

s = s2
s
CV (%) = x .100

20
i=1 (xi

Com rizbio
o
43,3
19,91
4,46
10,30%

Utilizando a mdia e o desvio padro, como voc descreveria os dados do tratamento 1 e


e
a
e
do tratamento 2? ainda utilizando a mdia e o desvio padro, verique se existem dados
e
a
suspeitos e discrepantes, para o tratamento 1 e 2. Indique os clculos.
a
Descrio
ca
x 1s

Suspeitos
x 2s

Discrepantes
x 3s

Sem rizbio
o

34, 35 4, 52
[29,83;38,87]

34, 35 2(4, 52) 34, 35 3(4, 52)


[25,31;43,39]
[20,78;47,92]

Com rizbio
o

43, 3 4, 46
[38,84;47,76]

43, 3 2(4, 46)


[34,38;52,22]

43, 3 3(4, 46)


[29,92;56,68]

No tratamento 1 vericamos que o valor 25 suspeito, porm, no considerado dise


e
a e
crepante; no tratamento 2 vericamos que o valor 34 suspeito, porm, no discrepante.
e
e
a e
Calcule a mediana e os quartis para cada um dos tratamentos. Aplicando as denioes
c

87

Tabela 2.34: Distribuiao de frequncia da varivel altura de calos em cm, num per
c
e
a
odo de
30 dias in vitro da espcie Mandevilla velutina
e
Altura de calos Ponto mdio (si ) Frequncia absoluta (ni )
e
e
0,00
0,14
0,28
0,42
0,56
0,70

0,14
0,28
0,42
0,56
0,70
0,84

0,07
0,21
0,35
0,49
0,63
0,77

15
1
5
8
7
2

Total

38

encontramos:
Q1
Sem rizbio
o
Com rizbio
o

Md

Q3

31
40,5

34
44

37,5
46,5

2.2.2.1 Exerc
cios Propostos
1. A tabela de distribuio de frequncias 2.34 foi constru a partir dos dados da tabela
ca
e
da
2.31. Observe que a distribuio assimtrica. Calcular a mdia, varincia, desvio padro,
ca e
e
e
a
a
mediana e quartis da distribuio. Considere o conjunto 1 formado pela mdia e varincia,
ca
e
a
e o conjunto 2 formado pela mediana e quartis. Qual dos dois conjuntos voc recomendaria
e
para essa distribuiao?
c

88

Tabela 2.35: Produo de cana-de-aucar em t/ha


ca
c
Variedade 1 Variedade 2
65
68
75
76
77

78
80
80
82
86

88
89
90
91
92

93
95
96
97
97

99

Tabela 2.36: Peso de mexilhes em dois locais


o
Sambaqui
Manguezal
30,61
28,89
32,21
24,25
25,63

42,88
36,22
28,86
22,56
22,92

27,94
41,45
42,59
15,25
33,29

25,34
25,67
17,64
33,97
11,13

9,49
16,92
12,91
14,05
14,88

19,17
21,60
20,01
19,81
16,22

2. Para se estudar o comportamento de duas variedades de cana-de-aucar, realizou-se


c
um experimento onde foram obtidos os resultados descritos na tabela 2.35. Para decidir se
a produo mdia das duas variedades de cana-de-aucar so semelhantes ou no, adotou-se
ca
e
c
a
a
o seguinte teste:
x1 x2

t=
s

1
n1

1
n2

onde s =

(n1 1)s2 + (n2 1)s2


1
2
(n1 + n2 2)

(2.13)

Caso |t| < 2 as produes mdias so semelhantes, caso contrrio so diferentes. Qual a
co
e
a
a
a
e
sua concluso?
a
3. Na tabela 2.36 temos os resultados da varivel peso de carne, em gramas, de mexilhes
a
o
do Sambaqui e do Manguezal. a) calcule a mdia e a mediana para cada um dos locais. Onde
e
houve maior crescimento?
b) Calcule o Q1 e o Q3 para cada um dos locais. Explique o signicado destes nmeros.
u
c) Compare os dois locais quanto a homogeneidade (calcule uma medida de disperso e
a
conclua).
d) Calcule o coeciente de variao para cada local e interprete. A concluso a mesma do
ca
a e
item c? Qual das duas concluses a denitiva?.
o e
4. A tabela 2.37 apresenta uma amostra de valores de peso de mexilho do Sambaqui.
a
a) Construa o histograma. A distribuiao apresenta a forma do modelo normal? Justique.
c

89

Tabela 2.37: Distribuio de frequncias para peso de mexilhes da localidade de Sambaqui


ca
e
o
Peso
Frequncias Porcentagens
e
8 < peso 11
11 < peso 14
14 < peso 17
17 < peso 20
20 < peso 23
23 < peso 26
26 < peso 29
29 < peso 32
32 < peso 35
35 < peso 38

3
6
5
7
4
4
2
2
1
1

8,57
17,14
14,29
20,00
11,43
11,43
5,71
5,71
2,86
2,86

b) Localize a classe que contm o percentil de ordem 90 (P90 ). Interprete este valor.
e
c) Acima de que peso encontram-se 85% dos mexilhes (Calcule o P15 )?
o
2.2.3

O Uso da Mediana e dos Quartis na Interpretao de um Conjunto de


ca
Dados

O objetivo do uso da mediana e dos quartis obter informaoes sobre a forma, o valor
e
c
representativo, a disperso e os valores discrepantes da distribuiao dos dados observados.
a
c
Atravs destas estat
e
sticas poss obter-se todas as informaes relevantes de uma dise
vel
co
tribuio.
ca
Sabemos que a mdia e o desvio padro so afetados, de forma exagerada, por valores
e
a a
extremos (valores altos ou baixos), portanto no so medidas indicadas para distribuies
a a
co
assimtricas, pois no representam bem a realidade dos fatos. Alm disso, somente com a
e
a
e
mdia e o desvio padro no temos idia da forma como os dados se distribuem. A sugesto
e
a a
e
a
fazer uso das seguintes medidas:
e
i) Mediana.
ii) Os valores extremos (inferior e superior) do conjunto de dados.
iii) O 1 e 3 quartis.
Obtemos, ento, o que se denomina na literatura por esquema dos cinco nmeros ou esquema
a
u
extremos-e-quartis.

90

Tabela 2.38: Dados de crescimento do pseudobulbo de Laelia purpurata, Florianpolis, SC.


o
Luz Direta 1,6 1,6 1,9 1,9 2,1 2,1 2,1 2,1 2,1 2,4 2,5 2,5
2,7 3,4 3,4 3,7 3,9 4,2 4,8 6,3 6,5 7,2 8,8 9,4 9,5
Luz Indireta

1,4
6,3

1,9
6,5

2,8 3,1
6,7 6,7

3,5 3,5
6,8 6,9

3,6 3,9
8,1 8,6

4,3 4,5
10,4 12,7

4,6
16,3

4,8
16,8 16,9

Tabela 2.39: Clculo dos quartis e extremos para dados de crescimento do pseudobulbo de
a
Laelia purpurata
Md Q1 Q3 Ei Es Q1 1, 5(Q3 Q1 ) Q3 + 1, 5(Q3 Q1 )
Luz direta

2,7

2,1 4,8

1,6

9,5

-1,95

8,85

Luz indireta

6,3

3,6 8,1

1,4 16,9

-3,15

14,85

Exemplo: Foram tomadas duas amostras de tamanhos igual a 25, de crescimento do


pseudobulbo de Laelia purpurata, sob duas condioes de luminosidade (com luz direta e com
c
luz indireta). Os dados brutos esto apresentados na tabela 2.38. Os resultados dos clculos
a
a
da mediana e quartis so apresentados na tabela 2.39. Nesta tabela, as duas ultimas colunas
a

representam um critrio para identicar a presena de valores discrepantes, o qual passamos


e
c
a descrever.

Valores Discrepantes (em ingls: Outliers)


e
Com o uso dos quartis tambm poss vericar (detectar) se um ou mais valores da
e e
vel
distribuio dos dados so considerados valores discrepantes. Se algum valor for menor do
ca
a
que Q1 1, 5(Q3 Q1 ), ou maior do que Q3 + 1, 5(Q3 Q1 ), ento, esse valor considerado
a
e
outlier. Num conjunto de dados pode existir mais do que um valor discrepante. No exemplo,
esses limites so dados por: -1,95 e 8,85, para luz direta e, -3,15 e 14,85, para luz indireta,
a
respectivamente. Portanto, observa-se na tabela 2.38, que os valores 9,4 e 9,5 so consideraa
dos outliers para luz direta, e que os valores 16,3, 16,8 e 16,9, so considerados outliers para
a
luz indireta.
Uma justicativa para utilizarmos o valor 1,5 nas expresses anteriores (deixaremos a
o
prova para a seo 5.3.2), que a rea entre a curva normal e os pontos limites Q1
ca
e
a
1, 5(Q3 Q1 ) e Q3 + 1, 5(Q3 Q1 ) igual a 99,3%. Portanto, estamos considerando 0,7%
e

91

Valores discrepantes

99,3%

Valores discrepantes

Figura 2.32: Area (99,3%) entre os pontos limites na distribuiao normal. A rea no
c
a
a
achurada corresponde aos outliers

50% dos
dados

Q1 Mediana Q3

Ei

Es

Figura 2.33: Forma da distribuiao normal.


c
dos valores da distribuiao normal como sendo valores discrepantes ou outliers. A ilustraao
c
c
dada na gura 2.32.
e
Como vamos utilizar esses resultados para estudar a forma de uma distribuiao de dados?
c
Para uma distribuiao simtrica, em forma de sino, a chamada distribuiao normal, temos a
c
e
c
gura 2.33. Olhando-se para a gura 2.33, esperamos intuitivamente que:
1. (M d Ei ) (Es M d), ou seja, a disperso inferior aproximadamente igual a
a
e
=
disperso superior;
a
2. (M d Q1 ) (Q3 M d);
=
3. (Q1 Ei ) (Es Q3 );
=
4. As distncias entre a mediana e os quartis sejam menores do que as distncias entre os
a
a

92

18

Comprimento do pseudobulbo

16
14
12
10
8
6
4
2
0

Luz direta

Luz indireta

No Outlier Max
No Outlier Min
75%
25%
Mediana
Outliers

Condio

Figura 2.34: Desenho esquemtico para comprimento de pseudobulbos de Laelia purpurata


a
para luz direta e indireta.
extremos e os quartis, ou seja, (M d Q1 ) e (Q3 M d) sejam menores do que (Q1 Ei )
e (Es Q3 ).
2.2.4

Desenho Esquemtico (em ingls leia-se Box Plot)


a
e

As informaes obtidas na seao anterior podem ser representadas gracamente num


co
c
desenho esquemtico, como ilustrado na gura 2.34. Os programas estat
a
sticos de l
ngua
inglesa trazem esta gura com o nome de box-plot. A seguir faremos comentrios sobre a
a
construo e interpretao do desenho esquemtico da gura 2.34.
ca
ca
a
O primeiro passao constru
e
rmos o eixo e a escala para a varivel resposta; no exemplo,
a
para a varivel comprimento do pseudobulbo, foi feita uma escala de 0 a 18 cm, com intervalos
a
de 2 cm. O desenho esquemtico fornece uma medida de posio central dos dados atravs
a
ca
e
da mediana. As medianas valem 2,7 cm e 6,3 cm, para luz direta e indireta, respectivamente,
indicando que o crescimento de pseudobulbos maior para luz indireta. Observe, na legenda
e
da gura 2.34, que as medianas esto representadas por quadradinhos vazios dentro das
a
caixas (retngulos). O desenho esquemtico, tambm, d uma idia da disperso, ou
a
a
e
a
e
a
contrariamente, da concentraao dos valores, atravs do intervalo interquart
c
e
lico (Q3 Q1 ).
Os desvios interquart
licos valem 2,7 cm e 4,5 cm, para luz direta e indireta, respectivamente,
indicando que o crescimento de pseudobulbos mais disperso para luz indireta. Observe,
e
na legenda da gura, que o desvio interquart
lico contm 50% das observaes, na faixa de
e
co

93

Extremos-e-quartis e a disperso de uma distribuio


a
ca

Ei

Q1

Md

Q3

Es

Ei

(a) Menor disperso do que 2.35(b)


a

Q1

Md

Q3

Es

(b) Maior disperso do que 2.35(a)


a

Figura 2.35: Em distribuies dispersas os valores dos quartis e extremos cam mais afastaco
dos da mediana
25% (Q1 ) a 75% (Q3 ) e representado gracamente por uma caixa. Os comprimentos
e
das caudas so dados pelas linhas cont
a
nuas que vo da caixa (retngulo) aos valores mais
a
a
afastados que no sejam outliers. Observe na tabela 2.39 que os extremos superiores cam
a
iguais a 8,8 e 12,7, para luz direta e indireta, respectivamente, ou seja, os extremos inferiores
e superiores so os menores e os maiores valores da distribuiao, desde que no sejam outliers.
a
c
a
Os outliers esto representados por pequenos c
a
rculos vazios e observa-se na gura 2.34 a
presena dos mesmos em ambos os ambientes. No se observa valores discrepantes para os
c
a
valores inferiores das distribuioes.
c
Nas guras 2.35 e 2.36 temos o comportamento dos quartis e mediana quanto a disperso
a
e a assimetria. As posioes relativas dos Q1 , Q3 e M d do uma idia da assimetria da
c
a
e
distribuio. No nosso exemplo, a distribuio com luz direta mais assimtrica do que com
ca
ca
e
e
luz indireta. Observe na gura 2.37 como ca o desenho esquemtico para uma distribuio
a
ca
normal. Podemos ver claramente que a amostra para luz direta no originria de uma
a e
a
populaao com distribuiao normal; mesma concluso para luz indireta.
c
c
a
Exerc
cios resolvidos
1. Construir o desenho esquemtico para a varivel rendimento de gros em kg/ha da
a
a
a
tabela 2.1. Os valores da mediana e dos quartis foram calculados considerando os dados
individualmente, isto , no so agrupados em classes e aparecem na legenda da gura
e a a
2.38. Encontre estes valores. Este desenho esquemtico foi feito no programa Statistica.
a
Obtenha informaoes relevantes sobre a varivel em estudo. Voc saberia fazer esta gura
c
a
e
na mo? O rendimento mdio 4986,5 kg/ha. O desvio interquart
a
e
e
lico vale 493,5 kg/ha.

94

Extremos-e-quartis e a assimetria de uma distribuio


ca

E1

Q1

Md

Q3

E1

Es

Q1

(a) Assimetria ` direita


a

Md

Q3

Es

(b) Assimetria ` esquerda


a

Figura 2.36: Em distribuioes assimtricas a distncia entre a Md e Q1 ou Ei diferente da


c
e
a
e
distncia entre Md e Q3 ou Es
a

Ei

Q1

Md

Q3

Es

Figura 2.37: Desenho esquemtico para uma distribuio normal.


a
ca

95

Box Plot
6600
6200
5800
5400
5000
4600

Non-Outlier Max = 58
Non-Outlier Min = 45

4200

75% = 5216
25% = 4722,5
Median = 4986,5

3800

Outliers

RENDIMENTO

Figura 2.38: Desenho esquemtico para rendimento de gros.


a
a
7

Total de hemcitos

6
5
4
3
2
1

Cultivo

Mangue

Non-Outlier Max
Non-Outlier Min
75%
25%
Mediana
Outliers
Extremos

Local

Figura 2.39: Desenho esquemtico para nmero total de hemcitos em dois locais.
a
u
o
So observados 4 valores discrepantes, um h
a
brido com produao aqum dos demais e, 3
c
e
h
bridos com produes acima dos demais. A distribuio assimtrica ` direita, portanto,
co
ca e
e
a
no segue uma distribuiao normal.
a
c
2. Na gura 2.39 representa-se duas distribuioes de freqncias, uma para local Cultivo e
c
ue
outra para Mangue. Os resultados referem-se a varivel nmero total de hemcitos no bivalve
a
u
o
Crossostrea rhizophorae coletados em ambiente de cultivo e mangue. Descreva e compare as
principais informaoes (valor t
c
pico, simetria, disperso, outliers) das duas distribuioes.
a
c
O nmero total mediano de hemcitos nos dois locais praticamente o mesmo e, em
u
o
e
torno de 2, 5.103 /mm3 . As duas distribuioes so assimtricas. No mangue, a distribuio
c
a
e
ca
apresenta valores discrepantes.

96

Tabela 2.40: Produao de cana-de-aucar em toneladas por hectare


c
c
Variedade 1 65 68 75 76 77
78 80 80 82 86
Variedade 2

88 89
93 95
99

90 91
96 97

92
97

Tabela 2.41: Tamanho de pec


olos de Hydrocotille sp

Area umida

Area seca
13,8
14,3
14,5
15,0
15,0
15,5
15,5
15,5
15,6

15,6
15,8
15,8
15,8
15,8
16,0
16,0
16,0
16,1

16,1
16,3
16,3
16,3
16,3
16,5
16,5
16,6
16,6

16,6
16,8
16,8
16,9
17,0
17,0
17,2
17,4

7,3
7,6
7,8
7,8
8,0
8,2
8,2
8,3
8,3

8,4
8,4
8,4
8,6
8,6
8,6
8,6
9,0
9,0

9,0
9,0
9,3
9,3
9,3
9,6
9,6
9,8
9,8

10,4
10,4
10,9
10,9
11,7
11,7
12,0

2.2.4.1 Exerc
cios Propostos
1. Para se estudar o comportamento de duas variedades de cana-de-aucar, realizou-se
c
um experimento onde foram obtidos os resultados indicados na tabela 2.40.
a) Calcular a M d, Q1 , Q3 , Q3 Q1 , Q1 1, 5(Q3 Q1 ) e Q3 + 1, 5(Q3 Q1 ) para cada uma
das variedades.
b) Faa o desenho esquemtico mltiplo para os dados das variedades 1 e 2.
c
a
u
c) Compare os dois conjuntos de dados atravs do desenho do item b).
e
2. Para se estudar o comportamento de uma planta t
pica de dunas, a Hydrocotille sp,
quanto ao seu desenvolvimento, mediu-se o tamanho do pec (cm), em duas reas: seca e
olo
a
umida. Selecionou-se de cada uma dessas reas, amostras aleatrias de plantas e mediu-se o

a
o
tamanho dos pec
olos. Os dados so dados na tabela 2.41.
a
a) Calcular a M d, Q1 , Q3 , Q3 Q1 , Q1 1, 5(Q3 Q1 ) e Q3 + 1, 5(Q3 Q1 ) para cada uma
das variedades.
b) Faa o desenho esquemtico mltiplo para os dados das reas seca e umida.
c
a
u
a

c) Compare os dois conjuntos de dados, quanto as principais caracter


sticas, atravs do
e
desenho do item b).

97

Tabela 2.42: Dados de produao de matria seca e radiao fotossinttica ativa


c
e
ca
e
Produo
ca

10 60 110

160

220 280

340 400

460

520

Radiao
ca

18 55 190

300

410 460

570 770

815

965

3. Verique, construindo os desenhos esquemticos para os dados da tabela 2.36, se


a
existem valores discrepantes. Obs. utilize os clculos j realizados neste exerc
a
a
cio.
2.2.5

Coeciente de Correlao
ca

E comum na prtica o interesse em se analisar o comportamento conjunto de duas ou mais


a
variveis quantitativas. Nessa seao trataremos do estudo de correlaao entre duas variveis
a
c
c
a
quantitativas, porm, a generalizao para mais de duas variveis poss
e
ca
a
e
vel. Vamos pensar
que estamos interessados em obter uma medida estat
stica que indique se existe ou no
a
relao entre duas variveis, qual a magnitude e o sinal dessa relaao. Muitas vezes estamos
ca
a
c
interessados em obter uma medida estat
stica que indique a fora da relao linear entre
c
ca
duas variveis quantitativas X e Y. Por exemplo, queremos vericar se existe correlao
a
ca
entre doses de nitrognio e a produo de milho. Uma medida de correlao linear muito
e
ca
ca
utilizada na prtica o coeciente de correlao de Pearson.
a
e
ca

Diagrama de Disperso
a
Um primeiro passo para vericar se existe correlao entre duas variveis quantitativas
ca
a
e
construir um grco de disperso, que nada mais do que a representaao grca dos pares
a
a
e
c
a
de valores num sistema cartesiano. No eixo das abcissas colocamos a varivel X e no eixo
a
das ordenadas a varivel Y.
a
Exemplo. Considere os dados referentes ` produo de matria seca de uma planta (Y)
a
ca
e
e a quantidade de radiaao fotossinttica ativa (X). Os dados obtidos experimentalmente so
c
e
a
apresentados na tabela 2.42.
O diagrama de disperso mostrado na gura 2.40. Atravs da pura observaao da
a e
e
c
distribuio dos pontos, conclu
ca
mos que existe uma dependncia entre as variveis produao
e
a
c
(Y) e radiao (X), porque no conjunto das observaes, a medida que aumenta a radiaao
ca
co
c
fotossinttica, tambm aumenta a produao de matria seca. Em termos prticos, isso
e
e
c
e
a

98

600

Produo (g/m

2)

500
400
300
200
100
0

200

400

600

800

Radiao fotossinttica (W/m

1000

2)

Figura 2.40: Diagrama de dispero das varivies produao e radiaao fotossinttica


a
a
c
c
e
0,56
0,52

Radiao (%)

0,48
0,44
0,40
0,36
0,32
0,28
0,1

0,3

0,5

0,7

0,9

1,1

1,3

Espaamento (m)

Figura 2.41: Diagrama de dispero das varivies radiao e espaamento


a
a
ca
c
signica que conhecendo-se a quantidade de radiaao ajuda a prever a produao de matria
c
c
e
seca.
Exemplo. Deseja-se saber se existe correlaao entre o espaamento das linhas na cultura
c
c
da soja (X) e a frao da radiaao solar extinta pela planta (Y). Para atender a esse objetivo
ca
c
foram coletados pares de valores das duas variveis. Os resultados otidos foram:
a
Radiaao
c

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1,1

Espaamento
c

0,53

0,51 0,48

0,45

0,44 0,41

0,40

0,39 0,36

0,30

Observando-se o grco 2.41 vericamos uma dependncia inversa entre espaamento


a
e
c
e radiao, ou seja, aumentando-se o espaamento entre linhas ocorre uma diminuiao na
ca
c
c

99

Tabela 2.43: Valores de salinidade (g/l) e temperatura para a regio III da Lagoa da Cona
ceio
ca
Estao Temperatura (Y) Salinidade (X)
ca
23
23A
24
25
26
27
27A
28

24,0
23,0
23,0
26,0
25,5
25,0
24,3
23,0

3,85
9,61
2,26
2,06
2,89
9,61
10,58
11,40

26,5
26,0

Temperatura

25,5
25,0
24,5
24,0
23,5
23,0
22,5

11

13

Salinidade

Figura 2.42: Diagrama de dispero das varivies salinidade e temperatura


a
a
frao da radiao solar extinta pela planta.
ca
ca
Exemplo. Uma pesquisadora esta interessada em vericar se existe dependncia entre
e
a salinidade (g/l) e a temperatura para a regio III da Lagoa da Conceiao. Os dados esto
a
c
a
descritos na tabela 2.43.
O diagrama de disperso mostrado na gura 2.42. Olhando-se para o grco 2.42, no
a e
a
a
observamos um relacionamento linear entre a salinidade e a temperatura, ou seja, os resultados no indicam que aumentando-se a salinidade existe uma diminuo ou um aumento
a
ca
da temperatura.

O Coeciente de Correlao
ca
O coeciente de correlaao, representado pela letra r, utilizado para quanticar a
c
e

100

Y
r>0

Figura 2.43: Correlao positiva


ca
associaao entre duas variveis quantitativas. Indica o quanto a nuvem de pontos aproximac
a
se de uma reta. Salientamos que duas variveis podem apresentar uma associaao, por
a
c
exemplo, curvil
nea, ao invs de linear. Neste curso trataremos somente de associaao linear
e
c
entre duas variveis. O coeciente de correlaao, (r), uma medida estat
a
c
e
stica que assume
valores entre
1 r 1,
onde r = 1 indica uma relao linear inversa perfeita e, r = 1 indica uma relaao positiva
ca
c
perfeita entre as variveis. Quando o valor de r for igual a zero, signica que no existe
a
a
associaao entre as variveis.
c
a
Considere a gura 2.43. Aqui, atravs de uma transformaao, a origem foi transportada
e
c
para o centro da nuvem de pontos, ento, a origem do sistema dado pelo par (, y ).
a
e
x
Tecnicamente foi feita uma translocaao de eixos. Notamos que a grande maioria dos pontos
c
o
o
esto situados no 1 e 3 quadrantes. Nesses quadrantes as coordenadas tm o mesmo sinal
a
e
e, portanto, o produto ser sempre positivo. Assim, se para cada ponto zermos o produto
a
de suas coordenadas e somarmos esses produtos, o resultado ser um nmero positivo, pois
a
u
existem mais produtos positivos do que negativos. Portanto, r > 0. Isto signica uma
associaao positiva entre as variveis.
c
a
Para a disperso da gura 2.44 a soma dos produtos das coordenadas na maioria
a
e
negativa. Isto acarreta um r < 0, portanto, caracterizando uma relaao negativa (uma
c

101

Y
r<0

Figura 2.44: Correlao negativa


ca
cresce enquanto a outra decresce) entre as variveis .
a
Para a disperso da gura 2.45 a soma dos produtos das coordenadas ser prxima de
a
a o
0, indicando que no existe associao entre as variveis.
zero. Portanto, r =
a
ca
a
a
c
e
Exemplo. Considere os dados referentes ` produao de matria seca de uma planta
(Y) e a quantidade de radiaao fotossinttica ativa (X), mostrados na tabela 2.42 e, que,
c
e
desejamos saber se existe associao entre a produo e a radiao e qual a grandeza desta
ca
ca
ca
associaao. Pela gura 2.40 percebe-se um relacionamento linear entre elas, agora, desejamos
c
quantica-lo atravs do clculo do coeciente de correlaao, o qual passamos a fazer passo a
e
a
c
passo. Inicialmente, precisamos fazer a mudana de origem do sistema para o ponto (, y ),
c
x
onde x = 455, 30 e y = 256, 00. Os resultados encontram-se nas colunas 4 e 5 da tabela
2.44. Existe, ainda, um problema quanto ` escala usada. A varivel X, dada em g/m2 ,
a
a
e
2
e Y , dada em W/m , como X tem maior disperso, o produto car mais afetado pelos
e
a
a
resultados de X do que de Y . Para corrigir isso, podemos reduzir as duas variveis para
a
uma mesma escala, isso obtido dividindo-se os desvios pelos respectivos desvios padres
e
o
das variveis, onde: X = 308, 1263 e Y = 164, 4506. Observe que so os desvios padres
a
a
o
populacionais. Esses novos valores esto nas colunas 6 e 7 da tabela 2.44. Na ultima coluna
a

da tabela, indica-se os produtos das variveis padronizadas; a soma dos mesmos, cujo valor
a
igual a 9,953 que, como espervamos, positiva. Para completar o clculo do coeciente
e
a
e
a
de correlaao basta dividir 9,953 pelo nmero de pares de valores (mdia), cujo valor igual
c
u
e
e

102

Y
r=0

Figura 2.45: Correlaao nula


c
a:

9, 953
= 0, 9953.
10
Portanto, para esse exemplo, o grau de associaao linear est quanticada em 0,9953. Indic
a
cando uma relaao linear muito forte positiva entre as duas variveis.
c
a
Uma frmula prtica para o clculo do coeciente de correlao dada por:
o
a
a
ca e
Correlao(X,Y) =
ca

Corr(X, Y ) =

n(
n(

xy) (

x2 ) (

x)2

x
n(

y)
y2) (

y)2

(2.14)

Exemplo. Vamos considerar os dados de produao de matria seca e a quantidade de


c
e
radiao fotossinttica para mostrar os clculos da estat
ca
e
a
stica 2.14. Os clculos intermedirios
a
a
esto desenvolvidos na tabela 2.45. O valor do coeciente de correlaao por 2.14 :
a
c
e
Corr(X, Y ) =

10(1669880) (4553)(2560)
10(3022399)

45532

10(925800)

25602

5043120
= 0, 9953.
5067155, 33

2.2.5.1 Exerc
cios propostos
1. A tabela 2.46 apresenta os valores de condutividade (mho) e salinidade (g/l) para a
regio III da Lagoa da Conceiao.
a
c
a) Construir o grco de disperso. Conclua sobre a dependncia entre as variveis X e Y.
a
a
e
a
b) Quantique a dependncia entre X e Y atravs do coeciente de correlaao. Existe uma
e
e
c
dependncia forte, mdia ou fraca?
e
e

103

Tabela 2.44: Etapas intermedirias para o clculo do coeciente de correlao


a
a
ca
Observaao x
c
y (x x) (y y ) Zx = (x x)/x Zy = (y y )/y Zx Zy

1
2
3
4
5
6
7
8
9
10

18
55
190
300
410
460
570
770
815
965

10
60
110
160
220
280
340
400
460
520

-437,3
-400,3
-265,3
-155,3
-45,3
4,7
114,7
314,7
359,7
509,7

-246,0
-196,0
-146,0
-96,0
-36,0
24,0
84,0
144,0
204,0
264,0

-1,419
-1,299
-0,861
-0,504
-0,147
0,015
0,372
1,021
1,167
1,654

-1,496
-1,192
-0,888
-0,584
-0,219
0,146
0,511
0,876
1,240
1,605

2,123
1,548
0,764
0,294
0,032
0,002
0,190
0,894
1,448
2,656

Tabela 2.45: Etapas intermedirias para o clculo do coeciente de correlao (frmula


a
a
ca
o
operacional)
Observaao
c
x
y
x2
y2
xy
1
2
3
4
5
6
7
8
9
10

18
55
190
300
410
460
570
770
815
965

10
60
110
160
220
280
340
400
460
520

324
3025
36100
90000
168100
211600
324900
592900
664225
931225

100
3600
12100
25600
48400
78400
115600
160000
211600
270400

180
3300
20900
48000
90200
128800
193800
308000
374900
501800

Totais

4553

2560

3022399

925800

1669880

104

Tabela 2.46: Valores de condutividade (mho) e salinidade (g/l) para a regio III da Lagoa
a
da Conceiao
c
Estao Condutividade (Y) Salinidade (X)
ca
23
24
25
26
27
28

19,92
11,78
14,11
16,10
36,52
51,46

Tabela 2.47: Notas mdias de


e
Sesso
a
Tempo de
de
estocagem (dias)
avaliaao
c
x
1
2
3
4
5
6

9
14
22
29
36
43

3,85
2,26
2,06
2,89
9,61
11,40
aroma de caf torrado e mo
e
do
Resultado mdio da equipe de
e
provadores para cada amostra
y1 y2
y3
4,8
4,0
3,7
3,2
3,7
2,5

4,7
4,7
3,7
3,5
3,0
2,8

4,7
4,8
3,5
3,2
3,3
2,7

2. Um estudo de vida de prateleira do caf torrado e mo foi realizado. Os testes


e
do
o
sensoriais foram iniciados a partir do 9 dia de estocagem e depois a intervalos de mais ou
menos 7 dias. Em cada poca de avaliaao sensorial trs amostras (pacotes) foram obtidas
e
c
e
ao acaso. Seis provadores treinados avaliaram as trs amostras simultaneamente, julgando
e
o produto quanto ao aroma em uma escala descritiva de 1 a 6 pontos: 6 = excelente; 5 =
bom; 4 = aceitvel; 3 = pouco aceitvel; 2 = inaceitvel e 1 = no beb
a
a
a
a
vel. Os resultados
obtidos so dados na tabela 2.47.
a
a) faa o diagrama de disperso entre as variveis tempo e mdia de aroma;
c
a
a
e
b) calcule o coeciente de correlao entre as duas variveis e faa uma concluso.
ca
a
c
a
2.2.6

Ajuste da Equao de uma Reta


ca

O coeciente de correlaao d um nmero que resume o grau de relacionamento linear


c a
u

105

entre duas variveis, por exemplo, r = 0, 90; o ajuste de um modelo linear simples tem como
a
resultado uma equao matemtica que descreve esse relacionamento. A partir do momento
ca
a
que temos um modelo ajustado, o conjunto de dados passa a ser representado atravs deste.
e
Vamos procurar estabelecer uma equao matemtica linear, isto , ajustar a equaao de
ca
a
e
c
uma reta para descrever o relacionamento entre duas variveis. Olhando-se para a gura
a
2.40, observa-se que existe uma relaao linear positiva entre as variveis produao (Y ) e
c
a
c
radiao (X), portanto, podemos ajustar a equaao de uma reta aos dados. As variveis Y
ca
c
a
e X so tambm denominadas de variveis dependentes e independentes, respectivamente.
a
e
a
Utilizaao:
c
1. Temos duas variveis que medem aproximadamente a mesma coisa, mas uma delas
a
e
relativamente dispendiosa, ou dif de lidar, enquanto que a outra no. Por exemcil
a
plo, a resistncia e a dureza de um material podem estar relacionadas, de modo que
e
conhecendo-se a dureza podemos estimar a resistncia. Se o teste de resistncia destroi
e
e
o material, enquanto que o teste de dureza no o destroi, uma pessoa interessada em
a
estimar a resistncia, obviamente preferir conar nos resultados do teste de dureza
e
a
para estimar a resistncia. A nalidade de uma equao de regresso seria ento estie
ca
a
a
mar valores de uma varivel, com base em valores conhecidos da outra. Esse estudo
a
tambm conhecido como calibrao da equao de regresso.
e e
ca
ca
a
ca
co
a e
a
2. Outra aplicao das equaes de regresso explicar valores de uma varivel em termos
da outra. Isto , podemos suspeitar de uma relaao de causa e efeito entre duas
e
c
variveis. Por exemplo, quantidade de fertilizante e produao de trigo.
a
c
a
c
3. Predizer valores futuros de uma varivel. Por exemplo, predizer produoes futuras.

A Equao da Reta
ca
Uma reta dada pela equao matemtica:
e
ca
a
yi = + xi
onde o parmetro representa o ponto onde a reta corta o eixo dos y e o parmetro o
a
a
e
coeciente angular, ou ainda, o quanto varia a mdia de y para o aumento de uma unidade
e
da varivel x. Esses parmetros esto representados na gura 2.46. Por exemplo, a reta
a
a
a
estimada por,
yi = 5 + 3xi

106

yi = + xi

x=1

y
x

x+1

Figura 2.46: Interpretaao dos parmetros da equaao de uma reta


c
a
c
intercepta o eixo das ordenadas no ponto em que y = 5; o coeciente angular da reta vale 3,
o que signica que a cada unidade de variao de x, correspondem 3 unidades de variaao
ca
c
de y. Dando alguns valores para x, podemos resolver a equao para obter os valores de y
ca

(leia-se y chapu e representa os valores estimados da varivel Y ).


e
a
Valores de xi

y = 5 + 3xi

2,0
3,0
5,0

11
14
20

Devemos, atravs de um mtodo adequado, estimar os parmetros e .


e
e
a

Estimativas dos Parmetros e


a
A idia bsica na estimativa da parte funcional do modelo, + xi , encontrar a reta
e
a
e
que passa o mais prximo poss
o
vel de todos os pontos observados. Representaremos esta
reta por:
y = a + bx

e a denominaremos de reta estimada pelos dados. Um critrio conhecido como mtodo dos
e
e
m
nimos quadrados, fornece as seguintes expresses para as estimativas dos parmetros da
o
a
equao:
ca
b =

n(

xy) ( x)( y)
n( x2 ) ( x)2

107

Tabela 2.48: Clculos intermedirios para a estimao dos parmetros


a
a
ca
a
Dados

clculos intermedirios
a
a
xy

x2

10
60
110
160
220
280
340
400
460
520

180
3300
20900
48000
90200
128800
193800
308000
374900
501800

324
3025
36100
90000
168100
211600
324900
592900
664225
931225

2560

1669880

3022399

18
55
190
300
410
460
570
770
815
965
4553

yb x
n
onde n o nmero de pares (x, y) observados (tamanho da amostra).
e
u
Exemplo. Ilustraremos a obtenao da equaao da reta com as observaoes de produao
c
c
c
c
(Y ) e radiaao (X) (descritos anteriormente). A tabela 2.48 apresenta os dados originais e
c
os clculos intermedirios para se encontrar as estimativas dos parmetros. Encontramos:
a
a
a
a =

10(1669880) (4553)(2560)
= 0, 5312;
10(3022399) (4553)2
2560 0, 5312(4553)
a =
= 14, 1537.
10
A equaao da reta estimada com base nos dados da amostra ca:
c
b =

yi = 14, 154 + 0, 531xi .

Os valores observados, juntamente com a equaao estimada da reta esto na gura 2.47.
c
a
Como era esperado, observa-se um bom ajuste da equaao da reta aos dados observados.
c
A distncia de cada um dos valores observados at a equao da reta chamada de desvio
a
e
ca
e
ou res
duo e so representados por ei . O clculo dos desvios dado por:
a
a
e
e i = yi yi .

108

y=14,154+0,531*x+eps
650
550

produo

450
350
250
150
50
-50
-100

100

300

500

700

900

1100

radiao

Figura 2.47: Reta ajustada aos dados observados


Por exemplo, o primeiro res
duo dado por:
e
e1 = 10 (14, 154 + 0, 531 18) = 10 23, 71 = 13, 71.
Para todos os dados de produao e radiaao, dados na tabela 2.48, os valores ajustados
c
c
e os res
duos so dados por:
a
Valores estimados

Desvios ou res
duos

23,71
43,37
115,08
173,51
231,94
258,50
319,93
423,16
447,07
526,74

-13,71
16,63
-5,08
-13,51
-11,94
21,50
23,07
-23,16
12,93
-6,74

O grco dos valores ajustados versus os res


a
duos dado na gura 2.48. O padro
e
a
esperado que os pontos estejam alatoriamente distribu
e
dos em torno do valor zero. Se
ocorrer este padro, dizemos que o modelo adequado para representar os nossos dados.
a
e
Observamos na gura 2.48 que os pontos encontram-se distribu
dos ao acaso em torno do

109

30
20

Residuos

10
0
-10
-20
-30
-50

50

150

250

350

450

550

650

Valores estimados

Figura 2.48: Grco dos valores ajustados versus res


a
duos
valor zero, portanto, o modelo linear simples (equao da reta), pode ser utilizado para
ca
os dados amostrados. Num outro caso, se o padro de distribuiao fosse curvil
a
c
neo, um

c
polinmio de 2 grau seria o indicado. Assim, podemos querer estimar (avaliar) a produao
o
para um valor de radiao igual a 100. Este valor obtido fazendo-se:
ca
e
yi = 14, 154 + 0, 531 100 = 67, 254.

2.2.6.1 Exerc
cios propostos
1. a) Obtenha a equaao da reta para os dados da tabela 2.46, isto , para condutividade
c
e
(Y ) e salinidade (X).
b) De acordo com esta funao, quais seriam os valores estimados () para os valores de x da
c
y
tabela 2.46.
c) O que voc acha da discrepncia entre os valores observados e estimados (y y )?
e
a

d) Encontre o valor estimado (), para salinidade igual a 5,0.


y
2. a) Encontre a equaao da reta para os dados da tabela 2.47, ou seja, a equao do
c
ca
tempo de estocagem (Y ) sobre o aroma.
b) Voc considera que esta equao est explicando bastante da relaao entre tempo de
e
ca
a
c
estocagem e aroma?
c) Faa o grco dos res
c
a
duos versus valores ajustados. Existe algum padro na distribuiao?
a
c
3. (Albert et.al. 1999, pgina 173 e 708). A curva mostrada na gura 2.49 descrita
a
e
pela equaao:
c
velocidade = Vmax [S/(S + KM )]
(2.15)

110

Taxa de transporte (mmol/min)

220
180
140
100
60
20
-20

10

Concentrao de soluto (mm)

Figura 2.49: Cintica enzimtica


e
a
a qual chamada de equaao de Michaelis-Menten. A velocidade da reao enzimtica (V)
e
c
ca
a
aumenta ` medida que a concentrao do substrato (S) aumentada, at que um valor
a
ca
e
e
mximo (Vmax ) atingido. Para a maioria das enzimas, a concentrao de substrato na qual
a
e
ca
a velocidade da reao metade da mxima fornece uma medida direta da fora de ligao
ca e
a
c
ca
do substrato ` enzima (KM ).
a
Para o transporte de acetado mediado por prote carreadora, a relaao entre concenna
c
trao, S, e taxa de transporte, V , pode ser descrita pela equao 2.15, que descreve reaoes
ca
ca
c
enzimticas simples:
a
T axa de transporte = Vmax S/(S + KM )
(2.16)
Desejamos, atravs do ajuste da equaao de regresso, estimar os parmetros Vmax e KM .
e
c
a
a
Para facilitar a obteno dos mesmos, fazemos uma transformaao na equaao 2.16, de tal
ca
c
c
forma que, os dados possam ser dispostos como uma linha reta. Fazendo-se a transformao
ca
inversa, temos:
1/taxa = (KM /Vmax )(1/S) + 1/Vmax .
(2.17)
Portanto, temos a equao de uma reta: y = + x, onde: y = 1/V , x = 1/S, = 1/Vmax
ca
e = KM /Vmax . Para os dados da tabela 2.49, encontre as estimativas dos parmetros
a
Vmax e KM , ajustando a equaao de uma reta .Conhecendo-se os valores de Vmax e KM voc
c
e
pode calcular as taxas de transporte para as concentraes de 0,5 mM e 100 mM de acetato
co
usando a equaao 2.16. Encontre estes valores.
c

111

Tabela 2.49: Valores de concentraao (S) e taxa de transporte (V)


c
S
V 1/S
1/V
0,1
0,3
1,0
3,0
10,0

18 10,0
46 3,3
100 1,0
150 0,33
182 0,1

0,056
0,022
0,01
0,0067
0,0055

Modelos de Probabilidades para Experimentos Simples

3.1

Introduo
ca

O importante estudo de probabilidade anterior aos anos de 1500, sculo XVI. Nessa
e
e
poca , as aplicaoes eram dirigidas aos jogos de azar. Pessoas se utilizavam do conhecimento
e
c
da teoria das probabilidades para planejar estratgias de apostas. Conta-se que um senhor
e
conhecido como Cavaleiro de Mer, amigo do francs Pascal (1610), e grande apreciador
e
e
de jogos, solicitava ao mesmo, que calculasse suas chances de ganho.
No entanto, somente no sculo XX, que o clculo de probabilidade teve um desenvolvie
e
a
mento bastante grande, e baseado numa teoria matemtica atravs de axiomas (condioes)
a
e
c
rigorosos, denioes e teoremas.
c
A probabilidade um ramo da matemtica cuja grande aplicaao na estat
e
a
c e
stica, como
veremos a seguir. At o presente momento do nosso curso de estat
e
stica, estudamos, de
forma emp
rica, isto , sem uma justicativa cient
e
ca (s descrevendo e no explicando), o
o
a
comportamento dos fenmenos, eventos da natureza, atravs da construo das distribuies
o
e
ca
co
de frequncias. Aqui, temos especial interesse em experincias aleatrias, casuais, ou seja,
e
e
o
devemos realizar o experimento para saber qual ser o resultado. Por exemplo, no poss
a
a e
vel
saber qual ser a produo por hectare de uma linhagem X de feijo, se este no for plana
ca
a
a
tado, colhido e mensurado. Outros exemplos de experimentos aleatrios: 1) germinaao de
o
c
sementes; 2) sobrevivncia de enxertos; 3) nmero de microncleos/3000 clulas; 4) nmero
e
u
u
e
u
de plantas numa determinada rea.
a

112

Experimentos aleatrios: quando repete-se o experimento, em condioes mais


o
c
prximas poss
o
veis, do resultados geralmente diferentes.
a
Vericando-se os fenmenos aleatrios na natureza, construindo as suas distribuioes de
o
o
c
freqncias (conhecimento emp
ue
rico), e com o surgimento da teoria da probabilidade, foi
poss matematizar a natureza, isto , criar modelos probabil
vel
e
sticos (distribuies de probco
abilidades) que representam muito bem os fenmenos da natureza. Com isso, poss
o
e
vel,
fazendo-se algumas suposioes adequadas (hipteses, conjecturas) e sem a necessidade de se
c
o
observar diretamente o fenmeno, estabelecer distribuioes de probabilidades que represeno
c
tam muito bem as distribuioes de freqncias, quando o fenmeno observado diretamente.
c
ue
o
e
Esses modelos probabil
sticos so considerados hoje a espinha dorsal da estat
a
stica, pois,
como veremos, todos os procedimentos inferenciais (amostra populaao), so aplicaoes
c
a
c
de probabilidade. Vamos ilustrar a construao de modelos probabil
c
sticos com dois exemplos.
Exemplo 1: de um grupo de duas mulheres (M) e trs homens (H), uma pessoa ser
e
a
sorteada para presidir uma determinada reunio. Queremos estudar as probabilidades de
a
que o presidente seja do sexo masculino ou feminino. Suposioes:
c
o
1 ) S existem duas possibilidades.

2 ) Cada pessoa tem a mesma chance de ser sorteada.


Tabela 3.1: Modelo de probabilidades para o experimento:
Sexo

M H
2
5

Freqncia terica
ue
o

Total

3
5

Exemplo 2: o objetivo estudar a distribuiao das proporoes no lanamento de um


e
c
c
c
dado. Vamos construir esta distribuiao atravs de suposioes tericas;
c
e
c
o
1 ) s podem ocorrer seis faces e,
o
u
2 ) considerando o dado como sendo perfeito, cada face deve ocorrer o mesmo nmero de
vezes e, portanto, a proporao de ocorrncia de cada face de 1 .
c
e
e
6
Assim, o modelo terico de freqncias para esse experimento :
o
ue
e
Faces do dado

Total

Freqncias
ue

1
6

1
6

1
6

1
6

1
6

1
6

113

A primeira grande aplicaao de probabilidade nas biocincias, foi com as leis da heredc
e
2
itariedade (Mendel, 1822-1884) . Outras aplicaes podem ser: chance de sobrevivncia
co
e
(germina ou no germina), distribuiao e interao de espcies animais ou vegetais, risco de
a
c
ca
e
doenas, ocorrncia de mutaoes, previso de safras, na previso de chuvas, geadas, granizos,
c
e
c
a
a
etc.
Uma aplicao, particularmente importante para o nosso curso, quando um pesquisador
ca
e
conduz um experimento. Quando um experimento instalado, desejamos comparar os efeitos
e
dos tratamentos (variaoes de um fator a ser estudado). Para se estimar os efeitos dos
c
tratamentos e tambm para executar os testes estat
e
sticos necessrio o uso de repetioes
e
a
c
(aplicao do mesmo tratamento em diversas unidades experimentais e que formar a amostra
ca
a
de estudo), atravs das quais vamos ter a possibilidade de calcular a variabilidade dos dados,
e
ou seja, a varincia. O pesquisador esfora-se ao mximo para manter todas as condioes
a
c
a
c
experimentais o mais constantes poss
veis, s deixando variar os tratamentos. Por exemplo,
o
num experimento agr
cola de campo, vamos aplicar um inseticida, herbicida ou fungicida
de forma homognea em todo o experimento; a fertilidade do solo deve ser igual para todos
e
os tratamentos. A temperatura, a umidade, a luminosidade, devem ser mantidas constante
dentro de um laboratrio. A temperatura deve ser constante em todos os pontos dentro de
o
uma estufa . E assim por diante. Pois bem, por maior que seja esse esforo para manter toc
das as condies experimentais o mais constantes poss
co
veis, os valores obtidos nas repetioes
c
dos tratamentos dicilmente resultam em valores iguais, quase com certeza absoluta que
e
todos os valores vo diferir uns dos outros. Pode-se concluir que sempre vo existir variaoes.
a
a
c
Logo, um pequisador no pode armar com 100% de certeza que o tratamento A melhor
a
e
que o B, e assim por diante. Portanto, todas as concluses tomadas, ou as inferncias reo
e
alizadas, so feitas com certo grau de incerteza; essa incerteza ns expressamos em termos
a
o
de probabilidade. Ento, quando um pesquisador diz que o tratamento A melhor que o B,
a
e
ao n de signicncia de 5%, ele admite que pode estar tomando uma deciso errnea e
vel
a
a
o
que a probabilidade de erro de no mximo igual a 5%. Estes experimentos cujos resultae
a
dos podem no ser os mesmos, de repetio para repetiao, so chamados de experimentos
a
ca
c
a
aleatrios, probabilsticos ou estocsticos.
o

a
Todas as inferncias realizadas tem certo grau de incerteza expressadas por
e
probabilidades.
2

Gregor Johann Mendel, botnico da Morvia.


a
a

114

7
T3

24
2

20
8
T1

42
3

T5

T5

T1

T6

T2

T6

T6

T3
14

T5

T3

T1

T1
23
35

T6
20
30

T5
19

T2
14
34

9
29

15
24

23

T5

T1

T4

T4
24
33

25
28

21
23

11
18

T1

T6

T2

T3
18
32

26
27

9
22

14
7

18
12

T3

T4

31
T5

19
26

11
21

13
16

14
11

21
6

T6

T2

25
T2

26
20

13
15

20
10

35
5

19
T3

12
14

22
9

10
4

13
T4

T4
15
36

T4
20

T2
21

Figura 3.1: No canto superior esquerdo est indicado a unidade experimental; no centro `
a
a
direita o tratamento e, no canto inferior esquerdo, est indicado o nmero de brotos por
a
u
explante
A seguir apresentamos um exemplo de um experimento no delineamento inteiramente
casualizado.
Avaliao do Comportamento In Vitro de abacaxi Ananas comosus cv.
ca
Primavera
Objetivo: determinao de um meio de cultura onde produza um maior nmero de mudas
ca
u
por explante (meristema) inoculado.
Tratamentos:
Meio de cultura 1 (T1)
Meio de cultura 2 (T2)
Meio de cultura 3 (T3)
Meio de cultura 4 (T4)
Meio de cultura 5 (T5)
Meio de cultura 6 (T6)
Unidade experimental: Um tubo de ensaio.
Variveis observadas: 1) nmero de brotos por explante inoculado; 2) tamanho dos brotos
a
u
em cm; 3) nmero de folhas por broto, etc.
u
Delineamento Experimental: delineamento inteiramente casualizado com 20 repeties.
co
Obs: na gura 3.1 apresentamos esse delineamento utilizando somente os resultados de 6
repetioes. Condies experimentais controladas ao mximo: Temperatura de 24 C 1 C ;
c
co
a
fotoper
odo de 16hs luz; intensidade luminosa de 4000 lux, meristemas uniformes (tamanho).

115

Independente de qual seja a aplicaao, observa-se que quando utiliza-se do clculo de


c
a
probabilidade existe sempre um elemento do acaso, aleatrio ou de incerteza, quanto a
o
ocorrncia ou no de um evento, fenmeno futuro. Assim sendo, parece improvvel, em
e
a
o
a
muitas situaoes , armar por antecipao, o que vai ocorrer, mas perfeitamente poss
c
ca
e
vel
quanticar quo provvel a ocorrncia de determinado evento, fenmeno futuro.
a
a
e
e
o
As probabilidades so utilizadas para exprimir a chance de ocorrncia de
a
e
determinado evento.

3.2

Conceitos Fundamentais

Inicialmente, interessante denirmos a notao a ser utilizada para representar algum


e
ca
fato, fenmeno. Existe uma relaao entre a teoria dos conjuntos e a teoria das probabilio
c
dades, assim, ser utilizada a notao e s
a
ca
mbolos da teoria dos conjuntos. Os conjuntos so
a
representados por letras maisculas e os seus elementos, so colocados entre chaves (A={a,
u
a
e, i, o, u }).
H duas maneiras pelas quais se pode descrever os elementos de um conjunto:
a
1 ) Consiste em relacionar todos os elementos do conjunto, ou um nmero suu
ciente deles.
Exemplo: desejamos representar os h
bridos de milho, de ciclo tardio, recomendados para
a regio de Chapec, altitude menor que 800m da safra 1988/89.
a
o
A={C125, AG28, AG35, SAVE, 342-A, C408, AG401, C317}.
Outro exemplo: principais espcies do genro Biomphalaria em Santa Catarina.
e
e
B={ B.straminea; B.glabrata; B.tenagophila };
2 ) Consiste em formular uma regra que dena a(s) caracter
stica(s) comum(ns)
aos membros do conjunto. Exemplos:
A={Todos os gneros de formigas da fam Formicidae};
e
lia
B={Todas as espcies do gnero Biomphalaria};
e
e
C={Todas as plantas que produzem O2 };
D={Todas as espcies da fam das Solanaceas};
e
lia

116

AA

AA

gentipos

Aa

Aa

AA

Aa

zigotos

Figura 3.2: Resultados do cruzamento de gentipos


o
E={Espcies do gnero Biomphalaria que so hospedeiras intermedirias do Schistossoma
e
e
a
a
mansoni };
Essa notaao ser utlilizada para representar espaos amostrais e eventos.
c
a
c
Inicialmente, dissemos que no necessrio vericar diretamente o fenmeno para ena e
a
o
tender o seu comportamento, a sua variabilidade, enm, a sua distribuiao de freqncias e,
c
ue
sim, que poss
e
vel, fazendo-se algumas suposioes adequadas, criar um modelo terico que
c
o
represente muito bem essa distribuiao, so os chamados modelos probabil
c a
sticos. Vamos ver
a construao de mais um modelo de probabilidade.
c
Exemplo: Se cruzarmos indiv
duos de gentipos AA e Aa. Queremos estudar as proo
poroes dos resultados desse cruzamento. O gene A de um indiv
c
duo AA encontra o gene A
ou o gene a de um indiv
duo Aa. As clulas fertilizadas tem gentipo AA e Aa, conforme
e
o
gura 3.2. Observamos:
o
a a
1 ) Que s existem essas duas possibilidades, pois Aa e aA no so ordenados.
2 ) No existe razo nenhuma para admitir que um dos dois resultados ocorra
a
a
com maior frequncia, sendo assim, teremos o seguinte modelo terico de frequncias para o
e
o
e
experimento,
Cruzamentos
AA Aa Total
Frequncia terica
e
o

1/2

1/2

O espao dos resultados desse experimento, ou simplesmente, espao amostral, represenc


c
tado pela letra grega (mega), ca:
o
= {AA, Aa}.
As vezes o espao amostral representado pela letra S. Portanto, espao amostral, o conc
e
c
e
junto de todos os resultados poss
veis do experimento. Cada um dos elementos, observaoes
c
que compem chama-se de ponto amostral.
o
Agora, suponha que para o espao amostral, = {AA, Aa}, estamos interessados no
c
evento homozigoto, ento, temos:
a
A = {AA}.

117

Poder
amos tambm estar interessados no evento heterozigoto, ento, temos:
e
a
B = {Aa}.
Portanto, eventos so subconjuntos do espao amostral, , ou seja, um conjunto de
a
c
e
resultados de um experimento. Se um evento coincide com o espao amostral, , ele se
c
chama evento certo e temos,
A =
A = {AA, Aa}
A evento dos fentipos com dominncia.
o
a
Observaao: o alelo A dominante sobre a, portanto, Aa tem o mesmo fentipo que AA.
c
e
o
Se um evento no possui nenhum elemento do espao amostral, temos o evento imposs
a
c
vel,
A = (phi).
Exemplo: D={homozigoto recessivo}={aa}.
Quando o evento constitu de apenas um elemento temos o evento simples. Como
e
do
exemplos temos os eventos A e B.
Do exemplo acima, podemos fazer uma generalizaao. Todo o fenmeno ou experimento
c
o
no qual est envolvido um elemento casual, aleatrio, ou de incerteza, ter seu modelo
a
o
a
de probabilidades.
Um modelo probabil
stico ca denido, especicado, constru no momento em que esdo,
tabelecemos o espao amostral () e as probabilidades dos pontos amostrais; para o exemplo,
c
temos o seguinte modelo probabil
stico:
Cruzamentos

AA

Frequncias tericas
e
o

Aa

1/2 1/2

Total
1

Esse espao amostral discreto, pois podemos enumerar todos os resultados do experimento.
c
e
Essa enumerao pode ser nita ou innita.
ca
Exemplo de modelo. Cruzamos o gentipo Aa (pai) e Aa (me). Os resultados dos
o
a
cruzamentos esto indicados na gura 3.3.
a
Observaoes:
c
1. As quatro recombinaoes AA, Aa, aA e aa so igualmente provveis.
c
a
a

118

Pai
Aa

Aa

espermatozide

zigoto

Me

AA

Aa

vulos

aa

aA

Figura 3.3: Cruzamento de gentipos


o
2. As duas recombinaes Aa e aA no so ordenadas, isto , no poss distingui-las
co
a a
e a e
vel
biologicamente.
Logo, o espao de resultados :
c
e
= {AA, Aa, aa}.
Como as recombinaoes so igualmente provveis, associamos a cada uma delas a probabilc
a
a
idade 1/4, logo, o modelo probabil
stico para o experimento ca:
Cruzamentos

AA

Frequncia terica
e
o

1
4

Aa
1
4

1
4

aa Total
1
2

1
4

Aqui, novamente, o espao amostral discreto.


c
e
Exemplo de modelo: Em tomateiros, vamos fazer o cruzamento entre dois indiv
duos
homozigticos, um sendo recessivo, sp sp , e responsvel pelo hbito de crescimento determio
a
a
nado e o outro dominante, Sp Sp , responsvel pelo hbito de crescimento indeterminado. Em
a
a
F1 obtm-se: Sp sp . Fazendo-se a autofecundaao desses indiv
e
c
duos F1(F1F1), obtm-se as
e
seguintes recombinaes:
co
Sp Sp ; Sp sp ; sp Sp e sp sp
todas com a mesma frequncia terica e igual a 1/4. Veja o quadro:
e
o
F1
F1

Sp

sp

Sp
sp

Sp Sp
sp Sp

Sp sp
sp sp

Observaoes:
c
c
a
a
1. As quatro recombinaoes so igualmente provveis.

119

2. As duas recombinaes, Spsp e spSp, no so ordenadas, no sendo poss diferencico


a a
a
vel
a
las biologicamente.
O modelo probabil
stico ca:
Cruzamentos

Sp Sp

sp Sp

sp sp

Total

Frequncia terica
e
o

1
4

2
4

1
4

Observao: Um espao amostral pode ser denido de diferentes maneiras para um mesmo
ca
c
experimento, dependendo dos objetivos do problema a ser estudado. Por exemplo, suponha
que lancemos uma moeda cinco vezes. Se estamos interessados apenas na sequncia de caras
e
e coroas obtida, um espao amostral :
c
e
1 = {ckkkk, kckkk, kkckk, kkkck, ...}.
Observao: so poss
ca
a
veis 25 =32 pontos amostrais. Mas se estamos interessados no
nmero de caras obtidas, ento, um espao amostral :
u
a
c
e
2 = {0, 1, 2, 3, 4, 5}.
Temos, aqui, outro exemplo de espao amostral discreto.
c
Exemplo: Considere um experimento que consiste em medir as alturas H de homens
adultos. Um espao amostral conveniente :
c
e
= {H : H > 0},
isto , o conjunto de todos os nmeros reais positivos. Se A indica o evento a altura de
e
u
homens adultos superior a 150 cm e inferior a 200 cm, ento A={H:150<H<200}. Esses
e
a
so exemplos de espaos amostrais cont
a
c
nuos, pois o intervalo contm um nmero innito de
e
u
valores.
Outro exemplo: Considere um experimento que consiste em medir as alturas h de
plantas de milho. Um espao amostral conveniente ={h:h>0}, isto , o conjunto de
c
e
e
todos os nmeros reais positivos.
u

3.3

Operaoes com Eventos


c

Como os eventos so subconjuntos do espao amostral , so tambm conjuntos, logo,


a
c
a
e
todas as operaes realizadas com conjuntos so vlidas para os eventos.
co
a a

120

Figura 3.4: Diagrama de Venn para a reunio de eventos


a

Figura 3.5: Diagrama de Venn para a intersecao de eventos


c
Se A e B so dois eventos de , ento, a operaao (AB), que l-se: A unio com B,
a
a
c
e
a
signica a ocorrncia do evento A ou do evento B ou de ambos, ou seja, os pontos amostrais
e
pertencem ao evento A ou ao evento B ou, ainda, a ambos. Essa operaao tambm chamada
c e
e
de reunio dos eventos. A representaao grca dada na gura 3.4. Esta gura chamada
a
c
a
e
e
de Digrama de Venn. Em aritmtica assemelha-se com (A+B).
e
Exemplo: Se A={1,2} e B={1,5,6}, ento (AB)={1,2,5,6}. Observe que o ponto 1
a
ocorre nos dois eventos mas est relacionado uma unica vez. O ponto 2 s ocorre em A e os
a

o
pontos 5 e 6 ocorrem em B.
Uma outra operao entre eventos a interseco, representada pelo s
ca
e
ca
mbolo . Ento,
a
(AB) a ocorrncia dos eventos A e B, simultaneamente, ou seja, formado pelos pontos
e
e
e
amostrais que pertencem ao eventos A e B. Em aritmtica, assemelha-se com o produto
e
(AB). A representaao grca da interseco dada na gura 3.5.
c
a
ca e
Exemplo: Duas fam
lias, por exemplo, solanaceaes (pimenta, pimento, tomate) e mira

121

Figura 3.6: Complementar de um evento


taceaes (goiaba, pitanga, jaboticaba) de uma mesma ordem so por denio disjuntas, isto
a
ca
, no possuem espcies em comum, logo sua interseco vazia, isto , (A B) = .
e a
e
ca e
e
Exemplo: Para os eventos A={1,2} e B={1,5,6}, (AB)={1}.
Indica-se por Ac o complementar do evento A, e signica a no ocorrncia de A. Outra
a
e
forma de representaao A. A representao grca do complemento de um evento dada
c e
ca
a
e
na gura 3.6.
Exemplo: No lanamento de um dado podemos estar interessados no evento saiu face
c

mpar, A={1,3,5}, qual o evento que ocorre sempre que A no ocorre? Resposta: Ac ={2,4,6}.
e
a
Exemplo: Vamos considerar todas as espcies pertencentes a ordem Himenoptera como
e
sendo o espao amostral, . Estamos interessados na fam Formicidae, este o nosso
c
lia
e
evento. Qual ser o complementar desse evento? Consistir de todas as espcies da ordem
a
a
e
Himenoptera, mas no pertencente a fam Formicidae.
a
lia
Algumas outras operaes envolvendo interseco, reunio e complemento so dadas por:
co
ca
a
a
a)
b)
c)
d)
e)
f)

(A B)c = Ac B c (Lei de Morgan);


(A B)c = Ac B c (Lei de Morgan);
A Ac = ;
A Ac = ;
A (B C) = (A B) (A C);
A (B C) = (A B) (A C) (distributiva).

Exerc
cio. Construa os diagramas de Venn para os itens a) e b).

Eventos Mutuamente Exclusivos e Independncia


e
Se dois eventos no podem ocorrer ao mesmo tempo, ou seja, se a ocorrncia de um deles
a
e

122

impede a possibilidade de ocorrncia do outro, so chamados eventos mutuamente exclusivos


e
a
ou disjuntos.
Exemplo: considere os resultados do lanamento de um dado, ={1,2,3,4,5,6}, e os
c
eventos, A={1,3,5} e B={2,4,6}, ento os eventos A e B so mutuamente exclusivos pois
a
a
AB=.
Exemplo: Considere como sendo todas as espcies da ordem Himenoptera, e os eventos
e
A={espcies da fam Formicidae} e B={ espcies da fam Apidae}, ento os eventos A
e
lia
e
lia
a
e B so mutuamente exclusivos, pois AB=.
a
Dois eventos, associados a um experimento aleatrio, so ditos independentes quando a
o
a
ocorrncia de um deles no interfere na ocorrncia do outro.
e
a
e
Exemplo: vamos supor que dois alunos tentem resolver uma mesma questo em sepa
arado, ao mesmo tempo. Os eventos que consistem em que cada um dos alunos acerte a
questo so independentes, pois o fato de um aluno acertar a questo no inuencia no fato
a a
a a
do outro tambm acertar.
e
Outro exemplo: Cegueira e surdez, espera-se que sejam independentes.
Em ensaios agr
colas de campo, as parcelas experimentais so independentes, pois o
a
resultado de uma unidade experimental no interfere no resultado das demais.
a
A deniao de independncia important
c
e
e
ssima em estat
stica. A maioria dos testes,
pressupem independncia entre os eventos, como veremos na seao 8.
o
e
c
Eventos mutuamente exclusivos so independentes? No, eventos mutuamente exclusivos
a
a
so dependentes, pois a ocorrncia de um deles impede a ocorrncia do outro.
a
e
e

3.4

A Probabilidade de Um Evento

Seja qual for o evento, por exemplo, chuva, gentipos homozigticos, produao de uma
o
o
c
cultura, saiu face
mpar ,etc., a probabilidade de um evento A, denotada por P(A) um
e
nmero entre 0 e 1, que indica a chance de ocorrncia de A. Quanto mais prximo de 1
u
e
o
e
P(A) = maior a chance de ocorrncia de A, e quanto mais prxima de 0 P(A) =
e
e
o
e
menor a chance de ocorrncia do evento A. Denio:
e
e
ca
Seja um experimento aleatrio e um espao amostral associado a esse
o
c
experimento. A cada evento A associamos um nmero real representado por P(A)
u
e denominado probabilidade de A, que expressa a chance de ocorrncia de A .
e

123

Sempre temos as seguintes probabilidades: quando o evento imposs


e
vel, A=
P(A)=0; quando o evento certo, A= P(A)=1, portanto:
e
0 P (A) 1 .

3.5

Conceito de Probabilidade

Conceito de Freqncia Relativa


ue
Existem experincias que podem ser repetidas muitas vezes sob condioes quase cone
c
stantes. Sendo assim, observa-se que a freqncia relativa estabiliza em certos valores e
ue
serve como estimativa da probabilidade. Nesse caso incluem-se as experincias genticas,
e
e
muito importante para a rea de biocincias.
a
e
Vamos utilizar um exemplo para ilustrar o conceito de probabilidade baseado na teoria
freqntista.
ue
Vamos considerar o nmero de nascimentos de meninas e meninos, n. O espao de
u
c
resultados ={masc.,fem.}. Neste experimento, vamos supor que estamos interessados no
e
nmero de nascimentos de meninos, n1 , ento, n1 a freqncia absoluta ou simplesmente a
u
a
e
ue
freqncia de nascimentos de meninos. A freqncia absoluta pode ser um nmero qualquer
ue
ue
u
entre 0 n1 n. Mas, como vimos anteriormente, a probabilidade de um evento, um
e
nmero entre 0 e 1. Portanto, para nos aproximarmos do conceito de probabilidade, vamos
u
e
considerar a freqncia relativa, f1 , ento, f1 = n1 , isto ,
ue
a
n
Freqncia relativa de um evento =
ue

freqncia observada do evento


ue
.
nmero total de repetioes do experimento
u
c

Agora, pode-se ver facilmente que a freqncia relativa, varia de 0 a 1 (0 f1 1). A


ue
freqncia relativa freqntemente expressada em percentagem, logo, 0% f1 100%.
ue
e
ue
Se o nmero de repetioes do experimento for muito grande, a freqncia f1 estabiliza em
u
c
ue
certos valores, por exemplo, para n=100.000 nascimentos, temos que f1 = 53%, este valor
e
usado como estimativa da probabilidade, a freqncia relativa converge para a probabilidade.
ue
Existem regras que demonstram como tal estimativa convel.
e
a
Denio: Se aps n repeties de um experimento, com n sucientemente grande, se
ca
o
co
vericar n1 ocorrncias de um evento, ento a probabilidade de ocorrncia desse evento ser
e
a
e
a
a freqncia relativa n1 .
ue
n
Exemplo 1: Se cruzarmos dois indiv
duos com gentipos AA e Aa, o gene A do ino
div
duo AA encontra o gene A ou o gene a do indiv
duo Aa. O espao dos resultados
c

124

desse experimento ={AA,Aa}. Fatores experimentais demonstram que os dois resultados


e
ocorrem com a mesma probabilidade, isto :
e
P (AA) =

1
1
= 50% e P (Aa) = = 50%
2
2

Para completar nosso modelo probabil


stico, duas condioes sempre devem ser respeitadas:
c
1. 0 P (Ei ) 1;
2.

P (Ei )= 1.

Onde, Ei representa um evento qualquer. Como vemos, a probabilidade total do experimento


deve ser igual a 1. Estas duas condies so necessrias, a m de que o nosso modelo seja
co
a
a
consistente com o conceito de freqncia relativa. No exemplo de cruzamentos de indiv
ue
duos,
temos que 0P(AA)1 e a 0P(Aa)1 e P(AA) + P(Aa)=0.5 + 0.5=1.
Exemplo 2: foram colhidas amostras aleatrias de indiv
o
duos de uma populaao e veric
cado os seus grupos sangu
neos: A, B, AB e O. Ento o ={A,B,AB,O}. Foram encontradas
a
as freqncias 40%, 10%, 5%, 45% para os grupos A, B, AB e O, repectivamente, podemos
ue
dizer que a probabilidade de sortear um indiv
duo da populaao com grupo sangu
c
neo A
e
de 40% e assim por diante.
Exerc
cio resolvido: considere o experimento de cruzamentos de gentipos AaAa, e
o
1
1
os eventos A={AA,aa} e B={Aa}, tais que P(A)= 2 , P(B)= 2 e P(A B)=0. Calcular:
a) P (Ac ).
b) P (B c ).
c) P (Ac B c ).
d) P (Ac B c ).
e) P (Ac B)
Soluao:
c
a) 1 P (A) = 1

1
2

= 1.
2

b) 1 P (B) = 1

1
2

= 1.
2

c) P [(A B)c ] = 1 P (A B) = 1 1 = 0.
d) P [(A B)c ] = 1 P (A B) = 1 0 = 1.

125

e)

Como no temos uma operao direta, descrevemos da seguinte forma:


a
ca
B = (A B) (Ac B)
P (B) = P (A B) + P (Ac B)

logo,
P (Ac B) = P (B) P (A B) =

3.6

1
1
0= .
2
2

A Regra da Adio
ca

Introduziremos a noao de adiao de eventos atravs de um exemplo. Considere um


c
c
e
censo realizado nos domic
lios da comunidade polonesa de Dom Pedro, prximo ` Curitiba,
o
a
para se estudar a mortalidade dos residentes na colnia. A mortalidade foi vericada sobre
o
o marido, a mulher, marido e mulher e lhos. Em mdia o estudo foi realizado sobre trs
e
e
geraes. Os dados esto mostrados na tabela 3.2.
co
a
Tabela 3.2: Mortalidade dos residentes na colnia polonesa de Dom Pedro, Curitiba, Paran.
o
a
Idade
Sexo
Total
Masculino(M) Feminino(F)
0 a 1(A)
2 a 4(B)
5 a 9(C)
10 a 14(D)
15 a 29(E)
> 29 (G)

33
4
2
0
1
7

28
7
2
1
6
8

61
11
4
1
7
15

Total

47

52

99

O evento A indica o evento que acontece quando, ocorrer uma morte na colnia, esta
o
pessoa deve ter at um ano de idade. O evento M acontece quando, ocorrer uma morte na
e
colnia, esta pessoa for do sexo masculino. Os demais eventos tem signicados anlogos.
o
a
Sendo assim, a probabilidade de ocorrncia do evento A, isto , a pessoa falecida tiver idade
e
e
entre 0 e 1 ano dada por,
e
P (A) =

61
= 61, 62%.
99

126

A probabilidade de ocorrncia do evento M, isto , a pessoa falecida ser do sexo masculino


e
e
vale,
47
P (M ) =
= 47, 47%.
99
a
E fcil ver tambm que a probabilidade da ocorrncia de A e M, simultaneamente vale,
e
e
P (A M ) =

33
= 33, 33%,
99

isto , temos uma probabilidade de 33,33% da pessoa falecida ser do sexo masculino e ter
e
at um ano de idade.
e
Agora, se desejarmos calcular a probabilidade de ocorrncia de A e/ou de M, isto ,
e
e
P (A M ), como ser o clculo? O resultado ser dado por:
a
a
a
P (A M ) = P (A) + P (M ) P (A M )
P (A M ) = 0, 6162 + 0, 4747 0, 3333
P (A M ) = 0, 7576
P (A M ) = 75, 76%.
Devemos subtrair P (A M ), pois, caso contrrio, estar
a
amos contando duas vezes as
pessoas falecidas do sexo masculino e com idade entre 0 e 1 ano.
De modo geral, se A e B so dois eventos quaisquer, a chamada regra da adio dada
a
ca e
por:
P (A B) = P (A) + P (B) P (A B).
(3.1)
Esta regra vlida para mais do que dois eventos, ou seja, podemos generaliz-la. Por
e a
a
exemplo, para trs eventos: A, B e C, a regra ca:
e
P (A B C) = P (A) + P (B) + P (C) P (A B) P (A C) P (B C) + P (A B C).
Se considerarmos os eventos A e C, a P (A C) calculada do seguinte modo:
e
61
= 0, 6162 = 61, 62%;
99
4
P (C) =
= 0, 040 = 4, 00%;
99
P (A C) = 0, 6162 + 0, 040 = 0, 6562 = 65, 62%,
P (A) =

pois, nesse caso, os eventos A e C so disjuntos ou mutuamente exclusivos, pois se A ocorre,


a
impede a ocorrncia de C, e vice-versa. Nesse caso, ento, A C = , logo P (A C) = 0.
e
a

127

Ento, quando os dois eventos so mutuamente exclusivos, a expresso geral 3.1 se


a
a
a
reduz para,
P (A B) = P (A) + P (B).
Exemplo: considere o lanamento de dois dados, sendo os eventos A={soma dos nmeros
c
u
obtidos igual a 9}, B={nmero do primeiro dado maior ou igual a 4} e C={soma dos nmeros
u
u
menor ou igual a 4}. Enumere os elementos de A, B e C. Obtenha P(AB) e P(AC).
1
1
2
3
4
5
6

1
2
3
4
5
6

1
1
1
1
1
1

2
1
2
3
4
5
6

2
2
2
2
2
2

3
1
2
3
4
5
6

3
3
3
3
3
3

4
1
2
3
4
5
6

4
4
4
4
4
4

5
1
2
3
4
5
6

5
5
5
5
5
5

6
1
2
3
4
5
6

6
6
6
6
6
6

A = {36 45 54 63}
B = {41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66}
C = {11 21 12 31 22 13}
4
18
3
19
+

= .
36 36 36
36
4
6
0
10
P (A C) = P (A) + P (C) P (A C) =
+

= .
36 36 36
36

P (A B) = P (A) + P (B) P (A B) =

3.7

Probabilidade Condicional e Independncia


e

Vamos voltar a tabela 3.2 para explicar o que uma probabilidade condicional. Dado
e
que ocorra a morte de uma pessoa com idade entre 0 e 1 ano, a probabilidade dessa pessoa
ser do sexo feminino de 28 = 0,4590= 45,9%. Isto porque de um total de 61 falecimentos
e
61
com idade entre 0 e 1 ano, 28 so do sexo feminino.
a
Representamos uma probabilidade condicional da seguinte forma:
P (Feminino| idade entre 0 e 1 ano) =

28
= 45, 9%.
61

L-se, assim: a probabilidade da pessoa falecida ser do sexo feminino, dado que (|) ela tem
e
idade entre 0 e 1 ano de 45,9%. A barra vertical indica o evento que ocorreu, o evento
e
conhecido, isto , sabe-se que a pessoa falecida tem entre 0 e 1 ano, dado isso, deseja-se
e

128

AB
Figura 3.7: espao reduzido da probabilidade condicional
c
saber qual a probabilidade dela ser do sexo feminino. Podemos agora dar uma deniao
e
c
de probabilidade condicional.
Denio: Para dois eventos quaisquer A e B, associados a um experimento, sendo
ca
P (B) > 0, denimos a probabilidade condicional de A, quando B tiver ocorrido, como
sendo:
P (A B)
P (A|B) =
.
(3.2)
P (B)
Para se entender a expresso 3.2, basta pensar que o espao amostral cou reduzido, ou
a
c
restrito ao evento B. Veja gura 3.7. A presena da interseco no numerador justicada
c
ca
e
facilmente considerando que a ocorrncia de A, quando se sabe que B ocorreu, corresponde
e
` ocorrncia de A e de B simultaneamente, isto , de sua intersecao.
a
e
e
c
Para o exemplo mencionado, se A e F, indicam, respectivamente, os eventos idade entre
0 e 1 ano e sexo feminino, temos:
P (F |A) =

P (F A)
28 99
=
.
P (A)
61 99

Observe que =99, e A=61, sendo que desaparece (simplicaao), portanto, o novo espao
c
c
de resultados A. Assim,
e
28
P (F |A) =
= 45, 9%.
61
De modo geral, sempre que calculamos a P(A), dado que B tenha ocorrido, estamos
sempre calculando a P(A) em relao ao espao amostral reduzido de B, isto , o espao
ca
c
e
c
amostral ca reduzido de para B.
Exemplo: Numa populaao os animais podem ser fecundos e no fecundos. Vinte por
c
a
cento (20%) dos animais da raa X so fecundos; trinta por cento (30%) dos animais da raa
c
a
c
Y so no fecundos e setenta e cinco por cento (75%) dos animais so da raa X. Considere
a a
a
c

129

os eventos:
H={o animal da raa X}
e
c
A={o animal fecundo}
e
Raa
c

M={o animal da raa Y}


e
c
B={o animal no fecundo}
a e
Fecundidade
No Fecundo(B) Fecundo(A)
a

Total

X (H)
Y (M)

60
7,5

15
17,5

75
25

Total

67,5

32,5

100

P (M |A) = P (M A)/P (A);


0, 175
P (M |A) =
= 0, 5384.
0, 325
P (B|M ) = P (B M )/P (M ) = 0, 075/0, 25 = 0, 30 = 30%.
P (A H) = P (A) + P (H) P (A H) = 0, 325 + 0, 75 0, 15 = 0, 925.

Regra do Produto de Probabilidades


Da relaao 3.2 podemos obter a chamada Regra do Produto de Probabilidades, dada por:
c
P (A B) = P (B) P (A|B).

(3.3)

Exemplo: para os dados do exemplo de populaao de animais, temos,


c
P (A H) = P (A|H) P (H) = 0, 20 0, 75 = 0, 15 = 15%.

Um Caso Importante: Independncia


e
Uma situaao especial da frmula acima muito importante. Essa situao ocorre quando
c
o
e
ca
os dois eventos A e B so independentes, isto , quando a ocorrncia do evento A no
a
e
e
a
inuencia na ocorrncia do evento B, e vice-versa. Vamos atravs de um exemplo ilustrar a
e
e
independncia entre eventos.
e
Exemplo: um cientista quer saber se existe dependncia entre a cegueira para as cores
e
e a surdez nos homens. Admite-se as seguintes probabilidades para os eventos :

Cegueira

Surdez
Frequncia
e

Surdez(S) No Surdez(S)
a
total

Cegueira para cores(C)

No Cegueira(C)
a

0,0004
0,0046

0,0796
0,9154

0,0800
0,9200

Frequncia total
e

0,0050

0,9950

1,0000

130

O evento C corresponde a homens com cegueira para cores, e o evento S corresponde a


homens com surdez. Vamos calcular a probabilidade de surdez dado que o evento cegueira
para cores ocorreu:
0, 0004
P (S C)
P (S|C) =
=
= 0, 0050.
P (C)
0, 0800
Por sua vez, a probabilidade de surdez :
e
P (S) = 0, 0050
ento,
a
P (S|C) = P (S),
isto , a surdez independente da cegueira para cores, pois a ocorrncia da cegueira para
e
e
e
cores no alterou a probabilidade de ocorrncia da surdez. Logo, a ocorrncia de um evento
a
e
e
no inuenciou na ocorrncia do outro.
a
e
Generalizando, Se dois eventos so independentes , a P (A | B) = P (A), ento a regra
a
a
do produto de probabilidades ca:
P (A B) = P (A)P (B).
Essa frmula pode ser tomada como deniao de independncia, ou seja, A e B so indeo
c
e
a
pendentes se, e somente se,
P (A B) = P (A)P (B).
(3.4)
Exemplo com dependncia: Uma urna contm duas bolas brancas (B) e trs vermele
e
e
has (V ). Suponha que sorteemos duas bolas ao acaso, em sequncia e sem reposio. Isto
e
ca
signica que escolhemos a primeira bola, vericamos a sua cor e no a devolvemos ` urna,
a
a
misturamos as bolas restantes e retiramos a segunda bola. O diagrama de rvore ilustra
a
as possibilidades, veja gura 3.8. Em cada galho da rvore esto indicadas as probabilia
a
dades de ocorrncia, sendo que para segundas bolas temos probabilidades condicionais. A
e
distribuio de probabilidades do exemplo dada por:
ca
e
Resultados

Probabilidades
21
54
23
54
32
54
32
54