Você está na página 1de 7

1

Organizao de dados quantitativos

ma contribuio importante da estatstica no manejo das informaes foi a


criao de procedimentos para a organizao e o resumo de grandes quantidades de dados. A descrio das variveis imprescindvel como um passo prvio
para a adequada interpretao dos resultados de uma investigao, e a metodologia empregada faz parte da estatstica descritiva.
Os dados podem ser organizados em tabelas ou grficos. Neste captulo, sero apresentados conceitos bsicos para a montagem e a apresentao dessas estruturas quando os dados so quantitativos. Para a descrio dos dados podem-se
utilizar, alm de tabelas e grficos, medidas de tendncia central e de disperso,
que sero abordadas em captulos subseqentes.
Suponha que, ao estudar a quantidade de albumina no plasma de pessoas
com determinada doena, um pesquisador obtenha, em 25 indivduos, os seguintes valores (em g/100 mL):
5,1
5,0
5,2
4,5
4,8

4,9
5,0
5,2
5,4
5,1

4,9
5,0
4,9
5,1
5,3

5,1
5,1
5,3
4,7
5,3

4,7
5,4
5,0
5,5
5,0

Dos dados obtidos, o pesquisador pode concluir inicialmente que:


(1) Os valores de albumina nos pacientes variam de indivduo para indivduo.
(2) Alguns indivduos apresentam valores iguais.
(3) Os valores oscilam entre 4,5 e 5,5.
As duas primeiras concluses so obtidas de forma imediata, mas a terceira
exige pacincia e ateno, especialmente se a amostra for grande. Organizando os
dados em tabelas de freqncias, nas quais se indicam os valores obtidos e a freqncia com que ocorrem, estas e outras concluses podem ser obtidas mais rapidamente e com menor probabilidade de erro.

20

Sidia M. Callegari-Jacques

DISTRIBUIES DE FREQNCIAS: TABELAS


Tabela de grupamento simples
As tabelas de grupamento simples mostram os valores obtidos e o nmero de
vezes que cada valor foi observado. Inicia-se a construo de uma tabela de grupamento simples procurando-se o menor valor obtido. A partir dele, organiza-se
uma lista por ordem crescente dos valores que podem ocorrer (coluna 1 da Tabela
1.1). A seguir, volta-se aos valores anotados de forma desorganizada e, lendo um
a um, marca-se um trao vertical ao lado do valor correspondente na tabela (tabulao ou contagem).

TABELA 1.1 Taxa de albumina (g/100 mL) no plasma de 25 pacientes


Albumina (x)

Contagem

fr

Fr

4,5
4,6
4,7
4,8
4,9
5,0
5,1
5,2
5,3
5,4
5,5

1
0
2
1
3
5
5
2
3
2
1

0,04
0,00
0,08
0,04
0,12
0,20
0,20
0,08
0,12
0,08
0,04

1
1
3
4
7
12
17
19
22
24
25

0,04
0,04
0,12
0,16
0,28
0,48
0,68
0,76
0,88
0,96
1,00

25

1,00

S ou soma

//
/
///
////
////
//
///
//
/

Recomenda-se reunir os traos de 5 em 5, cortando quatro traos com o


quinto, para facilitar a contagem. O mtodo de procurar cada valor ao longo de
toda a amostra, verificando quantas vezes ele ocorre, bastante desaconselhado,
pois leva facilmente a erro, alm de exigir que a seqncia de dados seja lida
vrias vezes.
Costuma-se chamar de x os valores da varivel quantitativa em estudo. O
total de traos obtidos em cada valor de x denominado freqncia absoluta simples, sendo indicada por f. O sinal (sigma maisculo; letra S no alfabeto grego)
usado para indicar soma. Observe que a soma dos valores de f (Sf) igual ao
nmero de indivduos examinados, que tambm costuma ser indicado por n. Portanto, Sf = n.
Dividindo f por Sf, obtm-se a freqncia relativa simples (fr), que representa
a proporo com que cada valor ocorre. Os valores mais freqentes apresentados
na Tabela 1.1 so x = 5,0 e x =5,1, tendo, cada um, uma freqncia relativa fr =
0,20 (ou 20% do total de indivduos estudados).
A tabela pode, ainda, indicar as freqncias acumuladas (F), que identificam
quantos indivduos tm taxa de albumina igual ou menor do que um determinado
valor. Observando-se a coluna F da Tabela 1.1, possvel notar que quatro pessoas
possuem uma taxa de albumina igual ou menor do que 4,8. As freqncias acumuladas so obtidas somando-se a freqncia simples (f) da linha desejada (x)

Bioestatstica

21

com as freqncias simples dos valores de x menores do que o considerado. A


soma da coluna F no tem o menor sentido.
Para saber a proporo de pessoas com taxa de albumina igual ou menor do
que 4,8, calcula-se a freqncia acumulada relativa (Fr), obtida ou por meio da
diviso de F por Sf (4/25 = 0,16 ou 16%) ou pela soma acumulada das fr a partir
do valor de interesse [fr (4,8) = 0,04 + 0,08 + 0 + 0,04 = 0,16].
Qualquer freqncia relativa (fr ou Fr) pode ser transformada em freqncia
percentual, bastando multiplic-la por 100.
A Fr pode ser usada para se obter percentis, quantidades bastante usadas em
certas reas da medicina. O percentil de ordem k (Pk) o valor de x que precedido por k% valores e seguido por (100-k)% dos valores. Por exemplo, P25 o valor
de x que precedido por 25% dos valores (os 25% menores da srie) e seguido
pelos restantes 75%. Os percentis P25, P50 e P75 dividem o conjunto de dados em
quatro partes iguais; por isso, recebem o nome de quartis e so respectivamente
os quartis Q1, Q2 e Q3. Na Tabela 1.1, o percentil P25 um valor entre 4,8 e 4,9, j
que 16% dos indivduos tm valores iguais ou menores do que 4,8 e 28% das
pessoas tm nveis de albumina iguais ou menores do que 4,9. Estima-se, ento, o
percentil pela mdia entre 4,8 e 4,9, obtendo-se P25 = 4,85. So bastante populares os percentis P5 e P95, que delimitam os 5% valores menores, os 90% centrais e
os 5% maiores de um conjunto de dados.
As tabelas elaboradas para realizar clculos estatsticos no se prestam para
publicao em relatrios ou artigos cientficos. Em tabelas para publicao, no se
apresenta a tabulao dos dados. Tampouco se apresentam informaes redundantes: se for indicado f, no se apresenta fr ou a percentagem. Alm disso, a
estrutura da tabela segue regras determinadas. As principais so:
(1) A tabela deve ser precedida de um ttulo, suficientemente claro para que o
leitor no necessite voltar ao texto para entender o contedo da mesma.
(2) A tabela limitada por uma linha limitante superior e outra inferior, que
indica seu final. O cabealho deve ser separado do restante do texto por uma
linha horizontal.
(3) No se usam linhas verticais separando as colunas; usam-se espaos em branco.
(4) As abreviaturas e os smbolos pouco conhecidos devem ser explicados no
rodap da tabela.
(5) Deve ser indicada a fonte dos dados.
Tabela de grupamento por intervalo de classe
Quando os valores de uma caracterstica variam muito, como o caso da estatura
ou do peso das pessoas, uma tabela como a Tabela 1.1 tenderia a ser muito extensa, perdendo a propriedade de condensar a informao. A soluo grupar os
dados por intervalos de classe, como foi feito na Tabela 1.2 para valores de peso
em 256 universitrias gachas.
Cada intervalo de classe possui um extremo ou limite inferior e um extremo
ou limite superior. O sinal | indica que o extremo inferior est includo no intervalo, mas o superior, no. Intervalos indicados por esse sinal so denominados
intervalos abertos direita e so os mais comumente usados.

22

Sidia M. Callegari-Jacques
TABELA 1.2 Pesos (kg) de 256 alunas da Universidade Federal do Rio Grande do Sul, obtidos
no perodo de 1980 a 1999 (dados organizados em intervalos de classe)
Peso (kg)

fr

40 | 45
45 | 50
50 | 55
55 | 60
60 | 65
65 | 70
70 | 75
75 | 80
80 | 85
85 | 90

9
36
78
55
53
11
7
5
1
1

0,035
0,141
0,304
0,215
0,207
0,043
0,027
0,020
0,004
0,004

256

1,000

A notao envolvendo intervalos abertos direita (|), abertos esquerda


(|) ou fechados em ambos os lados (||) muito til quando se quer elaborar
tabelas de freqncias para variveis contnuas, pois no permite ambigidade na
locao dos valores nos intervalos. Note, porm, que comum encontrar, referindo-se idade de crianas, por exemplo, a notao 3-4 anos, 5-6 anos, 7-8
anos para indicar 3 a 4 anos, 5 a 6 anos, 7 a 8 anos. A notao de intervalo
aberto, mas a idia transmitida a de intervalo fechado em ambas as extremidades!
O nmero escolhido de classes fica geralmente entre 6 e 8, podendo oscilar
entre 5 e 20, dependendo do detalhamento desejado pelo investigador e do tamanho da amostra.
Nas tabelas de grupamento por intervalo de classe, alm de f e fr pode-se
calcular F e Fr, do mesmo modo como foi explicado para tabelas de grupamento
simples.
DISTRIBUIES DE FREQNCIAS: GRFICOS
A representao grfica bastante interessante, porque d uma viso mais imediata de como se distribuem os indivduos nos diferentes valores da varivel. Nas
publicaes, os grficos devem ser chamados de figuras. O ttulo do grfico deve
ser claro, para evitar que o leitor volte ao texto para entender a que se refere, sendo
colocado ao p do desenho, ao contrrio da tabela que tem o ttulo colocado na sua
parte superior.
Histograma
O histograma o grfico mais utilizado para variveis contnuas. Consiste de uma
sucesso de retngulos contguos, cuja base o intervalo de classe, e a altura, a
freqncia relativa em cada classe dividida por h, a amplitude do intervalo de
classe. Se as classes forem todas de igual amplitude, no necessrio realizar a
diviso. No final, tem-se uma figura geomtrica, com rea total considerada como

Bioestatstica

23

100% ou 1 (a soma de todas as freqncias relativas). A Figura 1.1 apresenta


o histograma relativo ao peso corporal
de estudantes do sexo feminino da Universidade Federal do Rio Grande do Sul
(UFRGS), obtido no perodo 19801999.

80
f
60

Ogiva

40

A ogiva o grfico adequado para representar as freqncias acumuladas (F


20
ou Fr). No eixo horizontal, so colocados os intervalos de classe. No ponto
mdio de cada intervalo, levanta-se
uma perpendicular imaginria e mar0
ca-se um ponto na altura corresponden45
55
65
75
85
te freqncia acumulada na classe. A
FIGURA 1.1 Peso (kg) observado em 256 alunas da Universiseguir, os pontos so unidos por segdade Federal do Rio Grande do Sul.
mentos de reta.
A ogiva til para se identificar
graficamente percentis de interesse, como, por exemplo, a mediana (percentil 50).
A Figura 1.2 apresenta a ogiva correspondente a dados de presso arterial
sistlica medida nas primeiras 24 horas de vida, em 96 recm-nascidos de Porto
Alegre (Oliveira, 1991; Tabela 1.3). Desenhando uma linha auxiliar a partir da
freqncia acumulada igual a 50% at a ogiva e desta para o eixo horizontal,
pode-se obter graficamente uma estimativa para a mediana da presso arterial
sistlica nesses recm-nascidos (md: 65 mmHg).
Diagrama de bastes
A representao grfica apropriada para variveis quantitativas discretas o diagrama em basto. Esse grfico parecido com um histograma, com uma importante diferena: as freqncias para cada valor de x so agora representadas por

TABELA 1.3 Presso arterial sistlica medida em 96 recm-nascidos, nas primeiras 24 horas de vida
PAS (mmHg)
55 |
59 |
63 |
67 |
71 |
75 |
79 |

59
63
67
71
75
79
83

Total
Fonte: Oliveira, 1991.

Fr

3
5
40
24
15
8
1

0,031
0,083
0,500
0,750
0,906
0,990
1,000

96

24

Sidia M. Callegari-Jacques
100
Freq. acumulada (%)

90
80
70
60
50
40
30
20
10

FIGURA 1.2 Presso arterial sistlica (mmHg) de 96


recm-nascidos, nas primeiras 24 horas de vida.
(Fonte: Oliveira, 1991.)

0
50

55

60

65

70

75

80

85

90

Presso arterial sistlica (mmHg)

bastes e no retngulos, pois inexiste continuidade entre os valores. A Tabela 1.4


e a Figura 1.3 apresentam um exemplo de representao tabular e grfica para
dados deste tipo.
FREQNCIA RELATIVA E PROBABILIDADE
A freqncia relativa (fr) de um valor estima a probabilidade verdadeira de ocorrncia deste valor, que s conhecida tendo-se informao quanto a todos os
indivduos da populao. A freqncia relativa associada a x = 2 irmos, conforme mostra a Tabela 1.4, de 0,35 na amostra estudada. Pode-se, ento, estimar
em 35% a frao de universitrios que tm dois irmos. Isto equivale tambm a
dizer que se estima em 0,35 a probabilidade de que um universitrio, selecionado
ao acaso desta populao, tenha dois irmos.
Estas concluses so vlidas se a amostra for representativa da populao de
estudantes da UFRGS. Por outro lado, quanto maior for uma amostra representativa, melhor ser a idia da ocorrncia relativa (fr) do valor x = 2 na populao,
isto , melhor ser a estimativa da probabilidade verdadeira.
O mesmo raciocnio vale para as tabelas de dados grupados por intervalo de
classe (Tabela 1.2). A probabilidade estimada de que uma estudante tenha peso
entre 45 e 50 kg 0,14.
40
30
% 20
10
0
0

Nmero de irmos

FIGURA 1.3. Nmero de


irmos relatados por 115
estudantes universitrios
da UFRGS.

Bioestatstica

25

TABELA 1.4 Nmero de irmos relatados por 115 estudantes universitrios da UFRGS (dados
obtidos entre 1986 e 1992)
No de irmos

fr

Fr

0
1
2
3
4
5
6
7
8
9

8
20
40
26
9
7
4
0
0
1

0,07
0,17
0,35
0,23
0,08
0,06
0,03
0,00
0,00
0,01

0,07
0,24
0,59
0,82
0,90
0,96
0,99
0,99
0,99
1,00

No histograma relativo a estes dados (Figura 1.1), a rea do retngulo referente ao intervalo 45 | 50 corresponde a 14% da rea de todo o histograma
(100%). Portanto, a rea deste retngulo a representao geomtrica da probabilidade estimada de se encontrar valores entre 45 e 50 na populao. No grfico
de bastes, a probabilidade estimada para cada valor a altura do basto.

Você também pode gostar