Você está na página 1de 7

1

Organização de dados quantitativos

U ma contribuição importante da estatística no manejo das informações foi a


criação de procedimentos para a organização e o resumo de grandes quanti-
dades de dados. A descrição das variáveis é imprescindível como um passo prévio
para a adequada interpretação dos resultados de uma investigação, e a metodolo-
gia empregada faz parte da estatística descritiva.
Os dados podem ser organizados em tabelas ou gráficos. Neste capítulo, se-
rão apresentados conceitos básicos para a montagem e a apresentação dessas es-
truturas quando os dados são quantitativos. Para a descrição dos dados podem-se
utilizar, além de tabelas e gráficos, medidas de tendência central e de dispersão,
que serão abordadas em capítulos subseqüentes.
Suponha que, ao estudar a quantidade de albumina no plasma de pessoas
com determinada doença, um pesquisador obtenha, em 25 indivíduos, os seguin-
tes valores (em g/100 mL):

5,1 4,9 4,9 5,1 4,7


5,0 5,0 5,0 5,1 5,4
5,2 5,2 4,9 5,3 5,0
4,5 5,4 5,1 4,7 5,5
4,8 5,1 5,3 5,3 5,0

Dos dados obtidos, o pesquisador pode concluir inicialmente que:

(1) Os valores de albumina nos pacientes variam de indivíduo para indivíduo.


(2) Alguns indivíduos apresentam valores iguais.
(3) Os valores oscilam entre 4,5 e 5,5.

As duas primeiras conclusões são obtidas de forma imediata, mas a terceira


exige paciência e atenção, especialmente se a amostra for grande. Organizando os
dados em tabelas de freqüências, nas quais se indicam os valores obtidos e a fre-
qüência com que ocorrem, estas e outras conclusões podem ser obtidas mais rapi-
damente e com menor probabilidade de erro.
20 Sidia M. Callegari-Jacques

DISTRIBUIÇÕES DE FREQÜÊNCIAS: TABELAS

Tabela de grupamento simples

As tabelas de grupamento simples mostram os valores obtidos e o número de


vezes que cada valor foi observado. Inicia-se a construção de uma tabela de gru-
pamento simples procurando-se o menor valor obtido. A partir dele, organiza-se
uma lista por ordem crescente dos valores que podem ocorrer (coluna 1 da Tabela
1.1). A seguir, volta-se aos valores anotados de forma desorganizada e, lendo um
a um, marca-se um traço vertical ao lado do valor correspondente na tabela (tabu-
lação ou contagem).

TABELA 1.1 Taxa de albumina (g/100 mL) no plasma de 25 pacientes


Albumina (x) Contagem f fr F Fr
4,5 / 1 0,04 1 0,04
4,6 0 0,00 1 0,04
4,7 // 2 0,08 3 0,12
4,8 / 1 0,04 4 0,16
4,9 /// 3 0,12 7 0,28
5,0 //// 5 0,20 12 0,48
5,1 //// 5 0,20 17 0,68
5,2 // 2 0,08 19 0,76
5,3 /// 3 0,12 22 0,88
5,4 // 2 0,08 24 0,96
5,5 / 1 0,04 25 1,00
S ou soma 25 1,00 – –

Recomenda-se reunir os traços de 5 em 5, cortando quatro traços com o


quinto, para facilitar a contagem. O método de procurar cada valor ao longo de
toda a amostra, verificando quantas vezes ele ocorre, é bastante desaconselhado,
pois leva facilmente a erro, além de exigir que a seqüência de dados seja lida
várias vezes.
Costuma-se chamar de x os valores da variável quantitativa em estudo. O
total de traços obtidos em cada valor de x é denominado freqüência absoluta sim-
ples, sendo indicada por f. O sinal å (sigma maiúsculo; letra S no alfabeto grego)
é usado para indicar “soma”. Observe que a soma dos valores de f (Sf) é igual ao
número de indivíduos examinados, que também costuma ser indicado por n. Por-
tanto, Sf = n.
Dividindo f por Sf, obtém-se a freqüência relativa simples (fr), que representa
a proporção com que cada valor ocorre. Os valores mais freqüentes apresentados
na Tabela 1.1 são x = 5,0 e x =5,1, tendo, cada um, uma freqüência relativa fr =
0,20 (ou 20% do total de indivíduos estudados).
A tabela pode, ainda, indicar as freqüências acumuladas (F), que identificam
quantos indivíduos têm taxa de albumina igual ou menor do que um determinado
valor. Observando-se a coluna F da Tabela 1.1, é possível notar que quatro pessoas
possuem uma taxa de albumina igual ou menor do que 4,8. As freqüências acu-
muladas são obtidas somando-se a freqüência simples (f) da linha desejada (x)
Bioestatística 21

com as freqüências simples dos valores de x menores do que o considerado. A


soma da coluna F não tem o menor sentido.
Para saber a proporção de pessoas com taxa de albumina igual ou menor do
que 4,8, calcula-se a freqüência acumulada relativa (Fr), obtida ou por meio da
divisão de F por Sf (4/25 = 0,16 ou 16%) ou pela soma acumulada das fr a partir
do valor de interesse [fr (4,8) = 0,04 + 0,08 + 0 + 0,04 = 0,16].
Qualquer freqüência relativa (fr ou Fr) pode ser transformada em freqüência
percentual, bastando multiplicá-la por 100.
A Fr pode ser usada para se obter percentis, quantidades bastante usadas em
certas áreas da medicina. O percentil de ordem k (Pk) é o valor de x que é precedi-
do por k% valores e seguido por (100-k)% dos valores. Por exemplo, P25 é o valor
de x que é precedido por 25% dos valores (os 25% menores da série) e seguido
pelos restantes 75%. Os percentis P25, P50 e P75 dividem o conjunto de dados em
quatro partes iguais; por isso, recebem o nome de quartis e são respectivamente
os quartis Q1, Q2 e Q3. Na Tabela 1.1, o percentil P25 é um valor entre 4,8 e 4,9, já
que 16% dos indivíduos têm valores iguais ou menores do que 4,8 e 28% das
pessoas têm níveis de albumina iguais ou menores do que 4,9. Estima-se, então, o
percentil pela média entre 4,8 e 4,9, obtendo-se P25 = 4,85. São bastante popula-
res os percentis P5 e P95, que delimitam os 5% valores menores, os 90% centrais e
os 5% maiores de um conjunto de dados.
As tabelas elaboradas para realizar cálculos estatísticos não se prestam para
publicação em relatórios ou artigos científicos. Em tabelas para publicação, não se
apresenta a tabulação dos dados. Tampouco se apresentam informações redun-
dantes: se for indicado f, não se apresenta fr ou a percentagem. Além disso, a
estrutura da tabela segue regras determinadas. As principais são:

(1) A tabela deve ser precedida de um título, suficientemente claro para que o
leitor não necessite voltar ao texto para entender o conteúdo da mesma.
(2) A tabela é limitada por uma linha limitante superior e outra inferior, que
indica seu final. O cabeçalho deve ser separado do restante do texto por uma
linha horizontal.
(3) Não se usam linhas verticais separando as colunas; usam-se espaços em bran-
co.
(4) As abreviaturas e os símbolos pouco conhecidos devem ser explicados no
rodapé da tabela.
(5) Deve ser indicada a fonte dos dados.

Tabela de grupamento por intervalo de classe

Quando os valores de uma característica variam muito, como é o caso da estatura


ou do peso das pessoas, uma tabela como a Tabela 1.1 tenderia a ser muito exten-
sa, perdendo a propriedade de condensar a informação. A solução é grupar os
dados por intervalos de classe, como foi feito na Tabela 1.2 para valores de peso
em 256 universitárias gaúchas.
Cada intervalo de classe possui um extremo ou limite inferior e um extremo
ou limite superior. O sinal |¾ indica que o extremo inferior está incluído no inter-
valo, mas o superior, não. Intervalos indicados por esse sinal são denominados
intervalos abertos à direita e são os mais comumente usados.
22 Sidia M. Callegari-Jacques

TABELA 1.2 Pesos (kg) de 256 alunas da Universidade Federal do Rio Grande do Sul, obtidos
no período de 1980 a 1999 (dados organizados em intervalos de classe)
Peso (kg) f fr
40 |¾ 45 9 0,035
45 |¾ 50 36 0,141
50 |¾ 55 78 0,304
55 |¾ 60 55 0,215
60 |¾ 65 53 0,207
65 |¾ 70 11 0,043
70 |¾ 75 7 0,027
75 |¾ 80 5 0,020
80 |¾ 85 1 0,004
85 |¾ 90 1 0,004
å 256 1,000

A notação envolvendo intervalos abertos à direita (|¾), abertos à esquerda


(¾|) ou fechados em ambos os lados (|¾|) é muito útil quando se quer elaborar
tabelas de freqüências para variáveis contínuas, pois não permite ambigüidade na
locação dos valores nos intervalos. Note, porém, que é comum encontrar, refe-
rindo-se à idade de crianças, por exemplo, a notação 3-4 anos, 5-6 anos, 7-8
anos para indicar 3 a 4 anos, 5 a 6 anos, 7 a 8 anos. A notação é de intervalo
aberto, mas a idéia transmitida é a de intervalo fechado em ambas as extremi-
dades!
O número escolhido de classes fica geralmente entre 6 e 8, podendo oscilar
entre 5 e 20, dependendo do detalhamento desejado pelo investigador e do tama-
nho da amostra.
Nas tabelas de grupamento por intervalo de classe, além de f e fr pode-se
calcular F e Fr, do mesmo modo como foi explicado para tabelas de grupamento
simples.

DISTRIBUIÇÕES DE FREQÜÊNCIAS: GRÁFICOS

A representação gráfica é bastante interessante, porque dá uma visão mais ime-


diata de como se distribuem os indivíduos nos diferentes valores da variável. Nas
publicações, os gráficos devem ser chamados de figuras. O título do gráfico deve
ser claro, para evitar que o leitor volte ao texto para entender a que se refere, sendo
colocado ao pé do desenho, ao contrário da tabela que tem o título colocado na sua
parte superior.

Histograma

O histograma é o gráfico mais utilizado para variáveis contínuas. Consiste de uma


sucessão de retângulos contíguos, cuja base é o intervalo de classe, e a altura, a
freqüência relativa em cada classe dividida por h, a amplitude do intervalo de
classe. Se as classes forem todas de igual amplitude, não é necessário realizar a
divisão. No final, tem-se uma figura geométrica, com área total considerada como
Bioestatística 23

100% ou 1 (a soma de todas as freqüên-


80 cias relativas). A Figura 1.1 apresenta
o histograma relativo ao peso corporal
f de estudantes do sexo feminino da Uni-
versidade Federal do Rio Grande do Sul
60 (UFRGS), obtido no período 1980-
1999.

40 Ogiva

A ogiva é o gráfico adequado para re-


presentar as freqüências acumuladas (F
20 ou Fr). No eixo horizontal, são coloca-
dos os intervalos de classe. No ponto
médio de cada intervalo, levanta-se
uma perpendicular imaginária e mar-
0 ca-se um ponto na altura corresponden-
45 55 65 75 85
te à freqüência acumulada na classe. A
FIGURA 1.1 Peso (kg) observado em 256 alunas da Universi-
dade Federal do Rio Grande do Sul. seguir, os pontos são unidos por seg-
mentos de reta.
A ogiva é útil para se identificar
graficamente percentis de interesse, como, por exemplo, a mediana (percentil 50).
A Figura 1.2 apresenta a ogiva correspondente a dados de pressão arterial
sistólica medida nas primeiras 24 horas de vida, em 96 recém-nascidos de Porto
Alegre (Oliveira, 1991; Tabela 1.3). Desenhando uma linha auxiliar a partir da
freqüência acumulada igual a 50% até a ogiva e desta para o eixo horizontal,
pode-se obter graficamente uma estimativa para a mediana da pressão arterial
sistólica nesses recém-nascidos (md: 65 mmHg).

Diagrama de bastões

A representação gráfica apropriada para variáveis quantitativas discretas é o dia-


grama em bastão. Esse gráfico é parecido com um histograma, com uma impor-
tante diferença: as freqüências para cada valor de x são agora representadas por

TABELA 1.3 Pressão arterial sistólica medida em 96 recém-nascidos, nas primeiras 24 horas de vida
PAS (mmHg) f Fr
55 |¾ 59 3 0,031
59 |¾ 63 5 0,083
63 |¾ 67 40 0,500
67 |¾ 71 24 0,750
71 |¾ 75 15 0,906
75 |¾ 79 8 0,990
79 |¾ 83 1 1,000
Total 96 –
Fonte: Oliveira, 1991.
24 Sidia M. Callegari-Jacques

100
90
80
Freq. acumulada (%)

70
60
50
40
30
20
10
FIGURA 1.2 Pressão arte-
0
rial sistólica (mmHg) de 96
50 55 60 65 70 75 80 85 90 recém-nascidos, nas pri-
meiras 24 horas de vida.
Pressão arterial sistólica (mmHg)
(Fonte: Oliveira, 1991.)

bastões e não retângulos, pois inexiste continuidade entre os valores. A Tabela 1.4
e a Figura 1.3 apresentam um exemplo de representação tabular e gráfica para
dados deste tipo.

FREQÜÊNCIA RELATIVA E PROBABILIDADE

A freqüência relativa (fr) de um valor estima a probabilidade verdadeira de ocor-


rência deste valor, que só é conhecida tendo-se informação quanto a todos os
indivíduos da população. A freqüência relativa associada a x = 2 irmãos, confor-
me mostra a Tabela 1.4, é de 0,35 na amostra estudada. Pode-se, então, estimar
em 35% a fração de universitários que têm dois irmãos. Isto equivale também a
dizer que se estima em 0,35 a probabilidade de que um universitário, selecionado
ao acaso desta população, tenha dois irmãos.
Estas conclusões são válidas se a amostra for representativa da população de
estudantes da UFRGS. Por outro lado, quanto maior for uma amostra representa-
tiva, melhor será a idéia da ocorrência relativa (fr) do valor x = 2 na população,
isto é, melhor será a estimativa da probabilidade verdadeira.
O mesmo raciocínio vale para as tabelas de dados grupados por intervalo de
classe (Tabela 1.2). A probabilidade estimada de que uma estudante tenha peso
entre 45 e 50 kg é 0,14.

40

30

% 20

10
FIGURA 1.3. Número de
0 irmãos relatados por 115
estudantes universitários
0 1 2 3 4 5 6 7 8 9
da UFRGS.
Número de irmãos
Bioestatística 25

TABELA 1.4 Número de irmãos relatados por 115 estudantes universitários da UFRGS (dados
obtidos entre 1986 e 1992)
No de irmãos f fr Fr
0 8 0,07 0,07
1 20 0,17 0,24
2 40 0,35 0,59
3 26 0,23 0,82
4 9 0,08 0,90
5 7 0,06 0,96
6 4 0,03 0,99
7 0 0,00 0,99
8 0 0,00 0,99
9 1 0,01 1,00

No histograma relativo a estes dados (Figura 1.1), a área do retângulo refe-


rente ao intervalo 45 |¾ 50 corresponde a 14% da área de todo o histograma
(100%). Portanto, a área deste retângulo é a representação geométrica da proba-
bilidade estimada de se encontrar valores entre 45 e 50 na população. No gráfico
de bastões, a probabilidade estimada para cada valor é a altura do bastão.

Interesses relacionados