Você está na página 1de 43

Parte

I
Descrio
Captulo 2
Organizao dos Dados

Captulo 3
Medidas de Tendncia Central

Captulo 4
Medidas de Variabilidade

Organizao dos Dados

Distribuies de Freqncias
Nominais

de Dados

Postos Percentis
Dados Decimais

Comparao de Distribuies

Intervalos de Classe Flexveis

Propores e Porcentagens

Tabulaes Cruzadas

Razes e Taxas

Apresentaes

Distribuies de Freqncias Simples


de Dados Ordinais e Intervalares

Resumo

Distribuies de Freqncias Agrupadas


de Dados Intervalares

Grficas

Termos-chave
Exerccios

Distribuies Acumuladas

_\ coleta de dados acarreta um srio esforo por parte dos pesquisadores sociais
ampliar seu conhecimento sobre o comportamento humano. Para entrevistar o
ces de beneficirios da previdncia social, alunos de faculdades, viciados em
~
omosse::ruais, norte-americanos
de classe mdia ou outras pessoas, faz-se necessrio um cert ~ au de
~reviso, planejamento cuidadoso e controle, quando no tempo efetivamente ~ sto
campo.
A coleta de dados, entretanto, apenas o comeo no que diz respeito ana.ise Ela fornece o material bruto que os pesquisadores sociais utilizam para analisar da .
resultados e testar hipteses sobre a natureza da realidade social.

ca.
obter

Distribuies de Freqncias de Dados Nominais


fabricante de mveis transforma a madeira bruta em moblia; o mestre de cozinha converte
z.imentos brutos em refeies saborosas servidas mesa de jantar. Por um processo anlogo, o
_ quisador socialauxiliado por 'receitas' chamadas frmulas e tcnicas estatisticas - procura
cansformar dados brutos em um conjunto significativo e organizado de medidas que podem ser
-Sadas para testar hipteses.
O que que os cientistas sociais podem fazer para organizar a massa de dados brutos
- etada de seus indivduos? Como procedem para transformar essa massa de dados brutos em
a forma resumida e de fcil compreenso? O primeiro passo construir uma distribuio de
equncias em forma de tabela.

27

28

Parte I

Descrio

TABELA 2.1

Respostas de meninos
retirada de um brinquedo

Resposta da criana

Choro
Raiva

25
15

Retirada

Procura por outro brinquedo

5
N= 50

Suponha que um pesquisador que estuda a socializao infantil esteja interessado nas
reaes de meninos frustrao. Reagindo retirada de seus brinquedos, eles agem com raiva
ou choram? Quantas vezes encontram brinquedos alternativos? Alguns reagem retirando-se? O
pesquisador realiza um experimento com 50 meninos de 2 anos, apresentando-lhes um brinquedo colorido e retirando-o em seguida.
Examinemos a distribuio de freqncias dos dados nominais da Tabela 2.1. Note inicialmente que a tabela tem como cabealho um nmero e um ttulo que d ao leitor uma idia
da natureza dos dados apresentados - respostas de meninos retirada de um brinquedo. Essa
a disposio padro; toda tabela deve ter um ttulo objetivo e claro e, quando apresentada em
srie, deve tambm receber um nmero.
As distribuies de freqncias de dados nominais consistem em duas colunas. Conforme a Tabela 2.1, a coluna da esquerda indica a caracterstica que est sendo apresentada (resposta de uma criana) e contm as categorias de anlise (choro, raiva, retirada, procura por outro
brinquedo). Uma coluna adjacente (intitulada freqncia ou f) indica o nmero de meninos em
cada categoria (25, 15,5 e 5), respectivamente, assim como o total de meninos (50), que pode
ser indicado por N = 50 ou pela incluso da palavra Total abaixo das categorias. Uma rpida
observao da distribuio de freqncias da Tabela 2.1 revela claramente que um maior nmero de meninos reage chorando ou com raiva do que se retirando ou procurando um brinquedo
alternativo.

Comparao de Distribuies
Suponha, agora, que o mesmo pesquisador queira comparar as reaes de meninos e de meninas retirada de um brinquedo. A comparao entre distribuies de freqncia constitui
um processo muito usado para esclarecer resultados e acrescentar informaes. A comparao
particular que um pesquisador faz determinada pelo problema que ele est procurando resolver.
Nesse exemplo, o pesquisador decide investigar diferenas de sexo.As meninas tm maior
chance do que os meninos de procurar um brinquedo alternativo? Para achar uma resposta, o
pesquisador pode repetir o experimento com um grupo de 50 meninas e comparar os resultados. Suponha que tenham sido obtidos os dados da Tabela 2.2. Conforme mostrado nela, 15 das
50 meninas, contra apenas 5 dos 50 meninos, reagiram procurando outro brinquedo na sala.

Captulo

TABELA 2.2

Organizao

dos Dados

29

Respostas de crianas retirada


de um brinquedo, por sexo
Sexo da criana

Resposta da criana

Masculino

Feminino

25
15
5
5
-50

28

Choro
Raiva
Retirada
Procura por outro brinquedo
Total

3
4

15
50

Propores e Porcentagens
Quando um pesquisador estuda distribuies de mesmo tamanho, os dados de freqn . podem
ser utilizados para fazer comparaes entre grupos. Assim, os nmeros de meninos e de meninas que procuraram brinquedos alternativos podem ser comparados diretamente, porque havia
exatamente 50 crianas de cada sexo no experimento. De modo geral, entretanto, quase nunca
possvel estudarmos distribuies que apresentem exatamente o mesmo nmero de caso .
Para uso mais geral, necessitamos de um mtodo para padronizar distribuies de freqncia pelo tamanho - uma maneira de comparar grupos a despeito de diferenas nas freqncias
totais. A proporo e a porcentagem so dois dos mtodos mais comuns e mais teis para comparar distribuies.
A proporo compara o nmero de casos em determinada categoria com o tamanho total
da distribuio. Podemos transformar qualquer freqncia em uma proporo P dividindo o
nmero de casos em uma categoria arbitrria f pelo nmero total N de casos na distribuio:

Portanto, as 15 das 50 meninas que acharam um brinquedo


pressas pela seguinte 'proporo:

p=.!2

alternativo

podem ser ex-

= 030

30

'

Apesar da utilidade da proporo, muitas pessoas preferem indicar o tamanho relativo de


uma srie de nmeros em termos da porcentagem, a freqncia de ocorrncia de urna categoria
por 100 casos. Para calcular uma porcentagem, basta multiplicar por 100 qualquer proporo
dada. Pela frmula:
%= (100)

30

Parte I

Descrio

TABELA 2.3

Sexo de graduandos em engenharia


nas faculdades A e B
Matrculas

em engenharia

Faculdade A

FaculdadeB

Masculino

1.082

80

270

Total

1.352

80
20
-100

146

Feminino

37
183

20
100

Sexo do estudante

Ento, as 15 das 50 meninas que reagiram procurando uma alternativa podem ser expressas pela proporo P = 15/50 = 0,30 ou como uma porcentagem % = (100)(15/50) = 30%.
Assim, 30% das meninas conseguiram outro brinquedo para se divertir.
Para ilustrar a utilidade das porcentagens para fazer comparaes entre distribuies de
tamanhos grandes e desiguais, vamos examinar o sexo de graduandos em engenharia em duas
faculdades em que os programas do curso so muito diferentes. Suponha que a faculdade A
tenha 1.352 alunos de engenharia e a faculdade B, apenas 183 alunos nesse curso.
A Tabela 2.3 indica tanto as freqncias como as porcentagens de graduandos em engenharia nas faculdades A e B. Note quo difcil determinar rapidamente as diferenas de sexo
entre alunos de engenharia com base apenas na tabela de freqncias. Ao contrrio, as porcentagens revelam claramente que as mulheres tiveram representao igual entre os alunos nas faculdades A e B. Especificamente, 20% dos alunos de engenharia tanto na faculdade A como na
faculdade B so mulheres.

Razes e Taxas
Um mtodo no muito utilizado de padronizao em relao ao tamanho - a razo - compara diretamente o nmero de casos que se enquadram em uma categoria (por exemplo, homens)
com o nmero de casos enquadrados em outra categoria (por exemplo, mulheres). Assim,
pode-se obter da maneira mostrada a seguir uma razo, onde fi = freqncia em uma categoria
arbitrria e t. = freqncia em qualquer outra categoria:
Razo =

1;
/2

Se quisssemos determinar a relao de negros para brancos, compararamos o nmero


de entrevistados negros (f = 150) com o nmero de entrevistados brancos (f = 100), obtendo
1501100.Cancelando fatores comuns no numerador e no denominador, podemos reduzir uma
razo a sua forma mais simples, por exemplo, 150/100 = 3/2. (H 3 entrevistados negros para
cada 2 entrevistados brancos.)

Captulo

Organizao

dos Dados

31

o pesquisador poderia tornar mais clara essa relao, dando a base (o denominador) em
orma mais compreensvel. Por exemplo, a razo de sexo empregada por demgrafos que procuram comparar os nmeros de homens e mulheres em qualquer populao em geral dada como
o nmero de homens por 100 mulheres.
A ttulo de ilustrao, se a relao de homens para mulheres 150/50, h 150 homens
ara 50 mulheres (ou, reduzindo, 3 homens para cada mulher). Para obter a verso convencional da razo de sexo, multiplique por 100 a razo anterior:

Razo de sexo

= (100) f homens = (100) (150)


= 300
f mulheres
50

H, ento, 300 homens na populao

para cada 100 mulheres.

Outro tipo de razo - que tende a ser cada vez mais utilizada pelos pesquisadores sociais
- conhecida como taxa. Os socilogos freqentemente analisam populaes quanto s taxas
':e reproduo, morte, criminalidade, desemprego, divrcio, casamento e semelhantes. Entrezanto, enquanto a maior parte das outras razes compara o nmero de casos em qualquer cate~oria ou subgrupo com o nmero de casos em qualquer outro subgrupo, as taxas indicam com?Maes entre os casos efetivos e o nmero de casos potenciais. Por exemplo, para determinar
_ taxa de natalidade de determinada populao, podemos exibir o nmero efetivo de nascidos
~'os entre as mulheres em idade frtil (os elementos da populao que esto expostos ao risco
::e parto, representando, portanto, casos potenciais). Analogamente, para determinar a taxa de
.:ivrcio, podemos comparar o nmero efetivo de divrcios com o nmero de casamentos que
ocorrem em determinado perodo de tempo (por exemplo, 1 ano). As taxas em geral so da.:iasem termos de uma base com 1.000 casos potenciais. Assim, as taxas de natalidade so dadas
z mo o nmero de nascimentos por 1.000 mulheres; as taxas de divrcio podem ser expressas
".;D termos do nmero de divrcios por 1.000 casamentos. Se ocorrem 500 nascimentos entre
-=.000mulheres frteis:

Taxa de nascimento

= (1.000)

f casos reais..
casos potenciais

= (1.000) ( --500 ) = 125


4.000

Resulta que h 125 nascidos vivos para cada 1.000 mulheres em idade frtil.
No h nada de especial em calcular taxas por caso potencial ou por 1.000 casos poten~ is. Na verdade, expressar taxas per capita (isto , por pessoa) por 1.000 ou mesmo por milho
plesmente resume-se deciso sobre qual a base mais conveniente. Por exemplo, os gastos
: m educao pblica so expressos em geral por aluno (determinados pela freqncia diria
zidia, porque a freqncia varia durante o ano escolar em funo de diversos fatores, incluindo
::ansferncias e desistncias). Para calcular essa taxa, divida a despesa total (em moeda corrente)
relo total de matrculas:
. (1
)
G asto per capzta a uno

gastos nas escolas


= =--------.:..---

pblicas
nmero de alunos

32

Parte I

Descrio

Ao contrrio da taxa per capita anterior, as taxas de homicdio


mero de crimes por 100.000 habitantes:

so avaliadas como o n-

Taxa de homicdio = (100.000) (nmero de hO~icdiOS)


populaao

Suponhamos, por exemplo, que um estado acuse 1.124 homicdios


de 9.200.000. Sua taxa de homicdios (TH) seria:

TH = (100.000)(

para uma populao

1.124 J
9.200.000

= (100.000)(0,000122)
=12,2
H, assim, 12,2 homicdios

para cada 100.000 moradores.

importante notar que poderamos ter definido a taxa como homicdios per capita sem
multiplicar a frao (homicdios em relao populao) pelo fator de escala de 100.000. Entretanto, a taxa resultante de 0,000122, embora correta, de difcil manuseio em razo de seu
pequeno vulto. Podemos, portanto, aumentar a taxa para uma forma mais legvel e digervel
multiplicando por 100.000 (deslocando a vrgula decimal cinco casas para a direita), o que ento
transforma a taxa per capita de 0,000122 em uma taxa de 12,2 por 100.000.
At aqui discutimos taxas que fazem comparaes entre populaes diferentes. Por
exemplo, poderamos querer comparar taxas de natalidade entre negros e brancos, entre mulheres da classe mdia e da classe baixa, entre grupos religiosos ou pases inteiros e assim por diante.
Outro tipo de taxa, a taxa de variao, pode ser usado para comparar a mesma populao em
dois momentos no tempo. Ao calcular a taxa de variao, comparamos a variao efetiva entre o
momento 1 e o momento 2, com o nvel no momento 1 servindo de base. Assim, uma populao
que cresce de 20.000 para 30.000 entre 1990 e 2000 acusa a seguinte taxa de variao:

(100)(tempo

2i -tempo
tempo li

li) = (100)(30.000-20.000J
20.000

Em outras palavras, houve um aumento populacional

= 50%

de 50% no perodo de 1990 a 2000.

Note que uma taxa de variao pode ser negativa, indicando um decrscimo no tamanho
ao longo de determinado perodo. Por exemplo, se uma populao varia de 15.000 para 12.000
em determinado perodo de tempo, a taxa de variao :

(100)(12.000-15.000J
15.000

= -20%

Captulo 2

Organizao dos Dados

TABELA 2.4

Distribuio de preferncias
de trs maneiras

Religio

Religio

Religio

Protestante

Catlica

20
10
30

Judaica

10

Protestante

Judaica

30
20
10

Catlica

30
20

Total

60

60

Total

60

Catlica

Judaica
Protestante
Total

33

religiosas mostrada

--

Distribuies de Freqncias Simples de Dados Ordinais e Intervalares


Como os dados nominais so rotulados, em vez de graduados ou escalonados, as categorias de
distribuies de nvel nominal no precisam ser relacionadas em qualquer ordem em parti
ar.
Assim, os dados sobre preferncias religiosas mostrados na Tabela 2.4 so apresentado
em trs
disposies diferentes, embora igualmente aceitveis.
J as categorias ou valores de escores em distribuies ordinais ou intervalares representam
o grau de presena de determinada caracterstica. A listagem dessas categorias ou valores de escore
em distribuies simples de freqncia deve refletir aquela ordenao.
Por essa razo, as categorias ordinais e intervalares so sempre dispostas em ordem em
geral dos valores mais altos para os mais baixos (mas s vezes dos valores mais baixos para os mais
altos). Por exemplo, podemos relacionar as categorias de classe social da mais alta para a mais baixa
ou publicar os resultados de um exame de biologia em ordem consecutiva, da nota mais alta para
a mais baixa.
A alterao da ordem de categorias ordinais e intervalares reduz a legibilidade dos resultados da pesquisa. Esse efeito pode ser observado na Tabela 2.5, onde apresentamo
as ver es
"incorreta' e 'correta' de uma distribuio da posio em relao cobrana de uma taxa para
caminhadas no campus de uma faculdade. Qual a verso que apresenta leitura mais fcil?

TABELA 2.5

Distribuio de freqncias das posies em relao cobrana de


taxa para caminhadas no campus: apresentaes incorreta e correta

Posio em relao
taxa para caminhadas
Levemente favorvel
Desfavorvel
Fortemente favorvel
Levemente desfavorvel
Fortemente desfavorvel

f
2
21
O
4

10

Posio em relao
taxa para caminhadas

Fortemente favorvel

Favorvel

38

Total
INCORRETA

21

Desfavorvel
Fortemente desfavorvel

Favorvel

Levemente favorvel
Levemente desfavorvel

10

38

Total
CORRETA

34

Parte I

Descrio

Distribuies de Freqncias Agrupadas de Dados Intervalares


Os escores de nvel intervalar por vezes se distribuem em uma grande amplitude (maior escore
menos menor escore), o que torna a distribuio de freqncias simples resultante longa e de
leitura difcil. Quando isso ocorre, poucos casos podem se enquadrar em cada valor do escore, e
o padro do grupo fica obscurecido. A ttulo de ilustrao, a distribuio constante da Tabela 2.6
contm valores que variam de 50 a 99, distribuindo-se por quase quatro colunas.
Para tornar clara nossa apresentao, podemos construir uma distribuio de freqncias
agrupadas, condensando os escores separados em um nmero menor de categorias ou grupos,
cada um deles contendo mais de um valor de escore. Cada categoria ou grupo em uma distribuio agrupada chamado intervalo de classe, e seu tamanho determinado pelo nmero de
valores de escores que contm.
As notas de prova de 71 estudantes apresentadas na Tabela 2.6 foram reorganizadas em
uma distribuio de freqncias agrupadas, apresentada na Tabela 2.7, na qual temos 10 intervalos de classe, cada um de tamanho 5. Assim, o intervalo de classe mais alto (95-99) contm
os cinco escores 95, 96, 97, 98 e 99. Analogamente, o intervalo 70-74 tem tamanho 5 e contm os
valores de escore 70, 71, 72, 73 e 74.
Na Tabela 2.7, as freqncias aparecem ao lado dos intervalos de classe. Essa coluna nos
d o nmero de casos ou escores em cada categoria. Assim, enquanto o intervalo de classe 95 - 99
abrange cinco valores de escore (95,96,97,98 e 99), ele inclui apenas trs escores (95, 96 e 98).
A coluna mais significativa, especialmente se considerarmos comparaes com outras
distribuies (como as notas do exame final em um perodo diferente com nmero diferente de
alunos), a coluna de porcentagens, tambm chamada distribuio de porcentagens.

TABELA 2.6

Distribuio

de freqncias das notas de 71 alunos em um exame final

Nota

Nota

Nota

Nota

99
98
97
96
95
94
93
92
91
90
89
88
87
86

O
1
O
1
1
O
O
1
1
O
1
O
1
O

85
84
83
82
81
80
79
78
77
76
75
74
73
72

71
70
69
68
67
66
65
64

4
9
3
5
1
3
O
1
2
O
O
2
3
1

57
56
55
54
53
52
51
50

O
1
O
1
O
1
1
1

1
O
3
1
2
8
1
O
2
1
1
1
2

63
62
61
60
59
58

N= 71

Captulo 2

TABELA 2.7

Organizao dos Dados

Distribuio de freqncias
agrupadas para as notas de
71 alunos em um exame final

Intervalo
de classe

95-99

4,23

90-94

2,82

85-89

5,63

80-84

9,86

75-79

12

16,90

70-74

17

23,94

65-69

12

16,90

60-64

7,04

55-59

7,04

50-54

5,63

Total

35

71

100

Nota: as porcentagens, conforme exibidas, totalizam 99,99%. Escrevemos a soma como 100% porque sabemos que 0,01% foi
perdido em arredondamentos.

Limites de Classe
uponha que, ao subir em uma balana digital de banheiro, aparea no mostrador o nme123_Voc pesa realmente 123 libras? Ou apenas mais realista dizer que pesa aproximada:::nente 123? Especificamente, seu peso superior a 122,5 e inferior a 123,5, e a balana faz o
arredondamento
para o inteiro mais prximo. Quando construmos intervalos de classe para o
mbito de pesos de 120 a 129 libras, devemos incluir um 'fator de cobertura' para os nmeros
inteiros, Assim, o intervalo de classe efetivamente de 119,5 (extremo inferior de 120) e 129,5
extremo superior de 129). Os limites efetivos desse intervalo so 119,5 e 129,5. a realidade,
qualquer pessoa cujo peso exato esteja entre 119,5 e 129,5 ser includa nesse intervalo. Em ter:::nosprticos, qualquer pessoa cujo peso exato esteja entre 119,5 e 129,5 figurar na balana em
meros inteiros de 120-129.
:0

Cada intervalo de classe tem um limite superior e um limite inferior. primeira vista,
pode parecer que esses limites sejam o maior e o menor valores em qualquer categoria. Assim,
seria razovel esperar que os limites superior e inferior do intervalo 60 - 64 fossem 64 e 60,
respectivamente. Nesse caso, entretanto, estaramos errados, porque 64 e 60 no so realmente
os limites do intervalo 60-64.
Ao contrrio do maior e do menor valor de escore em um intervalo, os limites de classe
esto localizados no ponto a meio caminho entre intervalos de classe adjacentes, servindo para
. reencher a lacuna entre eles (Figura 2.1). Assim, o limite superior do intervalo 90-94 94,S,
e o limite inferior do intervalo 95-99 tambm 94,S. Da mesma maneira, 59,5 tanto o limite
superior do intervalo 55-59 como o limite inferior do intervalo 60-64.

36

Parte I

Descrio

Finalmente, como podemos ver pela Figura 2.1, a distncia entre os limites superior e
inferior de um intervalo de classe determina seu tamanho. Isto :
h=S-I

onde

tamanho de um intervalo de classe

limite superior de um intervalo de classe

limite inferior de um intervalo de classe

Por exemplo, para o intervalo 90-94, o tamanho (h) 94,5 - 89,5 = 5. Isso corresponde
ao valor que obtemos contando simplesmente os valores no interior do intervalo (90,91,92,93
e 94). Para evitar qualquer confuso, recomendamos que voc sempre calcule o tamanho de um
intervalo de classe subtraindo o limite inferior do limite superior.

o Ponto

Mdio

Outra caracterstica de qualquer intervalo de classe seu ponto mdio (m), isto , o ponto que
se encontra exatamente no meio dele. Um mtodo rpido e simples para determinar um ponto
mdio consiste em localizar o ponto que divide um intervalo dado em duas partes iguais. Consideremos alguns exemplos: 50 o ponto mdio do intervalo 48-52; 3,5 o ponto mdio do

95

Maior valor de escore -

94,5 ---

Limite superior

89,5 ---

Limite inferior

94

93

92

91

Menor valor de escore -

90

89

FIGURA 2.1 Menor e maior valor de escore versus limite inferior e superior do intervalo de classe
90-94.

Captulo 2

Organizao dos Dados

37

intervalo 2-5. O ponto mdio tambm pode ser calculado a partir do menor e do maior valor
de qualquer intervalo. O ponto mdio do intervalo 48 - 52, por exemplo, :
m

= menor valor de escore + maior valor de escore = 48 + 52 = 50


2

Em certo sentido, o ponto mdio pode ser considerado o representante de todos os valores de escores em um intervalo de classe. um nmero nico, que pode ser usado para representar todo um intervalo de classe.

Diretrizes para a Construo de Intervalos de Classe


A construo

de intervalos de classe apenas uma forma especial de categorizar dados. Conforme discutimos anteriormente,
as categorias, assim como os intervalos de classe, devem ser
mutuamente excludentes (no se superpondo) e exaustivas (um lugar para cada caso).
Os alunos principiantes em geral acham difcil a construo de intervalos de classe. Na
verdade, trata-se de uma habilidade que se desenvolve apenas com a prtica. Entretanto, h algumas diretrizes gerais que podem facilitar a tarefa. Note que se trata apenas de diretrize que,
sob certas circunstncias, podem ser violadas.
Para apresentar dados intervalares em uma distribuio de freqncias agrupadas, o
pesquisador deve levar em conta o nmero de categorias que deseja utilizar. Os textos em geral aconselham um mnimo de 3 ou 4 e um mximo de 20 intervalos. Nesse aspecto, conve'ente lembrar que as distribuies de freqncias agrupadas servem para revelar ou enfatizar
.im padro de grupo. Um nmero muito grande ou muito pequeno de intervalos de classe
:- de mascarar o padro, trabalhando assim contra o pesquisador, que procura aumentar o
p-au de clareza da anlise. Alm disso, a reduo dos escores individuais a um nmero desneressariamente pequeno de intervalos pode sacrificar em demasia a preciso, originariamente
tingida pelo conhecimento da identidade de escores individuais na distribuio. Em resumo,
ento, o pesquisador em geral toma uma deciso quanto ao nmero de intervalos com base
- conjunto de dados e em objetivos pessoais, fatores que podem variar consideravelmente
de
.ima situao de pesquisa para outra.
Aps decidir o nmero de intervalos de classe, o pesquisador deve ento comear a
nstruir os prprios intervalos. Duas diretrizes podem facilitar essa tarefa, devendo ser
idas sempre que possvel. Primeiro, prefervel tomar como tamanho dos intervalos de
se um nmero inteiro, e no um decimal. Isso tende a simplificar os clculos que envolem tamanho. Segundo, convencional, em um intervalo de classe, fazer o escore mais baixo
...:TI mltiplo do seu tamanho.
Em geral, por exemplo, as notas de exames so categorizadas
mo 90-99, 80-89 etc., de modo que as notas mais baixas (por exemplo, 80 e 90) so ml::' os de 10.

Distribuies Acumuladas
vezes interessante apresentar freqncias de uma maneira acumulativa, especialmente
-ando procuramos localizar a posio de um caso em relao ao desempenho global do grupo.
r

38

Parte I

Descrio

As freqncias acumuladas (fa) se definem como o nmero total de casos que tm um determinado escore ou um escore inferior. Ento, a freqncia acumulada (fa) para qualquer categoria
(ou intervalo de classe) se obtm somando-se a freqncia daquela categoria freqncia total
de todas as categorias abaixo dela. No caso das notas de alunos de faculdades da Tabela 2.8, vemos que a freqncia f associada ao intervalo de classe 200-249 3. Essa tambm a freqncia acumulada para esse intervalo, porque nenhum elemento do grupo tem escore inferior a 200.
A freqncia no intervalo de classe seguinte, 250-299, 6, e a freqncia acumulada para esse
intervalo 9 (6 + 3). Assim, vemos que 6 alunos obtiveram notas entre 250 e 299, mas 9 alunos
obtiveram nota 299 ou menor. Voc pode continuar o processo, obtendo freqncias acumuladas para todos os intervalos de classe, at chegar ao valor mais alto, 750-799, cuja freqncia
acumulada (336) igual ao nmero total de casos, porque nenhum elemento do grupo obteve
nota superior a 799.
Alm da freqncia acumulada, voc pode construir uma distribuio que indique a
porcentagem acumulada (a%) de casos que tm determinada nota ou uma nota inferior. Para
calcular uma porcentagem acumulada, modifique como se segue a frmula da porcentagem (%)
introduzida anteriormente neste captulo:

a%

onde

(100)

ia
N

fa

= freqncia acumulada em qualquer categoria

nmero total de casos na distribuio

TABELA 2.8

Distribuio de freqncias acumuladas (Ia) dos escores do


conselho de faculdades para 336 estudantes

Intervalo de classe

Ia

750-799

1,19

336

700-749

24

7,14

332

650-699

28

8,33

308

600-649

30

8,93

280

550-599

35

10,42

250

500-549

55

16,37

215

450-499

61

18,15

160

400-449

48

14,29

99

350-399

30

8,93

51

300-349

12

3,57

21

250-299

1,79

200-249

0,89

Total

336

100

Captulo

Organizao

dos Dados

Aplicando a frmula precedente aos dados da Tabela 2.8, vemos que a porcentagem
alunos que alcanaram 249 ou menos foi

a%

A porcentagem

(100)(_3 J
336

(100)(0,0089)

0,89

39

de

dos que atingiram 299 ou menos foi

a%

(100)(~J
336

= (100)( 0,0268)
= 2,68
A porcentagem

dos que atingiram

a%

349 ou menos foi

= (100)(~J

336

= (100)(0,0625)
=6,25
A Tabela 2.9 mostra a distribuio de porcentagens acumuladas, baseada nos dados da
Tabela 2.8. Note que a distribuio a % tambm pode ser obtida somando-se a distribuio per:en tual (%).

Postos Percentis
Seu professor de estatstica devolve as provas do bimestre. Sabendo que sua nota no curso de~nde da nota dessa prova, voc a abre vagarosamente. V ento um 77 vermelho com um cr:ulo em volta. Voc deve festejar silenciosamente e pensar na comemorao? Ou deve comear
~ pensar em propor um trabalho extracurricular que contribua para melhorar sua nota?
Pelos padres convencionais aprendidos no ensino fundamental e mdio, voc poderia
zer traduzido a nota 77 em um C +, ligeiramente acima da mdia. Mas na faculdade, ou pelo
menos em algumas turmas, os padres convencionais no so seguidos. Por si s, a nota 77 nada
:ignifica sem alguma indicao do desempenho do restante da classe. Se a maioria da turma
bteve notas entre 50 e 60, voc pode comemorar. Mas se a maioria obteve notas entre 80 e 90,
adie sua comemorao.
Colocando de outra maneira, a qualidade da nota bruta 77 depende de quo fcil o
zeste. Em um exame muito difcil, 77 pode ser uma nota louvvel, ao passo que, em um teste
simples, voc deveria ter obtido melhor resultado. Naturalmente, o nvel de dificuldade de um

40

Parte I

TABELA 2.9

Intervalo

Distribuio das porcentagens acumuladas (a %) dos escores do conselho de


faculdades para 336 estudantes (baseada na Tabela 2.8)

de classe

750-799
700-749

Descrio

Ia

a%

336

100,00

8,33

332
308

98,81
91,67

1,19
7,14

650-699

24
28

600-649

30

8,93

280

83,33

550-599

35

10,42

250

74,40

500-549

55

16,37

215

63,99

450-499

61
48

18,15

160

47,62

14,29
8,93

99
51

29,46
15,18

400-449
350-399
300-349

30
12

3,57

21

6,25

250-299

1,79

2,68

200-249

0,89

0,89

Total

336

100

exame s pode ser avaliado pelo desempenho da turma como um todo - isto , pela distribuio total de notas. Assim, a nica maneira de voc dizer se 77 foi um resultado excelente, bom,
mdio ou fraco compar-lo com toda a distribuio de notas na turma.
"Como se comporta o posto 77 em termos de toda a turma?", o aluno pergunta ao professor. O professor responde que seu desempenho foi, no mnimo, o mesmo de 60% da turma,
indicando que seu posto percentil foi 60%.
O posto percentil de qualquer escore dado, digamos 77, se define como a porcentagem
dos casos em uma distribuio que se enquadram naquele escore ou abaixo dele (por exemplo, a
porcentagem da classe que acusa 77 ou menos). Os postos percentis so fceis de calcular, desde
que o professor d toda a coleo de escores brutos. Por exemplo, no seguinte conjunto de 20
escores brutos, 77 se situaria em dcimo segundo posto. Assim, seu posto percentil seria o dcimo
segundo em 20, ou seja, 60%.
Dcimo segundo entre 20

= 60%

r-------------~------------- '\
94 92 91 88 85 84 80 79 77 76 74 74 71 69 65 62 56 53 48 40

Dcimo segundo escore a partir do menor

No raro - particularmente quando esto em jogo muitos nmeros - voc no poder


dispor de toda a coleo de escores que permita determinar o posto e o posto percentil. Em uma
grande turma de 80 estudantes, por exemplo, a maioria dos professores no estaria disposta a
escrever na lousa todo o conjunto de notas, optando por apresentar a distribuio de freqncias das notas da turma.

Captulo 2

41

Organizao dos Dados

Para sua turma de 20 alunos, o professor poderia decidir guardar para si os escores brutos
apresentados anteriormente e apresentar aos alunos apenas a seguinte distribuio de freqncias agrupadas:
Intervalo

de classe

Ia

a%

90-99

15

20

80-89

20

17

70-79
60-69

30
15

13

100
86-

10

7
4

20

10

10

50-59

3
2

40-49

2
N=20

100

As porcentagens acumuladas constituem a chave para a determinao dos postos percentis. De fato, como essas se definem como porcentagens de escores que se enquadram em
ceterminado intervalo de classe ou abaixo dele, as porcentagens acumuladas so os postos perzentis correspondentes aos limites superiores de classes. Assim, por exemplo, o limite superior
'::9,5tem um posto percentil de 35% (35% dos escores se enquadram em 69,S ou abaixo dele, e
limite superior 89,5 tem um posto percentil de 85% (85% dos escores se enquadram em 89,5
u abaixo dele).
E quanto ao escore de 77? Esse escore no se enquadra convenientemente
em nenhum
.imite superior de classe. Pode-se ver que seu posto percentil melhor do que 35%, porque 35%
corre em 69,S ou abaixo dele. Pode-se tambm observar que seu posto percentil no pro:::ciamente to alto como 65%, porque este corresponde ao limite superior 79,5 .. Assim o Posto
~crcentil do escore 77 situa-se em algum lugar entre 35% e 65% - mas exatamente onde?
A essa altura, podemos apenas estimar seu posto percentil com base em um processo
:: nhecido como interpolao. Focalizemos nossa ateno precisamente em seu intervalo de
.:2SSe 70-79, que chamaremos intervalo crtico. O escore 77 est a trs quartos do caminho de
u limite inferior 69,S para seu limite superior 79,S:
77-69,5
79,5-69,5

-10

=075
'

Seu escore de 77 est a trs quartos (ou 0,75) do caminho de 69,S a 79,5, conforme ilusa seguir:
69,5

77

79,5

Limite
inferior

Seu
escore

Limite
supenor

Pela porcentagem de casos (%) para esse intervalo de classe, dada na distribuio de freencias agrupadas anterior, sabemos que 30% dos escores, ou notas, esto entre 69,S e 79,S. Po-

42

Parte I

Descrio

demos, portanto, estimar que trs quartos da porcentagem dos escores nesse intervalo de classe
(30%) tambm estejam em 77 ou abaixo dele, isto , 0,75 X 30% = 22,5%. Por nossa estimativa,
22,5% dos escores esto entre 69,5 e 77. J sabemos, pela coluna de porcentagens acumuladas,
que 35% da distribuio est em 69,5 ou abaixo. Somando essas duas porcentagens - 35% em
69,5 ou abaixo, mais 22,5% entre 69,5 e 77 - podemos estimar que 57,5% da distribuio est
em 77 ou abaixo dele. Assim, o posto percentil para seu escore de 77 estimado em 57,5%.
Note que o posto percentil estimado de 57,5% no exatamente igual ao verdadeiro posto percentil de 60% previamente calculado pela contagem dos escores brutos. Sempre se pode
esperar essa discrepncia, porque o processo de interpolao constitui apenas uma estimativa.
O procedimento que acabamos de descrever tem como objetivo proporcionar uma compreenso conceitual do posto percentil. Seu clculo a partir de uma distribuio de freqncias
agrupadas tambm pode ser feito pela frmula:

PP=a%b

onde

PP

a%b

X -] J %
+ (-h-

posto percentil
porcentagem acumulada (numericamente) abaixo do limite inferior do intervalo crtico

escore bruto em considerao

limite inferior do intervalo crtico

tamanho do intervalo de classe

% =

porcentagem dentro do intervalo crtico

Para ilustrar o uso da frmula na obteno de um posto percentil, voltemos ao escore de


77. Antes de aplicar a frmula, devemos localizar, primeiro, o intervalo crtico, ou seja, o intervalo de classe em que figura o escore 77. O intervalo crtico para esse problema 70-79, como

demonstrado a seguir:
Intervalo de classe
90-99
80-89
70-79

f-

Intervalo de classe onde ocorre 77

60-69
50-59
Abaixo de 50

H vrias caractersticas do intervalo crtico que devemos determinar antes de aplicar a


frmula do posto de 'percentil:

Captulo 2

Organizao dos Dados

43

1. O limite inferior do intervalo crtico (I). o ponto que est a meio caminho entre o
intervalo crtico 70-79 e o intervalo de classe imediatamente abaixo dele, 60-69. O
limite inferior de 70-79 69,S, e no o menor valor de escore (70).
2. O tamanho do intervalo crtico (h), que determinado pelo nmero de valores dentro
do intervalo de classe 70-79. A amplitude do intervalo crtico 10, porque contm 10
valores, de 70 a 79. A amplitude de um intervalo tambm a diferena entre os limites
superior e inferior (por exemplo, 79,S - 69,S = 10).
3. A porcentagem no interior do intervalo crtico (%). Vemos que 30% das notas se enquadram no intervalo de classe 70-79.
4. A porcentagem acumulada (numericamente) abaixo do limite inferior do intervalo crtico (a%J Lemos a% diretamente na distribuio de porcentagens acumuladas. Para
cima, na coluna a% da tabela, vemos que 35% dos escores ficam abaixo do intervalo

crtico. Essa a porcentagem acumulada associada ao intervalo de classe que se situa


imediatamente abaixo do intervalo crtico.
Estamos agora em condies de aplicar a frmula seguinte para o posto percentil:
PP = 35,0+(77 ~~9,5J(30)

=35,0+(~'~J(30)
=35,0+22,5
=57,5
Assim, quase 58% dos estudantes obtiveram 77 ou menos no exame.
Como mais um exemplo de como obter postos percentis, vamos achar o posto para um
~- ore de 620 na distribuio da Tabela 2.9. Antes de aplicar a frmula, devemos primeiro 10.alizar o intervalo crtico, isto , o intervalo em que aparece o escore de 620. Como j vimos, o
atervalo crtico para esse problema 600-649.
Intervalo
750-799
700-749
650-699
600-649
550-599
500-549
450-499
400-449
350-399
300-349
250-299
200-249

de classe

f--

Intervalo de classe onde ocorre o escore de 620

44

Parte I

Descrio

Damos a seguir vrias caractersticas


de aplicar a frmula do posto percentil:

do intervalo crtico, que devemos determinar

1. O limite inferior do intervalo crtico. O limite inferior de 600-649


valor mais baixo (600).
2. O tamanho do intervalo crtico. O tamanho
50 valores, de 600-649.

antes

599,5, e no o

do intervalo crtico 50, porque contm

3. A porcentagem dentro do intervalo crtico. Vemos que 8,93% das notas dessas faculdades se enquadram

no intervalo de classe, 600-649.

4. A porcentagem acumulada abaixo do limite inferior do intervalo crtico. Para cima, na coluna a% da tabela, vemos que 74,40% das notas esto abaixo do intervalo crtico.
Estamos agora em condies de aplicar a seguinte frmula para o posto percentil:
PP

74,40+(

620~~99,5)(8,93)

74,40+(2~~5)(8,93)

74,40+(0,41)(8,93)

= 74,40+3,66
= 78,06
Resulta que pouco mais de 78% receberam escore 620 ou menos. Apenas 21,94% tiveram
escore mais alto.
Como outro exemplo, vamos determinar o posto percentil para um escore de 92 na seguinte distribuio de notas:
Intervalo de classe
90-99
80-89
70-79
60-69
50-59
40-49

Ia

6
8
12
10
7
6

12,24
16,33
24,49
20,41
14,29
12,24

49
43
35
23
13
6

N=49
Conforme

mostrado

aOjo
100,00
87,76
71,43
46,94
26,53
12,24

100,00

a seguir, o intervalo crtico para um escore de 92 90 - 99:

Intervalo

de classe

90-99
80-89
70-79
60-69
50-59
40-49

f-

Intervalo de classe onde ocorre 92

Captulo 2

Seguem-se vrias caractersticas

Organizao dos Dados

45

do intervalo crtico, que devem ser determinadas:

1. O limite inferior do intervalo crtico 89,5.


2. O tamanho

do intervalo crtico 10, porque h 10 valores nele, de 90 a 99.

3. A porcentagem

no interior do intervalo crtico 12,24.

4. A porcentagem acumulada abaixo do limite inferior do intervalo crtico pode ser obtida
da coluna a%, recorrendo ao intervalo de classe imediatamente inferior ao intervalo
crtico. A porcentagem acumulada associada ao intervalo de classe 80-89 87,76.
Estamos agora em condies de fazer a substituio
PP = 87,76

= 87,76

+(

na frmula do posto percentil:

92~~9,5)(12,24)

+ (~':)(12,24)

=87,76+3,06
= 90,82
Quase 91 % obtiveram

nota mxima igual a 92. Aproximadamente

9% obtiveram

nota

raais alta.
H pontos em uma distribuio de escores cujos postos percentis so to importantes
to utilizados que recebem nomes especiais. Os decis so pontos que dividem a distribuio
10 partes de igual tamanho. Assim, se um escore est localizado no primeiro decil posto
~ rcentil == 10), sabemos que 10% dos casos se localizam nele ou abaixo dele; se um escore est
- segundo decil (posto percentil == 20), ento 20% dos casos esto nele ou abaixo dele e assim
_ r diante. Os quartis so pontos que dividem a distribuio em quartos. Se um escore est 10zalizado no primeiro quartil (posto percentil == 25), ento sabemos que 25% do casos recaem
zele ou abaixo dele; se um escore est no segundo quartil (posto percentil == 50 ,50
dos casos
~ enquadram nele ou abaixo dele; e se um escore est no terceiro quartil (posto percentil == 5),
-':0 dos casos se enquadram nele ou abaixo dele (Figura 2.2). Finalmente, conforme veremos
prximo captulo, a mediana o ponto que divide a distribuio de escores em duas., metade
cima e metade abaixo. Assim, a mediana corresponde a um posto percentil de - mas tamm o quinto decil e o segundo quartil.

Dados Decimais
-em todos os dados so apresentados

em forma de nmeros inteiros. Isso no deve causar necuma preocupao, porque os procedimentos que aprendemos e que vamos aprender em cap'os posteriores se aplicam no s a decimais como tambm a nmeros inteiros. Para farniliarir-nos, logo de incio, com os dados decimais, consideremos a construo de uma distribuio
_ freqncia dos dados referentes ao desemprego por estado nos Estados Unidos, apresentados
Tabela 2.10. Os dados brutos no nos do um quadro muito claro do padro nacional do deprego. Somos levados aos extremos: os nmeros variam de um mximo de 6,3 ( ovo Mxico
~gnia Ocidental) a um mnimo de 2,4 (Minnesota e Nebraska).At que tenhamos construdo
-:la distribuio de freqncias agrupadas, os dados da Tabela 2.10 no nos dizem muito.

46

Parte I

Descrio

Posto percentil
95
90 =
85
80 =
75 =
70 =
65
60 =
55
50 =
45
40 =
35
30 =
25 =
20 =
15
10=
5
FIGURA 2.2

Decil

Quartil

9
8
7
6
5
4
3
1

2
1

Escala de postos percentis dividida por decis e quartis.

Como h apenas um total de 50 casos, no podemos pretender ter muitas categorias. Um


nmero excessivo de intervalos de classe refinar demasiadamente a distribuio. A determinao dos limites efetivos dos intervalos de classe a parte mais difcil de todas. Resultados mais
satisfatrios vo sendo obtidos por meio de muitas tentativas e erros, assim como com a prtica.
No existe um 'nmero correto' de intervalos de classe, mas o da Tabela 2.11 pode ser um bom
comeo.
Uma vez que tenhamos o arcabouo da distribuio de freqncias (os intervalos de classe e as freqncias), o resto quase imediato. Obtm-se da maneira usual as porcentagens, as
freqncias acumuladas e as porcentagens acumuladas. Quanto a outros clculos, como pontos
mdios, entretanto, tenha em mente que os dados so expressos com um algarismo decimal.
Conseqentemente,
esse algarismo importante na determinao do tamanho do intervalo ou
do mbito de escores cobertos por um intervalo de classe. Por exemplo, a amplitude do intervalo
4,0-4,4 0,5, porque contm os escores de 4,0 a 4,4 inclusive. H 5 escores entre 4,0 e 4,4, separados por um dcimo um do outro, de modo que o tamanho (5)(1/10) = 0,5.

Intervalos de Classe Flexveis


Embora no tenhamos salientado antes, voc deve ter notado que todas as distribuies de freqncias utilizadas at agora tm intervalos de classe de igual tamanho. H ocasies, entretanto,
em que tal prtica no recomendada.

Captulo 2

TABELA 2.10

Organizao dos Dados

Taxas estaduais de desemprego nos Estados Unidos, 1998


Taxa de
desemprego

Estado
Alasca
Alabama
Arkansas
Arizona
Califmia
Colorado
Connecticut
Delaware
Flrida
Gergia
Hava
lowa
Idaho
Illinois
Indiana
Kansas
Kentucky
Louisiana
Massachusets
Maryland
Maine
Michigan
Minnesota
Missouri
Mississippi
Fonte: Bureau ofLabor

Taxa de
desemprego

Estado
Montana
Carolina do Norte
Dakota do Norte
Nebraska
New Hampshire
Nova Jersey
Novo Mxico
Nevada
Nova York
Ohio
Oklahoma
Oregon
Pensilvnia
Rhode Island
Carolina do Sul
Dakota do Sul
Tennessee
Texas
Utah
Virgnia
Vermont
Washington
Wisconsin
Virgnia Ocidental
Wyoming

5,2
4,2
5,3
4,0
5,7
3,4
3,8
3,6
4,3
4,0
5,9
2,5
4,8
4,5
3,0
3,6
4,2
5,3
2,9
4,3
4,3
3,6
2,4
3,7
4,9
Statistics (EUA).

TABELA 2.11

Distribuio de freqncias das taxas


estaduais de desemprego, 1998

Intervalo de classe
6,0-6,4
5,5-5,9
5,0-5,4
4,5-4,9
4,0-4,4
3,5-3,9
3,0-3,4
2,5-2,9
2,0-2,4

f
2
5
3

9
9
9
6
5

2
N= 50

5,7
3,3
2,5
2,4
3,1
4,5
6,3
3,7
5,5
4,1
4,2
5,6
4,6
4,9
3,9
2,7
3,9
4,6
3,0
3,0
2,9
4,7
3,5
6,3
4,8

47

48

Parte I

Descrio

As distribuies de freqncia agrupadas podem ter intervalos de classe ilimitados em um


ou em ambos os extremos. A outra diferena principal em relao s distribuies apresentadas
anteriormente o emprego de intervalos de classe de tamanhos diferentes. Por exemplo, a Tabela
2.12 apresenta uma distribuio dos dados de um censo sobre a renda familiar para 1997 que e
tpica de distribuies construdas com dados de renda. Note que, enquanto os intervalos de classe que contm as menores rendas apresentam um tamanho de $5.000, o tamanho dos intervalos
dilatado para os nveis mais altos de renda. Qual teria sido o resultado se tivssemos mantido
um intervalo fixo de $5.000 para toda a distribuio? O intervalo $25.000-$34.999
teria duas
categorias, o intervalo $35.000-$49.999
se decomporia em trs categorias, e ambos os intervalos $50.000-$74.999
e $75.000-$99.999
teriam cada um cinco categorias. O efeito seria fazermos distines desnecessariamente
refinadas entre as pessoas de renda mais alta, gerando uma
distribuio de freqncia longa sem necessidade. Ou seja, em termos de padro de vida, ha
uma grande diferena entre o intervalo de classe $5.000-$9.999 e o intervalo $10.000-$14.999
J a diferena entre uma categoria de $60.000-$64.999
e uma categoria de $65.000-$69.999 e
relativamente sem importncia.
Essas novas voltas nas distribuies de freqncia no devem causar grande dificuldade
para voc adaptar o que j aprendeu neste captulo. Felizmente, os clculos de distribuies
acumuladas, postos percentis e semelhantes no se modificam para distribuies de freqncia
com amplitudes diferentes ou intervalos de classe abertos em uma das extremidades. A nica
modificao se refere ao clculo de pontos mdios de intervalos de classe ilimitados em uma das
extremidades. Consideremos um exemplo.
A Tabela 2.13 mostra os pontos mdios para a distribuio de renda familiar em 1997. O
clculo dos pontos mdios para a maior parte das categorias direto quando utilizamos nossa
frmula do ponto mdio:
menor valor de escore + maior valor de escore
m=---------------------------------2

TABELA 2.12

Distribuio de freqncias dos dados sobre renda


familiar, 1997

f
Categoria de renda

(famlias em milhares)

$100.000 ou mais

8.391

11,8

$75.000-$99.999
$50.000-$74.999

7.826
15.112

21,3

$35.000-$49.999

12.357

17,4

$25.000-$34.999

9.079
9.250

12,8
13,0

$15.000-$24.999
$10.000-$14.999
$5.000-$9.999
Menos de $5.000

11,0

4.054

5,7

2.887
1.929

4,1

N= 70.885

2,7

----100,0

Captulo 2

TABELA 2.13

Categoria

Organizao dos Dados

Distribuio de freqncias dos dados sobre renda familiar,


1997 (com os pontos mdios)

de renda

$125.000

8.391

$75.000-$99.999

$87.500

7.826

11,0

$50.000-$74.999

$62.500

15.112

$35.000-$49.999

$42.500

$25.000-$34.999
$15.000-$24.999

$30.000
$20.000

12.357
9.079

21,3
17,4

$10.000-$14.999

$12.500

4.054

5,

$7.500

2.887
1.929

4,1

N = 70.885

100,0

$100.000 ou mais

$5.000-$9.999
Menos de $5.000

49

$2.500

9.250

11,8

12,8
13,0

2,

Mas que devemos fazer com o intervalo de classe mais elevado ($100.000 ou mais que
- -o tem limite superior? Como devemos manusear a frmula? No h nenhuma regra rigorosa
- em rpida que possamos aplicar, apenas o bom senso. Os intervalos de classe foram se tornando
::-adativamente mais amplos com o aumento da renda. Prosseguindo com a mesma progresso,
rodertamos admitir, para a maioria das famlias restantes, o intervalo de $100.000149.999,
__e tem um ponto mdio de $125.000.

Tabulaes Cruzadas
- - distribuies de freqncia, como as que tm sido discutidas at aqui, aparecem em toda
rarte. As publicaes do Bureau of the Census empregam consistentemente
distribuices de
ceqncia para descrever caractersticas da populao dos Estados Unidos; a apresentao dos
dos brutos - mlhes de observaes - obviamente seria impossvel.
Encontramos distribuies de freqncia em jornais dirios; os jornalistas, como todo
_squisador social, consideram as tabelas uma forma muito conveniente de apresentaco. A
- ioria dos leitores dos jornais capaz de entender porcentagens bsicas (mesmo que no se
brem de como calcul-Ias). Em geral, uma tabela de freqncias e porcentagens de determida varivel suficiente para o nvel de profundidade e detalhe que encontramos em um jor- - Os pesquisadores sociais, entretanto, pretendem mais do que apenas descrever a distribui- de uma varivel; procuram explicar por que alguns indivduos se encaixam em um extremo
distribuio, enquanto outros se localizam no extremo oposto.
Para atingir esse objetivo, devemos explorar as tabelas com maior profundidade, expandin- em duas ou mesmo mais dimenses. Em particular, uma tabulao cruzada uma tabela que
resenta a distribuio - freqncias e porcentagens - de uma varivel (em geral, a varivel deente) por categoria de uma ou mais variveis adicionais (em geral, as variveis independentes).
Quando o estado de Massachusetts instituiu a obrigatoriedade do uso do cinto de segu:4, fixou uma multa de $15 pelo no-cumprimento
da exigncia. Para avaliar a obedincia

50

Parte I

Descrio

TABELA 2.14 Distribuio de freqncias do uso do cinto


de segurana
Uso do cinto de segurana
Sempre
Na maioria das vezes
Algumas vezes
Raramente
Nunca
Total

499
176
124
83
115
-997

50,1
17,7
12,4
8,3
11,5
--100

lei, Fox e Tracy fizeram uma pesquisa telefnica junto a 997 residentes na rea de Boston sobre
uso do cinto de segurana e sobre sua opinio quanto polmica lei. Com relao questo principalcom que freqncia o entrevistado utilizava o cinto de segurana -, o resultado todo fo
a distribuio de freqncias simples da Tabela 2.14.
Cerca de metade dos entrevistados da pesquisa (50,1 %) declarou usar sempre o cinto. Dois
teros dos entrevistados (50,1 % + 17,7% = 67,8%) responderam que usavam o cinto quase sempre.
Entretanto, no nos satisfaz apenas o conhecimento do grau de respeito lei. Para analisar mais detidamente os dados da pesquisa, comeamos examinando que tipos de pessoas usam
cinto de segurana - isto , quais caractersticas dos entrevistados esto relacionadas com
uso do cinto.
Uma das mais significativas diferenas est entre os homens e as mulheres na pesquisa.
Empregamos uma tabulao cruzada para observar as diferenas entre os sexos no que diz respeito ao uso do cinto de segurana. Ou seja, construmos uma distribuio de freqncias de
duas ou mais variveis consideradas simultaneamente.
A tabulao cruzada exibida na Tabe
2.15 mostra, por exemplo, que 144 homens afirmaram usar sempre o cinto e que 110 mulheres
declararam usar quase sempre o cinto.
O fundamento das tabulaes cruzadas foi apresentado quando comparamos as distribuies por sexo de graduandos em engenharia de duas faculdades. A tabulao cruzada pode

TABELA 2.15 Tabulao cruzada do uso do cinto de segurana por sexo


Sexo do entrevistado
Uso do cinto de segurana
Sempre
Na maioria das vezes
Algumas vezes
Raramente
Nunca
Total

Masculino
144
66
58
39
60
367

Feminino

Total

355
110
66
44
55
-630

499
176
124
83
115
997

Captulo 2

51

Organizao dos Dados

ser encarada como uma srie de distribuies de freqncia (duas, no caso) unidas de modo a
formar uma nica distribuio. Nesse exemplo temos essencialmente uma distribuio de freqncias do uso do cinto entre os homens, justaposta a uma distribuio comparvel do uso do
cinto entre as mulheres.
Como no caso das distribuies de freqncia de uma varivel, as porcentagens comerem
aos resultados um significado mais forte do que as freqncias isoladas. Atendo-nos ao mesmo
processo anterior, isto , dividindo cada freqncia (f) pelo tamanho N da amostra:

obtemos os resultados percentuais para as duas variveis conjuntamente,


conforme apresen:ado na Tabela 2.16. Por exemplo, voc pode obter a porcentagem da amostra que co
te em
:nulheres que sempre usam o cinto de segurana dividindo o nmero de usurias 'Sem xe' pelo
nmero de entrevistados em uma amostra global:
100(355) = (100)(0,356) = 35,6%
997
Assim, 35,6% da amostra consiste em mulheres que sempre usam o cinto (Tabela _.
As distribuies de freqncia de cada varivel separadamente podem ser eu co tradas
longo das margens de uma tabulao cruzada de dois critrios. So as chamadas iis U!ktUJt2>

TABELA 2.16

Tabulao cruzada do uso do cinto de segurana


porcentagens totais

por sexo, com as

Sexo do entrevistado
Masculino

Uso do cinto de segurana


Sempre

144
14,4%

-3

maioria das vezes

66
6,6%

~gumas vezes

58

r..namente

39

..::oca

60

5,8%
3,9%
6,0%
367

:-otal
~

36,8%

Feminino
355
35,6%
110
11,0%
66
6,6%
44
4,4%
55
5,5%
630
63,2%

Total
499~
50,1%
176
17,7%
124
12,4%
83
8,30
115
11,.0
997 ~
100,00

---------.--~>~---------------------------------Marginal de coluna
(totais de coluna)

linha

:u:::

Tamanho

52

Parte I

Descrio

marginais. Isto , a margem direita d uma distribuio de freqncias e de porcentagens

do uso
do cinto de segurana idntica que tnhamos na Tabela 2.14. Como a varivel uso do cinto de
segurana colocada ao longo das linhas da tabulao cruzada, as freqncias e porcentagens
referentes ao uso de cinto formam os totais de linha. Da mesma maneira, a distribuio marginal dos sexos figura na margem da base da tabulao cruzada. Essas freqncias e porcentagen
para homens e mulheres so os totais de colunas, porque o sexo a varivel que encabea as
colunas.
As porcentagens na Tabela 2.16 so chamadas porcentagens totais (%total)
obtidas dividindo-se cada freqncia pelo tamanho total da amostra:

porque so

Por exemplo, 14,4% da amostra consiste em homens que usam sempre o cinto de segurana. Analogamente, 11,0% da amostra consiste em mulheres que quase sempre usam o cinto.
H, entretanto, algo perturbador em relao a essas porcentagens. Por exemplo, o pequeno valor da porcentagem de homens que 'nunca usam' o cinto (6,0%) ambguo. Ele pode refletir pequena presena de homens, baixo uso dos cintos de segurana na amostra global, baixa
taxa de uso do cinto especificamente entre os homens ou baixa prevalncia de homens entre o
que nunca usam cinto.
Existem outras abordagens que podem resolver essa ambigidade. Uma alternativa seria
dividir o nmero dos homens que nunca usam o cinto pelo nmero total dos que nunca usam
o nmero de homens que raramente usam o cinto pelo nmero total dos que raramente usam e
assim por diante, fazendo clculos comparveis para as mulheres. Em outras palavras, dividir as
freqncias em cada linha pelo nmero de casos naquela linha (Tabela 2.17). Essas porcentagen
chamam-se porcentagens de linhas:

% linha

= (100)L

s.:

Por exemplo, a porcentagem dos que usam sempre o cinto e que so mulheres obtida
dividindo-se o nmero respectivo pelo nmero total dos que usam sempre o cinto:

(100)(355)

499

= (100)(0,711) = 71,1%

Vemos, assim, que 71,1 % dos que sempre usam o cinto so mulheres.
As porcentagens por linha do a distribuio da varivel coluna para cada valor da varivellinha. Assim, essas porcentagens representam a distribuio por sexo dentro de cada nvel de
uso do cinto de segurana. Do mesmo modo, as porcentagens tm por soma 100% por meio de
cada linha, incluindo a coluna marginal na base da tabulao cruzada.

Captulo 2

TABELA 2.17

53

Organizao dos Dados

Tabulao cruzada do uso do cinto de segurana


as porcentagens por linha

por sexo, com

Sexo do entrevistado
Uso do cinto de segurana

Masculino

Sempre

144

355

28,9%
Na maioria das vezes

Raramente
Nunca

499
100,0"0
176

62,5%

100.0".

58

66

124

46,8%

53,2%

100.0".

39

44

47,0%

53,0%

83
100.0".

60

55

115

52,2%

47,8%

100.0".

367

--

630

36,8%

.5YT!S

Total

37,5%

-Total

71,1%
110

66

Algumas vezes

Feminino

63,2%

99100.0".

Reciprocamente, podemos calcular porcentagens na outra direo. Obtemos as.


por coluna (%col) dividindo cada freqncia pelo nmero de casos naquela coluna:

%col

centa-

(100)~
Nco'una

Por exemplo, obtemos a porcentagem de mulheres que sempre usam o cinto dividindo o
zumero de usurias permanentes pelo nmero total de mulheres:
(100)(355)
630

= (100)(0,563) = 56,3%

Assim, 56,3% das mulheres do estudo declararam usar sempre o cinto de seguranca
A Tabela 2.18 apresenta as porcentagens por coluna para nossa tabulao cruzada _'ote
e as porcentagens tm por soma 100% ao longo de cada coluna. Assim, elas refletem a distriio do uso do cinto de segurana no s separadamente, por sexo, como totaL

Escolha entre Porcentagens

Totais, por Linha e por Coluna

~ spomos agora de trs conjuntos de porcentagens - total, por linha e por coluna. Voc podeperguntar: Qual deles correto? Matematicamente, todos o so, isto , foram todos calcula-

54

Parte I

TABELA 2.18

Descrio

Tabulao cruzada do uso do cinto de segurana


as porcentagens por coluna

por sexo, com

Sexo do entrevistado
Uso do cinto de segurana
Sempre

Masculino
144
39,2%

Na maioria das vezes

66
8,0%

Algumas vezes

Feminino
355

Total
499

56,3%
110

50,1%
176

17,5%

17,7%

58

66

15,8%

10,5%

12,4%

Raramente

39

44

83

Nunca

60

10,6%
16,3%

--

Total

124

7,0%
55

8,3%
115

8,7%

11,5%

367

630

997

100,0%

100,0%

100,0%

dos da maneira correta. Mas, em termos de significao substantiva,


ser enganosas ou mesmo inteis.

certas porcentagens

podem

Em primeiro lugar, conforme j observamos, as porcentagens totais por vezes tm significado ambguo, como no caso do uso do cinto de segurana por sexo. Depois, de acordo com as
porcentagens por linha, as mulheres predominam em todas as linhas, exceto no subgrupo 'Nunca', em que os sexos se apresentam quase iguais. O que isso significa? Podemos tirar concluses.
como a sugesto de que os homens no dirigem tanto quanto as mulheres e, conseqentemente
no figuram em grande proporo em qualquer nvel de uso do cinto? Obviamente essa inferncia seria artificiaL A baixa representao dos homens em quase todas as categorias de uso
do cinto simplesmente uma conseqncia da baixa porcentagem de homens na amostra em
geral (36,8%). Assim, o fato de 71,1 % dos que usam sempre o cinto serem mulheres no to
esmagador se levarmos em conta que 63,2% do total da amostra so mulheres.
Para nosso objetivo, as porcentagens mais informativas so as porcentagens por coluna.
Estamos interessados em comparar homens e mulheres em termos do uso do cinto de segurana
isto , desejamos saber a porcentagem das mulheres que usa freqentem ente o cinto em comparao com os homens. Por exemplo, 39,2% dos homens afirmam usar sempre o cinto, em comparao com 56,3% das mulheres. Reciprocamente, 16,3% dos homens afirmam nunca ter usado
o cinto, em comparao com apenas 8,7% das mulheres.
Felizmente, h uma regra emprica para orientar nossa escolha entre porcentagens por
linha e por coluna: se a varivel independente est nas linhas, utilize porcentagens por linha; se varivel independente est nas colunas, utilize porcentagens por coluna. Em nosso exemplo, estamos preocupados com a influncia que o sexo de um entrevistado tem sobre o comportament

Captulo

quanto ao uso do cinto; o sexo a varivel independente.


usar porcentagens por coluna.

Organizao

dos Dados

55

Como ela dada nas colunas, devemos

H outra maneira de enunciar essa regra: se queremos comparar linhas em uma tabulao cruzada, devemos utilizar porcentagens por linha; exigem-se as porcentagens por coluna
para comparar colunas. Novamente, em nosso exemplo, desejamos comparar os homens com
as mulheres em termos de utilizao do cinto de segurana. O sexo a varivel coluna, e as
porcentagens por coluna do separadamente as distribuies do uso do cinto de segurana para
homens e para mulheres. Assim, essas porcentagens por coluna devem ser usadas para fazer
comparaes de sexo.
Em certos casos, no fcil dizer qual a varivel independente. Por exemplo, na tabulao cruzada da afiliao partidria do marido pela afiliao partidria da esposa (Tabela .19),
nenhuma das variveis pode ser considerada claramente resultado da outra. (Nota: as cifras em
cada cela da tabela representam freqncia, porcentagem por linha, porcentagem por coluna e
porcentagem total, respectivamente.) At certo ponto, as afiliaes polticas de marido e mulher
podem se influenciar reciprocamente, e em muitos casos podem ter ocorrido antes mesmo de os
cnjuges terem se conhecido. A semelhana (ou mesmo discordncia) em perspectivas polticas
pode ter sido parte da atrao dos dois.
Em termos dos dados da Tabela 2.19, poderamos calcular a porcentagem de maridos
democratas que tm esposas democratas (70 em 100, porcentagem por linha = 70 ()C ou a
porcentagem de esposas democratas que possuem maridos democratas (70 em 110, porcenta-

TABELA 2.19

Tabulao cruzada da filiao partidria do marido pela


filiao partidria da esposa: freqncias e porcentagens totais.
por linha e por coluna

Freqncia
% linha
%

Filiao partidria

da esposa

coluna

% total

Democrata

Republicana

Total

Filiao partidria do marido


Democrata

Republicana

Total

70

30

70,0%

30,0%

63,6%

37,5%

36,8%

15,8%

40

50

44,4%

55,6%

36,4%

62,5%

21,1%

26,3%

l10
57,9%

100
52.6

80

190

42,1%

ioo.o-s

56

Parte I

Descrio

gem por coluna = 63,6%). Ambas teriam significao, dependendo do interesse particular do
pesquisador. Entretanto, em casos assim, em que no h uma varivel que possa ser destacada
como a causa da outra, usam-se freqentemente
as porcentagens totais (que no implicam
independncia de qualquer das variveis). No caso da Tabela 2.19, em 36,8% dos casamentos
ambos os cnjuges so democratas (70 em 190) e em 26,3% ambos so republicanos (50 em
190). Globalmente, em 63,1 % dos casamentos (36,8% + 26,3%), marido e mulher tm a mesma
filiao poltica.
As escolhas entre porcentagens

totais, por linha e por coluna so:

1. Se a varivel independente

est nas linhas, utilize porcentagens

por linha.

2. Se a varivel independente

est nas colunas, use porcentagens

por coluna.

3. Se no h uma distino clara entre a varivel independente e a varivel dependente,


utilize porcentagens totais, por linha ou por coluna - a que for mais significativa
para o enfoque de interesse.

Apresentaes Grficas
As colunas de nmeros costumam evocar temor, ansiedade, tdio, apatia e desentendimento.
Embora algumas pessoas paream desconfiar de informaes estatsticas apresentadas em forma de tabela, elas do toda a ateno aos mesmos dados quando apresentados em forma grfica
ou ilustrativa. Como resultado, muitos pesquisadores comerciais e autores populares preferem
utilizar grficos no lugar de tabelas. Por razes anlogas, os pesquisadores sociais freqentemente recorrem a auxlios visuais - como grficos em setores, grficos em barras, polgonos de
freqncias, grficos em linha e mapas - sempre com o objetivo de melhorar a legibilidade
de seus resultados.

Grficos em Setores
O grfico em setores (tambm conhecido como grfico tipo pizza, grfico tipo torta ou ainda
grfico setorial) um grfico circular cujos setores perfazem 100%. Esse tipo de grfico constitui
um dos mtodos mais simples de representao grfica e especialmente til para mostrar as
diferenas em freqncias ou porcentagens entre categorias de uma varivel de nvel nominal.
A ttulo de ilustrao, as figuras 2.3 e 2.4 apresentam a distribuio do estado civil para adultos
de 18 anos ou mais. Note que 22,6% dos adultos so solteiros (nunca se casaram), 61,2% so
casados, 7,3% so vivos e 8,9% so divorciados.
Em muitas instncias, o pesquisador pode pretender focalizar a ateno em determinada
categoria do grfico em setores. Nesse caso, ele pode se interessar em focalizar o grupo de solteiros. Para ilustrar esse aspecto do grfico em setores, podemos 'explodir' (mover ligeiramente
para fora) o setor do grfico que merece maior ateno, como na Figura 2.4.

Grficos em Barras
Os grficos em setores proporcionam
uma ilustrao rpida e fcil de dados que podem ser
divididos em poucas categorias. (Na verdade, alguns pacotes de software limitam o nmero

Captulo 2

Divorciados

Organizao dos Dados

57

(8,9%)
Solteiros (22,6%)

Vivos (7,3%)

Casados (61,2%)

FIGURA 2.3

Grfico em setores do estado civil.

=ante: Bureau 01 lhe Census (EUA).

: setores possveis.) Em comparao, o grfico em barras (ou histograma) pode acomodar um


-JIllero arbitrrio de categorias em qualquer nvel de mensurao, sendo, por isso, muito mais
:ilizado em pesquisa social.
A Figura 2.5 mostra um grfico em barras da distribuio de freqncia do uso do cinto
segurana apresentada na Tabela 2.14. O grfico em barras construdo de acordo com a dissio padro: uma reta-base horizontal (ou eixo x) ao longo da qual marcamos 0- valores
- escores ou categorias (nesse caso, os nveis de utilizao do cinto de segurana e uma reta
_ 'cal (eixo y) ao longo do lado esquerdo da figura que exibe as freqncias para cada valor do
- re ou categoria. (Para dados agrupados, tanto os pontos mdios dos intervalos de classe quanto
prprios intervalos podem ser colocados ao longo da reta-base.) Como podemos ver na Figura
- quanto mais alta a barra, maior a freqncia da categoria.

Divorciados

(8,9%)

Solteiros (22,6%

Vivos (7,3%)

Casados (61,2%)

L"RA 2.4

Grfico em setores do estado civil (com 'exploso' de setor).

58

Parte I

Descrio

600

500

,--

400 r-

'"
u

"",,;;,"CT

300 r-

~'"

r-

200 r-

r-

100 r-

r-

Nunca

Raramente

Algumas
vezes

Na maioria
das vezes

Sempre

Uso do cinto de segurana

FIGURA 2.5

Grfico em barras para o uso do cinto de segurana (com freqncias).

Embora muitos pesquisadores prefiram grficos em barras verticais das freqncias, os


grficos de porcentagens e em barras horizontais tambm so muito utilizados. A Figura 2.6, por
exemplo, exibe o grfico em barras verticais da distribuio de porcentagens do uso do cinto de
segurana. Note que o grfico idntico ao grfico em barras das freqncias, exceto com relao
60
50

r--

40
E
e'" o

s
c
"~
o

30

c,

20
-

10

Nunca

,--

Raramente

Algumas
vezes

Na maioria
das vezes

Sempre

Uso do cinto de segurana

FIGURA 2.6

Grfico em barras para o uso do cinto de segurana (com porcentagens).

Captulo 2

Organizao dos Dados

59

escala utilizada ao longo do eixo y (porcentagens em lugar de freqncias). A Figura 2.7 exibe
um grfico em barras horizontais dos mesmos dados. No h diferena real entre as barras horizontais ou verticais; a escolha freqentemente se reduz a uma deciso prtica sobre qual se adapta
melhor pgina. De modo geral, a forma horizontal a melhor apresentao para um grfico em
barras com muitas categorias.
As edies anteriores deste livro indicavam que os grficos em barras de dados ordinais
ou intervalares devem ter as barras unidas umas s outras (como na Figura 1.1), enquanto os dados nominais devem ser representados por um espao, de modo que no haja implicao de ordem. O advento e o uso de computadores modificaram esse aspecto. Os pacotes de softv'are em
geral no fazem essa distino; muitos deles utilizam rotineiramente barras separadas. Assim,
enquanto os dados nominais devem ser representados por barras separadas, os dado ordinais
ou intervalares podem ser representados por barras tanto unidas como separadas.
Os grficos em barras podem mostrar o efeito de uma varivel sobre outra. Por exemplo,
a Figura 2.8 exibe a distribuio do uso de cintos de segurana por sexo, com base no dados da
Tabela 2.15. Faz uma grande diferena grafarmos as freqncias ou as porcentagens. O grfico
da Figura 2.8 se apresenta distorcido porque h mais mulheres do que homens na amostra.
Como resultado, as barras relativas s mulheres so, em sua maioria, mais altas do e as barras
dos homens, obscurecendo o efeito do sexo sobre o uso do cinto de segurana. Em. ~ar disso,

Sempre

Na maioria
das vezes

Algumas vezes

Raramente

Nunca

10

20

30

40

Porcentagem

FIGURA 2.7

Grfico em barras horizontais para o uso do cinto de segurana


(com porcentagens).

60

60

Parte I

Descrio

400

Masculino

Feminino

350
300
"o'"

250

"
,'sr" 200

<<1)

J:

150
100
50
O
Nunca

Raramente

Algumas
vezes

Na maioria
das vezes

Sempre

Uso do cinto de segurana

FIGURA 2.8

Grfico em barras para o uso do cinto de segurana, por sexo


(com freqncias).

obtemos uma ilustrao melhor grafando as porcentagens das colunas a partir da Tabela 2.18.
Assim, o grfico em barras da Figura 2.9 permite-nos ver no s a distribuio do uso do cinto
de segurana como tambm a influncia exercida pelo sexo.
60

Masculino

r--

Feminino

50

40
E
<1)
0Il

'"
E
<1)
8

30

o
Q..

20

10

Nunca

Ih

Raramente

r--_

Algumas
vezes

Na maioria
das vezes

Sempre

Uso do cinto de segurana

FIGURA 2.9

Grfico em barras para o uso do cinto de segurana, por sexo


(com porcentagens).

Captulo 2

TABELA 2.20

Organizao dos Dados

Taxas de nascimento
idade da me

61

pela

Taxa de nascimento
(nascimentos por 1.000)

Idade
da me
10-14

1,2

15-19

54,4

20-24
25-29

110,4
113,1

30-34
35-39

83,9
35,3

40-44

6,8

45-49

0,3

Os grficos em barras so utilizados tambm para grafar volumes e taxas por cio de
subgrupos populacionais ou ao longo do tempo, e no s para distribuies de freqncias e
de porcentagens. Por exemplo, as taxas de natalidade de 1997 (nmero de nascimento por
1.000 mulheres, Tabela 2.20) so dadas por idade da me na Figura 2.10. Essas taxas so o idas
dividindo-se o nmero de partos de mulheres de determinado grupo etrio pelo numero de
mulheres naquele grupo e multiplicando-se o resultado por 1.000. Como as duas ca egorias
extremas apresentam taxas muito pequenas, as barras so apenas visveis. Assim, para reforar
a legibilidade do grfico, rotulamos cada barra com seu valor (o que, de resto, sem Te uma
boa idia).

120
-

r--

100

'"e

O)
..c

;;
E
o
o

c:

,----

80
60 r-

,----

...
o
o.
O)

-s

40 f-

.a

20 r-

r-

o ~

10-14

/I
15-19

20-24

25-29

30-34

35-39

40-44

4-~9

Idade da me

fIGURA

2.10

Grfico em barras

do nmero de nascimentos

por 1.000 mulheres pela idade da me.

62

Parte I

Descrio

Polgonos de Freqncias
Outro mtodo grfico comumente empregado o polgono de freqncias. Embora ele possa
comportar uma ampla diversidade de categorias, tende a dar nfase continuidade ao longo de
uma escala, e no s diferenas; , assim, particularmente til para representar dados ordinais
e intervalares. Isso porque as freqncias so indicadas por uma sucesso de pontos colocados
sobre os valores dos escores ou ponto mdio de cada intervalo de classe. Pontos adjacentes so
unidos por um segmento retilneo, que prolongado at a base em ambas as extremidades. A
altura de cada ponto indica a freqncia da ocorrncia.
A Tabela 2.21 mostra uma distribuio de freqncias de notas de exame para uma turma de 71 estudantes. A Figura 2.11 apresenta o polgono de freqncias para essa distribuio.
Note que as freqncias dos intervalos de classe so marcadas acima de seus pontos mdios; os
pontos so unidos por segmentos retilneos, que terminam na reta-base horizontal em ambas as
extremidades, formando um polgono.
Para grafar freqncias acumuladas (ou porcentagens acumuladas), podemos construir
um polgono de freqncias acumuladas. Conforme mostra a Figura 2.12, as freqncias acumuladas so dispostas ao longo da reta vertical do grfico e indicadas pela altura dos pontos acima
da reta-base horizontal. Ao contrrio, entretanto, de um polgono regular de freqncias, a reta
que une todos os pontos nesse polgono no pode terminar voltando reta-base, porque as freqncias acumuladas representadas so resultado de sucessivasadies. Qualquer freqncia acumulada nunca inferior (em geral, superior) freqncia acumulada precedente. Tambm, ao
contrrio de um polgono regular de freqncias, os pontos em um grfico cumulativo so assinalados acima dos limites superiores dos intervalos de classe,e no em seus pontos mdios, porque
a freqncia acumulada representa o nmero total de casos tanto no interior como abaixo de um
intervalo de classe especfico.

TABELA 2.21

Distribuio de freqncias
agrupadas de notas de provas

Intervalo
de classe

Ia

95-99
90-94

3
2

71
68

85-89

66

80-84

62

75-79

12

55

70-74
65-69

17
12

43

60-64
55-59

5
5

50-54

4
N= 71

26
14
9
4

Captulo 2

Organizao dos Dados

15

';:;
'"

"
'"
'"sr

10

J:

Ponto mdio

FIGURA 2.11

Polgono de freqncias para a distribuio das notas de provas


de estudantes.

60

'"

'O

"5"
6

"
'"
o

';:;
"

40

,"
,"a":

~~
20

54,5

59,5

64,5

69,5

74,S

79,S

84,S

89,S

94, -

99"::

Limite superior

FIGURA 2.12

Polgono de freqncias acumuladas para a distribuio das notas de provas


de estudantes.

63

64

Parte I

Descrio

A Forma de uma Distribuio de Freqncia.

Os polgonos de freqncias ajudam-nos a


visualizar a diversidade de formas assumidas por distribuies de freqncia. Algumas distribuies so simtricas - dobrando a curva no centro obtemos duas metades idnticas. Portanto, essas distribuies contm o mesmo nmero de valores extremos em ambas as direes,
para cima e para baixo. Outras distribuies chamam-se assimtricas e apresentam mais casos
extremos em uma direo do que na outra.
H considervel variao entre as distribuies simtricas. Por exemplo, elas podem diferir sensivelmente em termos da forma do pico (curtose). Algumas distribuies simtricas,
como a da Figura 2.13(a), tm pico bastante acentuado (chamadas leptocrticas); outras, como
a da Figura 2.13(b), so bastante achatadas (denominadas platicrticas); outras no tm pico
acentuado nem so muito achatadas (chamadas mesocrticas). Um tipo de distribuio simtrica mesocrtica, ilustrada na Figura 2.13(c), a curva normal, que tem significao especial
para a pesquisa social e ser detalhadamente
discutida no Captulo 5.
H uma grande diversidade de distribuies assimtricas. Quando existe as simetria
que faz com que os escores se acumulem em uma direo, a distribuio tem uma 'cauda'
pronunciada.
A posio dessa cauda indica a localizao dos relativamente poucos escores
extremos e determina a direo da assimetria.
A distribuio
(a) na Figura 2.14 negativamente assimtrica (assimtrica esquerda) porque tem uma cauda muito mais longa esquerda do que direita. Essa distribuio
mostra que a maioria dos entrevistados obteve escores altos e apenas alguns tiveram escores
baixos. Se se tratasse da distribuio de notas em um exame final, poderamos dizer que a
maioria dos estudantes teve bom desempenho e que apenas alguns se revelaram fracos.
Consideremos em seguida a distribuio (b), cuja cauda est situada direita. Como
a assimetria dada pela direo da cauda alongada, podemos dizer que a distribuio positivamente assimtrica (assimtrica direita). As notas dos exames finais dos estudantes dessa
turma hipottica so muito baixas; apenas alguns estudantes acusaram bom desempenho.
Examinemos, finalmente, a distribuio (c), que contm duas caudas idnticas. Em tal
caso, h o mesmo nmero de escores extremos em ambas as direes. A distribuio no acusa
nenhuma as simetria; perfeitamente simtrica. Se se tratasse de notas de um exame final, tera-

(a) Leptocrtica

FIGURA 2.13

(b) Platicrtica

Variao da curtose entre distribuies simtricas.

(c) Mesocrtica

Captulo 2

(a) Negativamente

FIGURA 2.14

assimtrica

(b) Positivamente

Organizao dos Dados

assimtrica

65

(c) Simtri

Trs distribuies representando direes de assimetria.

mos um grande nmero de estudantes mais ou menos mdios e poucos estudantes com otas
muito altas ou muito baixas.

Grficos em Linha
Vimos anteriormente que os grficos em barras podem ser usados para representar o s
freqncias e porcentagens de uma distribuio de notas como tambm volumes e r
meio de grupos, reas ou tempo. Da mesma maneira, os polgonos de freqncias"
em ser
modificados para representar volumes e taxas entre grupos ou ao longo do tempo. embora esse
mtodo utilize um grfico em linha. Em outras palavras, os polgonos de freqn . - exibem
a distribuio das freqncias de um conjunto de escores de uma nica varivel en
o os
grficos em linha mostram modificaes em uma varivel ou variveis entre grur - o ao
longo do tempo.
Em um grfico em linhas grafa-se o valor ou a taxa de uma varivel unindo-se 0- pontos
por segmentos de reta. A Figura 2.15, por exemplo, exibe, em um grfico em linhas, s taxas de
natalidade pela idade da me, apresentadas anteriormente em forma de um grfico em barras.
Como se pode ver comparando as figuras 2.15 e 2.10, o mtodo empregado no faz grande
diferena.
Enquanto as comparaes entre subgrupos (como grupos de idade
. i . do os
anos de fertilidade) so grafadas com barras ou com linhas, os dados relativo a tendncias
temporais so quase sempre ilustrados por grficos em linha. A Figura 2.16, por exem 10, mostra a taxa de homicdios nos Estados Unidos (nmero de homicdios reportado pela polcia
por 100.000 habitantes) de 1950 a 1998, conforme listado na Tabela 2.22. Novamente, o grfico
-e apresenta muito mais revelador do que a lista de dados. No grfico v-se claramente um
acentuado e sbito aumento da taxa de homicdios em meados da dcada de 60, uma tendnria ascendente que permaneceu at 1980, uma queda em meados da dcada de
uma ressurgncia no final da dcada de 80 e outra virada descendente na dcada de 90. " -aturalmente,
cabe ao pesquisador social tentar explicar essas tendncias. Entre as razes aduzidas na literatura figuram aumento da violncia racial, aumento do consumo de drogas, surgimento do
zrack, mudanas nas penalidades, nas prticas policiais e no tamanho da populao adolescente
~acesso crescente s armas de fogo.

66

Parte!

Descrio

120

100

'"~

..c:
'"

80

-=E
o
o

C< 60
...

o
o.
x
'"
'"

E-<

40

20

10-14

15-19

20-24

25-29

30-34

35-39

40-44

45-49

Idade da me

FIGURA 2.15

Grfico em linha do nmero de nascimentos por 1.000 mulheres pela idade da me.

12~------------------------------------------------------------------

o
o
o
o
o
...
o
o.

'"
'"

><
E-<

OLL~-LLL~-L~~LL~-LLL~-L~~LL~-LLL~-L~~LL~-LLL~-L~

1950

1955

1960

1965

1970

1975

1980

1985

1990

1995

Ano

FIGURA 2.16

Grfico em linha para as taxas de homicdio nos Estados Unidos: 1950-1998.

Captulo 2

TABELA 2.22

Ano

Organizao dos Dados

Taxas de homicdio nos Estados Unidos: 1950-1998


Taxa de homicdio
(por 100.000)

Ano

Taxa de homicdio
(por 100.000)

4,6
4,4

1975

9,6

1951

1976

8,8

1952

4,6
4,5
4,2

1977
1978

8,8

1953
1954

1950

1979

9.0
9-,

1955

4,1

1980

10._

1956

4,1

1981

1957

4,0

1982

1958

4,8
4,9
5,1

1983
1984
1985

9.8
9.1
8.3

1961
1962

4,8
4,6

1986
1987

8.6
8.3

1963
1964

4,6

1988

8.4

1965

4,9
5,1

8.9.4

1966

5,6

1989
1990
1991

1959
1960

67

.9
.9

1967

6,2

1992

9.8
9.3

1968

6,9

1993

9.-

1969

7,3

1994

9.0

1970

1995
1996
1997

1971
1972

7,9
8,6
9,0

1973

9,4

1998

1974

9,8

6.
6.3

Jlapas
At certa ocasio, os pesquisadores sociais confiavam quase exclusivamente em grficos em
setores, grficos em barras, polgonos de freqncias e grficos em linhas. Em anos recentes,
entretanto, com o advento e o aperfeioamento das tcnicas de computao, eles comearam a
utilizar outras formas de apresentao grfica. Um tipo em particular - o mapa - tomou-se
astante popular, concomitantemente com a maior utilizao de dados coletados e publicados
elo governo (por exemplo, dados dos censos).
O mapa oferece um mtodo sem paralelo para a explorao de padres geogrficos nos
dados. Por exemplo, a Figura 2.17 mostra uma distribuio de freqncias de quatro catego-

68

Parte I

Descrio

Taxa por 100.000


8,Oou mais
6,0 a 7,9

O 4,0 a 5,9
O Abaixo de
FIGURA 2.17

4,0

Mapa das taxas de homicdio nos Estados Unidos, 1998.

rias das taxas de homicdio nos Estados Unidos. Cada estado sombreado de acordo com sua
categoria como elemento da distribuio. imediatamente aparente a tendncia para o aumento das taxas de homicdio medida que nos deslocamos para o Sul.

RESUMO
Neste captulo introduzimos algumas tcnicas bsicas utilizadas pelo pesquisador social para
organizar a massa de nmeros brutos que obtm dos entrevistados. Discutimos e ilustramos
distribuies de freqncia e mtodos para comparar essas distribuies de dados nominais
(propores, porcentagens, razes e taxas). Em relao a dados ordinais e intervalares, examinamos as caractersticas de distribuies de freqncia simples, agrupadas e acumuladas. Apresentamos ento o processo de clculo do posto percentil de um escore bruto.
Ainda neste captulo estendemos as distribuies de freqncia e de porcentagens de
modo a abranger tabulaes cruzadas de duas variveis. H trs maneiras possveis de determinar porcentagens para tabulaes cruzadas: porcentagens por linha, porcentagens por coluna e
porcentagens totais. A escolha entre porcentagens por linha e por coluna depende da localizao
da varivel independente dentro da tabulao cruzada. s vezes usam-se porcentagens totais,
mas somente quando nem a varivel linha nem a varivel coluna podem ser identificadas como
varivel independente.
Pode-se usar tambm a representao grfica de dados para facilitar a legibilidade de
resultados de uma pesquisa. Nossa abordagem de apresentaes grficas incluiu grficos em
setores, grficos em barras, polgonos de freqncias, grficos em linhas e mapas. Os grficos
em setores do uma ilustrao de dados que podem ser divididos em algumas categorias. Os
grficos em barras so mais utilizados porque podem comportar qualquer nmero de categorias. Os polgonos de freqncias tambm comportam uma ampla diversidade de categorias,