Você está na página 1de 22

Organização dos Dados

Postos Percentis
Distribuições de Freqüências de Dados
Nominais Dados Decimais
Comparação de Distribuiçes Intervalos de Classe Flexiveis

Proporçøes e Porcentagens Tabulações Cruzadas


Razoes e Taxas Apresentações Gráficas
Distribuições de Freqüências Simples Resumo
de Dados Ordinais e Intervalares
Termos-chave
Distribuições de Freqüências Agrupadas Exercicios
de Dados Intervalares

Distribuições Acumuladas

A coleta de dados acarreta um sério esforço por parte dos pesquisadores sociais que procuram
ampliar seu conhecimento sobre o comportamento humano. Para entrevistar ou obterinforma-
ções de beneficiários da previdéncia social, alunos de faculdades, viciados em drogas, homosse-
xuais, norte-americanos de classe média ou outras pessoas, faz-se necessário um certo grau de
previsão, planejamento cuidadoso e controle, quando não tempo efetivamente gasto no campo.
A coleta de dados, entretanto, é apenas o começo no que diz respeito à análise estatistica.
Ela fornece o material bruto que os pesquisadores sociais utilizam para analisar dados, obter
resultados e testar hipóteses sobre a natureza da realidade social.

Distribuições de Freqüências de Dados Nominais


O fabricante de móveis transforma a madeira bruta em mobília; o mestre de cozinha converte
alimentos brutos em refeições saborosas servidas à mesa de jantar Por um processo análogo, o
pesquisador social- auxiliado por 'receitas' chamadas fórmulas e técnicas estatísticas-procura
transformar dados brutos em um conjunto significativo e organizado de medidas que podem ser
usadas para testar hipóteses.
O que é que os cientistas sociais podem fazer para organizar a massa de dados brutos
coletada de seus indivíduos? Como procedem para transfornmar essa massa de dados brutos
uma forma resumida e de fácil compreensão? 0 primeiro passo é construir uma distribuição
em
de

freqüências em forma de tabela.


27
Parte I Descrição Capítulo 2 Organização dos Dados 29
28

TABELA 2.1 Respostas de meninos TABELA 2.2 Respostas de crianças à retirada


à retirada de um de um brinquedo, por sexo
brinquedo
Resposta da criança Sexo da eriança

Choro Resposta da criança Masculino Feminino


Raiva 15
Choro 25 28
Retirada
Procura por outro brinquedo Raiva 15
Retirada
N=5
Procura por outro brinquedo 15
Totar 50 50
Suponha que um pesquisador que estuda a socialização infantil esteja interessado nas
reações de meninos à frustração. Reagindo à retirada de seus brinquedos, eles agem com raiva
au choram? Quantas vezes encontram brinquedos alternativos? Alguns reagem retirando-se? O
Proporções e Porcentagens
pesquisador realiza experimento
um com 50 meninos de 2 anos, apresentando-lhes um brin-
Tedo colorido e retirando-o em seguida. Quando um pesquisador estuda distribuições de mesmo tamanho, os dados de freqüência podem
Examinemos a distribuição de freqüências dos dados nominais da Tabela 2.1. Note ini
ialmente que a tabela tem como cabeçalho um número e um titulo que dá ao leitor uma idéia
ser utilizados para fazer comparações entre grupos. Assim, os números de meninos e de meni-

da natureza dos dados apresentados-respostas de meninos à retirada de um brinquedo. Essa


nas que
procuraram brinquedosalternativos podem ser comparados diretamente, porque havia
exatamente 50 crianças de cada sexo no experimento. De modo geral, entretanto, quase nunca é
éa disposição padrão; toda
tabela deve ter um título objetivo e claro e,
quando apresentada em possível estudarmos distribuições que apresentem exatamente o mesmo número de casos.
série, deve também receber um número. Para uso mais geral, necessitamos de um método
para padronizar distribuições de freqüên-
As distribuigões de freqüèncias de dados nominais consistem em duas colunas. Confor- cia pelo tamanho- uma maneira de comparar grupos a despeito de diferenças nas freqüências
me a Tabela 2.1, a coluna da esquerda indica a característica que está sendo apresentada (respos- totais. A proporção e a
porcentagem são dois dos métodos mais comuns e mais úteis para compa
ta de uma criança)
contém as categorias de análise (choro, raiva, retirada, procura por outro
e rar distribuições.
hrinquedo). Uma coluna adjacente (intituladafreqütncia ouf) indica o número de meninos em Aproporção compara o número de casos em determinada categoria com o tamanho total
cada categoria (25, 15, 5 e 5), respectivamente, assim como o total de meninos (50), que pode da distribuição. Podemos
cer indicado por N = 50 ou pela inclusão da palavra Total abaixo das categorias. Uma rápida transformar qualquer freqüência em uma proporção P dividindoo
número de casos em uma categoria arbitrária
f pelo número total N de casos na distribuição:
observação da distribuição de freqüêéncias da Tabela 2.1 revela claramente que um maior núme-
ro de meninos reage chorando ou com raiva do que se retirando ou procurando um brinquedo
alternativo.

Comparação de Distribuições Portanto, as 15 das 50 meninas que acharam


pressas pela seguinte proporção:
um brinquedo alternativo podem ser ex-

Suponha, agora, que o mesmo pesquisador queira comparar


as reações meninos e de me-
de
ninasà retirada de um brinquedo. A comparação entre distribuições de freqüencia constitui
um processo muito usado para esclarecer resultadose acrescentar informações. A comparação P--0,30
30
particularque um pesquisador faz é determinada pelo problema que ele está procurando re-
Apesar da utilidade da proporção, muitas pessoas preferem indicar o tamanho relativo de
solver. uma série de números em termos da
Nesse exemplo, o pesquisador decide investigar diferenças de sexo. As meninas têm maior porcentagem, a freqüência de ocorrência de uma categoria
por 100 casos. Para calcular uma porcentagem, basta
chance do que os meninos de procurar um brinquedo alternativo? Para achar uma resposta,o dada. Pela fórmula: multiplicar por 100 qualquer proporção
pesquisador pode repetir o experimento com um grupo de 50 meninas e comparar os resulta-
dos. Suponha que tenham sido obtidos os dados da Tabela 2.2. Conforme mostrado nela, 15 das
50 meninas, contra apenas 5 dos 50 meninos, reagiram procurando outro brinquedo na sala. %=(100)
30 Parte I Descrição Capítulo 2 Organização dos Dados 31

TABELA 2.3 Sexo de O pesquisador poderia tornar mais clara essa relação, dando a base (o denominador) em
graduandos em engenharia forma mais compreensivel. Por exemplo, a razão de sexo empregada por demógrafos que procu-
nas faculdades A e B
em qualquer população em geral é dada como
ram comparar os números de homens e mulheres
Matrículas em engenharia o número de homens por 100 mulheres.
Faculdade A4 FaculdadeB A titulo de ilustração, se a relação de homens para mulheres é 150/50, há 150 homens
3 homens para cada mulher). Para obter a versão convencio-
Sexo do estudante % para 50 mulheres (ou, reduzindo,
o nal da razão de sexo, multiplique por 100 a razão anterior:
Masculino 1.082 80 146 30
Feminino 270 f homens
20
Total 1.352 100
37
183
20
100
Razão de sexo =
(100) mulheres =(10300
Há, então, 300 homens na população para cada 100 mulheres.
Então, as
15 das 50 meninas
que reagiram procurando uma alternativa podem ser
sas pelaproporção P = 15/50 = 0,30 ou como uma porcentagem % = (100)(15/50) = 30%.
expres Outro tipo de razão- que tende a ser cada vez mais utilizada pelos pesquisadores sociais
é conhecida como taxa. Os sociólogos freqüentemente analisam populações quanto àstaxas
Assim, 30% das meninas conseguiram outro brinquedo para divertir. se
de reprodução, morte, criminalidade, desemprego, divórcio, casamento e Entre-
semelhantes.
Paralustrarautilidade das porcentagens para fazer comparações entre distribuições de
tamanhos grandes e desiguais, vamos examinar o sexo de graduandos em engenharia em duas
tanto, enquanto a maior parte das outras razões compara o número de casos em qualquer cate
goria ou subgrupo com o número de casos em qualquer outro subgrupo, as taxas indicam com-
faculdades em que os programas do curso são muito diferentes. Suponha que a faculdade A parações entre os casos efetivos e o número de casos potenciais, Por exemplo, para determinar
tenha 1.352 alunos de engenharia e a faculdade B, apenas 183 alunos nesse curso. a taxa de natalidade de determinada população, podemos exibir o número efetivo de nascidos
A Tabela 2.3 indica tanto as freqüências como as porcentagens de graduandos em enge- vivos entre as mulheres em idade fértil (os elementos da população que estão expostos ao risco
nharia nas faculdades A e B. Note quão dificil é determinar rapidamente as diferenças de sexo de parto, representando, portanto, casos potenciais).Analogamente, para determinar a taxa
entre alunos de engenharia com base apenas na tabela de freqüências. Ao contrário, as porcen- divórcio, podemos comparar o número efetivo de divórcios com o número de casamentos que
ocorrem em determinado período de tempo (por exemplo, 1 ano).As taxas em geral são da-
tagens revelam claramente que as mulheres tiveram representação igual
entre os alunos nas fa-
culdades A B. Especificamente, 20% dos alunos de engenharia tanto na faculdade A como na
e das em termos de uma base com 1.000 casos potenciais.Assim, as taxas de natalidade são dadas
como o número de nascimentos por 1.000 mulheres; as taxas de divórcio podem ser expressas
faculdade B são mulheres.
em termos do número de divórcios por 1.000 casamentos. Se ocorrem 500 nascimentos entre
4.000 mulheres férteis:
Razões e Taxas
tamanho-a
razão-compa- Í casos reais
Um método não muito utilizado padronização em relação ao
de Taxa de nascimento =
(1.000 -= (1.000) =125
homens) 4.000
ra diretamente o número de casos que se enquadram em uma categoria (por exemplo,
Í casos potenciais

de casos enquadrados outra categoria (por exemplo, mulheres). Assim,


com o número
em

freqüência em uma categoria Resulta que há 125 nascidos vivos para cada 1.000 mulheres em idade férti.
pode-se obter da maneira mostrada a seguir uma razão, ondef =

arbitrária ef, = freqüência em qualquer outra categoria: Não


há nada de especial em calcular taxas por caso potencial ou por 1.000 casos poten-
ciais.Na verdade, expressar taxas per capita (isto é, por pessoa) por 1.000 ou mesmo por milhão
simplesmente resume-se à decisão sobre qual é a base mais conveniente. Por exemplo, os gastos
Razão =- com educação pública são expressos em geral por aluno (determinados pela freqüència diária
média, porque a freqüência varia durante o ano escolar em função de diversos fatores, incluindo
transferências e desistências). Para calcular essa taxa, divida a despesa total (em moeda corrente)
o número
Se quiséssemos determinar a relação de negros para brancos, compararíamos pelo total de matrículas:
número de entrevistados brancos (f=100), obtendo
de entrevistados negros (f=150) com o
reduzir
150/100. Cancelando fatores comuns no numerador e no denominador, podemos
uma
públicas
150/100= 3/2. (Há 3 entrevistados negros para Gast per capita (aluno) 4stoS nas escolas
=

razão a sua forma mais simples, por exemplo, número de alunos


cada 2 entrevistados brancos.)
32 Parte I Descrição Capítulo 2 Organização dos Dados 33

Ao contrário da taxa per


capita anterior, as taxas de homicídio são avaliadas como o nú-
mero de crimes por 100.000 habitantes: TABELA 24 Distribuição de preferências religiosas mostrada
de três maneiras

Taxa de homicídio = (100.000 umero de homicídios Religião Religião Religião


população 'Protestante 30 Católica 20 Judaica 10
Católica 20 Judaica 10 Protestante 30
Suponhamos, por exemplo, que um estado acuse 1.124 homicídios para uma Judaica 10 Protestante 30 Católica 20
de 9.200.000. Sua taxa de homicidios (TH) seria: populaço Total 60 Total 60 Total

TH=(100.000)124 Distribuiçoes de Freqüências Simples de Dados Ordinais e Intervalares


9.200.000)
= (100.000)(0o,000122) Como os dados nominais são rotulados, em vez de graduados ou escalonados, as categorias de

distribuições de nível nominal não precisam ser relacionadas em qualquer ordem em particular.
=]12,2
Assim, os dados sobre preferèncias religiosas mostrados
disposições diferentes, embora igualmente aceitáveis.
na Tabela 2.4 são apresentados em três
Há, assim, 12,2 homicidios para cada 100.000 moradores. a as categorias ou valores de escores em distribuições ordinais ou intervalares representam
E importante notar que
poderíamos ter definido a taxa como homicídios per capita sem o grau de presença de determinada característica. A listagem dessas categorias ou valores de escore
multiplicar a fração (homicídios em relação à população) pelo fator de escala de 100.000. En- em
distribuições simples de freqüência deve refletir aquela
tretanto, a taxa resultante de 0,000122, embora correta, é de dificil manuseio em raz o de seu
ordenação.
Por essa razão, as categorias ordinais e intervalares são
pequeno vulto. Podemos, portanto, aumentar a taxa para uma forma mais legível e sempre dispostas em ordem, em
digerível geral dos valores mais altos para os mais baixos (mas às vezes dos valores mais baixos para os mais
multiplicando por 100.000 (deslocando a vírgula decimal cinco casas para a direita), o que então' altos). Por exemplo, podemos relacionar as categorias de lasse social da mais alta
transforma a taxa per capita de 0,000122 em uma taxa de 12,2 por 100.000. para a mais baixa
ou
publicar os resultados de um exame de biologia em ordem consecutiva, da nota mais alta
Até aqui discutimos taxas que fazem comparações entre a mais baixa. para
populações diferentes. Por
exemplo, poderíamos querer comparar taxas de
natalidade entre negros e brancos, entre mulhe- A alteração da ordem de
categorias ordinais e intervalares reduz a legibilidade dos resul-
res da classedemédia e adataxa
classe
de
baixa, entre
grupos religiosos ou países inteiros e assim por diante. tados da pesquisa. Esse efeito
pode ser observado na Tabela 2.5, onde apresentamos as versões
Outro tipo taxa, variago, pode ser usado para comparar a mesma população em
dois momentos no tempo. Ao calcular a taxa de variação, comparamos a variação efetiva entre o
incorretae'correta' de uma
distribuição da posição em
relaço à cobrança de uma taxa para
caminhadas no
campus de uma faculdade. Qual é a versão que apresenta leitura mais fácil?
momento 1eomomento 2,
com o nível no momento 1 servindodebase. Assim, uma população
que cresce de 20.000 para 30.000 entre 1990 e 2000 acusa a seguinte taxa de variação:
TABELA 2.5 Distribuição de freqüêacias das posições em relação à cobrança de
taxa para caminhadas no
campus: apresentações incorreta e
(100Temp02/-tempo 1f 30.000-20.000) corTeta
50% Posição em relação
tempo 1f 20.000 à tara para caminhadas Posição em relação
à taxa para caminhadas
Levemente favorável
Em outras palavras, houve um aumento populacional de 50% no período de 1990 a 2000. Fortemente favorável 0
Desfavorável 21
Note que uma taxa de variação pode ser negativa, indicando um decréscimo no tamanho Favorável
Fortemente favorável
Levemente favorável 2
ao longo de determinado período. Por exemplo, se uma população varia de 15.000 para 12.000 Levemente desfavorável
Levemente desfavorável 4
em determinado período de tempo, a taxa de variação é: Fortemente desfavorável 10 Desfavorável 21
Favorável
Fortemente desfavorável 10
Total
12.000-15.000 -20% 38 Total 38

(10015.000 INCORRETA CORRETA


34
Parte I Descrição Capítulo 2 Organização dos Dados 35

Distribuições de Freqüências Agrupadas de Dados Intervalares


Os escores de nível intervalar
, TABELA 2:7 Distribuição de freqüências
agrupadas para as notas de
menos menor escore), o
por vezes distribuem uma grande amplitude (maior escore
se em
71 alunos em um exame final
que torna a distribuição de freqüencias
leitura dificil. Quando isso ocorre, poucos casos simples resultante longa de e

o padrão grupo fica obscurecido. A título de


do podem se
enquadrar cada valor do escore,
em e
Intervalo
de classe %
contém valores que variam de 50 ilustração, a distribuição constante da Tabela 2.6
99,
distribuindo-se por quase quatro colunas.
a
95-99 3 4,23
Para tornar clara nossa
apresentação, podemos construir uma distribuição de freqiüéncias 90-94 2 2,82
agrupadas, condensando os escores separados em um número menor de 85-89 5,63
cada um deles contendo mais de
um valor de escore.
categorias ou grupos,
Cada categoria
uição agrupada é chamado intervalo de classe, e seu tamanho é
ou
grupo em
uma distr! 80-8 9,86
valores de escores que contém. determinado pelo núnmero de 5-79 2 16,90
As notas de
prova de 71 estudantes
70- 17 23,94
uma apresentadas Tabela 2.6 foram reorganizadas em
na 65-69 12 16,90
distribuição de freqüências agrupadas, apresentada na Tabela 2.7, na
qual temos 10 inter- 60-64 7,04
valos de classe, cada um de
tamanho 5. Assim, o intervalo de classe mais alto (95-99)
oscinco escores 95, 96, 97, 98 e 99. contém 55 -59 7,04
valores de escore 70, 71, 72, 73 e 74.
Analogamente, o intervalo 70-74 tem tamanho 5 e
contém os 50-54
5,63
Total 71 100
Na Tabela 2.7, as
freqüências aparecem
lado dos intervalos de classe. Essa coluna nos
ao
Nota as porcentagens, conforme exibidas, totalizam 99,99%. Es-
dáo número de casos ou escores em cada categoria. Assim, enquanto o intervalo de classe 95-99 porque sabemos que 0,01% foi
abrange cinco valores de escore (95, 96, 97, 98 e 99), ele inclui apenas três escores (95, 96 e 98). crevemos a
soma como 100%
perdido em arredondamentos.

A coluna mais
significativa, especialmente se considerarmos comparações com outras
distribuições (como as notas do exame final em umn período diferente com número diferente de Limites de Classe
alunos), éa coluna de porcentagens, também chamada distribuição de porcentagens. Suponha que, ao subir em uma balança digital de banheiro, apareça no mostrador o núme-
ro
123. Você pesa realmente 123
libras?éOu é apenas mais realista dizer que pesa aproximada-
TABELA 2.6 Distribuição de freqüências das notas de 71 alunos em um exame final mente 123? Especificamente, seu
peso' superior a 122,5 e inferior a 123,5, e
a balança faz o

Nota Nota Nota Nota arredondamento para o inteiro mais próximo. Quando construímos intervalos de classe para o
âmbito de pesos de 120 a 129 libras, devemos incluir um fator de cobertura' para os números
inteiros. Assim, o intervalo de classe é efetivamente de 119,5 (extremo inferior de 120) e 129,5
99 0 85 71 4 57 0
98 1 84 70 9. 56 1
(extremo superior de 129). Os limites efetivos desse intervalo são 119,5 e 129,5. Na realidade,
97 83 0 69 55 0 qualquer pess0a cujo peso exato esteja entre
práticos, qualquer pessoa
119,5 e 129,5 será incluída nesse intervalo. Em ter-
96 82 3 68 4 1
mos
cujo peso
exato esteja entre 119,5 e 129,5 figurará na balança em
números inteiros de 120-129.
95 81 57 53 0
Cada intervalo de classe tem limite
94 30 2 52 um
superior e um limite inferior. A primeira vista,
93 79
pode parecer que esses limites sejam o maior e o menor valores em
qualquer categoria. Assim,
seria razoável esperar que os limites
92 1 78 64 50 superior e inferior do intervalo 60-64 fossem 64 e 60,
respectivamente. Nesse caso, entretanto, estaríamos errados, porque 64 e 60 não são realmente
91 7 63 N 71
os limites do intervalo 60-64.
90 0 76 62
Ao contrário do maior e do menor valor de escore em um
89 75 61 intervalo, os limites de classe
estão localizados no ponto a meio caminho entre intervalos de classe
88 74 60 2 adjacentes, servindo para
87 73 59 3 preencher alacuna entre eles (Figura olimite
2.1). Assim, intervalo 90-94 é94,5,
superior do
eo limite inferior do intervalo 95-99 também é 94,5. Da mesmainaneira, 59,5 étanto o limite
86 12 2 58 superior do intervalo 55-59 como o limite inferior do intervalo 60-64.
36 Parte I Descrição Capítulo 2 Organização dos Dados 37

Finalmente, como podemos ver pela Figura 2.1, distância entre


inferior de um intervalo de classe determina seu tamanho. Isto é:
a os limites superior e intervalo 2-5. O ponto médio também pode ser calculado a partir do menor e do maior valor
de qualquer intervalo. O ponto médio do intervalo 48-52, por exemplo, é:

h S-I
onde h =
tamanho de um intervalo de classe m= menor valor deescore+ maior valorde escore48+52s0
2
S =
limite superior de um intervalo de classe
I =limite inferior de um intervalo de classe Em certo sentido, o ponto médio pode ser considerado o representante de todos os va-
lores de escores em um intervalo de classe. E um número único, que pode ser usado para repre-
Por
exemplo, para intervalo 9094,o tamanho (h) é 94,5- 89,5 5. Isso
o
sentar todo um intervalo de classe.
ao valor que obtemos contando corresponde
simplesmente valores interior do intervalo (90,91,92,
os no
=

e94). Para evitar qualquer confusão, 93


intervalo de classe subtraindo o limiterecomendamos que você sempre calcule o
inferior do limite superior.
tamanho de um
Diretrizes para a Construção de Intervalos de Classe
A construção de intervalos de classe é apenas uma forma especial de categorizar dados. Con-
O Ponto Médio forme discutimos anteriormente, as categorias, assim como os intervalosde classe, devem ser
mutuamente excludentes (não se superpondo) e exaustivas (um lugar para cada
Outra característica de qualquer caso)
intervalo de classe é seu ponto médio Os alunos principiantes em geral acham dificila construç o de intervalos de classe. Na
se encontra exatamente (m), isto é, o ponto que
meio dele. Um método
no
médio consiste em localizar o rápido e
simples para determinar um ponto verdade, trata-se de uma habilidade que se desenvolve apenas com a prática. Entretanto, há al
ponto que divide um intervalo dado em duas partes iguais. Con- gumas diretrizes gerais que podem facilitar a tarefa. Note que se trata apenas de diretrizes que,
sideremos alguns exemplos: 50 é o
ponto médio do intervalo 48-52; 3,5 é o médio do sob certas circunstâncias, podem ser violadas.
ponto
Para apresentar dados intervalares em uma distribuição de freqüncias agrupadas,
pesquisador deve levar em conta o número de categorias que deseja utilizar. Os textos em ge-
o

ral aconselham um mínimo de 3 ou 4 e um máximo de 20 intervalos. Nesse


aspecto, é conve-
niente lembrar que as distribuições de
95 freqüências agrupadas servem para revelar ou enfatizar
um
padro de grupo. Um número muito grande ou muito pequeno de intervalos de classe
94,5-Limite superior pode mascarar o
padro, trabalhando assim contra o pesquisador, que procura aumentar o
Maior valor de escore 94 grau de clareza da análise. Além disso, a redução dos escores individuais a um número desne-
cessariamente pequeno de intervalos pode sacrificar em demasia a
precisão, originariamente
atingida pelo conhecimento da identidade de escores individuais na distribuição. Em resumo,
93 então, o pesquisador em geral toma uma decisão
quanto ao número de intervalos com base
no
conjunto de dadose em objetivos pessoais, fatores que podem variar consideravelmente de
uma
situação de pesquisa para outra.
92
Após decidir o número de intervalos de classe, o pesquisador deve
construir os próprios intervalos. então começar a
Duas diretrizes podem facilitar essa tarefa, devendo ser
91
seguidas sempre que possível. Primeiro, é preferível/tomar como tamanho dos intervalos de
cdasse um número inteiro, e não um decimal. Isso tende a os cálculos
vem tamanho.
Segundo, é convencional, em um intervalo desimplificar
classe, fazer
que envol-
o escore mais baixo
um múltiplo do seu
Menor valor de escore 90
como 90-99,80-89
tamanho. Em geral, por exemplo, as notas de exames são categorizadas
etc., de modo que as notas
89,5 Limite inferior tiplos de 10. mais baixas (por exemplo, 80 e 90) são múl-
89 -

FIGURA 2.1 Menore maior valor de escoreversus limite inferior e superior do intervalo de classe
Distribuições Acumuladas
90-94. Por é
vezes
interessante apresentar freqüencias de uma maneira acumulativa, especialmente
quando procuramos localizar a posição de um caso em
relação ao desempenho global do grupo.
39
Capítulo 2 Organização dos Dados
38 Parte I Descrição

dados da Tabela 2.8, vemos que a porcentagem de


Aplicando a fórmula precedente
aos
As freqiüencias acumuladas (fa)
se definem
como o número total de casos
que têm um determi- menos foi
nado escore ou um escore alunos que alcançaram 249 ou
inferior Entãoa
freqüência acumulada (fa) para qualquer categoria
(ou intervalo de classe) se obtém somando-se
a
freqüência daquela categoria à freqüência total
de todas as categorias abaixo
mos que a
dela!
No caso das notas de alunos de faculdades da Tabela 2.8, ve-
freqüência f associada ao intervalo de classe 200-249 63. Essa é também a freqüên- h=100 356
cia acumulada para esse intervalo, (100)(0,0089)
porque nenhum elemento do grupo tem escore inferior a 200.
A freqüência no intervalo de classe
seguinte, 250-299, é 6, e a freqüencia acumulada para esse 0,89
intervalo é9 (6 +3). Assim, vemos que 6 alunos obtiveram notas entre 250 e
299, mas 9 alunos
obtiveram nota 299 ou menor. Você pode continuar o
processo, obtendo freqüências acumulk atingiram 299 ou menos foi
das para todos os intervalos de classe, até A porcentagem dos que
chegar ao valor mais alto, 750-799, cuja freqüência
acumulada (336) é igual ao número total de
casos, porque nenhum elemento do grupo obteve
nota superior a 799. dh= (100336
Além da freqüencia acumulada,
pode construir uma distribuição que indique a
você
porcentagem acumulada (a %) de casos que têm determinada nota ou uma nota inferior. Para (100)(0,0268)
calcular uma porcentagem acumulada, modifique como se =2,68
segue a fórmula da porcentagem (%)
introduzida anteriormente neste capítulo:
A porcentagem dos que atingiram 349 ou menos foi

a% = (100)
ah=(100396
= (100)(0,0625)
onde fa = freqüência acumulada em qualquer categoria
= 6,25
N= número total de casos na distribuição
A Tabela 2.9 mostra a distribuição de porcentagens acumuladas, baseada nos dados da
Tabela 2.8. Note que a distribuição a% também pode ser obtida somando-se a distribuição per-
TABELA 2.8 Distribuição de freqüências acumuadas (fa) dos escores do centual (%).
conselho de faculdades para 336 estudantes
Intervalo de classe % Ja
Postos Percentis
750-799 4 1,19 336
700-749 4 7,14 332 Seu professor de estatística devolve as provas do bimestre. Sabendo que sua nota no curso de-
8,33 da
650-699
600-649
28
30 8,93
308
280
pende nota dessa prova,você abre
a vagarosamente. Vê então um 77 vermelho com um cir-
culo em volta. Você deve festejar silenciosamente e pensar na
comemoraço? Ou deve começar
550-599 35 10,42 250 a
pensar em propor um trabalho extracurricular que contribua para melhorar sua nota?
500-549 55 16,37 215 elos padröes covencionais aprendidos no ensino fundamental e médio, você poderia
450-499 51 18,15 160 ter traduzido
a nota 77 em um C+,
ligeiramente acima da média. Mas na faculdade, ou pelo
400-449
350-399
48
30
29
8,93
99
51
menos em
algumas
turmas, padrões convencionais não säo seguidos. Por si só, a nota 7 nada
os
significa sem alguma indicação do desempenho do restante da classe. Se a maioria da turma
obteve notas entre 50 e 60, você pode comemorar. Mas se a maioria obteve notas entre 80 e 90,
300-349 12 3,57 21
250-299 adie sua comemoração.
1,79 9
de outra
200-249 0,89 Colocando
teste. Em um exame muito
maneira, a qualidade da nota bruta 77
depende de quão fácil é o
Total 336 100 dificil, pode ser uma nota louvável, ao passo que, em um teste
77
simples, você deveria ter obtido melhor resultado. Naturalmente, o nível de dificuldade de um
40 Parte I Descrição
Capítulo 2 Organização dos Dados 41
TABELA29 Distribuição das porcentagens acumuladas
tt facnldades para 336
(«%) dos escores do conselho de Para sua turma de 20
estudantes (baseada na Tabela 2.8) alunos, o
Intervalo de classe
professor poderia decidir guardar para si os escores
apresentados anteriormente e apresentar
% aos alunos brutos
a a%
cias agrupadas: apenas seguinte distribuição de a

750-799 4
freqüên-
700-749 1,19 336
24 100,00
650-699 7,14 332 98,81 Intervalo de classe
28 8,33 308 fa a%
600-649 91,67
30 8,93 280 90- 3 15
550-599 35 83,33 80--89 20
10,42 100
500-549 250 74,40 20
55 16,37 215 70-79 17
85
450-499 61
18,15 60
63,99 60-69 30 13
65
400-449 47,62 59
15
48 14,29 35
350-399 99 29,46 10
30 8,93 40-49 20
5
300-349 12
15,18 2 10
10
3,57 21 6,25 N 20
250-299 6 100
1,79 2,68
200-249 3 0,89 0,89
Total As porcentagens
336 100
centis. De fato, como acumuladas constituem chave para a a
essas se definem como determinação
postos per
determinado intervalo de classe abaixo dele,porcentagens de escores que enquadram
dos
ou se
centis
exame só pode ser avaliado pelo desempenho da turma como um todo- isto é, correspondentes limites superiores de classes.
69,5 tem um
aos
as
porcentagens acumuladas são postos
per- os
em

ção total de notas. Assim, a única maneira de você dizer se pela distribui posto percentil de 35% (35% dos
limite superior 89,5
Assim, por exemplo, o limite
médio ou fraco é
77 foi um resultado
excelente, bom,
o
tem um
escores se
enquadram em 69,5 ou
superior
compará-lo
com toda a
distribuição de notas na turma. ou abaixo dele). posto percentil de 85% (85% dos abaixo dele), e
escores se
"Como se comporta o posto 77 em termos toda a turma?, o aluno
de E
quanto ao escore de 77? Esse
em 89,5 enquadram
fessor. O professor responde que seu desempenho foi, no mínimo, o mesmo depergunta pro-
ao
60% da turma, limite escore não se
superior de classe. Pode-se ver
indicando que seu posto perentil foi 60%. ocorre em 69,5 que seu posto
enquadra
convenientemente em nenhum
abaixo dele. Pode-se
ou
percentilé melhor do que 35%,
Oposto percentil de qualquer escore dado, digamos 77, define como porcentagem
se a priamente alto como 65%,
tão também observar que seu
posto
porque 35%6
limite superior percentil
dos casos em uma distribuição que se
enquadram naquele escore ou abaixo dele (por exemplo,a porque este corresponde ao
percentil do escore 77 situa-se em não é pro-
porcentagem da classe que acusà 77 ou menos).Os postos percentis são fáceis de calcular, desde A essa algum lugar entre 35% e 65%- 79,5. Assim, o posto
conhecido altura, podemos apenas estimar seu posto
mas
que o professor dê toda a coleção de escores brutos. Por exemplo, no seguinte conjunto de 20 exatamente onde?
escores brutos, 77 se situaria décimo segundo posto. Assim, seu posto percentil seria o décimo
em classe 70-79, comointerpolaçãoJ
que chamaremos
Focalizemos nossa
percentil com base em
atenção precisamente em seu um processo
segundo em 20, ou seja, 60%. seu limite
inferior 69,5 para seu intervalo crítico. O intervalo de
limite superior escore 77 est a três quartos do caminho de
79,5:
Décimo segundo entre 20 60%
77-69,5
79,5-69,5 =0,75
94 92 91 88 85 84 80 79 77 76 74 74 71 69 65 62 56 53 48 40 Seu escore de
77 está a três
trado a seguir: quartos (ou 0,75) do
Décimo segundo escore a partir do menor caminho de 69,5 a 79,5, conforme ilus-
raro-particularmente quando estão em jogo muitos números -você não poderá
Não 69,5
dispor de toda a coleço de escores que permita determinar o posto e o posto percentil. Em uma Limite
inferior 77 79,5
grande turma de 80 estudantes, por exemplo, a maioria dos professores não estaria disposta a Seu
escrever na lousa todoo
conjunto de notas, optando por apresentar a distribuição de freqüên- escore
Limite
cias das notas da turma. Pela superior
porcentagem de
qüências agrupadas anterior,casos (%) para esse intervalo de classe, dada na
sabemos que 30% dos distribuição de fre-
escores, ou notas, estão entre
69,5 e 79,5. Po
43
Parte I Descrição Capítulo 2 Organização dos Dados

demos, portanto, estimar que três quartos da dos escores nesse intervalo de classe 1. O limite inferior do intervalo critico (). E o ponto que está
a meio caminho entreo

(30%) também estejam em 77 ou abaixo dele, porcentagem


isto é, 0,75 X 30% 22,5%. Por nossa estimativa,
= intervalo crítico 70-79 e o intervalo de classe imediatamente abaixo dele, 60-69. O
22,5% dos escores estão entre 69,5 e 77. Já sabemos, limite inferior de 70-79 é 69,5, e não o menor valor de escore (70).
pela coluna de acumuladas,
que 35% da distribuição está em 69,5 ou abaixo. Somando essas duasporcentagens O tamanho do intervalo crítico (H), que é determinado pelo número de valores dentro
69,5 ou abaixo, mais 22,5% entre 69,5 e porcentagens-35% em 2.
do intervalo de classe 70-79. A amplitude do intervalo crítico é 10, porque contém
10
em 77 ou abaixo
dele. Assim, o posto
77-podemos estimar que 57,5% da distribuição está
limites
percentil para seu escore de 77 é estimado em 57,5%. valores, de 70 a 79. A amplitude de um intervalo é também a diferença entre os

Note que o posto superior e inferior (por exemplo, 79,5 69,5 10).
percentil
-

estimado de 57,5% não é exatamente


to percentil de 60% igual ao verdadeiro pos- 3. Aporcentagem no interior do intervalo crítico (6). Vemos que 30% das notas se enqua-
previamente calculado pela contagem dos escores brutos. Sempre se pode
esperar essa discrepåncia, porque o processo de dram no intervalo de classe 70-79.
interpolação constitui apenas uma estimativa.
O procedimento
que acabamos de descrever tem como objetivo
proporcionar uma com- 4. A porcentagem acumulada (numericamente) abaixo do limite inferior do intervalo cri-
preensão conceitual do posto percentil. Seu cálculo a partir de uma distribuição de freqüências tico Lemos a% diretamente na distribuição de
(a96,). porcentagens acumuladas. Para
agrupadas também pode ser feito pela fórmula: cima, na coluna a% da tabela, vemos que 35% dos escores ficam abaixo do intervalo
crítico. Essa
éa acumulada associada ao intervalo de classe que se situa
porcentagem
imediatamente abaixo do intervalo critico.

PP=a%, Estamos agora em condições de aplicar a fórmula seguint para o posto percentil:

onde PP =posto percenti


PP=35,0+ |(30)
ao, porcentagem acumulada (numericamente) abaixo do limite inferior do inter-
valocrítico -35,0+130)
X =
escore bruto em consideração 35,0+22,5
I = limite inferior do intervalo crítico 57,5
h = tamanho do intervalo de classe
Assim, quase 58% dos estudantes obtiveram 77 ou menos no exame.
%= porcentagem dentro do intervalo crítico Como mais um exemplo de como obter postos percentis, vamos achar o posto para um
Para ilustrar o uso da fórmula na obtenção de um posto percentil, voltemos ao escore de escore de 620 na distribuição da Tabela 2.9. Antes de aplicar a fórmula, devemos primeiro lo-
77. Antes de aplicar a fórmula, devemos localizar, primeiro, o intervalo crítico, ou seja, o inter calizar o intervalo crítico, isto é, o intervalo em que aparece o escore de 620. Como já vimos, o
valo de classe em que figura o escore 77. O intervalo crftico para esse problema é 70-79, como intervalo crítico para esse problema é 600-649.

demonstrado a seguir:
Intervalo de classe

750-799
Intervalo de classe
700-749
90- 650-699
-89 600-649 Intervalo de classe onde ocorre o escore de 620
70-79 -Intervalo de classe onde ocorre 77 550-599
500-549
60- 450-
-499
50-559 400-449
Abaixo de 50 350--399
300-349
250-299
Há várias características do intervalo crítico que devemos determinar antes de aplicar a 200-249
formula do posto de percentil:
Parte I Descrição Organização dos Dados 45
Capítulo 2

Damos a seguir várias características do intervalo devem ser determinadas:


crítico, que devemos determinar antes Seguem-se várias características do intervalo crítico, que
de aplicar a fórmula do posto percentil:
1. O limite inferior do intervalo crítico é 89,5.
1. O limite inferior do intervalo crítico. O limite inferior de nele, de 90 a 99.
600-649 6 599,5, e não o 2. O tamanho do intervalo crítico é 10, porque há 10 valores
valor mais baixo (600). 3. A porcentagem no interior do intervalo crítico é 12,24.
2. O tamanho do intervalo crítico. O crítico pode ser obtida
tamanho do intervalo critico é 50, porque contém 4. Aporcentagem acumulada abaixo do limite inferior do intervalo
50 valores, de 600-649. inferior ao intervalo
da coluna a%, recorrendo ao intervalo de classe imediatamente
3. A porcentagem dentro do intervalo crítico. intervalo de classe 80-89 é 87,76.
Vemos que 8,93% das notas dessas faculda- crftico. A porcentagem acumulada associada ao
des se enquadram no intervalo de
classe, 600-649. Estamos agora em condições de fazer a substituição na fórmula do posto percentil:
4. Aporcentagem acumulada abaixo do limite
luna a% da tabela, vemos
inferior do intervalo crítico. Para cima, na co-
que 74,40% das notas estão abaixo do intervalo crítico.
Estamos agora em condições de
PP-87,76+112,24)
aplicar a seguinte fórmula para o posto percentil:
=87,7
10
PP 74,40+| 50(8,93) = 87,76+3,06
= 90,82
74,40+ 8,93) obtiveram nota
Quase 91% obtiveram nota máxima igual a 92. Aproximadamente 9%
74,40+(0,41)(8,93) mais alta.
74,40+3,66 Há pontos em uma distribuição de escores cujos postos percentis são tão importantes
= 78,06 e tão utilizados que recebem nomes especiais. Os decis säo pontos que dividem a distribuição
em 10 partes de igual tamanho. Assim, se um escore está localizado no primeiro decil (posto
Resulta que pouco mais de 78% receberam escore 620 ou menos. Apenas 21,94% tiveram
escore mais alto. percentil = 10), sabemos que 10% dos casos se localizam nele ou abaixo dele; se um escore estáà
no segundo decil(posto percentil =20), então 20% dos casos estão nele ou abaixo dele e assim
Como outro exemplo, vamos determinar o posto percentil para um escore de 92 na se-
por diante. Os quartis são pontos que dividem a distribuição em quartos. Se um escore estálo
guinte distribuição de notas:
calizado no primeiro quartil (posto percentil = 25), então sabemos que 25% dos casos recaem
nele ou abaixo dele; se um escore está no segundo quartil (posto percentil = 50), 50% dos casos
Intervalo de classe % fa a%

90--99 6 12,24 49 100,00


se enquadram nele ou
abaixo dele;
e se
um escore está no terceiro quartil (posto percentil = 75),
759% dos casos se enquadram nele ou abaxo dele (Figura 2.2). Finalmente, conforme veremos
-89 16,33 43 87,76
70-79 12 24,49 35 71,4 no próximo capítulo, a mediana é o ponto que divide a distribuição de escores em duas, metade
60-69 10 20,41 23 46,94 acima metade abaixo. Assim, mediana
e a
bém o quinto decil e o segundo quartil.
corresponde a um posto percentil de 50, mas é tam-
50-59 14,29 13 26,53
40-49 12,24 6 12,24
N= 49 100,00 Dados Decimais
de 92 é 9099: Nem todos os dados são apresentados em forma de números inteiros. Isso não deve causar ne-
Conforme mostrado a seguir, o intervalo crítico para um escore
nhuma preocupação, porque os procedimentos que
aprendemos e que vamos aprender em capí-
Intervalo de classe tulos posteriores se aplicam não só a decimais como também a números inteiros. Para
familiari
zar-nos, logo de início, com os dados decimais, consideremos a
90-99 Intervalo de classe onde ocorre 92 construção de uma distribuição
de freqüência dos dados referentes ao
80-8 desemprego por estado nos Estados Unidos, apresentados
na Tabela 2.10. Os dados brutos não nos dão um quadro muito claro do padrão nacional do de-
70-7
60-69 semprego. Somos levados aos extremos: os números variam de um máximo de 6,3 (Novo México
50-59
40-49
eVirginia Ocidental) a um mínimo de 2,4 (Minnesota e Nebraska). Até que tenhamos construído
uma distribuição de freqüências agrupadas, 0s dados da Tabela 2.10 não nos dizem muito.
Organização dos Dados 47
Parte I Descrição Capítulo 2

Posto percentil Decil Quartil


TABELA 2.10 Taxas estaduais de desemprego nos Estados Unidos, 1998
95
90 = Taxa de Taxa d
9 Estado desemprego
85 Estado desemprego
80 Alasca 5,2 Montana 5,7
75 3 Alabama 4,2 Carolina do Norte 3,3
70 1 Arkansas 5,3 Dakota do Norte 2,5
65 Arizona 4,0 Nebraska 2,4
60 6 Califórnia 5,7 New Hampshire 3,1
55 Colorado 4 Nova Jersey 4,5
50 Connecticut 3,8 Novo México 6,3
Delaware 3,6 Nevada 3,7
45 Flórida 4,3 Nova York 5,5
40 42 Geórgia 4,0 Ohio
35 Havaí 5,9 Oklahoma
30 =
3 lowa 25 Oregon 5,6
25 Idaho 4,8 Pensilvânia 4,6
20 Illinois 4,5 Rhode Island 4,9
2
15 Indiana 3,0 Carolina do Sul 3,9
Kansas 3,6 Dakota do Sul 2,
10= 19
Kentucky 4,2 Tennessee 3,9
Louisiana 5,3 Texas 4,6
Massachusets 2,9 Utah 3,0
FIGURA 2.2 Escala de postos percentis dividida por decis quartis.
e
Maryland 4,3 Virginia 3,0
Maine 4,3 Vermont 2,9
Michigan 3,6 Washington 4,7
Como há apenas um total de 50 casos, não podemos pretender ter muitas categorias. Um Minnesota 2,4 Wisconsin 3,5
número excessivo de intervalos de classe refinará demasiadamente a distribuição. A determina- Missouri 3,7 Virgínia Ocidental 6,3
ção limites efetivos dos intervalos de classe é a parte mais dificil de todas. Resultados mais
dos
satisfatórios vão sendo obtidos por meio de muitas tentativas e erros, assim como com a prática.
Mississippi 4,9 Wyoming 4,
Fonte: Bureau of Labor Statistics (EUA).
Não existe um 'número correto' de intervalos de classe, mas o da Tabela 2.11 pode ser um bom
começo.
Uma vez que tenhamoso arcabouço da distribuição de freqüéncias (os intervalos de clas-
se e
freqüências), o resto é quase imediato. Obtêm-se da maneira usual as porcentagens, as
as TABELA 2.11 Distribuição de freqüências das taxas
freqüências acumuladas e as porcentagens acumuladas. Quanto a outros cálculos, como pontos estaduais de desemprego, 1998
médios, entretanto, tenha em mente que os dados são expressos com um algarismo decimal. Intervalo de classe
Conseqüentemente, esse algarismo é importante na determinação do tamanho do intervalo ou
do àmbito de escores cobertos por um intervalo de classe. Por exemplo, a amplitude do
intervalo 6,0-6,4
4,0-4,4 6 0,5, porque contém os escores de 4,0 a 4,4 inclusive. Há 5 escores entre 4,0 e 4,4, sepa- 5,5-5,9 5
rados por um décimo um do outro, de modo
que o tamanho é (5)(1/10) 0,5.
= 5,0-5,4
4,5- 9
4,0-4,4 9
Intervalos de Classe Flexíveis 3,5-3,9 9
3,0-3,4 6
Embora nao tenhamos salientado
qüências utilizadas até
antes, vocé deve ter notado que todas as distribuições de fre- 2,5-2,9
2,0-2,4
5
têm
agora intervalos de classe de igual tamanho. Há ocasiðes, entretanto, 2
em
que tal prática não é recomendada. N 50
48 Parte1 Descrição Dados 49
Capítulo 2 Organização dos

As distribuições defreqüència agrupadas podem ter intervalos de classe ilimitados em


ou em ambos os extremos. A outra um dos dados sobre renda familiar,
diferença principal em relação às distribuições TABELA 2.13 Distribuição de freqüências
anteriormente é o emprego de intervalos de classe de tamanhos diferentes. Por apresentadas 1997 (com os pontos médios)
2.12 apresenta uma distribuição dos
dados de um censo sobre a renda exemplo, a Tabela
tipica de distribuições construídas com dados de renda. Note familiar para 1997 que é Categoria de renda
se que contêm as menores
rendas apresentam um tamanho de que, enquanto os intervalos de clas-
$100.000 ou mais $125.000 8.391 11,8
é dilatado para os níveis mais
altos de renda. Qual teria sido o $5.000, o tamanho dos intervalos
$87.500 7.826 11,0
um intervalo fixo de $5.000 resultado se tivéssemos mantido $75.000-$99.999 21,3
$62.500 15.112
para toda a distribuição? O intervalo $50.000-$74.999
categorias, o intervalo $35.000-$49.999 se decomporia em três $25.000-$34.999 teria duas $35.000-$49.999 500 12.357 17,4
los S50.000-$74.999 e categorias; e ambos os interva-
$75.000-$99.999 teriam cada um cinco categorias. $25.000-$34.999 $30.000 9.079 12,8
mos distinções
desnecessariamente refinadas entre as pessoas de renda maisO efeito seria fazer- $15.000-$24.999 $20.000 9.250 13,0
5,7
distribuição freqüência longa sem necessidade. Ou
de alta, gerando uma $10.000-$14.999 $12.5 4.054
uma grande seja, em termos de
padrão de vida, há $5.000-$9.999 $7.50 2.887 4,1
diferença entre o intervalo de classe $5.000-$9.999 eo intervalo 2,7
Já a diferença entre uma $10.000-$14.999.
categoria de $60.000-$64.999 e uma categoria de $65.000-$69.999
Menos de $5.000 500 1.929
relativamente sem importância. é N= 70.885 100,0
Essas novas voltas nas
distribuições de freqüèênc não devem causar grande dificuldade
para você adaptar o que já aprendeu Mas que devemos fazer com o intervalo de classe mais elevado ($100.000 ou mais), que
capítulo. Felizmente, os cálculos de distribuições
neste
acumuladas, postos percentis e semelhantes não se modificam
com amplitudes diferentes
para distribuições de freqüência não tem limite superior? Como devemos manusear a fórmula? Não há nenhuma regra rigorosa
intervalos de classe abertos em uma das extremidades. A
ou
nem rápida que possamos aplicar, apenas o bom senso. Os intervalos de classe foram se tornando
modificação se refere ao cálculo de pontos médios de intervalos de classe ilimitados em umaúniça
das gradativamente mais amplos com o aumento da renda. Prosseguindo com a mesma progressao,
extremidades. Consideremos um exemplo. poderfamos admitir, para a maioria das famílias restantes, o intervalo de $100.000-$149.999,
que tem um ponto médio de $125.000.
A Tabela 2.13 mostra os pontos médios para a distribuição de renda familiar em 1997.O
cálculo dos pontos médios para a maior parte das categorias é direto quando utilizamos nossa ~
fórmula do ponto médio:
Tabulações Cruzadas
menor valor de escore + maior valor de escore
m= As distribuições de freqüència, como as que tém sido discutidas até aqui, aparecem em toda
2
do Bureau of the Census empregam
parte. As publicações consistentemente distribuições de
dos Estados Ünidos; a apresentação dos
TABELA 2.12 Distribuição de freqüêncías dos dados sobre renda
freqiència descrever caracteristicas população
para da
dados brutos- milhões de observações-obviamente seria impossível.
familiar, 1997 Encontramos distribuições de freqüência em jornais diários; os jornalistás, como todo
pesquisador social, consideram as tabelas uma forma muito conveniente de apresentação. A
maioria dos leitores dos jornais é capaz de entender
Categoria de renda famílias em milhares) % porcentagens básicas (mesmo que não se
lembrem de como calculá-las). Em geral, uma tabela de freqüências e
porcentagens de determi-
$100.000 ou mais 8.391 11,8 nada variável é suficiente para o nfvel de profundidade e detalhe que encontramos em um jor-
$75.000-$99.999 7.826 11,0 nal. Os pesquisadores sociais, entretanto, pretendem mais do
que apenas descrever a distribui-
$50.000-$74.999 15.112 21,3 ção de uma variável; procuram explicar por que alguns indivíduos se encaixam em um extremo
$35.000-$49.999 12.357 17,4 da distribuição, enquanto outros se localizam no extremo oposto.
$25.000-$34.999 9.079 12,8 Para atingir esse objetivo, devemos explorar as tabelas com maior
S15.000-$24.999 9.250 13,0 do-as em duas ou mesmo mais dimensões. Em
profundidade, expandin-
S10.000-$14.999 4.054
particular, uma tabulaço cruzada é uma tabela que
apresenta a distribuição-freqüências e porcentagens d e uma variável (em geral, a variável de-
S5.000-$9.999 2.887
pendente) por categoria de uma ou mais variáveis adicionais (em geral, as variáveis independentes).
Menos de $5.000 1.929 2,71 Quando o estado de Massachusetts instituiu a obrigatoriedade do uso do cinto de segu-
N 70.885 100,0
rança, fixou uma multa de $i5 pelo não-cumprimento da exigência. Para avaliar a obediència à
51
50 ParteI Descrição Capítulo 2 Organização dos Dados

distribuições de freqüência (duas, no caso) unidas de modo


a
TABELA 2.14 Distribuição de freqüências do uso do cinto ser encarada como uma série de
temos essencialmente distribuição de fre-
formar uma única distribuição. Nesse exemplo
uma
de segurança
a uma distribuição comparável do uso do
Uso do cinto de segurança qüências do uso do cinto entre os homens, justaposta
% cinto entre as mulheres.
Sempre 499 50,1 Como no caso das distribuições de freqüência de uma variável, as porcentagens conferem
Na maioria das vezes 176 resultados um significado mais forte do que as freqüências isoladas.
Atendo-nos ao mesmo
17,7 aos
Algumas vezes 124 12,4 processo anterior, isto é, dividindo cada freqüencia (f) pelo tamanho N da amostra:
Raramente 33 8,3
Nunca
Total
115 115 %=(100) N
997 100
obtemos os resultados percentuais para as duas variáveis conjuntamente, conforme apresen
tado na Tabela 2.16. Por exemplo, você pode obter a porcentagem da amostra que consiste em
lei, Fox e Tracy fizeram uma pesquisa telefonica,junto a 997 residentes na área de Boston sobre o
mulheres que sempre usam o cinto de segurança dividindo o número de usuárias "Sempre' pelo
uso do cinto de segurança e sobre sua opinião quanto à polêmica lei. Com relação à questão prin-
número de entrevistados em uma amostra global:
cipal-com quefreqüencia o entrevistado utilizava o cinto de

a distribuiço de freqüências simples da Tabela 2.14.


segurança,o resultado todo foi

Cerca de metade dos entrevistados da pesquisa (50,1%) declarou usar sempre o cinto. Dois 100 997) (100)(0,356) =35,6%
terços dos entrevistados (50,1% +17,7% = 67,8%) responderam que usavam o cinto quasesempre.
Entretanto, não nos satisfaz apenas o conhecimento do grau de respeito à lei. Para anali- Assim, 35,6% da amostra consiste em mulheres que sempre usam o cinto (Tabela 2.16).
sar mais detidamente os dados da pesquisa, começamos examinando que tipos de pessoas usam As distribuições de freqüència de cada variável separadamente podem ser encontradas
cinto de segurança- isto é, quais características dos entrevistados esto relacionadas com o ao longo das margens de uma tabulação cruzada de dois critérios. São as chamadas distribuiçðes
uso do cinto.
Uma das mais significativas diferenças está entre os homens e as mulheres na
pesquisa. TABELA 2.16 Tabulação cruzada do uso do cinto de segurança por sexo, com as
Empregamos uma tabulação cruzada para observar as diferenças entre os sexos no que diz res-
porcentagens totais
peito ao uso do cinto de segurança. Ou seja, construímos uma distribuição de freqüências de
duas ou mais variáveis consideradas simultaneamente. A tabulação cruzada exibida na Tabela Sexo do entrevistado
2.15 mostra, por exemplo, que 144 homens afirmaram usar sempre o cinto e que 110 mulheres
Uso do cinto de segurança Masculin0 Feminino Total Marginal
declararam usar quase sempre o cinto. e linha
O fundamento das tabulações cruzadas foi apresentado quando comparamos as distri- Sempre 144 355 499 (totais
cruzada pode de linha)
buições por sexo de graduandos em engenharia de duas faculdades/ A tabulação 14,4% 35,6% 50,1%
Na maioria das vezes 66 110 176
6,6% 11,0% 17,7%
TABELA 2.15 Tabulação cruzada do uso do cinto de seguranga por sexo
Algumas vezes 58 66 124
Sexo do entrevistado 5,8% 6,6% 12,4%
Raramente 39 44 83
Uso do cinto de segurança Masculino Feminino Total
3,9 % 4,4% 8,3%
144 355 499 Nunca 60 55 115
Sempre
Na maioria das vezes 66 110 176
6,0% 5,5% 11,5%
Algumas vezes 58 66 124 Total Tamanho
367 630 997
Raramente 39 44 83 total da
36,8% 63,2% 100,0% amostra
Nunca 60 55 115
Total 367 630 997 Marginal de coluna
(totais de coluna)
52 Parte I Descrição
Capítulo 2 Organização dos Dados 53

marginais. Isto é, a margem direita dá uma distribuição de


do cinto de segurança idèntica à que tínhamos na Tabela freqüênciase porcentagens do uso
de
2.14. Como a variável uso do cinto de TABELA 2.17 Tabulação cruzada do uso do cinto de segurança por sexo, com
segurança é colocada ao longo das linhas da tabulação cruzada, as as porcentagens por linha .
referentes ao uso de cinto formam os totais de linha. Da mesma freqüências e porcentagens
nal dos sexos figura na margem da base da maneira, a distribuição margi- Sexo do entrevistado
tabulação
para homens mulheres são os totais de colunas,
e
cruzada. Essas freqüências e
porcentagens Uso do cinto de segurança Masculino Feminino Total
colunas. porque o sexo é a variável que encabeça
as
Sempre 144 355 499
As
porcentagens na Tabela 2.16 são chamadas
freqüência pelo tamanho totalporcentagens
obtidas dividindo-se cada totais (%total) porque são 28,9% 71,1% 100,0%
da amostra: Na maioria das vezes b6 110 176
37,5% 62,5 100,0%
6total (100) Algumas vezes 58 66 124
OLat 46,8% 53,2 100,0%
Raramente 39 44 83
Por exemplo, 14,4% da amostra consiste em homens que usam 53,0% 100,0%
47,0%
ça. Analogamente, 11,0% da amostra consiste em sempre cinto de seguran
o
115
mulheres que quase sempre usam cinto. Nunca 60 55
o
Há, entretanto, algo
no valor da
perturbador em relaçãoa essas porcentagens. Por exemplo,o peque- 52,2% ,8% 100,0%
porcentagem de homens que 'nunca usam cinto o
(6,0%) é ambiguo. Ele pode re-
Total 367 630 997
fletir pequena presença de homens, baixo uso
dos cintos de 36,8% 63,2% 100,0%
taxa de uso do cinto segurança na amostra global, baixa
que nunca usam cinto.
especificamente entre os homens ou baixa prevalência de homens entre os

Existem outras abordagens


que podem resolver essa ambigüidade. Uma alternativa seria Reciprocamente, podemos calcular porcentagens na outra direção. Obtemos as porcenta-
dividir o número dos homens gens por coluna (%col) dividindo cada freqüência pelo número de casos naquela coluna:
que nunca usam o cinto pelo número total dos que nunca usam,
o número de homens
que raramente usamo cinto pelo número total dos que raramente usame
assim por diante, fazendo cálculos
comparáveis para as mulheres. Em outras palavras, diyidir as
freqüências em cada linha pelo número de casos naquela linha (Tabela 2.17). Essas %col = (100)
chamam-seporcentagens de linhas porcentagens

Por exemplo, obtemos


a porcentagem de mulheres que sempre usam o cinto dividindobo
%linha (100) Ninha número de usuárias
permanentes pelo número total de mulheres:

Por
dividindo-se
exemplo, a porcentagem dos que usam sempre o cinto e que são mulheres é obtida
o número
(100630) 100)(0,563)-56,3%
respectivo pelo número total dos que usam sempre o cinto:
Assim, 56,3% das mulheres do e udo declararam usar
sempre o cinto de segurança.
(10033=(100)(0,711)=71,1%
499 que as
A Tabela 2.18
porcentagens
apresenta as porcentagens por coluna para
têm
por soma 100%
nossa tabulação cruzada. Note
longo de cada coluna. Assim, elas refletem
ao
buição do uso do cinto de segurança não só separadamente, a distri-
Vemos, assim, que 71,1% dos que sempre usam o cinto são mulheres. por sexo, como total.
As porcentagens por linha dão a distribuição da variável coluna para cada valor da variá-
vel linha. Assim, essas Escolha entre Porcentagens Totais,
porcentagens representam a distribuição por sexo dentro de cada nível de por Linha e por Coluna
uso do cinto de
segurança. Do mesmo modo, as porcentagens têm por soma 100% por meio de
cada linha, incluindo a coluna da Dispomos agora de três conjuntos de porcentagens- total, por linha e
marginal na base tabulação cruzada. ria perguntar: Qual deles é correto? por coluna. Você pode
Matematicamente, todos o são, isto é, foram todos calcula-
Parte I Descrição Capítulo 2 Organização dos Dados 55

variável independente. Como ela é dada nas colunas, devemos


TABELA 2.18 Tabulação cruzada do uso do cinto de segurança por sexo, com quanto ao uso do cinto; o sexo é a

as porcentagens por coluna usar porcentagens por coluna.

Sexo do entrevistado Há outra maneira de enunciar essa regra: se queremos comparar linhas em uma tabu-
lação cruzada, devemos utilizar porcentagens por linha; exigem-se as porcentagens por coluna
Uso do cinto de em nosso exemplo, desejamos comparar os homens com
segurança Masculino Feminino Total para comparar colunas. Novamente,
Sempre as mulheres em termos de utilização
do cinto de segurança. O sexo é a variável coluna, e as
144 355 499 do uso do cinto de segurança para
39,2% 56,3%
porcentagens por coluna dão separadamente as distribuições
Na maioria das vezes
50,1% homens e para mulheres. Assim, essas porcentagens por coluna devem ser usadas para tazer
6 110 176 comparações de sexo.
8,0% 17,5% 17,7% Em certos casos, não é fácil dizer qual é a variável independente. Por exemplo, na tabula-
Algumas vezes 58 66 124 da
15,8% ção cruzada da afiliaço partidária do marido pela afiliação partidária esposa (Tabela 2.19),
10,5% 12,4% nenhuma das variáveis pode ser considerada claramente resultado da outra. (Nota: as cifras em
Raramente 39 44 83
10,6% 7,0%
cada cela da tabela representam freqüència, porcentagem por linha, porcentagem por
de maridoe
coluna
mulher
e

Nunca
8,3 % porcentagem total, respectivamente.) Até certo ponto, afiliações políticas
as
60 de os
podem se influenciar reciprocanmente, e em muitos casos podem ter ocorrido antes mesmo
55 115
16,3% 8,7 % 11,5% cbnjuges terenm se conhecido. A semelhança (ou mesmo discordància) em perspectivas politicas
Total 367 630 97 pode ter sido parte da atração dos dois.
100,0% 100,0% 100,0% Em termos dos dados da Tabela 2.19, poderíamos calcular a porcentagem de maridos
democratas que tém esposas democratas (70 em 100, porcentagem por linha = 70,06) ou a
porcentagem de esposas democratas que possuem maridos democratas (70 em 110, porcenta-
dos da maneira correta. Mas, em termos de
ser
significação substantiva, certas porcentagens podem
enganosas ou mesmo inúteis.
Em primeiro lugar, conforme
já observamos, as porcentagens totais por vezes têm signi TABELA2.19 Tabulação cruzada da filiação partidária do marido pela
filiação partidária da esposa: freqüências e porcentagens totais,
ficado ambíguo, como no caso do uso do cinto de
segurança por sexo. Depois, de acordo com as por linha e por coluna
porcentagens por linha, as mulheres predominam em todas as linhas, exceto no subgrupo Nun-
ca, em que os sexos se apresentam quase Freqüência
iguais. O que isso significa? Podemos tirar conclusões,
Como a sugestão de que os homens não dirigem tanto quanto as mulheres e, conseqüentemente, %linha
Filiação partidária da esposa
não figuram em grande
proporção em qualquer nível de uso do cinto? Obviamente essa infe- %coluna
rência seria artificial. A baixa representação dos homens em
quase todas as categorias de uso % total Democrata Republicana Total
do cinto é simplesmente uma
conseqüência da baixa porcentagem de homens na amostra em Filiação partidária do marido
geral (36,8%). Assim, o fato de 71,1% dos que usam sempre o cinto serem mulheres não é tão
esmagador se levarmos em conta que 63,2% do total da amostra so mulheres. Democrata 70 30 100
Para nosso
objetivo, as porcentagens mais informativas são as porcentagens por coluna. 70,0% 30,0% 52,6%
Estamos interessados em comparar homens e mulheres em termos do uso do cinto de segurança, 63,6% 37,5%
isto é,
desejamos saber a porcentagem das mulheres que usa freqüentemente o cinto em compa-
ração com os homens. Por exemplo, 39,2% dos homens afirmam usar sempre o cinto, em com-
36,8% 15,8%

paração com 56,3% das mulheres. Reciprocamente, 16,3% dos homens afirmam nunca ter usado Republicana 40 50 90
o cinto, em comparação com apenas 8,7% das mulheres. 44,4% 55,6% 47,4%
Felizmente, há uma regra empírica para orientar nossa escolha entre porcentagens por 36,4% 62,5%
linha e por coluna: se a variável independente está nas linhas, utilkize porcentagens por linha; se a 21,1% 26,3%
variável independente está nas colunas, utilize porcentagens por couna. Em nosso exemplo, esta- Total 110 80 190
mos
preocupados com a influència que o sexo de um entrevistado tem sobre o comportamento 57,9% 42,1% 100,0%
Partc Descrição 57
Capítulo 2 Organização dos Dados

gem por coluna 63,6%). Ambas teriam


=

pesquisador. Entretanto, em casos assim, emsignificação, dependendo do interesse particular do


que não há uma variável
Divorciados (8,9%) -

como causa da outra, usam-se


a
que possa ser destacada Solteiros (22,6%)
independencia de qualquer das frequentemente as porcentagens totais (que não
variáveis). No caso da Tabela 2.19, em 36,8% dos implicam
Viúvos (7,3%)
ambos cônjuges so democratas (70 cm 190) e cm
os
casamentos
190). Globalmente, em 63,1% dos 26,3% ambos são
casamentos + republicanos
(36,8% (50 em
26,3%), marido e mulher têm
filiação politica. a mesma
As escolhas entre
porcentagens totais, por linha e
por coluna são:
1. Se variável
2.
a

Sea variável
independente está nas linhas, utilize porcentagens
por linha.
3. Se não há uma
independente cstá nas colunas, use porcentagens por coluna.
distinção clara entre variável independente variável
utilize porcentagens
a Casados (61,29%) -

totais, por linha ou por


dependente,
coluna-a
e a

para o
enfoque de interesse. que for mais significativa FIGURA 2.3 Gráico em setores do estado clvil.

Fonte Bureau of the Census (EUA).

Apresentações Gráficas
As colunas de números
costumam evocar temor, de setores possíveis.) Em comparação, o gráfico em barras (ou histogramna) pode acomodar um
Embora algumas ansiedade, tédio, apatia e desentendimento. número arbitrário de categorias em qualquer nível de mensuração, sendo, por isso, muito mais
pessoas pareçam desconfiar de
ma de tabela, elas dão informações
toda a atenção aos mesmos dados
estatísticas apresentadas em for- utilizado em pesquisa social.
ou ilustrativa. Como quando apresentados em forma gráfica A Figura 2.5 mostra um gráfico n barras da distribuição de freqüência do uso do cinto
resultado, muitos pesquisadores comerciaise autores populares preferem de
utilizar gráficos no
lugar de tabelas. Por razões análogas, os segurança apresentada na Tabela 2.14. O gráfico em barras é construido de acordo com a dis-
mente recorrem a auxílios visuais-
como gráficos em setores,
pesquisadores sociais freqlüente- posição padrão: uma reta-base horizontal (ou eixo x) ao longo da qual marcamos os valores
freqüências, gráficos em linha e mapas --sempre com o objetivo gráficos em barras, polígonos de dos escores ou categorias (nesse caso, os níveis de
utilização do cinto de segurança) e uma reta
de melhorar a vertical (eixo y) ao longo do lado
de seus resultados. legibilidade esquerdo da figura que exibe as freqüências para cada valor do
escore ou
categoria. (Para dados agrupados, tanto os pontos médios dos intervalos de classe quanto
Gráficos em Setores
os
próprios intervalos podem ser colocados ao longo da reta-base.) Como podemos ver na Figura
2.5, quanto mais alta a barra, maior a freqüência da
categoria.
Ográfico em setores (também conhecido como gráfico tipo pizza, gráfico
gráfico setorial) é um gráfico circular cujos setores perfazem 100%. tipo torta ou ainda
Esse de
tipo constitui
um dos métodos mais
simples de representação gráfica é especialmente útil gráfico
e
para mostrar as
Divorciados (8,9%) -
Soltciros (22,6%)
diferenças em freqüências ou porcentagens entre categorias de uma variável de nível
A tftulo de ilustração, as nominal.
figuras 2.3 2.4 apresentam distribuição do estado civil para adultos
e a
Viúvos (7,3%)-
de 18 anos ou mais. Note que 22,69 dos adultos são solteiros (nunca se casaram), 61,2% são
casados, 7,3% so viúvos e 8,9% são divorciados.
Em muitas inståncias, o pesquisador pode
pretender focalizar a atenção em determinada
categoria do gráfico em setores. Nesse caso, ele pode se interessar em focalizar o grupo de sol-
teiros. Para ilustrar esse aspecto do gráfico em setores,
podemos 'explodir' (mover ligeiramente
para fora) o setor do gráfico que merece maior atenção, como na Figura 2.4.

Gráficos em Barras Casados (61,2%)-


Os gráficos umal
em sctores
proporcionam ilustração rápida efácil de dados que podem ser
FIGURA 2.4 Gráfico em setores do estado civil (com
divididos em poucas categorias. (Na verdade, alguns pacotes de software limitam o número 'explosão' de setor).
59
Capítulo 2 Organização dos Dados
58 Parte I Descrição
de freqüências). A Figura 2.7 exibe
600 à escala utilizada longo do eixo y (porcentagens em lugar
ao
hori
um gráfico em barras horizontais
dos mesmos dados. Não há diferença real entre as barras
zontaisou a escolha freqüentemente se reduz
verticais;
a uma decisão prática sobre qual adapta
se
S00
é a melhor apresentação para um grático
em
melhor à página. De modo geral, a forma horizontal
barras com muitas categorias.
400
de dados ordinais
As deste livro indicavam que os gráficos em barras
edições anteriores os da-
ou intervalares devem ter as barras
unidas umas às outras (como na Figura 1.1), enquanto
S00
modo que não haja implicação dè or-
dos nominais devem ser representados por um espaço, de
Os pacotes de software em
dem. O advento e o uso de computadores modificaram esse aspecto.
200 rotineiramente barras separadas. Assim,
geral não fazem essa distinção; muitos deles utilizam
enquanto os dados nominais devem ser representados por
barras separadas, os dados ordinais
100 ou intervalares podem ser representados por barras tanto unidas como separadas.
Os gráficos em barras podem mostrar o efeito de uma variável sobre outra. Por exemplo,
com base nos dados da
a Figura 2.8 exibe a distribuição do uso de cintos de segurança por sexo,
Nunca Raramente Agumas Na maioria Sempre Tabela 2.15. Faz uma grande diferença grafarmos as freqüências ou as porcentagens. O gráfico
vezes das vezes

Uso do cinto de segurança


daFigura 2.8 se apresenta distorcido porque há mais mulheres do que homens na amostra.
Como resultado, as barras relativas às mulheres são, em sua maioria, mais altas do que as barras
dos homens, obscurecendo o efeito do sexo sobre o uso do cinto de segurança. Em lugar disso,
FIGURA 2.5 Gráßco em barras para o uso do cinto de segurança (com freqdências).

Embora muitos pesquisadores prefiram gráficos em barras verticais das freqüências, os


gráticos de porcentagens e em barras horizontais também são muito utilizados.A Figura 2.6, por Sempre
exemplo, exibe o gráfico em barras verticais da distribuição de porcentagens do uso do cinto de
segurança. Note que o gráfico éidêntico ao gráfico em barras das freqüências, exceto com relação
Na maiorna
50 das vezes

Algumas vezes

Raramente

10 Nunca

Na maioria Sempre
Nunca Raramente Algumas 10 20 0 40 50 60
vezes das vezesS
Porcentagen
Uso do cinto de segurança
FIGURA 2.7 Gráfico em barras horizontais para do cinto de
o uso
segurança
FIGURA 2.6 Gráfico em barras para o uso do cinto de segurança (com porcentagens). (com porcentagens).
60 Parte I Descrição
Capítulo 2 Organização dos Dados 61

400

350
FMasculino Feminino TABELA 2.20 Taxas de nascimento pela
idade da mäe
300
Idade Taxa de nascimento
250 da mãe (nascimentos por 1.000)

10 -14 ,2
15-19 54,4
I50
20-2 110,4
100 25-29 113,1
30--34 83,9
35-39 35,3
40--44 6,8
Nunca Raramente -49 ,3
Algumas Na maioria
Vezes
Sempre
das vezes
Uso do cinto de
segurança
Os gráficos em barras são utilizados também para grafar volumese taxas por meio de
FIGURA 2.8 Gráfico em barras para o uso do cinto de Subgrupos populacionais ou ao longo do tempo, e não só para distribuições de freqüências e
(com freqüências). segurança, por sero de porcentagens. Por
exemplo, as taxas de natalidade de 1997 (número de nascimentos por
1.000 mulheres, Tabela 2.20) são dadas por idade da mäe na
dividindo-se o número de partos de mulheres de determinado
Figura 2.10. Essas taxas são obtidas
obtemos uma ilustração melhor grupo etário pelo núímero de
grafando as porcentagens das colunas a partir da Tabela 2.18. mulheres naquele grupo e
multiplicando-se o resultado por 1.000. Como as duas categorias
Assim, o gráfico em barras da Figura 2.9 extremas
de segurança como também a influência permite-nos
ver não só a
distribuição do uso do cinto apresentam taxas muito pequenas, as barras são apenas visíveis. Assim,
exercida pelo sexo. a
legibilidade do gráfico, rotulamos cada barra com seu valor (o que, de resto, é para reforçar
uma
boa idéia). sempre

Masculino Feminino
120
S0

100

30
80

20

20

Nunca Raramente Algumas Na maioria Sempre


Vezes das vezes

Uso do cinto de segurança 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49

FIGURA 2.9 Gráfico em barras para o uso do cinto de segurança, por sexo0 Tdade da me
(com porcentagens).
FIGURA 2.10 Grático em barras do número de nascimentos por 1.000 mulheres pela idade da me.
Organização dos Dados 63
Parte I Descrição Capítulo 2

Poligonos de Freqüências 20

Outro método gráfico comumente


empregado é o polígono de freqüências Embora ele possa
comportar uma ampla diversidade de categorias, tende a dar ênfase à continuidade ao
uma escala, e longode
não às diferenças; é, assim, particularmente útil para representar dados ordinais I5
e
intervalares. Isso porque as freqüèncias são indicadas por uma sucessão de pontos colocados
sobre os valores dos escores ou
ponto médio de cada intervalo de classe! Pontos adjacentes são
unidos por um segmento retilíneo,
que é prolongado até a base em ambas as extremidades. A
altura de cada ponto indica a
freqüência da ocorrência.
A Tabela 2.21 mostra uma
distribuição
estudantes. A Figura 2.11 apresenta o freqüências
de de notas de exame uma tur-
ma de 71 para
polígono de freqüências para essa distribuição.
Note que as freqüências dos intervalos de classe são marcadas acima de seus
pontos são unidos por segmentos retilíneos, que terminam na reta-base horizontalpontos médios; os
em ambas as
extremidades, formando um polígono.
Para grafar freqüencias acumuladas
(ou porcentagens acumuladas), podemos construir
um poligono de freqüéncias acumuladas. Conforme mostra a Figura 2.12, as freqüências acumu-
ladas são dispostas ao
longo da reta vertical do gráfico e indicadas pela altura dos pontos acima
da reta-base horizontal. Ao contrário, entretanto, de um polígono regular de freqüências, a reta
7 62 67 12
Ponto médio
82 87 92

que une todos os pontos nesse polígono não pode terminar voltando à reta-base,
porque as fre- FIGURA 2.11 Poligono de freqüências para
qüências acumuladas representadas são resultado de sucessivas adições. Qualquer freqüência acu- de estudantés.
a distribuição das notas de provas
mulada nunca é inferior (em
geral, é superior) à freqüência acumulada precedente. Também, ao
contrário de um polígono regular de freqüências, os pontos em um gráfico cumulativo são assina-
lados acima dos limites
superiores dos intervalos de classe, e não em seus pontos médios, porque
a freqüência acumulada representa o número total de casos tanto no interior como abaixo de um 80
intervalo de classe específico.

TABELA 2.21 Distribuição de freqtências 60


agrupadas de notas de provas

Intervalo
de classe fa
10
95-99 11
90-94 68
85-89 56
80-84 52 20
75-79 12 55

70-74 17 43
65-69 12 26
-64 5 14 54,5 59,5 64,5 69,5 74,5 79.5 84,5 89,5 945 99,5
55-59 5 9 Limite superior
-54 4 4
FIGURA 2.12 Poligono
de freqüências
N 71 acumuladas para a distribuição das notas de provas
de estudantes.
OoJ ap seure s ausDsaID OSS3Oe a
aquaosajope ogÓepndod ep oquewej ou a sTerorgod seoFprd seu 'sapepmeuad seu sesuepnu'ypu SE2Pus sagómqunsyp aayuo o503.m3 ep oóeueA ErTvanoIA
op ouunßns 'seßozp op ounsuos op ojuune qepei epu_joya ep ouune wen8y emer
-31 Pu Seprznpe sogzei se nug seyoupuaj sessa Jeodxo rejusi jerpos 1opesnbsad oe sqe»
Boupoosayn ) Eougoypeld (9 eoLupoondar (e)
uuenaeN O6 op epr>pp eu auopusop epeja enno 08 p epesop ep peuy ou epug81ns
-S91 PLIm '08 p epeopp ep sopeaui wa eponb run '0861 91e naouewod anb ayuapuaose ep
-upua) run '09 ap eprmop sopeau uo op exe) ep oqusune orqps o openauae
um
ep soppruros
8-2a 09ygiä oN sopep ap e onb op
1opepaaI sjeu as
onu ejuaszde
ouureep es
oDypis o quIUTEAON TTTPjqPL eu opejsI[ BuioJuo '866I e OS6I p (sanuerqeq o00'00I Jod
epod erpd sopei1odaI sOpjoruroy op oraunu) soptun sopejsg sou soporuios ap exej e en
-sou
'oduaxa 1od '9TZ ematI V eYu| wa so»Ypia 10d sopenjsn! OIdu»s asenb ogs ste1odun
seougpua) e sOAgeraI sopep so 'Seyuy u09 no seiieq uoo sepeyera ogs (apepmi»j ap soue
so opuptApqns aprpi ap sodnia ouoo) sodnißqns anus sagbereduoo se 0uenbu
apueis zej ogu opea»Idura opoj9u o "OT'7a STT Semnay se opueredwoo IaA apod as ouop
seLIeq u a um ap -eJiay Teuy u e x a u n ap sejou ap 3ssejern as as "eoLNuIs aquaueItaJIad a eLnausse eurnqu»u
oyed ruzoj uo aytouzo119ue sepeuasaade "apur ep apep! rpad apeprezeu
ap sexe se 'sequyj uua ooyrd un uo '3qpo 'oyduaxo Iod _Iz eam3H V "eja1 ap sojuouaos 1od eSnOe ogu se ua
ogðnqursipV s30baITp sequre sow»nxa sar0>sa ap orounu ouusauI o ps 'ose»
souod so s-opuun E no zoeA O
jpagTeAPUn ap Exe) 3s-vJe13 seyuy us ooyp1 un wg Teg ug seoupI sepne) Senp uuoo anb (°) ogdnquns1p e '>JUaUTeuy 'souaUTuexa
odu op oauoj oquduuosap woq ureresnoe saquepnisa sunae seusde sexeq ojnu ogs eongiodrs euun
oE no anua sjaapjea no papyrEA Fun uo ESsop sayuepngso sop seug sotuexa sop sejou sy (e1jap p
sodn3 sgóeoyipou uensou equ u s sooyp18 eDInuissE) Do119uISSD 31uauuvay
so ouenbu PAFLTEA EDTUTn eun ap saxo2s3 op ounfuoo un ap sopugnba( sep ophynqnsrp e -1sodg ogomquns1p e onb I3z1p souapod 'epe3uore epneo ep ogðop erod epep 9 eLNUTTSSE P
wqpa sepugnbay ap souoßjod so SeIAETed senno ug vyuy ua oonfpi3 un azun opo19u ouoo e]JOrp e epens pasa epneo eíns '(9)
ogdynqins1pe epnäos wa souusiapIsuoo
3853 eIoquua soey werejoAaI as sunare seuade anb a
'oduay op o$uot oe no sodnzß anua sexe) a sunoA Ieuasaida ered sopeoypou oquaduasap uoq 3A3) souepniso sop e;roreuu
19s e anb
uapod serougnbay ap souoßjod so 'eitoueuu eus>uu ega odu»j no seazp 'sodnis ap ojsu 1azp sowejropod 'Teug ouexo un u3 SEJOU ap
ogdnqtnstp ep ossejen as as
IOd sexej a sunjon ujqurej ouoo Sejou op ogðnqITISTp Pun ap su»aejuaoIOd a sepupnbay saIoosa weiaAg sunaTe SeuSde a "soxTeq
sojTe soI0sa 3ADIq0 sopejsTAaIus sop erIoeu e anb
9s opu re]uIsaIdaI ered sopesn 1s wapod seireq us sooypia so anb ajuuio;uoNue souiA ensou
ogbnqinsIp essa *e)IaIIp onb op epianbso Eauoj steu ojrnur epneo eun un anbiod (ep
-Jenbsa p eo;nguisse) vo1u19uissD
31uauvaj2v3au 9 ¥lT eInatJ eu (e) ogbtnq1nstp y
eLINUISSe ep opiai1p e a
sa10sa soonod
SEXIeq 01nu no seie ojnur aquaueaneror sop ogðezirpoj e eoiput epneo essap eutuisjap souanx»
ogðysod y
seou uoo saquepnisa soonod a soppuu sou»u no seu saJuepnjso op o19unu apueia un sou
epne, eun way ogðnqins1p e 'ogdap euun us 3s sa10os3 so anb
*epepunuoid
uamunse uo» zej anb
eynousse ajspxa opuenð 'seojn9urisse sagonqnistp ap
apepisianIP apueia euun pH
SonydeO ou epin>sIp 3yuouepeyjejop pa13s a
e
jejoos eSInbsad e eJed
wLagausse ap sagboup opueuosoida1 sagóynqunsyp s34L vI vaNDLA eyoadsa ogdeoyiuais u ) onb 1vuuou vaIn) ? (°)ET7 exnatg eu epEnsnj!
-9us ogdInqinstp ap odi uin 'eoFrnoosou eoun
uou
(sv1JuNDOsauu Sepeueup) seppjeype ojinur ogs
eOunguisse uoEANIsOd (9) eOLNIUIISSe uIUTEANE3oN (E)
0yd wpa ogu seyno (svounoiInjd sepeuuuouap) openyuase
owo 'senno (svo11ugoo1daj sepeuueyp) sepejeype queseq ogs "(9)gr7 enßiJ ep e
ouo e
openjue aJuejseq 0oyd wgi "(e)ET7
SeOLnPuIS sagbnqunsIp seurnatv (as01uno) od op vuuuof ep sou1) uo ein31H ep
-p wopod sero 'ojduaxa 1od 'SeDLnuTs
sagbmqunsp se anus nuaujaAIsuas uy
ogbeLJEA JOAPIopISuOD PH
eno Pu onb op
soseo STeu wejuasaide a oga1p eun us souuan
svo14191ujssD as-uereyp
sagdap se SEque ua souaiyxa soIOTEA sagÓ.nqLns1p seno s
'oxeq ered eup eIPd
ap O19UIFu ousau uJuoo o
-10 'SeDIugp! sapejou senp souajqo oua ou eAINS e
sagdinquns1p sesso Ouei
-;nstp seunay eIounbaiy ap sagOInqigsip Iod opueiqopsoouis ogs sagbnq
®
sOu-repn[e sejougnbaiy ap souoayod so sepruinsse seurog 3p opepis1aAp JezienstA
piougnba41 ap opdinquisiq vun ap vHY
S9 opeg sop ogÓEzIUEiO Tonjde,)
66 Parte I Descrição
Capítulo 2 Organização dos Dados 67
120
TABELA 2.22 Taxas de homicídio nos Estados Unidos: 1950-1998
100
Taxa de homicídio
Ano Taxa de homicídio
(por 100.000) Ano
por 100.000)
1950
4,6 1975
1951
4,4 9,6
1976
1952 8,8
4,6 1977
1953 8,8
4,5 1978
1954 9,0
40 1955
4,2 1979
9,7
4,1 1980
1956 10,2
4,1 1981
20 1957
4,0 9,8
1958
1982
4,8 9,1
1959
1983
4,9 8,3
1960 1984
10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 5,1
1961 1985
Idade da mãe
4,8 9
1962 1986
4,6 8,6
FIGURA 2.15 1963 1987
Gráfico em linha do número de nascimentos por 1.000 mulheres 4,6 8,3
pela idade da mãe. 1964 1988
4,9 8,4
1965 1989
5,1 8,7
1966 1990
5,6 9,4
1967 1991
6,2 9,8
1968 1992
6,9 9,3
1969 1993
10 7,3 9,5
1970 1994
1,9 9,0
1971 1995
8,6 8,2
1972 1996
9,0 7,4
1973 1997
9,4 1998
6,3
1974
9,8 6,3

Mapas
Até certa ocasião, os
pesquisadores sociais confiavam quàase
setores, gráficos em barras,
exclusivamente
entretanto, com o advento e polígonos de gráficos em
em
freqüencias e gráficos em linhas. Em anos
utilizar outras formas de
o
aperfeiçoamento das técnicas de recentes,
1950 1955 1960 1965 1970 1975 1980 1985 1990 1995
bastante popular, apresentação gráica. Um tipo em computação, eles começaram a
Ano
pelo governo (por concomitantemente com a maior particular- o
mapa- tornou-se
exemplo, dados dos censos). utilização de dados coletados e publicados
FIGURA 2.16 Gráfico em linha para as taxas de homicídio nos Estados Unidos: 1950-1998. O mapa oferece um método sem
dados. Por exemplo, a Figura 2.17 paralelo para a exploração de
padrões
mostra
distribuição de freqüências de geográficos
uma nos
quatra catrro1
ParteI Descriçao Capítulo 2 Organização dos Dados 69
68

a ontinui-
mas são especialmente úteis para dados ordinais e intervalares, porque enfatizam
dade ao longo de uma escala. Entre suas muitas aplicaqies, os gráficos em linhas prestarn-
especialmente a representar tendncias ao longo do tempo. Finalmente, os mapas
servem para

apresentar padrões geográficos dos dados.

TERMOS-CHAVE

Distribuição de freqüências Mediana


Taxa por 100.000
Distribuição de porcentagens Tabulação cruzada
8,0 ou mais Porcentagem total
6,0 a 7,9
Proporção
Porcentagem por linha
4,0 a 5,9 Porcentagem
Abaixo de 4,0 Razão Porcentagem por coluna
Taxa Gráfico em setores
FIGURA 2.17 Mapa das taxas de homicídio nos Estados Unidos, 1998.
Distribuição de freqüências agrupadas Gráfico em barras (histograma)
Intervalo de classe Poligono de freqüèncias
rias das taxas de homicídio
nos Estados Unidos. Cada estado é sombreado de acordo com sua Limite de classe Poligono de freqüências acumuladas
categoria como elemento da distribuição. E imediatamente aparente a tendéncia para o aumen- Ponto médio Curtose
to das taxas de homicídio à medida que nos deslocamos para o Sul. Assimetria
Freqüência acumulada
Porcentagem acumulada Distribuição negativamente assimétrica

RESUMO Posto percentil Distribuição positivamente assimétrica


Decis Gráfico em linhas
Neste capítulo introduzimos algumas técnicas básicas utilizadas pelo pesquisador social para
Quartis
organizar a massa de números brutos que obtém dos entrevistados. Discutimos e ilustramos
distribuições de freqüência e métodos para comparar essas distribuições de dados nominais
(proporções, porcentagens, razões e taxas). Em relação a dados ordinais e intervalares, examina- EXERCÍCIOS
mos as características de distribuições de freqüência simples, agrupadas e acumuladas. Apresen-
tamos então o processo de cálculo do posto percentil de um escore bruto.
. Uma tabulação cruzada de doenças graves é uma tabela em que a distribuição das doenças é
Ainda neste capítulo estendemos as distribuições de freqüência
porcentagens de
e de
modo a abranger tabulações cruzadas de duas variáveis. Há três maneiras possíveis de determi-
a.
apresentada separadamente para as categorias de uma segunda variável, como sexo,
idade ou raça.
porcentagens para tabulações cruzadas: porcentagens por linha, porcentagens por
nar
coluna e
b. apresentada em uma tabela.
coluna depende da localização
porcentagens totais. A escolha entre porcentagens por linha e por C. apresentada em um gráfico.
da variável independente dentro da tabulação cruzada. As vezes usam-se porcentagens totais, d. apresentada em um gráfico em setores.
a variável coluna podem ser identificadas como
mas somente quando nem a variável linha nem

variável independente.
2. As distribuições de freqüência podem ser usadas para
de a.
comparar diferenças de sexo em comportamento criminal violento.
Pode-se usar também a representação gráfica de dados para facilitar a legibilidade
b. mostrar as notas de um exame de meio de ano
resultados de uma pesquisa. Nossa abordagem de apresentações gráficas incluiu gráficos em
para todos os estudantes de um curso de

setores, gráficos em barras, polígonos de freqüências, gráficos


em linhas e mapas. Os gráficos sociologia.
em setores dão uma ilustração de dados que podem ser
divididos em algumas categorias. Os c.
comparar atitudes de estudantes de faculdades e seus pais em relação à guerra.
número de catego d. mostrar atitudes de todos os estudantes de um
gráficos em barras são mais utilizados porque podem comportar qualquer e. todas as alternativas anteriores.
campus em relação à guerra.
rias. Os polígonos de freqüências também comportam uma ampla diversidade de categorias,

Você também pode gostar