Você está na página 1de 11

Captulo 5

Dados quantitativos
Quando a varivel em estudo for mensurada numericamente, temos grande ganho em termos de tcnicas de anlise exploratria de dados. Este captulo trata da construo de distribuies de freqncias de variveis quantitativas, bem como das interpretaes que podemos fazer sobre essas distribuies. Uma varivel quantitativa dita discreta quando seus possveis valores puderem ser listados. O Nmero de filhos de um casal e o nmero de cmodos de uma casa so exemplos de variveis discretas, pois a primeira s pode assumir valores no conjunto {0, 1, 2,...}, enquanto a segunda no conjunto {1, 2, 3,...}. As variveis discretas geralmente resultam de alguma contagem. Uma varivel quantitativa dita contnua quando puder assumir qualquer valor num intervalo. O peso de um indivduo uma varivel contnua, pois pode assumir qualquer valor no intervalo, digamos, de 0 a 300 kg. As variveis contnuas costumam ser geradas por um instrumento de mensurao. 5.1 VARIVEIS DISCRETAS

A construo de distribuies de freqncias de dados de varivel discreta pode ser feita da mesma forma que uma distribuio de freqncias de dados categorizados, desde que no haja grande quantidade de diferentes valores observados.1 Como exemplo, usaremos os dados da varivel nmero de pessoas residentes no domiclio, considerando uma amostra de quarenta residncias do Conjunto Residencial Monte Verde (anexo do Captulo 4).
Dados 4 4 4 5 4 1 2 3 6 4 6 4 4 6 3 5 3 4 4 4 5 5 5 4 8 4 5 3 4 5 5 2 5 2 6 8 3 5 5 3

A Tabela 5.1 apresenta a distribuio de freqncias desses dados, construda atravs da contagem das repeties de cada valor.

Quando a varivel apresenta grande nmero de diferentes valores, podemos usar os artifcios que descreveremos para variveis contnuas (Seo 5.2).

Tabela 5.1 Distribuio de freqncias do nmero de pessoas residentes no domiclio, numa amostra de quarenta residncias do Conjunto Residencial Monte Verde, Florianpolis SC, 1988.
Nmero de pessoas 1 2 3 4 5 6 7 8 Freqncia de residncias 1 3 6 13 11 4 0 2 Percentagem de residncias 2,5 7,5 15,0 32,5 27,5 10,0 0,0 5,0

Para representar graficamente a distribuio de freqncias de uma varivel quantitativa, devemos construir um par de eixos cartesianos. Na abscissa (eixo horizontal) construmos uma escala para representar os valores da varivel em estudo, enquanto que na ordenada (eixo vertical), representamos a freqncia de cada valor. A Figura 5.1 mostra duas formas alternativas de representao grfica da distribuio de freqncias da Tabela 5.1. A primeira consiste em traar hastes verticais sobre os valores efetivamente observados (Figura 5.1a). A altura de cada haste deve ser proporcional freqncia do correspondente valor. Na segunda representao, substitumos os riscos por retngulos (Figura 5.1b). Esses retngulos devem ter a mesma largura e podem ser justapostos. O eixo vertical (das freqncias) deve sempre iniciar no zero; o eixo horizontal (dos valores da varivel) pode iniciar prximo ao menor valor da varivel. (a)
12 10 8 6 4 2 0 1 2 3 4 5 6 7 8

(b)
Freqncia de residncias 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 Nmero de pessoas residentes

14 Freq n cia d e re sid n cia s

Nmero de pessoas residentes

Figura 5.1 Representaes grficas da distribuio de freqncias da Tabela 5.1.

EXERCCIOS
1) Observando a Figura 5.1, descreva qual a quantidade tpica (ou faixa tpica) de moradores por domiclio. Existe algum domiclio muito diferente dos demais, em termos do nmero de moradores? 2) Considerando os dados do anexo do Captulo 2, faa os seguintes itens: a) construa uma tabela de distribuio de freqncias para o nvel de satisfao do aluno com o curso (item 3.g do questionrio); b) apresente essa distribuio sob forma grfica e

c) interprete. 3) As duas tabelas de freqncias que se seguem referem-se s distribuies do nmero de filhos dos pais e dos avs maternos de uma amostra de 212 alunos da UFSC, pesquisada pelos alunos do Curso de Cincias Sociais, primeiro semestre de 1990. Distribuio do nmero de filhos dos pais dos respondentes No de filhos
1 2 3 4 5 6 7 9 8 7 9 6 10 2 11 3 12 2

Freqncia

10 45 32 50 23 23

Distribuio do nmero de filhos dos avs maternos dos respondentes No de filhos


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 8 6 2 4 0 1 0 1

Freqncia

2 17 32 17 29 23 20 22 21 14

Apresente essas duas distribuies em grficos e faa uma descrio comparativa entre elas.

5.2

VARIVEIS CONTNUAS

Para as variveis contnuas, no faz muito sentido contar as repeties de cada valor, pois, considerando que dificilmente os valores se repetem, no chegaramos a um resumo apropriado. Diagrama de pontos Quando temos um conjunto com poucos dados, podemos analis-lo atravs de um diagrama de pontos, isto , representando cada resultado (valor) por um ponto na reta de nmeros reais (veja a Figura 5.2).

Figura 5.2 Construo de um diagrama de pontos.

possvel colocar duas ou mais distribuies num mesmo grfico; basta identificar os pontos com smbolos diferentes, ou coloc-los em nveis diferentes, como ilustra a Figura 5.3.

Figura 5.3 Diagrama de pontos do ndice de Desenvolvimento Humano (IDH) de duas amostras aleatrias de quatorze municpios: uma da Regio Sul e outra da Regio Norte.2

Interpretao da Figura 5.3 Os municpios da amostra da Regio Sul apresentam, em geral, IDH maiores do que os municpios da amostra da Regio Norte. Tambm observamos que as duas amostras de municpios diferenciam-se quanto disperso dos valores. Enquanto na amostra da Regio Sul os municpios apresentam IDH relativamente prximos (maior homogeneidade), na amostra da Regio Norte os valores variam bastante de municpio para municpio (maior heterogeneidade). Tabela de freqncias Nas Cincias Sociais, geralmente trabalhamos com conjuntos de centenas ou milhares de observaes, fazendo com que o diagrama de pontos fique impraticvel. Podemos construir distribuies de freqncias, agrupando resultados em classes preestabelecidas. As classes so pequenos intervalos mutuamente exclusivos, tais que, quando reunidos, abrangem todo o conjunto de dados. Em outras palavras, as classes devem ser construdas de tal forma que todo valor observado pertena a uma e apenas uma classe. Por simplicidade, e para facilitar a interpretao, consideraremos todas as classes com a mesma amplitude. Como exemplo, usaremos as taxas de alfabetizao de uma amostra aleatria de quarenta municpios brasileiros.3 Dados:
57,25 72,81 54,70 59,07 76,85 66,01 67,95 68,04 92,90 90,52 69,91 73,22 89,07 87,94 95,02 95,34 75,49 58,88 77,62 88,40 84,33 86,34 57,14 83,52 65,28 45,37 91,22 64,19 94,59 81,15 64,65 64,17 71,20 94,83 85,70 95,34 82,30 81,42 81,34 84,66

Observe que todos os valores esto no intervalo de 40 a 100 (o menor valor 45,37 e o maior 95,34). Devemos definir um conjunto de classes mutuamente exclusivas, tais que, quando reunidas, contenham todos os valores. Uma possvel escolha seria construir 6 (seis) classes com amplitude aproximada de 10 (dez), como segue: de 40,00 a 49,99; de 50,00 a 59,99; ...; de 90,00 a 99,99 Para simplificar a notao, representaremos essas classes por: 40,00 | 50,00; 50,00 | 60,00; ...; 90,00 | 100,00 sendo que o smbolo | representa o intervalo entre os dois valores, incluindo o valor do lado esquerdo e excluindo o valor do lado direito.

Dados extrados do Atlas do Desenvolvimento Humano (www.pnud.org.br/atlas). O IDH, calculado para cada municpio, foi construdo com base nos dados do Censo Demogrfico de 2000. Observe que neste exemplo os elementos das amostras so municpios. 3 Dados do Censo Demogrfico, 2000 (www.ibge.gov.br).
2

A tabela de freqncias construda atravs da contagem da freqncia de casos em cada classe, como mostramos a seguir:
classes 40 50 60 70 80 90 | | | | | | 50 60 70 80 90 100 contagem | ||||| ||||| ||||| ||||| ||||| freqncia 1 5 8 6 12 8

||| | ||||| || |||

Na apresentao de uma tabela de freqncias, comum colocar tambm os pontos mdios das classes, isto , para cada classe, a mdia dos seus limites. Por exemplo, na classe 40 | 50 o ponto mdio 5. O ponto mdio representa o valor tpico da classe. A Tabela 5.2 apresenta a distribuio de freqncias dos dados em discusso.
Tabela 5.2 Tabela de freqncias de valores da taxa de alfabetizao, relativos a uma amostra aleatria de municpios brasileiros, ano 2000. Classes da taxa de alfabetizao 40 50 60 70 80 90 | | | | | | 50 60 70 80 90 100 Ponto mdio 45 55 65 75 85 95 Freqncia de municpios 1 5 8 6 12 8 40 Percentagem de municpios 2,5 12,5 20,0 15,0 30,0 20,0 100,0

Total

O nmero de classes a ser usado na tabela de freqncias uma escolha arbitrria. Quanto maior o conjunto de dados, mais classes podem ser usadas. Uma tabela com poucas classes apresenta a distribuio de forma bastante resumida, podendo deixar de evidenciar algumas caractersticas relevantes. Por outro lado, quando se usam muitas classes, a tabela pode ficar muito grande, no realando aspectos relevantes da distribuio de freqncias. Em geral, so usadas de cinco a vinte classes, dependendo da quantidade de dados e dos objetivos. Dentro desta faixa, uma sugesto usar, aproximadamente, n classes, onde n a quantidade de valores.4 Em nosso exemplo: n = 40, resultando em 40 = 6,32 , o que sugere seis ou sete classes; adotamos 6 classes. Como os dados extremos so 45,37 (o menor) e 95,34 (o maior), temos uma amplitude total de 95,34 - 45,37 50. Assim, se as classes iniciarem pelo menor valor, cada classe deve ter amplitude: 50 = 8,33 . Mas, para
6

facilitar a leitura da tabela de freqncias, optamos por iniciar em 40,00 e classes com intervalos iguais a 10,00. Esquematicamente:

Quando se tm valores discrepantes no conjunto de dados, recomenda-se que o nmero de classes seja maior.

Intervalo onde esto os dados

45,37

95,34

Classes:

40

50

60

70

80

90

100

Uma forma alternativa de apresentar distribuies de freqncias de variveis quantitativas atravs de grficos, tais como os histogramas e os polgonos de freqncias, que apresentaremos a seguir. Histograma A Figura 5.4 mostra um histograma de freqncias, construdo a partir da Tabela 5.2. So retngulos justapostos, feitos sobre as classes da varivel em estudo. A altura de cada retngulo proporcional freqncia observada da correspondente classe.5

12

Freqncia de municpios

10 8 6 4 2 0

40

50

60

70

80

90

100

Taxa de alfabetizao

Figura 5.4 Histograma de freqncias de valores da taxa de alfabetizao, relativos a uma amostra aleatria de municpios brasileiros, ano 2000.

Interpretao da Figura 5.4 Observamos um contingente razovel de municpios com taxas de alfabetizao acima de 80 (dentre a populao adulta, mais de 80% de alfabetizados). Mas tambm h muitos municpios com taxas de alfabetizao muito baixa (entre 50 a 80). Uma anlise similar por regio demogrfica poderia trazer mais informaes relevantes.

5 Quando as classes no tm a mesma amplitude, necessrio fazer alguns ajustes. Veja, por exemplo, Bussab e Morettin (2002, p.27). O histograma tambm poderia ser feito usando percentagens no eixo vertical, mas a sua forma no mudaria.

Polgono de freqncias O polgono de freqncias uma representao grfica alternativa. Para constru-lo, toma-se o ponto mdio (x) e a f correspondente freqncia (f) de cada classe. Colocamos os pares (x, f) como pontos num par de eixos cartesianos. A ilustrao ao lado mostra a representao do ponto (5, 1), 1 num par de eixos cartesianos. Para completar o grfico, devemos unir os pontos com semi-retas, ligando os pontos 0 5 x extremos ao eixo horizontal. A Figura 5.5 apresenta o polgono de freqncias construdo a partir da Tabela 5.2. O leitor deve notar que as informaes fornecidas pelo polgono de freqncias so equivalentes s observadas num histograma.
14

Frequncia de municpios

12 10 8 6 4 2 0 30 40 50 60 70 80 90 100 110

Taxa de alfabetizao

Figura 5.5 Polgono de freqncias de valores da taxa de alfabetizao, relativos a uma amostra aleatria de municpios brasileiros, ano 2000.

A Figura 5.6 apresenta dois polgonos de freqncias num mesmo grfico, usando dados do anexo do Captulo 4. O uso de percentagens no lugar de freqncias absolutas foi proposital, porque facilita as comparaes entre as duas distribuies de renda. Deixamos para o leitor a interpretao das informaes contidas neste grfico.
Percentagem de famlias 48 40 32 24 16 8 0 0 5 10 15 20 25 30 Renda familiar (em salrios mnimos) Monte Verde Encosta do Morro

Figura 5.6 Distribuies de freqncias das rendas familiares no Monte Verde (amostra de 40 famlias) e na Encosta do Morro (amostra de 37 famlias), Bairro Saco Grande II, Florianpolis SC, 1988.

O leitor deve observar que um grfico como o da Figura 5.6 permite explorar possveis relaes entre uma varivel quantitativa (renda) e uma varivel qualitativa (localidade). Ao comparar histogramas ou polgonos de freqncias, devemos observar a posio no eixo horizontal (nvel tpico dos valores), a disperso e a assimetria. Dizemos que uma distribuio simtrica quando um lado da distribuio o reflexo do outro lado. comum medidas fsicas terem distribuies razoavelmente simtricas. Por outro lado, distribuies de renda em geral so assimtricas, pois existem mais pessoas com baixa renda do que pessoas com alta renda (principalmente no Brasil!). Veja a Figura 5.7.

(a) Distribuies diferentes em termos da posio central

(b) Distribuies diferentes quanto disperso

(c) Distribuio simtrica

(d) Distribuio assimtrica

Figura 5.7 Diferentes formas de distribuies de freqncias.

EXERCCIOS
4) Os dados a seguir so medidas da identidade social que os professores sentem em relao ao seu departamento de ensino. Foram observadas duas amostras de 12 professores: uma no Depto de Engenharia Mecnica e a outra no Depto de Histria, ambas na UFSC. Pelo instrumento utilizado, pode-se dizer que quanto maior o valor, maior a identificao social do professor com o departamento de ensino a que pertence. Valores de identidade social Depto de Eng. Mecnica Depto de Histria 46 48 47 48 49 50 35 24 43 43 44 33 37 46 47 48 44 47 38 35 39 37 40 35 Fonte: Laboratrio de Psicologia Social / UFSC, 1990. Apresente os dois conjuntos de dados num diagrama de pontos e faa uma anlise comparativa. 5) Considere os dados do anexo do Captulo 2. a) Construa uma tabela de freqncias para o desempenho do aluno no curso (item 5 do questionrio). b) Faa um histograma. Interprete. c) Construa um polgono de freqncias.

6) Considerando os dados sobre renda familiar do anexo do Captulo 4, construa trs histogramas, sendo um para cada localidade. Faa uma comparao descrevendo as diferenas entre as trs distribuies de renda familiar. 7) Os grficos apresentados a seguir representam distribuies de presses intraoculares para indivduos normais e para indivduos portadores de glaucoma. Quais as semelhanas e diferenas que podemos observar na presso intra-ocular desses dois grupos de indivduos?
Indivduos normais (amostra de 43 indivduos) 30 25 20 15 10 5 0 9 10 11 12 13 14 15 16 presso intra-ocular % de indivduos

Indivduos portadores de glaucoma (amostra de 34 indivduos) % de indivduos 50 40 30 20 10 0 16 20 24 28 32 36 40 44 presso intra-ocular

5.3

RAMO-E-FOLHAS

Quando a quantidade de dados no for muito grande (digamos, at uma centena de observaes), podemos construir, com relativa facilidade, um ramo-e-folhas, o qual fornece a forma da distribuio de freqncias e ainda preserva a magnitude aproximada dos valores. Num ramo-e-folhas, os dados ficam ordenados crescentemente, o que facilita a obteno de algumas medidas descritivas, como veremos no prximo captulo. Voltemos a considerar as taxas de alfabetizao de uma amostra de municpios brasileiros. Para facilitar a construo do ramo-e-folhas vamos usar, apenas, os dois algarismos mais relevantes, desprezando os algarismos decimais. Para cada valor, o primeiro algarismo colocado do lado esquerdo do trao vertical, formando os ramos. O segundo algarismo colocado do lado direito do trao formando as folhas. Assim, o valor 57 fica representado por 5|7 (veja a segunda linha da Figura 5.8a), o 76 por 7|6 (quarta linha), e assim por diante. Na apresentao final de um ramo-e-folhas, devemos tambm ordenar as folhas, como mostra a Figura 5.8b.
Dados com os dois algarismos mais relevantes: 57 72 54 59 76 66 67 68 a) 4 5 6 7 8 9 5 78479 56794844 651273 942761151834 24045155 92 90 69 73 89 87 95 95 75 58 77 88 84 86 57 83 b) 4 5 6 7 8 9 5 47789 44456789 123567 111234456789 01244555 65 45 91 64 94 81 64 64 71 94 85 95 82 81 81 84

Figura 5.8

Construo de um ramo-e-folhas.

O leitor deve notar que, ao observar os dados num ramo-e-folhas, v-se a forma da distribuio de freqncias, como se fosse um histograma deitado (compare o ramo-e-folhas da Figura 5.8b com o histograma da Figura 5.4). No histograma, temos a liberdade de escolher a amplitude do intervalo de classe; num ramo e folhas, tambm podemos dividir cada ramo em dois ou cinco.6 Na Figura 5.9, os algarismos (folhas) de 0 a 4 ficaram num ramo e os algarismos de 5 a 9 no outro ramo. A unidade indica como devem ser lidos os valores. Em nosso exemplo, temos a unidade igual a 1 (um), ou seja, os valores so lidos naturalmente, emendando o ramo com a folha. Por exemplo, 4|5 lido como 45.
4 5 5 6 6 7 7 8 8 9 9 5 4 7789 444 56789 123 567 1112344 56789 01244 555

Unidade = 1 4|5 = 45

Figura 5.9 Apresentao, em ramo-e-folhas, dos valores da taxa de alfabetizao, relativos a uma amostra aleatria de municpios brasileiros, ano 2000.

Na construo de um ramo-e-folhas, a escolha dos algarismos mais relevantes depende do conjunto de dados em anlise. Tomemos um novo exemplo, onde trabalharemos com dois algarismos.
Dados da populao residente dos municpios do Oeste Catarinense, 1986.
6.512 3.682 18.084 17.189 8.453 19.985 13.084 9.709 30.592 11.133 5.464 8.713 9.279 24.959 30.377 16.127 105.083 12.315 26.966 3.163 21.083 28.339 9.094 33.245 17.968 9.612 11.943 27.291 25.089 12.935 21.234 14.867 19.739 44.183

Fonte: IBGE.

Ao construir um ramo-e-folhas para estes dados, optamos por desprezar os trs ltimos algarismos, transformando a unidade bsica de habitantes para mil habitantes (veja a Figura 5.10).
0 0 1 1 2 2 3 3 4 33 56889999 112234 677899 114 5678 003 4

Unidade = 1.000 0|3 = 3.000 Valor discrepante: 10|5

Figura 5.10 Apresentao, em ramo-e-folhas, da populao residente nos municpios da Microrregio Oeste Catarinense, 1986.

Em cada ramo, podemos ter at dez algarismos diferentes. Ento, dividindo-se por dois ou cinco, temos a mesma quantidade de algarismos possveis em cada ramo (cinco e dois, respectivamente).

EXERCCIOS
8) Considerando os dados do anexo do Captulo 2, construa um ramo-e-folhas para os valores do desempenho do aluno no curso. Interprete. 9) Considerando os dados do anexo do Captulo 4, construa um ramo-e-folhas para a renda familiar, em cada localidade. Interprete.

EXERCCIOS COMPLEMENTARES
10) Foram anotados os tempos decorridos entre a incidncia de uma certa doena e sua cura, em 50 pacientes. Estes tempos so os seguintes, em horas:
21 47 41 41 16 44 96 84 10 35 27 127 02 24 114 323 74 61 24 120 99 82 35 80 67 90 92 74 87 37 20 69 02 40 126 66 43 83 14 31 39 33 03 82 56 16 12 13 58 04

Construa um histograma e comente sobre alguns aspectos relevantes desta distribuio. 11) A tabela seguinte apresenta os salrios, em reais, dos funcionrios de duas empresas. Empresa A Empresa B
400 350 480 1800 720 130 420 1200 620 720 1320 830 190 380 300 340 310 920 400 980 590 280 620 620 780 2900 320 1320 700 550 1700 1100 830 1540 2720 190 2100 3200 510 320 920 3000 230 380 1100 160 3500 420 520 840 190 230 110 190 210 200 120 230 310 630 230 290 330 620 160 990 340 420 380 240 355 720

Faa uma descrio comparativa usando grficos apropriados.