Você está na página 1de 90
= Parte 1 Descri¢ao Capitulo 2 Organizacao dos dados Capitulo 3 Medidas de tendéncia central Capitulo 4 Medidas de variabilidade Organizacao dos dados + Distribuigdes de frequéncia de dados nominais + Comparagao de distribuigdes ‘+ Proporcées e porcentagens + Razoes e taxas + Distribuig6es de frequéncia simples de dados ordinais e intervalares + Distribuig6es de frequéncia agrupadas de dados intervalares + Distribuig6es acumuladas + Classificacées percentis Abordagem de dados decimais Mais sobre limites de classe Intervalos de classe flexiveis Tabulagdes cruzadas Apresentacées graficas Quadro 2.1 Pratica e estatistica medicdo da audincia da televiso Resumo Termos-chave Exercicios Exercicios em SPSS Ave de dados acarreta um sério esforgo por parte dos pesquisadores sociais que buscam smpliar seu conhecimento sobre 0 comportamento humano, Entrevistar ou extrair informa- «Ges de aposentados, estudantes universitérios, viciados em drogas, homossexuai nos de classe média e outros entrevistados exige certo grau de previsio, planejamento cuidadoso, controle e, as vezes, trabalho de campo. A coleta de dados, entretanto, é apenas o comeco no que diz respeito a andlise estatistica, Ela produz a matéria bruta que os pesquisadores sociais utilizam para analisar dados, obter resultados © testar hipéteses sobre a natureza da realidade social. norte-america- Capitulo 2 + Organizacio dos dados 33 Distribuicées de frequéncia de dados nomina © mareeneiro transforma a madeira bruta em méveis; 0 chef converte o alimento cru em ver- sdes mais palataveis a serem servidas no jantar. Por meio de um processo similar, o pesquisador social — auxiliado por “receitas” chamadas de formulas e tenicas estatisticas — tenta transfor ‘mar os dados brutos em um conjunto de medidas significativo e organizado que possa ser usado no teste de hipateses. que os cientistas sociais podem fazer para organizar a miscelnea de nimeros brutos que coletam de seus objetos de estudo? O que podem fazer para transformar a massa de dados brutos ‘em uma forma facil de ser compreendida? primeiro passo é construir uma distribuicdo de fre- quéncia em forma de tabela, Suponha que um pesquisador que estuda a socializagao infantil esteja interessado em reages, de meninos a frustragao. Em resposta a retirada de seus brinquedos, eles agem com raiva ou cho- ram? Com que frequéncia encontram brinquedos alternativos? Algumas criangas reagem com in- troversio? O pesquisador realiza um experimento com 50 meninos de 2 anos de idade, oferecendo ¢, em seguida, retirando um brinquedo colorido. Examinaremos agora a distribuigao de frequéncia de dados nominais na Tabela 2.1. Observe primeiro que a tabela tem, em seu cabegalho, um nimero ¢ um titulo que proporciona ao leitor uma ideia da natureza dos dados apresentados — respostas de meninos a retirada de um brinquedo, Bssa & disposi¢do padrao; toda tabela deve ter um tftulo claro, e, quando apresentada em série, deve também receber um nimero. As distribuigdes de frequéncia de dados nominais consistem em duas colunas. Conforme a ‘Tabela 2.1, a coluna da esquerda indica qual caracteristica é apresentada (resposta da crianca) € contém as categorias de andlise (choro, raiva, retraimento e brincadeira com outro brinquedo). ima coluna adjacente (intitulada frequéncia, ou f) indica o néimero de meninos em cada categoria (25, 15, 55, respectivamente), assim como o niimero total de meninos (50), que pode ser indicado seja por V= 50, seja pela inckusio da palavra Tora! logo abaixo das categorias, Uma répida olhada rna distribuigdo de frequéncia na Tabela 2.1 elaramente revela que mais meninos reagem chorando ‘ou com raiva do que retraindo-se ou encontrando um objeto altetnativo para brincar. Tabela 2.1 Respostas de meninos & retitada de um brinquedo. Reagio da crianga Choro 25 Raiva 15 Retraimento Procura por outro bringuedo N. Comparacao de distribuicées Suponha em seguida que o mesmo pesquisador queira comparar as reagdes de meninos & meninas 4 retirada de um brinquedo. Fazer comparagdes entre distribuigdes de frequéncia é um procedimento muito usado para esclarecer resultados e acrescentar informagdes. A compara particular que um pesquisador faz é determinada pela questio que ele busca responder, 34 Estatistica para ciéncias humanas Nesse exemplo, o pesquisador decide investigar diferengas entre géneros. As meninas sio ais propensas a encontrar um brinquedo alternativo do que os meninos? Para fornecer uma res- posta, 0 pesquisador pode repetir 0 experimento em um grupo de 50 meninas e, entio, comparar 6s resultados. Imaginaremos agora que os dados que obtivemos so aqueles mostrados na Tabela 2.2. Como mostra essa tabela, 15 dentre 50 meninas, mas apenas 5 dentre 50 meninos, reagiram brincando com outro brinquedo na sala Tabela 2.2 Reacao a retirada do brinquedo por género da crianca. Género da erianga sRaasto da colnns3 Masculine Feminino ‘Choro 25 28 Rava 15, 3 Retraimento 5 4 Procura por outro brinquedo 3 45 Total 50 50 Proporcées e porcentagens Quando um pesquisador estuda distribuigdes de mesmo tamanho, os dados de frequéncia podem ser usados para fazer comparagoes entre os grupos. Desse modo, os mimeros de meninos € ‘meninas que encontraram brinquedos alternatives podem ser comparados diretamente, pois havia exatamente 50 criangas de cada género participando do experimento, Entretanto, geralmente no é possivel estudar distribuigdes com exatamente o mesmo nlimero de casos. Para uso mais geral, precisamos de um método de padronizacao das distribuigdes de frequéncia em termos de tamanho — uma maneira de comparar grupos apesar das diferenas em frequénci totais. Dois dos métodos mais populares ¢ titeis de padronizacao de tamanho ¢ comparagio de distribuigdes sao proporcdo e porcentagem. A proporedo compara o néimero de casos em uma determinada categoria com o tamanho total da distribuigdo. Podemos transformar qualquer freq) P dividindo o name ro de casos em uma categoria arbitraria f pelo niimero total V de casos na distribuicdo: [>-4| Portanto, em termos de proporgdo, 15 dentre 50 meninas que encontraram um bringuedo alternativo podem ser expressas da seguinte forma: 15 P= = 030 50 Apesar da utilidade da proporgdo, muitas pessoas preferem indicar o tamanho relativo de uma série de niimeros em termos de porcentagem, a frequéncia de ocorréneia de uma categoria por 100 casos. Para calcular uma porcentagem, simplesmente multiplicamos qualquer proporgaio dada por 100, De acordo com a férmula: Capitulo 2 + Organizacio dos dados 35 % = (100) Portanto, 15 dentre 50 meninas que encontraram uma alternativa pode ser expresso como a proporeio P= 15/50 = 0,30 ou como a porcentagem % = (100) (15/30) = 30%. Desse modo, 30% das meninas localizaram outro brinquedo para se divertr. Para ilustrar a utilidade de porcentagens em comparacdes entre distribuigdes grandes ¢ de- siguais, examinaremos os géneros de estudantes de engenhatia de duas universidades, sendo 0 aiimero de estudantes matriculados em uma muito diferente do niimero de estudantes matriculados na outra. Suponha, por exemplo, que a universidade A tenha 1.352 estudantes de engenharia, ¢ a universidade B, apenas 183. A Tabela 2.3 indica tanto frequéncias quanto porcentager de estudantes de engenharia nas universidades A e B. Observe como ¢ dificil determinar rapidamente as diferengas de género entre os estudantes de engenharia utilizando somente os dados de frequéncia. Comparativamente, as porcentagens claramente revelam que as mulheres esto igualmente representadas entre os es- tudantes de engenharia das universidades A e B. Mais especificamente, 20% dos estudantes de cengenharia tanto na Universidade A como na universidade B so mulheres. Tabela 2.3 Género de estudantes de engenharia nas Universidades A e B. Gbnero do Estudantes de engenharia oretente) Universidade A Universidade B f % f % Masculino 1082-80146 80 Feminino m 20 37 Total 100183100 Razées e taxas Um método nio muito utilizado de padronizagao em relago ao tamanho — a raziio — com- para diretamente o mimero de casos que se enquadram em uma categoria (por exemplo, homens) ‘com 0 mimero de casos enquadrados em outra categoria (por exemplo, mulheres). Desse modo, um {indice (ou razdo) pode ser obtido da mancira descrita a seguir, em que f, = frequéneia em categoria arbitréria e f, = frequéncia em qualquer outra categoria, fA Razio Se estivéssemos interessados em determinar a razio de negros para brancos, comparariamos ‘© mimero de entrevistados negros (f= 150) com o mimero de entrevistados brancos (f= 100) ob- tendo 150/100, Cancelando fatores comuns no numerador € no denominador, é possivel reduzir 36 Estatistica para ciéncias humanas ‘uma raziio a sua forma mais simples, como 150/100 = 3/2. (Ha 3 entrevistados negros para cada 2 centrevistados brancos.) (0 pesquisador pode aumentar a clareza dessa relagdo colocando a base (0 denominador) de uma maneira mais compreensivel. Por exemplo, a razéto de género frequentemente empregada por demégrafos que buscam comparar o ntimero de homens ¢ mulheres em qualquer populacao geralmente dada como o niimero de homens por 100 mulheres, Para exemplificar essa questao, se a relagdo de homens para mulheres & 150/50, hid 150 ho- ‘mens para $0 mulheres (ou seja, 3 homens para cada mulher). Para obter a versio convencional da razio de género, multiplicamos a razio anterior por 100: ; homens _ ( 10) 4 Razao de género = (100) ree ~ (100)( 55>) = 300 Entdo, hé 300 homens na populagdo para cada 100 mulheres. Outro tipo de azo — que tende a ser mais amplamente usada por pesquisadores sociais — € conhecida como taxa. Sociélogos frequentemente analisam populagdes em termos de taxas de teprodugdo, morte, criminalidade, desemprego, divércio, casamento ete. Entretanto, enquanto a maioria das outras razdes compara o nfimero de casos em qualquer categoria ou subgrupo com 0 ‘iimero de casos em qualquer outro subgrupo, taxas indicam comparagdes entre o nlimero de casos efetivos (reais) € 0 nimero de casos em potencial. Por exemplo, para determinar a taxa de natali- dade de uma determinada populacdo, podemos mostrar o nimero de nascimentos bem-sucedidos centre mulheres em idade fértil (aquelas que esto expostas ao risco de engravidar e que, portanto, representam casos em potencial). Similarmente, para determinar a taxa de divércio, poderiamos comparar o nimero de divércios reais € 0 nimero de casamentos que ocorrem durante o mesmo periodo de tempo (por exemplo, 1 ano). Taxas so frequentemente dadas em termos de uma base «que possui mil casos em potencial, Desse modo, taxas de natalidade so dadas como 0 nimero de nascimentos por mil mulheres; taxas de divércio podem ser expressas em termos do niimero de divércios por mil casamentos. Se ocorrem 500 nascimentos entre 4 mil mulheres em idade fértl: = (noon) Losses — 1 onn)( $22) Taxa de nascimento = (1.000) notencial’ = (1-000){ 3 999) = 125 Entio, hi 125 nascidos vivos por cada mil mulheres em idade fértil Nao hd nada particularmente especial no caleulo de taxas por caso potencial ou por mil easos potenciais, Na realidade, expressar taxas per capita (isto & por pessoa), por mil ou mesmo por milhao simplesmente diz respeito a decisto de qual seria a base mais conveniente. Por exemplo, gastos com o ensino publico so normalmente expressos por aluno (determinados pela frequéncia didria média, pois a frequéncia varia durante o ano escolar em razio de uma série de fatores, in- cluindo transferéncias ¢ desisténcias). Para calcular essa taxa, dividimos 0 gasto total em délares pelo niimero de matriculas: asto com sacolas piblicas Gasto per capita (aluno) = © er a Portanto, se uma cidade gasta § 14 milhdes com suas escolas piblicas que possuem um total de 2,280 estudantes matriculados, 0 gasto por aluno €: Capitulo 2 + Organizacso dos dados 37 $14.000.000 aagy 8640. Diferentemente da taxa per capita (ou por estudante) anterior, algumas taxas so calibradas ‘em uma base de 100 mil. Taxas de suicfdio so derivadas de: Taxa de suicidio = Mimero de suieidios 149 999 populagio Se um estado tem uma populagio de 4,6 milhdes de residentes e computa 562 suicidios em tum ano, a taxa de suicidios por 100 mil habitantes é: 562 Teo0 og * 100.000 = 0,000122 x 100,000 = 12.2 Desse modo, nesse estado ocorreram 12,2 suicidios por 100 mil habitantes E importante observar que poderiamos ter definido a taxa como suicidios per capita sem ter ‘multiplicado a fracdo (suicidios em relasdo & populagdo) pelo fator de escala de 100 mil. Entre- tanto, a taxa resultante de 0,000122, apesar de correta, é de dificil manuseio em virtude do seu tamanho pequeno, de maneira que aumentamos a taxa para uma forma mais legivel e digerivel, multiplicando-a por 100 mil (movendo a virgula decimal cinco casas para a diteita), 0 que, entio, converte a taxa per capita de 0,000122 em uma taxa de 12,2 por 100 mil Muitas vezes, taxas silo usadas para comparar diferentes populagdes. Por exemplo, poderia- mos comparar taxas de natalidade entre brancos e negros, entre mulheres de classe média e classe baixa, entre grupos religiosos e paises inteiros etc, Outro tipo de taxa, a zaxa de variagdo, pode ser usado para comparar a mesma populagdo em dois pontos no tempo, Ao caleular a taxa de varingi0, comparamos a variagdo real entre o periodo de tempo 1 e o petiodo de tempo 2 com 0 nivel no periodo de tempo 1 servindo como base. Desse modo, a populagao de uma cidade que aumenta de 20 mil para 30 mil entre 1990 ¢ 2005 experimenta a seguinte taxa de variagao: tempo 2, 1 30.000 ~ 20.000 o( jempo 2f — tempo ‘) . com tempo If 20.000 ) = 506 Em outras palavras, a populacio erescen 50% entre 1990 2005. Observe que uma taxa de variagao pode ser negativa para indicar uma redugao de tamanho ‘em qualquer periodo dado. Por exemplo, se a populacaio de uma cidade varia de 15 mil para 12 mil durante certo periodo, a taxa de variagao €: cay 12600 = 15000) _ 15.000 “ Distribuicgdes de frequéncia simples de dados ordinais e intervalares Como os dados nominais sio rotulados em vez de classificados ou colocados em uma escala, as categorias de distribuigdes em termos nominais nao tém de ser listadas em uma ordem em par- 38. Estatistica para ciéncias humanas ticular, Desse modo, os dados sobre estado civil mostrados na Tabela 2.4 sio apresentados em trés disposigdes diferentes ¢ igualmente accitéveis. ‘Comparativamente, as categorias ou os valores de escores em distribuigdes ordinais ou inter- valares representam o grau em que uma caracteristica em pat iagem de tais categorias ou valores de escores em distribuigdes de frequéncias simples tem de ser feita para refletir aquela ordem. Por essa razdio, categorias ordinais e intervalares sio sempre arranjadas em ordem, normal ‘mente dos valores mais altos para os mais baixos, as vezes dos valores mais baixos para os mais altos. Por exemplo, poderiamos listar as categorias de classe social da mais alta para a mais baixa ou divulgar os resultados de uma prova de biologia em ordem consecutiva, da nota mais alta para a mais baixa. Alterar a ordem de categorias ordinais ¢ intervalares reduz a legibilidade dos resultados da pesquisa. Esse efeito pode ser visto na Tabela 2.5, na gual tanto a versio “incorreta” quanto a orreta” de uma distribuigao de atitudes em relagdo a um aumento proposto em uma taxa para caminhadas em um campus universitirio foram apresentadas. Qual verso é mais ficil de ler? icular e presente. A Tabela 2.4 Distribuicao do estado civil mostrada de trés maneiras. Estado civil f Estado civil f Estado civil L Casadova) 30 Solteiro(a) Anteriormente casado(a) 10 Solteiro(a) 20. Anteriormente casa Casado(a) 30 Anteriormente casado(a) 10 Casado(a) Solteiro(a) 20 Total 60 Toval Toual 60 Tabela 2.5. Distribuicao de frequéncia de atitucles em relacao ao aumento de taxa para caminhadas em um campus universitario: apresentacdes correta e incorreta ‘Atitude em relagio a0 Atitude em relagio a0 aumento da taxa paracaminhadas f aumento dataxa paracaminhadas —f- Ligeiramente favoravel 2 Fortemente favorivel 0 Um tanto desfavorivel 21 Umtanto favorivel 1 Fortemente favorivel 0 Ligeiramente favorivel 2 Ligeiramente desfavorivel 4 Ligeiramente desfavorivel 4 Fortemente desfavordvel 10 Umtanto desfavorivel 21 Um tanto favoravel 1 Fortemente desfavorivel 10 Total 38 Total 38 INCORRETA CORRETA Distribuigées de frequéncia agrupadas de dados intervalares cores de nivel intervalar esto, as vezes, dispersos em uma ampla extenso (escore mais alto ‘menos escore mais baixo), 0 que torna a distribuicdo de frequéncia uma resultante simples longa dificil de ler. Quando tais situagdes ocorrem, poucos casos podem se enquadrar em cada valor de Capitulo 2 + Organizacio dos dados 39 escore, € 0 padiiio do grupo se torna indistinto, Para exemplificar essa questi, a distribuigio disposta 1a Tabela 2.6 contém valores que variam de 50 a 99 © ocupa quase quatro colunas Para esclarecer nossa apresentagio, poderiamos construir uma distribuigdo de frequéncia agrupada ao condensar os escores separados em uma série de categorias menores ou grupos, cada ‘uma contendo mais de um valor de escore. Cada categoria ou grupo em uma distribuigo agrupada &conhecida como um intervalo de classe, cujo tamanko & determinado pelo nimero de valores de escore que ela contém, As notas obtidas por 71 estudantes originalmente apresentadas na Tabela 2.6 foram rearran- jadas em uma distribuicdo de frequéncia agrupada, como mostra a Tabela 2.7. Aqui, encontramos Tabela 2.6 Distribuicdo de frequéncia de notas das provas finals de 71 estudantes, Nota f Nota f Nota of Nota, L 9 0 85 2 1 4 7 0 98 1 84 1 m 9 36 1 an) nr) 0 3 55 0 96 1 2 3 6 5 5. 1 95 1 81 1 oT 1 33 0 a) so 2 6 3 32 1 Cn) D8 0 31 1 92 1 2B 1 1 50 a 91 1 7 0 2 N=71 an) % 2 0 89 1 75 1 0 a) “ 1 2 7 1 B 1 3 80 nm 2 1 Tabela 2.7 Distribuicdo de frequéncia agrupada de notas das provas finais de 71 estudantes Intervalo declasse ff % 95.99 3 4,23 90-94 2 282 85-89 4 5,63 80-84 7 9.86 75-79 12 16,90 70-74 17 23,94 65-69 12 1690 60-64 104 55-59 7104 50-54 563 Total 100" * As poreentagens, do mado como aparecem aqui, somam apenas 99,99%, mas, escrevernos 1 soma como senda 100%, pois sabemos que 0,01%% foi perdido no arredondamento. 40 Estatistica para ciéncias humanas 10 intervalos de classe, cada um tendo um tamanho 5. Desse modo, 0 intervalo de classe mais alto (95-99) contém as cinco notas, 95, 96, 97, 98 ¢ 99. Similarmente, o interval 70-74 tem tamanho 5, € contém as notas 70, 71, 72, 73 € 74. As frequéncias estio ao lado dos intervalos de classe na Tabela 2.7, Essa coluna nos diz 0 rmimero de casos ou notas em cada uma dessas categorias. Desse modo, enquanto o intervalo de classe 95-99 abrange cinco notas (95, 96, 97, 98 e 99), ele inclui trés notas (95, 96 e 98). A coluna mais significativa, particularmente se comparada a outras distribuigdes (como as notas de provas finais durante um periodo diferente com um nimero diferente de alunos), ¢ a colu- na de porcentagem, também chamada de distribuigiio de porcentagem, Por exemplo, podemos ver que 4.23% dos estudantes tiveram notas no intervalo de classe 95-99. Limites de classe Suponha que voeé suba em uma balanga digital de banheiro e © numero 123 (pounds) aparega no visor. Vooé pesa exatamente 123 pounds? Ou seria mais realista dizer que vocé pesa aproxi- ‘madamente 123 pounds? Para sermos mais exatos, vocé pesa mais do que 122, pounds ¢ menos do que 123,5 pounds, ¢ a balanga arredonda o valor para o niimero inteiro mais préximo, Quando construimos intervalos de classe da variagdo de peso 120 a 129 pounds, temos de incluir um “fator de corregao” para os niimeros inteiros. Assim, esse intervalo de classe para 0 peso é, na realidade, de 119,5 (0 extremo baixo de 120) a 129,5 (o extremo alto de 129). Os limites reais desse intervalo sto 119,5 a 129,5 pounds. De modo que, na realidade, qualquer pessoa cujo peso exato estiver entre 119,5 ¢ 129.5 estard incluida nesse intervalo, Em termos priticos, qualquer pessoa cujo peso exato esteja entre 119,5 ¢ 129,5 pounds fard “a balanga pends s, de 120.2 129 pounds Cada intervalo de classe tem um limite superior ¢ um limite inferior. A primeira vista, os valores de escores mais alto ¢ mais baixo em qualquer categoria dada parecem ser esses limites. Desse mode, seria razodvel esperar que 0s limites superior ¢ inferior do intervalo 60-64 fossem 64 € 60, respectivamente, Nesse caso, entretanto, estariamos errados, porque 64 e 60 na realidade ndio sio 0s limites do intervalo 60-64. Diferentemente dos valores de escores mais alto ¢ mais baixo em um intervalo, limites de classe estao localizados na metade do caminho entre intervalos de classe adjacentes, e também servem para preencher o hiato entre cles (veja a Figura 2.1). Desse modo, o limite superior do intervalo 90-94 94,5, ¢ 0 limite inferior do intervalo 95-99 também ¢ 94,5. Da mesma maneira, '59,5 serve como o limite superior do intervalo 55-59 e como o limite inferior do intervalo 60-64 Por fim, como podemos ver na figura, a distincia entre os limites superior e inferior de um. intervalo de classe determina 0 seu tamanho. Isto &: h=S-1 ‘onde h =tamanho de um intervalo de classe limite superior (upper) de um intervalo de classe 1 = limite inferior (lower) de um intervalo de elasse Por exemplo, para o intervalo 90-94, o tamanho (ft) é 94,5 ~ 89,5 = 5. Isso corresponde ao valor que obtemos pela simples comagem de valores dentro do intervalo (90, 91, 92, 93 ¢ 94). Para evitar confusdes, recomendamos que sempre calcule o tamanho do intervalo de classe por meio da subtragdo do limite inferior do superior. ‘Un pound (ou libra) € 0.453592 kg Capitulo 2 + Organizacio dos dados 41 945-— Limite superior Maior valor de escore > 94 93 2 or Menor valor de escore —» 90 89.5-— Limite inferior 89 Figura 2.1 Valores de escore mais alto e mais baixo versus limites superior e inferior do intervalo de classe 90-94, O ponto médio Outra caracteristica de qualquer intervalo de classe & 0 seu ponto médio (mn), que definimos como o valor de escore mais central no intervalo de classe. Um método ripido e simples para en- contrar um ponto médio é olhar para o ponto no qual qualquer intervalo dado possa ser dividido ‘em duas partes iguais. Usaremos alguns exemplos: $0 ¢ 0 ponto médio do intervalo 48-52: © ponto central do intervalo 2-5. O ponto médio também pode ser calculado a partir de valores dos escores mais baixo ¢ mais alto em qualquer intervalo, Para exemplificar, calcularemos o ponto médio do intervalo 48-52: _ valor do escore mais baixo + valor do escore mais alto _ 48 + $2 _ 2 2. m 50 De certa maneira, o ponto médio pode ser considerado como o representante de todos os va- lores de escores em um intervalo de classe. Trata-se de um mimero tinico que pode ser usado para representar todo o intervalo de classe. Diretrizes para a construcao de intervalos de classe Constrair intervalos de classe é apenas uma maneira especial de categorizar dados. Como, discutido anteriormente, as categorias, © portanto intervalos de classe, t8 exclusivas (no podem sobrepor-se) ¢ exaustivas (um lugar para cada caso), Estudantes iniciantes geralmente consideram dificil construir intervalos de classe sozinhos. Realmente, trata-se de uma habilidade que algumas diretrizes que tornam a tarefa mais facil. Observe que so apenas diretrizes, e que, sob determinadas circunstancias, podem ser desobedecidas. de ser mutuamente desenvolve apenas com a pritica. Entretanto, hi 42. Estatistica para ciéncias humanas Para apresentar dados intervalares em uma distribuicdo de frequéncia agrupada, o pesquisa- dor social tem de considerar o nimero de categorias que gostaria de empregar. Textos geralmente aconselham um minimo de 3 ou 4 intervalos e um maximo de 20 intervalos. Quanto a isso, seria sensato lembrar que distribuigdes de frequéncia agrupadas so empregadas para revelar ou enfati- zar um padrao de grupo. Intervalos de classe em demasia, ou muito poucos, podem confundir esse padrio e, assim, trabalhar contra o pesquisador que busca acrescentar clareza 4 andlise. Além dis- 50, reduzir os valores de escores individuais a um mimero desnecessariamente pequeno de interva- Jos pode sacrificar demais a preciso — originalmente alcangada pelo conhecimento da identidade dos escores individuais na distribui¢do, Em sintese, entio, o pesquisador geralmente toma uma decisdo quanto ao niimero de intervalos baseada no conjunto de dados ¢ objetivos pessoais, fatores que podem variar consideravelmente de uma situagao de pesquisa para outra Apés decidir sobre 0 niimero de intervalos de classe, 0 pesquisador pode entdo com: construir os intervalos propriamente ditos. Duas diretrizes bdsicas ajudam a tornar essa tarefa mais facil, e devem ser seguidas sempre que possivel. Primeiro, é preferivel considerar para o tamanho de intervalos de classe um niimero inteiro em vez de um niimero decimal. Isso tende a simplificar 698 cileulos que envolvem tamanho. Segundo, ¢ preferivel em um intervalo de classe considerar 0 escore mais baixo, um miiltiplo de seu tamanho. Por exemplo, normalmente os escores de exames sio categorizados como 90-99, 80-89, ¢ assim por diante, de maneira que as notas mais baixas {por exemplo, 80 ¢ 90) sejam miiltiplos de 10. Distribuig6es acumuladas As vezes é desejavel apresentar frequéncias de uma maneira acumulada, especialmente a0 posicionar um caso em relagdo ao desempenho do grupo como um todo, Frequéncias acumuladas (fa) so definidas como o nimero total de casos tendo qualquer escore dado ou um escore que seja inferior. Desse modo, a frequéncia acumulada (fa) para qualquer categoria (ou intervalo de classe) ¢obtida somando-se a frequéncia daquela categoria a frequéneia total de todas as categorias abaixo dela. No caso das notas PSAT do College Board? mostradas na Tabela 2.8, vemos que a frequéncia Tabela 2.8 Distribuicao de frequencia acumulada (fa) de notas referentes 20 PSAT de 336 estudantes. Intervalo de Classe f fa 75-79 4 119 336 70-74 py 714 332 65-69 28 833 308 60-64 30 893 280 55-59 35 10.42 250 50-4 55 1637 215 45-49 61 18,15 160 40-44 48 1429 99 35.39 30 8.93, 31 30-34 12 3.57 a1 25-29 6 179 9 20-24 3 0x9 3 Total 336 100 2 PSAT é um teste novte-americano aplicado pelo College Board (instiuiglo apa a aplicé-lo) que se assemelha 20 ENEM no Brasil (N da RT). Capitulo 2 + Organizacio dos dados 43 Fassociada com o intervalo de classe 20-24 € 3. Essa também & a frequéncia acumulada para esse in- tervalo, pois nenhum membro do grupo teve um escore abaixo de 20. A frequéncia no préximo inter- valo de classe, 25-29, & 6, ea frequéncia acumulada para esse intervalo & 9 (6 + 3). Portanto, ficamos sabendo que 6 estudantes obtiveram notas PSAT entre 25 ¢ 29, mas que 9 estudantes receberam nota 29 ow menor. Poderiamos continuar com esse procedimento, obtendo frequéncias acumuladas para todos os intervals de classe, até chegarmos ao valor mais alto, 75-79, cuja frequéncia acumulada (336) é igual ao niimero total de casos, pois nenhum membro do grupo teve um escore acima de 79. Além da frequéncia acumulada, podemos construir também uma distribuigo que indique porcentagem acumulada (c?6), a porcentagem de casos que tém qualquer escore ou tm escore que seja mais baixo. Para calcular a porcentagem acumulada, modificamos a formula da porcentagem (26) introduzida anteriormente neste capitulo, como vemos a seguir: onde fr = frequéncia acumulada em qualquer categoria; N rnaimero total de c: (0s na distribuigao, Aplicando a férmula anterior aos dados da Tabela 2.8, descobrimos que a porcentagem de estudantes que recebeu nota 24 ou mais baixa foi de ex=w(2,) (100) (0,0089) = 089 A porcentagem que obteve nota 29 ou mais baixa foi de: (100)(335) (100)(0,0268) 2,68 A porcentagem de estudantes que obteve nota 34 ou mais baixa foi de: c= oan(2) (100)(0,0625) 625 Uma distribuigdo de porcentagem acumulada baseada nos dados na Tabela 2.8 ¢ mostrada nna Tabela 2.9, Observe que a distribuigdo c% também pode ser obtida pela soma da distribuigao percentual (%). 44. Estatistica para ciéncias humanas Tabela 2.9 Distribuicdo de porcentagem acumulade (¢%6) de notas referentes ao PSAT de 336 estudantes (baseado na Tabela 2.8). Intervalo declasse % fa % 15-79 4 119 336 100,00 70-74 24 714-332 9881 65-69 28 833308 91,67 60-64 30 893 2808333 55-59 1042-250 74,40 50-54 1637218 63,99 45-49 1818 160, 47,62 4044 1429 99 29,46 35.39 30 893 SL 15,18 30-34 12 387 2 625 25.29 6 179 9268 20-24 3 0.89 3 089 Total 336 100 Classificagées percentis Seu professor de estatistica entrega sua prova semestral corrigida. Sabendo que uma parte importante da nota do curso depende desse teste, vocé vira lentamente suas piginas, o que revela uma nota 77 escrita em vermelho (em uma escala de 0 2 100 pontos), com um eirculo em tomo dela. Vocé deveria silenciosamente comemorar o resultado ¢ pensar em uma festa para celebrar 0 yento? Ou dever uum aumento na nota? Pelos padres convencionais que aprenden no ensino fundamental ¢ no ensino médio, voce poderia ter traduzido imediatamente 0 77 em um C+, ligeiramente acima da média, Mas na uni- versidade ou pelo menos em algumas matérias, padres convencionais nao sio seguidos. A nota nao significa nada se nao temos uma ideia do desempenho dos outros alunos da classe. Se a maioria obteve notas entre 50 © 60, entao a festa pode ser programada para aquela noite, Mas se a maioria obteve notas entre 80 ¢ 90, vocé talvez. queira adiar a festa. Colocando a questio de outra maneira, a qualidade da nota bruta 77 depende de quio ficil foi o teste. Em um exame muito dificil, um 77 pode ser uma nota elogiavel, enquanto, em um teste simples, vocé provavelmente deveria ter se saido melhor. E claro, o nivel de dificuldade de um ‘exame pode ser obtido somente a partir do conhecimento do desempenho da classe como um todo, isto 6, sobre a distribuigao inteira de notas, Desse modo, a tinica mancira realista de julgar se seu 7 foi uma nota excelente, boa, média ou ruim ¢ comparando a sua com todas as outras notas na classe. “Como um 77 se qualifica comparado as notas da classe inteira?”, voeé pergunta a0 seu professor. Ele responde que vocé tirou uma nota tao boa quanto 60% da elasse, ou ainda melhor, indicando que sua classificagao percentil foi 60%. A classificagio percentil de qualquer nota dada, como, por exemplo, 77, define a porventa- ‘gem dos casos em uma distribuigdio que se enquadram naquele escore ou abaixo dele (por exemplo, conte comegar a pensar em propor um trabalho extracurricular que rendesse Capitulo 2 + Organizacio dos dados 45 1 porcentagem da classe que obteve nota 77 ou mais baixa). Classificagdes percentis sto simples de calcular se 0 seu professor fornecer 0 conjunto inteiro de notas brutas. Por exemplo, no conjunto de 20 notas a seguir, 77 se classificaria em décimo segundo lugar a partir da nota mais baixa. Desse modo, sua classificagdo percentil seria décima segunda em 20, ou 60%: Décima segunda entre 20 = 60% 94 92 91 88 85 84 80 79 7 76 74 74 71 69 65 62 56 53 48 40 foscina segunda nota a partir da nota mais baixa Hi pontos na distribuigdo de escores cujas classificagdes percentis sio to importantes € ‘comumente usadas que elas recebem nomes especificos. Decis so pontos que dividem a dist buicdo em 10 porgdes de tamanhos iguais. Desse modo, se um escore esti localizado no primeira decil (classificagio percentil = 10), sabemos que 10% dos casos se localizam nesse nivel ou abaixo dele; se um escore esté no segundo decil (classificagao percentil = 20), entio 20% dos ‘casos estio nesse nivel ou abaixo dele, e assim por diante. Quartis sio pontos que dividem a d tribuigdo em quartas partes. Se um escore esta localizado no primeiro quartil (classificagio per- centil = 25), sabemos que 25% dos casos recaem nesse nivel ou abaixo dele; se um escore esta no segundo quartil (classificagio percentil = $0), 50% de todos os casos se enquandram nesse nivel ou abaixo dele; e se um escore esti no terceiro quartil (classificagdo percentil = 75), 75% dos casos se enquadram nesse nivel ou abaixo dele (veja a Figura 2.2), Por fim, como veremos novamente no préximo capitulo, a mediana & 0 ponto que divide a distribuigao de escores em dois, metade acima e metade abaixo. Desse modo, a mediana corresponde a uma classificago petcentil de 50, mas também ao quinto decil e ao segundo quartil. Classificagio percentil Decil Qua 5 90= ° 85 80= s 1s z 70 p 65 60. 6 55 50 x 2 45 40= ae 35 30 * 25 io 20= » 15 10 1" 5 Figura 2.2 Escala de clasiicacoes percentis dvididas por decis e quartis 46 Estatistica para ciéncias humanas Abordagem de dados decimais Nem todos os dados chegam na forma de nimeros inteiros, mas isso nao deveria nos inco- ‘modar de maneira alguma, porque os procedimentos que aprendemos e aprenderemos nos capitulos a seguir aplicam-se tanto a decimais quanto a niimeros inteiros. Para nos acostumarmos a0 uso de decimais desde o principio, consideraremos a construgo de uma distribuicdo de frequéncia de dados relativos ao desemprego por estado norte-americano em junho de 2008, como mostra a Tabela 2.10. A partir dos escores brutos, no ¢ possivel obter um quadro muito claro dos padrdes de de- semprego nos Estados Unidos. Somos atraidos para os extremos: os mimeros varia de uma alta de 8,5 (Michigan) a uma baixa de 2,8 (Dakota do Sul). Poucas informagdes além dessas emergem até termos construido uma distribuigao de frequéncia agrupada ‘Como ha apenas 50 \egorias demais. Um nimero excessivo de inte valos de classe dispersaria demais os casos. Determinar os limites reais dos intervalos de classe sos, no queremos 6a parte mais dificil de todas. Resultados satisfat6rios so obtidos por meio de uma boa dose de tentativa ¢ erro, assim como de pritica. Nao hd uma organizacao “certa” de intervalos de classe, ‘mas aqueles mostrados na Tabela 2.11 podem ser um bom ponto de partida, Assim que temos em mios a estrutura da distribuigdo de frequéncia (seus intervalos de clas- se frequéncias), o resto ¢ relativamente ficil de obter. Porcentagens, frequéncias acumuladas € porcentagens acumuladas so obtidas da maneira de sempre, Para outros calculos, como pontos: Tabela 2.10 _Taxas de desemiprego em estados norte-americanos em junho de 2008. Estado. erase Estado: ara desemprego desemprego Alabama 47 Montana at Alaska 68 Nebraska 33 Arizona 48 Nevada oa Arkansas 50 New Hampshire 40 Califenia 69 Nova lerscy 53 Colorado SH Novo Mexico 39 Connecticut Sa Nova York 33 Delaware 42 Carolina do Norte 60 Florida 53 Dakota do Norte 32 Gesrgia 57 Ohio 66 Haval 38 Oklahoma 39 Idaho 38 Oregon 55 lois 68 Pensilvinia 2 Indiana 58 Rhode Island TS lowa 40 Carolina do Sul 62 Kansas 43 Dakota éo Sul 28 Kentucky 63 Tennessee 65 Louisiana 38 Texas 44 Maine 53 Utah 32 Maryland 40 Vermont 47 Massachusetts 52 Virginia 40 Michigan 8S Washington Minnesota 53 Virginia Ovidental Mississipi 69 Wisconsin Missouri 57 Wyoming Fonte: Bureau of Labor Statisties (deparamento de esttistica do trabalho norte-americano). Capitulo 2 + Organizacio dos dados 47 Tabela 2.11. Distribuicto de frequencia de taxas de ‘desemprego em estados norte- americans em junho de 2008, Intervalo declasse. 85-89 1 80-84 0 75-19 L 10-14 0 6 4 6 10 4 8 5 4 1 50 ‘médios, entretanto, mantenha em mente que esses dados sio expressos com um digito decimal. ‘Consequentemente, esse digito é importante para determinar 0 tamanho do intervalo ou a variagao de valores de escores coberta por um intervalo de classe. Por exemplo, o tamanho do intervalo 4,0-44 € 0.5, pois cle contém os valores de escores 4,0 a 4,4. Ha 5 valores de escores entre 4,0 4,4, ¢ cada escore esti um décimo distante do outro, de maneira que o tamanho ¢ (5)(1/10) = 5. Mais sobre limites de classe Os limites de classe associados com uma distribuigdo de frequéncia agrupada servem como divisores entre categorias projetadas para evitar ambiguidades a respeito de onde um escore em particular deve ser colocado, Como discutido anteriormente, podemos usar como limites de cla um valor a meio caminho entre o valor mais alto possivel em um intervalo ¢ o valor mais baixo possivel no intervalo seguinte, como no exemplo do PSAT apresentado anteriormente, Suponha que estejamos construindo uma distribuigdo de frequéncia agrupada referente a0 peso corporal de bombeiros da cidade de Nova York em categorias com amplitudes de 20 pounds. limite de classe que separa os intervalos 180-199 © 200-219 seria 199,5, presumindo que os pesos fossem medidos em pounds inteiros em vez de em pesos fracionais. Se, entretanto, uma balanga digital fosse sada e fornecesse pesos em medidas de meio pound (por exemplo, 184,5, 203,0 ¢ 218,5), os intervalos seriam 180,0-199,5 ¢ 200,0-219,5 para acomodar meio pound, com uum limite de 199,75 dividindo os dois grupos de classe de peso adjacentes. Por fim, se uma balan mais precisa, que mede pesos em décimos de pounds, fosse usada, os grupos seriam 180,0-199,9 € 200,0-219.9, com o limite de 199.95 separando os dois grupos. Ha mais de uma abordagem aceitivel para estabelecer esses limites, mas a melhor sempre se resume a questbes de previsio e praticabilidade. O ponto equidistante que divide categorias na abor- age deserita funciona bem para medidas discretas, como: ntimeros inteiros, metades ou décimos, ‘mas caracteristieas tendo passos naturais ou significativos de um grupo para o préximo podem usar uma estratégia alternativa baseada em limites de classe explicitamente significativos, 48 Estatistica para ciéncias humanas Suponha que tenhamos uma distribuigao agrupada de idades em que o eéncer de mama é detectado (veja a Tabela 2.12), que inclui uma categoria que vai de $0 a 59 anos. Poderiamos usar como limites 49,5 ¢ 59,5 a0 reduzir & metade a distancia entre esse grupo € os grupos anteriores € posteriores. No entanto, isso criaria uma série de problemas. Primeiro, as pessoas de 59 anos de ‘dade (assim como pessoas de outras idades) relatardo sua idade como 59 até completarem seu se- xagésimo aniversario, Desse modo, um paciente de 59 anos que estiver a ponto de fazer aniversério ‘iio caird tecnicamente dentro do Ambito 49,5-59,5, mesmo que sua idade seja $9. Em segundo lugar, € comum nos referirmos a essa faixa etdria como os “cinquenta”, de maneira que seria es- quisito ter uma categoria que chegasse a 49,5. Por fim, © ponto médio desse intervalo seria 54,5, ‘mesmo que em um sentido pratico 55 devesse ser o meio. ‘Uma solugto para essa abordagem complicada é usar, como alternativa, as idades 40, 50, 60 e 70 ‘como limites de classe, ¢ traté-las como limites inferiores inclusivos. Isto é, a categoria 50-59 iria de 50 até (mas no incluitia) 60.0 intervalo entre 50 e 60 teria um limite inferior de 50, um limite superior de {60 (ou melhor, um pouco abaixo de 60), uma amplitude de 10 anos e um ponto central de 55 Considere outro exemplo, como o da nota da prova que abordamos anteriormente. Como ‘mostra a Tabela 2.13, ha duas abordagens para estabelecer limites de classe para classificacdo de notas de provas, mas uma é claramente melhor que a outra, A abordagem mais eficiente trata 0 valor da nota mais baixa (80) como o limite inferior, ¢ o valor da nota mais baixa da categoria mais alta (90) que vem a seguir como um limite superior nao incusivo. Isto é, a classe dos 80 vai de 80 até 90, mas sem incluir 90. E claro, se as notas das provas so dadas como niimeros inteiros, isso fard pouca diferenga no fim das contas. Mas se estivéssemos calculando uma média composta para todo 0 curso, uma nota de 89,63 seria possivel, ¢ tecnicamente cairia na classe B, ¢ no na classe A {apesar de que um professor legal poderia aumentar um pouco a nota), Tabela 2.12 Idade em que o cancer de mame foi diagnosticado em um estudo com 150 pacientes, Idadedeinicio ff % 70-79 9 6 60-69 wo 50-59 2 8 40-49 sl 30-39 0 _20 Total 150 100 Tabela 2.13 Duas abordagens para estabelecer limites de classe. Método aceitivel Methor método Valores do-escore imive inferior om Limite inferior om 90 100 895 945 90 30090 7953 345 30 70a80 695 7435 70 6070 59.5 6 50.060 495 50 Capitulo 2 + Organizacio dos dados 49 A escolha entre usar a primeira abordagem, distinguindo intervalos de classe no ponto equi- distante ao estabelecer limites de classe, ou a segunda abordagem, usando o valor mais baixo como © limite inferior e um pouco abaixo da proxima categoria como o limite superior, frequentemente se resume & preferéncia pessoal, praticabilidade e sentido logico, endo ao que é estritamente certo ‘ou errado, Com dados que sio sempre niimeros inteiros, como a contagem de pessoas em um lar ou o nimero de datas por més, 0 método do ponto equidistante geralmente funcionara melhor. Mas ao lidarmos com dados continuos e que tenham pontos divisores a0 longo do continuum, como horas desde a tltima refeigdo, talvez fosse mais apropriado usar os pontos divisores @ seguir como limi tes de classe (como um estacionamento faz. ao cobrar por uma vaga): Limites de classe m até 2 Dae 4 4aé6 aes Bate 10 Intervalos de classe flexiveis Apesar de nio termos abordado essa questio anteriormente, talvez voeé tenha observado que todas as distribuigdes de frequéncia usadas até o momento apresentaram intervalos de classe de tamanhos iguais. Ha ocasides, entretanto, nas quais essa pritica no € nem um pouco recomenda- da, Por exemplo, se um estudante recebe uma nota perfeita (100) em uma prova, o intervalo mais acima pode ser expandido para inclui-lo — isto é, 90-100 em vez de 90-99, A Tabela 2.14 apresenta uma distribuigdio de dados do censo sobre renda familiar, que ¢ tipica de distribuigdes construidas com dados de renda. Ela mostra que distribuigoes de frequéncia ag padas podem ter intervalos superiores de classe abertos ow intervalos inferiores de classe como $ 100,000 ou mais. A outra importante diferenca das distribuigdes de frequéncia simples forneci- Tabela 2.14 Distribuicao de frequéncia de dados de renda familiar. ’ re : a amitias em mithares) ”e S$ 100,000 ¢ mais 8391 5 75.000 $ 99.999 7386 S$ 50.000 —$ 74.999 15.112 $ 35.000 $.49.999 12387 $25,000 § 34.999 9079 5 15.000 -§ 24.999 9250 $ 10.000 $ 14.999 4.054 5,000 $ 9.999 2.887 Menas de $ 5.000 1.929 Joss = Rsporcentagens como aparecem aqui, somam apenas 9.8%, Porém,esrevemos 100%, pos sabemos que 0.02% fo perdido no arredondamenta (N do RT) 50 Estatistica para ciéncias humanas das anteriormente € 0 uso de intervalos de classe de tamanhos variveis. Observe que, enquanto 6s intervalos de classe que contém as rendas mais baixas tém um intervalo de classe de $ 5.000, ‘© tamanho dos intervalos de classe ¢ aumentado para niveis de renda mais altos. Qual teria sido 0 resultado se um tamanho de intervalo de classe fixo de $ 5.000 tivesse sido mantido ao longo de toda a distribuigao? intervalo de classe $ 25.000-S 34,999 teria duas categorias, o intervalo de classe $ 35.000-$ 49.999 teria se transformado em trés eategorias, ¢ ambos os intervalos de classe '$ 50,000-$ 74.999 e § 75.000-§ 99.999 teriam se transformado em cinco categorias cada. O efeito seria fazer distingdes desnecessariamente minimas entre as pessoas de renda mais alta e produzir ‘uma distribuigdo de renda desnecessariamente extensa. Isto é, em termos de padrdo de vida, hé uma grande diferenga ene 0 intervalo de classe $ 5.000-S 9.999 eo intervalo de classe $ 10.000-S 14,999, Comparativamente, a diferenca entre uma categoria de $ 60.000-$ 64.999 e uma categoria 3 65.000-$ 69.999 seria relativamente insignificant. Essas novas peculiaridades em distribuigdes de frequéncia nao deveriam causar grande difi- culdade na adaptagio daquilo que voce jé aprendeu neste capitulo, Felizmente, os edleulos de dis- tribuigdes acumuladas, classificagdes percentis ¢ outros nao mudam para distribuigdes de frequén- cia com intervalos de classe de tamanho desigual ou com intervalos de classe superiores abertos ou intervalos inferiores. A Gnica modificagao envolve calcular pontos médios de intervalos de classe com limite superior aberto ou inferior de classe. Consideremos um exemplo. A Tabela 2.15 exibe pontos centrais para uma distribuigdo de renda familiar usando os valores de escores mais baixos em cada categoria (limite inferior) como o limite de classe. Desse modo, por exemplo, a categoria de renda $ 25,000-$ 34.999, usando $ 25,000 e $ 35.000 como limites de classe, produz um ponto médio de $ 30,000. Mas o que fazer a respeito do intervalo de classe mais alto (S 100.000 ou mais), que nao tem. limite superior? O que deveriamos acrescentar & formula? Nao ha uma regra rigida a ser aplicada, apenas bom senso, Os intervalos de classe tornaram-se progressivamente maiores com 0 atimento de renda. Continuando com a mesma progressio, poderiamos conceber que o intervalo mais alto, para a maioria das familias restantes, fosse $ 100.000-$ 149.999, que produziria um ponto médio de $ 125.000. Tabela 2.15 Distribuicéo de frequéncia de dados de renda familiar (com pontos médios). Categoria de renda m ai % 5 100.000 ¢ mais $ 125.000 8391 18 $75.000-$ 99.999 5 87.500 7.826 110 $ 50.000~$ 74.999 $ 62.500 1S.112 23 $35.000-$ 49.99 5 42.500 12.357 174 $25.000~$ 34.999, $ 30.000 9.079 128 $ 15.000 $ 24.999 $ 20.000 9.250 13.0 $ 10.000-$ 14.999 S 12.500 4.054 57 $ 5.000-$ 9.999 $7500 2.887 Menos de $ 5.000, $2500 1929 N= 70.885 *""As poreentagens, como aparecem agui, somam apenas 99,8%, Porém, escrevemos 100%, pois subemos que 0,02% foi perdido no arredondamenta (N kt RT) Capitulo 2 + Organizacio dos dados 51 TabulacGes cruzadas Distribuigdes de frequéncia como aquelas discutidas até 0 momento sao vistas em todo lugar. Publi- cagdes do Bureau of the Census (agéncia governamental responsive! pelo censo nos EUA) consistente- ‘mente empregam distribuigdes de frequéncia para descrever caracteristicas da populagdo norte-americana, .apresentagdo dos dads brutos — todas as milhdes de observagdes — seria impossivel, & claro Encontramos distribuigdes de frequéncia até mesmo em jornais didrios; jormalistas, assim ‘como pesquisadores sociais, consideram as tabelas uma maneita muito conveniente de apresenta- ‘sd, A maioria dos leitores de jornais capaz de compreender porcentagens basicas (apesar de que talvez se esquegam de como calculé-las). Uma tabela basica de frequéncias e porcentagens de uma varidvel é normalmente suficiente para o nivel de profundidade e detalhe tipicamente encontrados ‘em um jornal. Pesquisadores sociais, entretanto, querem fazer mais do que simplesmente descrever a distribuigdo de uma varidvel; eles buscam explicar porque alguns individuos se encaixam em uma extremidade da distribuigdo, enquanto outros se localizam no extremo oposto, Para alcangar essa meta, precisamos explorar tabelas com mais profundidade, expandindo-as em duas ou mais dimensdes. Em particular, uma tabulagdo cruzada (ou tab-cruzada) & uma tabe- Ja que apresenta a distribuigdo — frequéncias e porcentagens — de uma varidvel (normalmente a varivel dependente) por meio de categorias de uma ou mais variaveis adicionais (normalmente variével ou varidveis independentes). Quando 0 estado de Massachusetts instituiu a obrigatoriedade do uso do cinto de seguranga, estabeleceu uma multa de $ 15 para quem ndo cumprisse a lei. Para medir o cumprimento da lei, Fox ¢ Tracy fizeram um levantamento por telefone com 997 residentes da area de Boston sobre 0 uso de cintos de seguranga e suas opinides relativas & lei controversa. Para a questio fundamen- tal — o grau do uso de cinto de seguranga pelo entrevistado — eles obtiveram a distribuigio de frequéncia simples mostrada na Tabela 2.16. Aproximadamente metade dos entrevistados na pesquisa (50,1%) declarou que usava cinto de seguranga sempre. Dois tergos dos entrevistados (50,1% + 17,7% = 67,8%) declararam que uusavam cintos de seguranga quase sempre. ‘Nao estamos satisfeitos em saber apenas o grau de cumprimento do uso do cinto de seguran- ‘¢4, no entanto. Para analisar os dados da pesquisa mais extensamente, comegamos examinando quais tipos de pessoas usam cintos de seguranga, isto é, quais caractetisticas dos entrevistados estdo relacionadas ao uso do cinto de seguranca. ‘Uma das diferencas mais significativas ¢ aquela entre homens ¢ mulheres entrevistados. Uma tabulagdo cruzada pode ser empregada para examinar as diferengas entre os sexos em termos do uso de cinto de seguranga, Uma tabulagao cruzada & essencialmente uma distribuigdo de frequén- cia de duas ou mais variéveis tomadas simultaneamente. A tabulagdo cruzada dada na Tabela 2.17 ‘mostra, por exemplo, que 144 homens disseram que usavam cintos de seguranca sempre, ¢ 110 mulheres relataram que faziam uso de cintos de seguranga na maioria das vezes. Tabela 2.16 Distribuicio de frequéncia do uso de cinto de seguranca. Uso decinto de seguranga % Sempre 49 SL Maioria das vezes 176 177 Aleumas vezes ia ba Raramente a 83 Nunca ius ILS Total 997 i00 52 Estatistica para ciéncias humanas Tabela 2.17 Tabulacdo cruzada do uso de cinto de sequranca por género Género do entrevistado ‘Uso de cinto de seguranga ‘iva ‘Mulher ‘Total Sempre 1a 355 49 Maioria das veres 66 10 176 Algumas vezes, 38 66 124 Raramente 39 “4 8 Nan 0) 58 is Total 367 630 A base para tabulagdes cruzadas foi apresentada anteriormente, quando as distribuigdes de género de estudantes de engenharia em duas universidades foram comparadas. Tabulagdes eruza- das podem ser pensadas como uma série de distribuigdes de frequéncia (nesse caso, duas delas) colocadas juntas a fim de montar uma tabela. Nesse exemplo, temos essencialmente uma distri buigto de frequéncia do uso de cinto de seguranga entre homens justaposta a uma distribuicdo de frequéncia comparivel do uso de cinto de seguranga entre mulheres. Assim como ocorre com di ibuigdes de frequéncia de uma varidvel, porcentagens dio aos resultados um significado mais completo do que somente as frequéncias. Se mantivermos o mes- (0 6, se dividirmos cada frequéncia (/) pelo tamanho da amostra (N), ‘mo procedimento de antes, obteremos os resultados percentuais para as duas varidveis ao mesmo tempo, como mostra a Ta~ bela 2.18. Por exemplo, a porcentagem da amostra feminina que usa cintos de seguranga sempre & Tabela 2.18 Tabulacao cruzada do uso de cinto de seguranga por género com porcentagens totais. Genero do entrevistado Uso de cinto Homem — Muther ‘Total pee Marginal de linha — (Jotais de linhas) Sempre 144 355 499 <= 14.4% 35.6% —50,1% Maioria das vezes 66 10 176 6.6% 11.0% 17.7% Algumas vezes 38 66 124 5.8% 6.6%. Raramente 39 44 3.9% 44% Nunea 60 55 60% — _5,5% Total 7 367 630 _ 368% 63.2% Tamanho total a da amostra Marginal da coluna (totais de colunas) Capitulo 2 + Organizacio dos dados 53 obtida por meio da divisio do nimero de usuarios do sexo feninino que “sempre” utilizam 0 cinto pelo mimero de entrevistados na amostra total: won( = Desse modo, 35,6% da amostra consist (vejaa Tabela 2.18). Distribuigdes de frequéncia de cada variével separadamente podem ser encontradas ao longo das margens de uma tabulagao cruzada de dois critérios. Flas sio chamadas de distribuigdes mar- ginais, Isto 6, a margem direita fornece uma distribuigdo de frequéncia e uma porcentagem do uso de cinto de seguranca idénticas aquelas que tinhamos na Tabela 2.16. Como a variavel do cinto de seguranga é colocada ao longo das linhas de tabulagdo eruzada, as frequéncias e porcentagens para seu uso formam os totais de linkas. Igualmente, a distribuigao marginal de género é encontrada na margem da base da tabulagio cruzada. Essas frequéncias e porcentagens para homens e mulheres correspondem aos totais de colunas, pois o género é a varivel que entitula as colunas. As porcentagens na Tabela 2.18 sto chamadas de porcentagens totais (% total) porque S80 “obtidas por meio da divisio de cada frequéncia pelo tamanho total da amostra’ ) = 356% em mulheres que sempre usam cinto de segurangi f %total = (100) Por exemplo, 14.4% da amostra consiste em homens que usam o cinto de seguranga sempre, Similarmente, 11,0% da amostra consiste em mulheres que usam seu cinto de seguranga na maioria das vezes. Hi, entretanto, algo perturbador a respeito dessas porcentagens. Por exen pequena por- ccentagem de homens que “nunca usam”o cinto de seguranca (6,0%) & ambigua. Isso poderia refletir ‘uma pequena presenca de homens, baixo uso do cinto de seguranga na amostra global, baixa taxa de ‘uso do cinto especificamente entre os homens ou baixa prevaléncia de homens entre os que munca ‘usam o cinto. Existem outras abordagens para se calcular porcentagens que poderiam resolver essa ambigui ‘dade. Uma alternativa seria dividir 0 niimero de homens que nunca usam 0 cinto pelo nimero total dos que nunca usam, 6 nimero de homens que raramente fazem uso do einto pelo niimero total de hhomens ¢ mulheres que raramente usam o cinto, ¢ assim por diante, ¢ fazer os mesmos célculos para ‘© grupo de mulheres, Em outras palavras, dividimos as frequéncias em cada linha pelo niimero de ca- sos naquela linha (veja a Tabela 2.19), Essas porcentagens sio chamadas de porcentagens por linha: so, f linha = (100)>, aha Por exemplo, a porcentagem dos que usam sempre cinto de seguranga e que so mulheres & obtida dividindo-se o mimero respectivo pelo ntimero total dos que usam sempre o cinto: 200( 35) = (100)(0,711) = 71,1% 54 Estatistica para ciéncias humanas Tabela 2.19 Tabulacdo cruzada do uso de cinto de seguranca por género com porcentagens por linha Género do entrevistado Uso de cinto Homem Mulher ‘Total de seguranca Sempre 144 355 499 28.9% 711% 100,0% Maioria das vezes 66 110 176 375% 25% 100.0% Algumas vezes 58 66 124 46.8% 53.2% 100.0% Raramente 39 aa 33 47,0% 53.0% 100,0% Nunca 60 35 lis 52.2% _4.8% 100.0 Total 367 630 997 36.8% 63.2% 100.0% Desse modo, descobrimos que 71,1% dos entrevistados que sempre usam o cinto sio mulheres Potcentagens por linha dao a distribuicdo da varidvel coluna para cada valor da varigvel linha Desse modo, essas porcentagens representam a distribuigdio de género dentro de cada nivel de uso do cinto de seguranga, Essas porcentagens também somam até 100% por meio de cada linha, incluindo @ coluna marginal na base da tabulago cruzada, Por outro lado, voce poderia calcular as porcentagens na outra diresao. Porcentagens por coluna (% coluna) dividindo cada frequéneia pelo nlimero de casos naquela coluna: Siocoluna = (100) Z A porcentagem de mulheres que sempre usam um cinto de seguranca é obtida, por exemplo, pela divisdo do mimero de usuarios do sexo feminino que sempre usam 0 cinto pelo mimero total de mulheres: (100) ie 355) = (100)(0,563) = 563% Desse modo, 56,3% das mulheres do estudo disseram que sempre usam o cinto de seguranca Porcentagens por colunas para nossa tabulagio cruzada sto apresentadas na Tabela 2.20. Ob- serve que as porcentagens tém por soma 100% ao longo de cada coluna. Desse modo, as porcenta- gens refletem a distribuigio do uso de cintos de sewuranga para cada género separadamente, assim como no total. Capitulo 2 + Organizacio dos dados 55 Tabela 2.20 Tabulacdo cruzada do uso de cinto de seguranca por género com porcentagens por coluna, Uso de cinto Homem Muther Total de seguranca Sempre 144 55 499 39.2% 563% 50,1 % Maioria das vezes. 66 110 176 18,0% 17.5% 12,7 % Algumas vezes 58 124 15,8% 12,4 % Raramente 39 83 10.6% 83° Nunea 60 lis 6x Ls. Total 367 997 100,0% 100,0% Escolha entre porcentagens total, por linha e por coluna Agora temos trés conjuntos de porcentagens — total, por linha ¢ por coluna, Vocé poderia se perguntar, qual delas é a correta? Em um sentido matemidtico, todas so corretas; isto 6, elas foram calculadas de maneira correta, Mas, em termos de significado real, determinadas porcentagens podem ser enganosas ou mesmo intteis Primeiro, como observamos previamente, as porcentagens totais sdo, as vezes, ambiguas em. scu significado, como em nossa tabulagdo cruzada do uso de cinto de seguranga por geneto. Em seguida, de acordo com as porcentagens por linha, as mulheres predominam em todas as linhas, exceto no subgrupo “Nunca”, no gual o uso entre os géneros é praticamente igual. O que isso im- plica? Podemos tirar conclusdes, como sugerir que hom dirigem tanto quanto as mulheres, €, consequentemente, no aparecem em grande proporgiio em nenhum nivel de uso de cinto de seguranga? Obviamen ‘em quase todas as categorias de uso é simplesmente uma consequéncia da baixa porcentagem de homens na amostra em geral (36,8%). Desse modo, 71,1% do grupo de pessoas que sempre usam ‘© cinto ser formado por mulheres parece muito menos “radical” quando levamos em consideragio que 63,2% da amostra total é de mulheres Para os fins deste livro, as porcentagens mais informativas so as porcentagens por coluna. Estamos interessados em comparar homens € mulheres em termos de uso do cinto de seguranga. Isto é, queremos saber qual porcentagem de mulheres usa cinto de seguranca frequentemente em. comparago com a de homens. Por exemplo, 39,2% dos homens diz usar o cinto sempre, compara- do com 56,3% das mulheres. Por outro lado, 16,3% dos homens relataram que munca usam o cinto de seguranga contra apenas 8,7% das mulheres que disseram © mesmo. Felizment essa inferéneia pode ser exagerada. A baixa representagao de homens , hd uma regra pritica para guiar nossa escolha entre porcentagens por linha coluna: se a varidvel independente estd nas linkas, use as porcentagens por linha; se a varidvel independente esté nas colunas, use as porcentagens por coluna. Em nosso exemplo, estamos preo- cupados coma influ do cinto de seguranga; o género € a varidvel independente, Como ela & dada nas colunas, devemos usar as porcentagens por coluna, que o género do entrevistado tem sobre o comportamento quanto ao uso 56 Estatistica para ciéncias humanas ‘Outra maneira de definir essa regra pode ser mais significativa: se quisermos comparar linhas ‘em uma tabulagdo cruzada, precisamos usar porcentagens por linha; porcentagens por coluna sio exigidas para comparar colunas. Novamente, em nosso exemplo, queremos compatar os homens com as mulheres em termos de seu uso do cinto de seguranga. O género & varidvel da coluna, ¢ as porcentagens das colunas fornecem as distribuigdes de uso do cinto de seguranga para os homens ¢ para as mulheres separadamente. Desse modo, essas porcentagens por coluna devem ser usadas para fazer a comparagdo entre os géneros. Em determinados casos, pode nio ser facil dizer qual é a varidvel independente. Por exemplo, nna tabulagao cruzada da afilingdo politico-partidaria de maridos pela afiliacdo politico-partidaria de esposas na Tabela 2.21, nenhuma varidvel pode ser claramente considerada como sendo resulta do da outra. (Observagio: 08 mimeros em cada célula da tabela representam frequéncia, porcenta~ gem por linha, porcentagem por coluna e porcentagem total, respectivamente.) Até certo ponto, as afiliagdes politicas de maridos ¢ esposas podem afetar um ao outro reciprocamente, ¢ em nmuitos casos a afiliagdo partidéria pode ter sido estabelecida muito tempo antes de o casal ter se conhe- cido, A similaridade (ou mesmo a dissemelhanga) no perfil politico pode ter sido parte da atragio dos dois. Em termos dos dados na Tabela 2.21, poderiamos calcular a porcentagem de maridos demo- cratas casados com esposas democratas (70 dentre 100, com a porcentagem por linha sendo 70%), ‘ou poderiamos calcular a porcentagem de esposas democratas casadas com maridos democratas (70 dentre 110, com uma porcentagem por coluna de 63,6%). Ambas as alternativas seriam sig- nificativas, dependendo do interesse particular do pesquisador. Entretanto, para casos como esse ‘no qual no hd uma variavel que possa ser destacada como causa da outra, as poreentagens totais (que impticam em nenhuma das duas ser a variivel independente) sio frequentemente usadas. Para a Tabela 2.21, em 36,8% dos casamentos ambos eram democratas (70 dentre 190), ¢ em 26,3%, ambos eram republicanos (50 dentre 190). No total, em 63,1% dos casamentos, marido ¢ esposa tinham a mesma afiliacdo politico-partidara, Tabela 2.21 Tabulacdo cruzada da afiliacao politico-partidaria do marido pela afiliacao poltico-partidria da esposa: frequéncia e porcentagens total, por coluna e por nha. Frequéncia de % por linha, Partido politico da esposa % por coluna, % total Democrata — Republicano Total Partido politico do marido Demoerata 0 100 70.0% 52.6% 63.6% 36.8% Republicano 90 474% Total 190 100,0% Capitulo 2 + Organizacio dos dados 57 A escolha entre porcentagens total, por linha e por coluna deve ser feita em fungo das se- guintes possibilidades: 1, Sea varidvel independente estiver nas Tinhas, use porcentagens por linha. 2. Sea variavel independente estiver nas colunas, use porcentagens por columa. 3. Seno houver uma variével independente clara, use porcentagem total, por linha ou por colu- na, dependendo de qual seja a mais significativa para o foco especifico da pesquisa Apresentacées graficas Colunas de nimeros sio conhecidas por despertarem temor, medo, ansiedade, tédio, apatia © ‘mal-entendidos. Algumas pessoas parecem no prestar atengio em informagies estatisticas apresen- tadas em forma de tabela, mas podem prestar bastante atengio aos mesmos dados quando cles sio apresentados em forma de grifico ou imagem. Por isso, muitos pesquisadores comerciais ¢ autores populares preferem usar grificos em vez de tabelas. Por razdes similares, pesquisadores sociais fie~ quentemente usam auxilios visuais, como gréficos em setores, grificos em barras, poligonos de frequéncia, graficos em linha ¢ mapas em um esforgo para aumentar a legibilidade de seus achados. Grafico em setores gnifico em setores, circular, cujas “fatias” somadas chegam a 100%, & um dos métodos mais simples de apresentagao gréfica, Sao particularmente iteis para mostrar as diferengas em frequéncias ou porcentagens entre categorias de uma variével de nivel nominal. As figuras 2.3 ¢ 2.4 apresentam a distribuigao do estado civil de adultos com 18 anos ou mais. Observe que 22,6% dos adultos so solteiros (nunca se casaram), 61,2% sio casados, 7,3% so vilivos € 8,9% sto divorciados. Em muitos casos, é possivel que o pesquisador queira focar uma categoria em particular em ‘um grafico em setores, Nesse caso, cle talvez queira destacar o grupo de adultos solteitos. Para Divorciado (8.9%) —\ Soren 2616 Casado (61.25%) Figura 2.3. Grafico em setores do estado civil Fonte: Bureau of the Census 5B Estatistica para ciéncias humanas Divorciado (89%), Soleire (22.6%) Viiivo (73%) Casado (61.2%) Figura 2.4 Grafico em setores do estado civil (com uma parte destacada). Fonte: ureau ofthe Census. destacar esse aspecto do grifico em setores, podemos “desconectar” (mover ligeiramente para fora) o setor do grifico que mais vale a pena ser destacado, como fizemos na Figura 2.4 Geralmente nao & aconselhivel usar um grifico em setores em caso de dados que estejam classificados em categorias ordenadas, como 0 nivel de educasio que varie de “ensino médio incompleto” a “superior completo”. Mesmo que os niveis educacionais aumentem na medida em que vocé progride em torno do grafico, eventualmente a categoria mais alta (por exemplo, “supe- rior completo”) seria seguida, ilogicamente, pelo nivel mais baixo (por exemplo, “ensino médio incompleto”). Graficos em barras e histogramas grifico em setores fornece uma ilustragdo rapida e facil de dados que podem ser dividi- dos somente em algumas categorias. (Na realidade, alguns pacotes de software de grificos de computador limitam 0 nimero de setores do grifico.) Em comparagio, 0 gnifico em barras pode acomodar qualquer nimero de categorias em qualquer nivel de medida e, portanto, é muito mais usado em pesquisa social. A Figura 2.5 ilustra o grifico em barras da distribuigdo de frequéneia do uso de cintos de seguranga apresentado na Tabela 2.16. O grafico em barras € construido seguindo de acordo com a disposigdo padrdo: uma linha horizontal (ou cixo x) ao longo da qual os valores dos escores ou categorias (nesse caso, 0 nivel de uso do cinto de seguranga) so mareados; e uma linha vertical (cixoy) do lado esquerdo da figura que exibe as frequéncias para cada valor de escore ou categoria, (Para dados agrupados, tanto os pontos médios dos intervalos de classe quanto os proprios interva~ Jos podem set colocados ao longo da linha de base.) Como vemos na Figura 2.5, quanto mais alta a barra, maior a frequéncia da categori Apesar de alguns pesquisadores preferirem os graficos em barras de frequéncia, graficos de porcentagens ¢ em barras horizontais também sio muito utilizados. A Figura 2.6, por exemplo, ‘mostra um gréfico em barras da distribuigio percentual do uso de cinto de seguranga. Observe que 0 grifico € idéntico ao gréfico em barras de frequéncia exceto para a escala ao longo do eixo y (porcentagens em vez de frequéncias). Graficos em barras também podem ser construidos verti- calmente ou horizontalmente; a escolha normalmente se resume a uma decisio pritica a respeito Capitulo 2 + Organizacio dos dados 59 500 5 2 an on 300 Frequéncia 100 ‘Nunca amente As eres Maioria Sempre Uso de de seguranca Figura 2.5. Grafico em barras do uso de cinto de seguranca (com frequéncias) Cy 50 40 30 Porcentagem 0 Nunca Raramente As vezes —Maioria Sempre das vezes Use de cinta de seguranca Figura 2.6 Grafico em barras do uso de cinto de seguranca (com porcentagens). de qual se encaixara melhor na pagina. Em geral, é mais adequado exibir gréficos em barras com categorias numerosas horizontalmente, ¢ suas categorias devem ser identificadas ao longo do eixo cesquerdo, com as barras estendendo-se para a direita Os termos grifico em barras e histograma sfo frequentemente usados de maneira intercam- biavel, apesar de que hé uma diferenca pequena, mas importante, entre as duas técnicas grificas. Graficos em barras sio tipicamente usados para exibir frequéncia ou distribuigo percentual de 60. Estatistica para ciéncias humanas ‘uma varidvel distinta, especialmente em termos nominais. Em virtude da falta de continuidade de categoria para categoria, um grafico em barras inclui espago entre as barras para enfatizar a diferenciagdo, em vez da continuidade ao longo de uma escala, Histogramas, por outro lado, so usados para exibir medidas continuas, especialmente em termos de intervalo; as barras do histo- _grama sao juntadas para entfatizar a continuidade dos pontos ao longo da escala. Dados em termos ordinais podem ser exibidos de qualquer uma das duas formas, dependendo do que 0 pesquisador quer enfatizar, a continuidade (histograma) ou a descontinuidade (grifico em barras). © gnifico em barras da distribuig ciologia inchui a separacdo entre as barras, pois a aparéncia de continuidade seria completamente enganosa, Comparativamente, a distribuigdo (b) na Figura 2.7 das médias de pontos das notas dos estudantes representa um continiwum real e, portanto, um histograma sem separagao entre as cate~ 6 apropriado. Grificos em bartas ¢ histogramas podem exibir o efeito de uma varidvel sobre a outra, Por exemplo, a Figura 2.8 mostra a distribuicio do uso de cinto de seguranga por género a partir dos da- 0 (a) na Figura 2.7 de estudantes com forma Estudantes universitirios de sociologia 25% 20% Ease a 3 ws é g Conia univers oy Média de nota de estudantes 40% _ me 5 fom £ 10% om sninode20 20-25 2530 3035 35-49 Nowa mia o Figura 2.7 Comparacio entre um grafico em barras e um histograma Capitulo 2 + Organizacao dos dados 61 0 omen [J) stuer sso 300 = 20h Z 2 20 10 =| veo} 50 td Nunca Ranmente Asvezes Maioria Sempre das ves Uso de ciao de seguranga Figura 2.8 Grafico em barras do uso de cinto de seguranca por género (com frequéncias). dos na Tabela 2.17. Agora faz uma grande diferenga representarmos em um grafico de frequéncias ‘ou porcentagens. O grifico na Figura 2.8 esté distorcido porque ha mais mulheres do que homens ultado, a maioria das barras que representam mulheres & mais alta do que as barras que representam homens, confundindo o efeito do género sobre o uso de cinto de seguranga, na amostra, Como Conseguimos uma descrigdo mais adequada representando em um grafico as porcentagens por coluna da Tabela 2.20, Desse modo, o grifico em barras na Figura 2.9 nos permite ver nio apenas a distribuigdo do uso do cinto de seguranga, mas também como ele & influenciado pelo gi (yg Homem [J) Matter 50 40 30 2 10 o Nunca —-Raramente As vezes—-Maioria == Sempre das vezes Uso de cinto de seguranga Figura 2.9 Grafico em barras do uso de cinto de seguranga por género (com porcentagens) 62. Estatistica para ciéncias humanas Grificos em barras ¢ histogramas também so usados para representar graficamente volumes, ¢ taxas por meio de subgrupos da populagdo ou ao longo do tempo, em vez de apenas distribui~ «es de frequéncia e porcentagens. Por exemplo, taxas de natalidade (nimero de nascimentos por 1.000 mulheres, veja a Tabela 2.22) so mostradas por idade da mae na Figura 2.10. Essas taxas sio obtidas pela divistio do mimero de partos de mulheres de uma determinada faixa etéria pelo rimero de mulheres naquela faixa etéria, ¢ entio pela multiplicacao do resultado por 1.000. Como as duas categorias extremas tém taxas bem pequenas, as barras so quase invisiveis. Portanto, para incrementar a legibilidade do gréfico como um todo, rotulamos cada barra com seu valor (0 que de qualquer maneira é& sempre uma boa ideia), 044 4549 10-14 S19 224 2829 30M dade da mie Figura 2.10 Histograma da taxa de nascimento por 1.000 mulheres, por idade da mae Tabela 2.22 Taxa de nascimento por idade da mae a ‘Taxa de nascimento Ladd (naseimentos por 1.000) 10-14 12 1s19 S44 20-24 104 25-29 13,1 30-34 83.9 35-30 353 40-44 68 4549 03 Poligonos de frequéncia ‘Outro método grafico comumente empregado € o poligono de frequéncia, Apesar de o poligono de fiequéncia poder acomodar uma ampla variedade de categorias, ele, assim como o histograma, Capitulo 2 + Organizacio dos dados 63 tende a salientar a contimuidade ao longo de uma escala em vez das diferengas; portanto, ele é par- ticularmente itil para descrever dados ordinais ¢ intervalares. Isso ocorre porque as frequéncias sio indicadas por uma série de pontos colocados sobre 08 valores de escores ou pontos médios de cada intervalo de classe. Pontos adjacentes so conectados com uma linha reta, que ¢ deixada na linha de base em qualquer uma das extremidades, A altura de cada ponto indica a frequéncia da ocorréncia, A Tabela 2.23 mostra uma distribuigdo de frequéncia de notas de provas de uma classe de 71 cestudantes. Um poligono de frequéncia para essa distribuigao é ento apresentado na Figura 2.11 Observe que as frequéncias dos intervalos de do representadas graficamente acima de seus ;pontos médios; 05 pontos sto conectados por linhas retas, que so deixadas na linha de base hori zontal em ambas as extremidades, formando um poligono, Para representar graficamente frequéncias acumuladas (ou porcentagens acumuladas), & pos sivel construir um poligono de frequéncia acumulada, Como mostra a Figura 2.12, frequéncias acumuladas sio dispostas ao longo da linha vertical do grifico e sio indicadas pela altura dos pontos acima da linha de base horizontal. Diferentemente de um poligono de frequéncia regular, entretanto, a linha reta conectando todos os pontos no poligono de fiequéncia acumulada nio pode ser colocada de volta na linha de base, pois as frequéncias acumuladas representadas sto um produto de adigdes sucessivas. Qualquer frequéncia acumulada dada nunca € menor (é notmal- ‘mente maior) que a frequéncia acumulada anterior. Também, diferentemente de um poligono de frequéncia regular, os pontos em um grafico acumulado sdo representados graficamente acima dos limites superiores dos intervalos de classe, em vez de em seus pontos médios. [sso ocorre porque a frequéncia acumulada representa 0 niimero total de casos tanto dentro quanto abaixo de um intervalo de classe em particular. Forma de uma distribuigao de frequéncia. Poligonos de frequéncia podem nos ajudar a visualizar a variedade de formatos e formas assumidas por distribuigdes de frequéncia. Algu- mas distribuigdes sao siméaricas — dobrando a curva no centro criam-se duas metades idénticas. Portanto, tais distribuigdes contém 0 mesmo niimero de valores de escores extremos em ambas as diregdes, para cima e para baixo. Outras distribuigdes so chamadas de assimétricas, e tém mais ‘casos extremos em uma dirego do que em outra. Ha uma variagdo considerdvel entre distribuigdes simétricas. Por exemplo, elas podem diferir ‘marcadamente em termos de sua caracteristica de pico (ou curtose). Algumas distribuigdes simé- tricas, como vemos na Figura 2,13(a), sao altas ou tém um pico considerdvel (chamadas leptoctir- ticas); outras, como vemos na Figura 2,13(b), sdo bastante achatadas (chamadas platictirticas); Tabela 2.23 Distribuicao de frequéncia agrupada de notas de provas. Intervalo de classe to fa 95-99 3 07 90-94 2 68 85-89 4 66 80-84 7 2 75-79 2 58 70-74 7 8B 65-69 2% 60-64 soa 55-59 5 9 50-54 4 4 = 64 Estatistica para ciéncias humanas ~» Frequéncia 2 97 6 oF 2 17 m2 8 9 OF Ponto médio Figura 2.11 Poligono de frequéncia para distribuigdo de notas de provas de estudantes. » oF SS 595 645 695 74S 795 BAS 89S 94S 99S Limite superior Figura 2.12 Poligono de frequéncia acumulade para distribuigao de notas de provas de estudantes. Capitulo 2 + Organizacio dos dados 65 (a) Leptocttiea (by Platicustiea (©) Mesocintica Figura 2.13 Veriades em curtose entre distribuigdes simétricas, ‘ainda outras ndo tém pico muito alto, nem sao achatadas (chamadas de mesoctirticas). Um tipo de Aistribuigdo simétrica mesociitica, como mostra a Figura 2,13(c), a curva normal, tem significado especial para a pesquisa social, e sera discutida em detalhes no Capitulo 5. Ha uma variedade de distribuigdes inclinadas ou assimétricas. Quando existe a in maneira que os escores se concentram em uma ditegao, a distribuigao terd uma “cauda” pronuncia- da. A posigdo da cauda indica onde os relativamente poucos escores estdo localizados, ¢ determina a direcao da assimettia, A distribuigdo (a) na Figura 2.14 esta negativamente assimeétrica (inclinada para a esquerda), pois ela tem uma cauda muito mais longa na esquerda do que na direita. Essa distribuigdo mostra ‘que a maioria dos entrevistados recebeu notas altas, mas apenas alguns poucos receberam notas baixas. Se essa fosse a distribuigdo de notas em um exame final, poderiamos dizer que a maioria dos estudantes foi bastante bem, ¢ alguns poucos foram mal. Em seguida, observe a distribuigio (b), cuja cauda esta situada a direita. Como a inclinagao é indicada pela diregdo da cauda alongada, podemos dizer que a distribuigdo esta positivamente assi- ‘meétrica (inclinada para a direita). As notas da prova final para os estudantes dessa turma hipotética serio bastante baixas, exceto por alguns poucos que foram bem. Por fim, examinaremos distribuigao (c), que contém duas caudas idénticas. Nesse caso, ha ‘© mesmo numero de casos extremos em ambas as direcdes. A distribuicdo ndo & inclinada, mas perfeitamente simétrica. Se essa fosse a distribuigdo de notas na prova final, teriamos um grande niimero de estudantes medianos e alguns poucos recebendo notas muito altas ou muito baixas. (a) Negativamente assimétrica (by Positivamente assimeétrica (6) Simétriea Figura 2.14 Tres distribuicoes que representam a direcao da assimetria 66 Estatistica para ciéncias humanas Graficos em linha Vimos previamente que graficos em barras e histogramas podem ser usados para exibir fre~ quéncias e porcentagens de uma distribuigao de escores, assim como volumes e taxas através de grupos, dreas ou tempo. Poligonos de frequéncia podem ser similarmente modificados para exibir volumes e taxas entre grupos ou ao longo do tempo, apesar de esse método usar um griifico em Jinha, Em outras palavras, poligonos de frequéncia mostram a distribuigo de frequéncia de um conjunto de escores em uma tinica variavel, enquanto grdficos em linha exibem mudangas em uma varidvel ou varidveis entre grupos ou ao longo do tempo. Em um grifico em linha, o montante ou taxa de uma varidvel é represemtado graficamente, , centio, esses pontos so conectados por segmentos de linhas. A Figura 2.15, por exemplo, mostra em forma de gritico em linha as taxas de natalidade por idade da mae que foram exibidos pre~ vviamente em um grafico em barras. Como vocé pode ver ao comparar as figuras 2.15 ¢ 2.10, no importa o método utilizado, Enguanto comparagdes de subgrupos (como as faixas etdrias que subdividem os anos férteis) sto representadas graficamente com barras ou linhas, dados de tendéncia de tempo so mais comu- ‘mente representados com grificos em linha, A Figura 2.16, por exemplo, mostra a taxa de homic dios nos Estados Unidos (0 mimero de homicidios relatados para a policia por 100 mil habitantes) de 1950 a 2005. No grifico, podemos ver claramente um acentuado e sibito aumento na taxa de homicidios em meados da década de 1960, uma tendéncia ascendente que se manteve até 1980, uma queda até meados dessa década, um ressurgimento no final dos anos de 1980 e outra queda na década de 1990 antes de estabilizar-se em 2000. Fica a cargo do pesquisador social, é claro, tentar encontrar uma explicaedo para essas tendéncias. Entre as razes estudadas na literatura estavam 0 1-14 15-19 20-24 25-29 «WM 35-39 MOE S4D dade da mae Figura 2.15. Grafico em linha da taxa de nascimento por 1,000 mulheres, por idade da mae. Capitulo 2 + Organizacso dos dados 67 aumento da violéncia racial, o aumento do uso de drogas, o aparecimento do crack, as mudangas na aplicacdo de sentengas e nas priticas da policia, mudangas no tamanho da populagio adolescente © um acesso maior a armas de fogo. QUADRO 2.1 Pratica e estatistica: medigao da audiéncia da televiso ‘A maioria das pessoas confronta, todos os dias, elouma espécie de clculo percentual ou interpretacio. £ importante, portanto, compre- ‘ender exatamente 0 que uma porcentagem em particular representa, Geralmente, € na base da porcentagen — porcentagem de qué? — que ‘encontramos a resposta. Porcentagens calculadas sobre bases diferentes podem significar coisas mutto diferentes E por falar em bases, porcentagens diferen- tes foram usadas pata medir a audiéncia da pror- rogagao de um jogo final entre as antigos rivals ‘no beisebo}, Boston Red Sox e New York Yankees. Aaudiéncia de uma transmisséo ¢ a porcentagem de totios os lares que assistem 0 programa, de maneira que a bese pata o célculo € numero total de lares com televis6es, no importando se las estéo ligadas ou néo. Por outra lado, a cata para uma transmisséo & 2 porcentagem de lares om televisoes ligadas que estao vendo progra~ rma, de maneira que apenas 0s lares vendo televi- so slo incluldos no caleulo. © grafico em linha exibe ambas as medidas para a area de cobertura da cidade de Boston des 20h15, quando @ primeira boia foi lancada, um pouco depois da 01h00, quando o time da casa prevaleceu com um frome run no décimo segundo inning. Na medida em que 0 jogo progredia bem além da hora de dormir da maicra dos jovens fs de muitos dos adultos que trabalhariam no dia seguinte, a porcentagem de lates que assisiam 20 jogo — a audiéncia — caiu gradualmente de tum pico de quase 40% as 22h00, quando os Yankees assumiram a lderanca, pare alga em tor- no de 20%, quando 0 Red Sox ganhou 0 jogo. Em comparacéo com o mergulho da audiéncia, a cota aumentou firmemente em torno de 50% de todos os lares que assistam a qualquer canal as 22H00 até quase 70% ao final do jogo. Desse modo, em- bora aparentemente muitos telespectadores. do jogo tenham desigado a TV e ido para a cama, © jogo teve mais poder de permenénca do que qualquer outra programacio teria se competise pels tlespectadores do fim de noite 80 a Audiéneia 0 aos — _ 0 —~—_._._ in 0 =F 1 ponto de audiéneia ~ 23 mil lanes 4 20h 2th 2h 2h 0h Oth Tempo Audifncia televisiva da cidade de Boston durante 0 ALCS (American League Championship Series), game 4 Fonte: Nielsen Media Research 68. Estatistica para ciéncias humanas Taso. 1985960. 1968~—«197~—«STS «MRD. “WOKS 980-1988 20002005, ano Figura 2.16 Taxa de homicidios nos Estados Unidos, 1950-2005. Mapas Em uma determinada época, pesquisadores sociais contavam quase exclisivamente com graficos em setores, grificos em barras, poligonos de frequéncia ¢ grificos em linha, Em anos recentes, entretanto, na medida em que softwares grificos para computadores foram sendo aper- feigoados, os pesquisadores comegaram a empregar outras formas de apresentacao grifica. Um tipo em particular — o mapa — tomou-se bastante popular juntamente com o uso mais frequente de dados coletados e publicados pelo governo (por exemplo, dados do censo), assim como dados codificados por enderego ou localizacdo. O mapa oferece um método sem paralelo de explorago de padrées geogrificos em dados. Por exemplo, uma distribuigdo de frequéncia de trés categorias de taxas de homieidio nos EUA ¢ exibida na Figura 2.17. Cada estado ¢ sombreado de acordo com sua condigao de membro na categoria da distribuigao de frequéncia. A tet ‘medida em que voce se desloca para o sul fica imediatamente dbvia, Isso se transforma no ponto de partida para 0 pesquisador social, que comega a estabelecer ¢ testar porque isso ocorre, ncia de as taxas de homicidio serem maiores na Toor 0 eos QQ sbernseo BEA pair de 60 Figura 2.17 Mapa das taxas de homicidios por estado, 2005

Você também pode gostar