Você está na página 1de 21
yatta tices eae Marcello Pagano & Kimberlee Gauvreau 10 Piincipios de Bicestatsica 1.5 Dados Continuos Dados que representam quantidades mensursveis, mas que no esto restritos a assumir cer- tos valores especificados (tais como inteiros), s40 conhecidos como dados continuos. Nesse caso, a diferenca entre quaisquer dois valores de dados possiveis pode ser arbitrariamente pequena, Exemplos de dados continuos incluem o tempo, o nivel sérico de colesterol de um ppaciente, a concentrago de um poluente e a temperatura, Em todos eles, os valores fracionais so possiveis. Desde que seja possivel medir-se a distincia entre duas observagdes de um: ‘maneira significativa, as operagées aritméticas podem ser aplicadas. O tinico fator que limi- ta uma observago continua é 0 grau de preciso com o qual pode ser medida; conseqtlente- ‘mente, vemos com frequiéncia o tempo ser arredondado para o mais préximo segundo ¢ 0 pe- so para a mais préxima libra ou grama. Quanto mais precisos forem os instrumentos de ‘medida, maior a quantidade de detalhes que pode ser obtida nos dados registrados. ‘As vezes podemos querer um menor grau de detalhe do que o proporcionado pelos ds os continuos; por isso, ocasionalmente transformamos as observagdes continuas em dis cretas, ordinais ou mesmo dicot6micas. Em um estudo dos efeitos do fumo materno nos recém-nascidos, por exemplo, poderfamos primeiro registrar peso ao nascer de um grande nimero de bebés e entdo categorizar os bebés em trés grupos: aqueles que pesam menos do que 1.500 gramas, aqueles que pesam entre 1.500 e 2.500 gramas ¢ aqueles que pesam mais do que 2.500 gramas. Embora tenhamos a medida real do peso ao nascer, ndo estamos preo- ‘cupados se um determinado bebé pesa 1.560 gramas ou 1.580 gramas; estamos interessados somente no niimero de bebés que fica dentro de cada categoria. A partir da experiencia prévia, nfo podemos esperar diferencas substanciais entre os bebés dentro dos grupos de pe- ‘$08 ao nascer muito baixos, pesos ao nascer baixos e pesos ao nascer normais. Além disso, 08 dados ordinais so frequentemente mais faceis de se manusear do que os continuos e as- sim simplificam a andlise. No entanto, hé uma conseqiente perda de detalhes na informago sobre os bebés. Geralmente, o grau de precisio exigido em um determinado conjunto de da- dos depende das questdes que estdo sendo estudadas. 'A Segdo 2.1 descreveu uma gradagdo dos dados numéricos desde os nominais até os continuos. Conforme prosseguimos, a natureza da relagao entre os possiveis valores de da- dos tomou-se crescentemente complexa. Entre 08 varios tipos de dados é preciso fazer dis- tingées, pois sio usadas técnicas diferentes para analisé-los. Como mencionado anterior- ‘mente, néo faz sentido falar de um tipo de sangue médio de 1,8; no entanto, faz sentido nos referirmos a uma temperatura média de 24,55 °C. ‘Agora que somos capazes de diferenciar os vérios tipos de dados, precisamos aprender co- ‘mo identificar as técnicas estatsticas mais apropriadas para descrever cada tipo. Embora um certo volume de informacao seja perdido quando 0s dados sio resumidos, um grande volume pode também ser ganho, Uma tabela talvez seja 0 meio mais simples de se resumir um con- junto de observagées e pode ser usada para todos os tipos de dados numéricos. 2.2.1 Distribuigées de Freqiiéncias ‘Umatabela comumente usada para avaliar dados & chamada de distribuigdo de freqiléncias, que ‘consiste de um conjunto de classes ou de categorias junto com contagens numéricas que corres- pondam a cada conjunto para dados nominas ¢ ordinais. Como uma ilustragio deste formato, a ‘Tabela 2.4 exibe os ntimeros de individuos (contagens numéricas) que sofriam e nfo sofriam de ) Cop. 2 — Apresentacio de Dados 11 sarcoma de Kaposi (classes ou categoria) para os primeiros 2,560 casos de Aids registrados nos Centros de Controle de Doengas. Um exemplo mais complexo é dado na Tabela 2.5, que es- Pecifica o nimero de cigarros fumados por adulto nos Estados Unidos em varios. anos [4]. Para exibir os dados discretos ou continuos na forma de uma distribuigao de freqléncias, precisamos dividir o intervalo de valores das observages em uma série de intervalos nio-so~ ‘brepostos distintos. Se houver muitos intervalos, oresumo nfo constituird grande melhoria com. relago aos dados brutes. Se houver muito poucos, um grande volume de informagio se Perderd. Embora no seja necessério, os intervalos sio freqientemente construfdos de modo ue todos tenham larguras iguais,o que facilita as comparagées entre as classes. Uma vez que © limite superior eo inferior tenham sido selecionados, o nimero de observagées cujos valores estejam dentro de cada par de limites € contado e os resultados so arranjados na forma de tabela. Como parte do National Health Examination Survey, por exemplo, os niveis séricos de colesterol de 1.067 homens de 25-34 anos foram registrados para o mais préximo miligrama Por 100 mililitros (5]. As observagées foram subdivididas ento em intervalos de larguras ‘iguais; as frequéncias que correspondem a cada intervalo so apresentadas na Tabela 2.6. TABELA 2.4 Casos de Sarcoma de Kaposi para os rimeiros 2.560 pacientes de Aids regishados ‘nos Centos de Contre de Doencas em Ailonia, Geérgia Sarcoma de ‘Nimero de Kapost Individuos sim 246 Nio 2314 TABELA 2.5 TABELA 2.6 Consumo de cigarros por pessoa na idade de 18 anos ov mais velha, Estados Unidos, Freqiéncias absolutos dos niveis séricos de colesterol para 1.067 homens dos Estados 1900-1500 Union con Gas ete 25» i a “ae image 1976=1950, Gpwrer_—_ Nelde ier de =o ON Tone py a (mg/100 mi) io i em) a ots 130 190 a fo isso} oe 200-239 299 1950 3.522 240-279 us 10 sm ea % io oes os ° is pal t 5 150 amas Tat 1061 12 Principios de Bioestatisica A Tabela 2.6 nos dé um quadro global de como os dados se parecem; mostra como 0s valores do nivel sérico de colesterol esto distribuidos pelos intervalos. Note que as obser- vvages variam de 80 até 399 mg/100 ml, com relativamente poucas medidas nas extremidades do intervalo e uma grande proporgao dos valores situados entre:120 ¢ 229 mg/100ml. O in- tervalo 160-199 mg/100ml contém o maior niimero de observagées. A Tabela 2.6 nos dé um centendimento muito melhor dos dados se comparada & lista de 1.067 leituras de niveis de co- lesterol. Embora tenhamos perdido alguma informago — dada a tabela, no podemos recriar 08 valores brutos dos dados — extraimos também informages importantes que nos auxiliam a entender a distribuigao de niveis séricos de colesterol para esse grupo de homens. ‘Ofato de ganhar um tipo de informagao enquanto outra se perde permanece verdadeira, ‘mesmo para os dados dicotémicos simples das Tabelas 2.1 ¢ 2.4, Poderfamos achar que no perdiamos qualquer informaco ao se resumir esses dados ¢ contar os niimeros de Os e de 1s, ‘mas realmente perdemos. Por exemplo: se hé algum tipo de tendéncia nas observag6es no decorrer do tempo — talvez a proporglo de pacientes com Aids portadores de sarcoma de Kaposi esteja aumentando ou diminuindo conforme a epidemia amadurega — essa infor- magi é perdida no resumo, ‘Tabelas so mais informativas quando nao se tornam excessivamente complexas. Co- ‘mo uma regra geral, a tabelas e as colunas nelas contidas devem ser sempre claramente r0- tuladas. Se unidades de medida estiverem envolvidas, tal como mg/100ml para os niveis séri- cos de colesterol na Tabela 2.6, devem ser especificadas. 2.2.2 Freqiéncia Relativa ‘Algumas vezes ¢ «til conhecer a proporgdo dos valores situados em um determinado inter- vvalo de uma distribuigio de freqiigncias em vez do niimero absoluto. A fregiiéncia relativa para um intervalo € a proporgo do niimero total de observagdes que nele aparece. Ela é cal- culada ao dividir-se o nimero de valores dentro do intervalo pelo niimero total de valores na tabela. A proporgao pode ser deixada como esté ou ser multiplicada por 100% para se obter 1 porcentagem de valores no intervalo. Na Tabela 2.6, por exemplo, a frequéncia relativa na classe 80-119 ml/100 ml é (13/1067) x 100% = 1,2%; analogamente, a frequéncia relativa na classe 120-159 mg/100 mi é (150/1067) X 100% = 14,1%. As freqiéncias relativas para todos os intervalos em uma tabela somam 100%. Freqiléncias relativas sio tteis para se comparar conjuntos de dados que contenham riimeros desiguais de observagées. A Tabela 2.7 exibe as freqiiéncias absolutas e relativas das leituras de nfveis séricos de colesterol para os 1.067 homens de 25-34 anos descritas na Tabela 2.6, assim como para um grupo de 1.227 homens de 55-64 anos. Por haver mais homens no grupo de mais idade, ¢ inapropriado comparar as colunas de frequléncias absolu- tas para os dois conjuntos de homens. No entanto, comparar as freqléncias relativas & sig- nificativo, Podemos ver que, no geral, os homens mais velhos tém maiores niveis séricos de colesterol do que os mais novos; os homens mais novos tém maior proporcao de observagBes em cada um dos intervalos abaixo de 200 mg/100 mi, enquanto os homens mais velhos tém uma maior proporgao em cada uma das classes acima desse valor. ‘A freqiléncia relativa acumulada para um intervalo ¢ a porcentagem do nimero total de observagies que tem um valor menor ou igual ao limite superior do intervalo. A frequén- cia relativa acumulada é calculada pela soma das frequéncias relativas para o intervalo es- pecificado e todas as outras anteriores. Assim, para o grupo de idade de 25-34 anos da Tabela 2.7, a freqiiéncia relativa acumulada do segundo intervalo é 1,2 + 141 = 15.3%; analoga- ‘mente, a freqiiéncia relativa acumulada do terceiro intervalo € 1,2 + 14,1 + 41,4 = 56,7%. Tal como as frequéncias relativas, as freqUéncias relativas acumuladas sto vteis para com- parar conjuntos de dados que contenham nimeros desiguais de observagdes. A Tabela 2.8 lista as freqiéncias rlativas acumuladas para os nfveis séricos de colesterol dos dois grupos de homens da Tabela 2.7. Cop. 2 — Apresentacdo de Dados 13 TABELA 2.7 Frequéncias absolutes ¢ relativas dos niveis séricos de colesterol para 2.294 homens dos Estados Unidos, 1976-1980. Tades 25-34 ee Tdades 55-64 Nivel de Niimero de Freqiténcia ‘Niimero de Freqliéncia Colesterol Homens Relativa (%) Homens Relativa (%) (emg/100m) 80-119 3 12 3 04 120-159 150 141 48 39 160-199 442 414 265 21.6 200-239 299 280 458 373 240-279 1s los 281 29 280-319 4 32. 23 104 320-359 9 08 35 29 360-399 5 os 7 06 Total 1.067 100.0 1227 100.0 TABELA 2.8 Freqiéncias elativas e heqiéncias relativas ocumulodes de niveissércos de coleterol para 2.204 homens dos Estados Unidos, 1976-1980. Tdndes 25-34 Tdndes 55-64 Nivel de Niimero de Freqiéncia Neimero de Freqiléncia Colesterol Homens Relativa (%) Homens Relativa (%) (2g/100 mi) ‘Acumulads ‘Acumulada soy) 12 12 04 4 120-159 141 153 39 43 160-199 ana 567 246 259 200-239 280 847 313 a2 240-279 108. 955 29 86,1 280-319 32 98.7 104 9655 320-359 os 995 29 904 360-399 os 1000 06 100,0 De acordo com a Tabela 2.7, os homens mais velhos tendem a ter n{veis séricos de co- lesterol mais altos do que os mais jovens. Este ¢ 0 tipo de generalizacio que ouvimos muito freqiientemente. Por exemplo, pode-se também dizer que os homens so mais magros do que as mulheres ou que as mulheres vivem mais do que os homens. A generalizagao com relago 0 nivel sérico de colesterol nao significa que cada homem entre 55 a 64 anos tenha um nfvel de colesterol mais alto do que cada homem entre 25 a 34 anos, nem significa que o nfvel séxi- code colesterol de cada homem aumente com a idade. O que a declaragio implica é que para um determinado nivel de colesterol, a proporgo de homens mais jovens com leitura menor ou igual a esse valor é maior do que a proporso de homens mais velhos com uma leitura ‘menor ou igual a esse valor. Esse padrio é mais Sbvio na Tabela 2.8 do que na Tabela 2.7. Por exemplo, 56,7% dos homens de 25-34 anos tém um nivel sérico de colesterol menor ou igual 2 199 mg/100 mi, enquanto somente 25.9% dos homens de 55-64 anos esto nessa categoria Por essas proporgées relativas para os dois grupos seguirem tal tendéncia em cada intervalo na tabela, as duas distribuigSes so denominadas estocasticamente ordenadas. Para qualquer 14 Pincipios de Bioe nivel especificado, uma maior proporgao de homens mais velhos tem leituras de nivel sérico de colesterol acima deste valor do que os mais jovens; em consequéncia, a distribuigéo de niveis para os homens mais velhos € estocasticamente maior do que para os mais jovens. Es- sa definigao fard mais sentido quando estudarmos as variaveis aleat6rias ¢ as distribuigdes de probabilidade no Capitulo 7. Lé, as implicagoes dessa ordenagio se tornario mais aparentes. ‘Umsegundo modo para resume exibir o dados 6 peo do uso de grfics ou represenages Miczttocs dos dados numercos, Os grficos devem ser conebides de modo a transi area Oos genie de um conjunto de observagdes em ina simples visalizagio,Em- bora sejam mais faceis para se ler do que as tabelas, os gréficos freqiientemente fornecem aoe sae Te detahe, Entetano, «peda de dealhes pode ser acompanhada por um ganho ected dados, Os grafcos mais informativos so relaivamente simples © a weave Tal como aa bela, devem set claramenteroulads eas unidades de me- dia devem sr inicad. 6.2: ANAS en ER 2.3.1 Graficos de Barras (Os grficos de barras sio um tipo popular de gréfico usados para exibir uma distribuigao de freqiléncias para os dados nominais e ordinais. Em um grafico de barras, as vérias catego- rias nas quais as observagies slo classificadas estio apresentadas ao longo de um eixo ho- rizontal. Uma barra vertical & desenhada por cima de cada categoria de tal modo que a altura da barra represente a freqiiéncia ou a freqléncia relativa de observagées dentro daquela classe. As barras devem ser de igual largura e separadas uma da outra de modo a ndo im- plicar continuidade. Como exemplo, temos a Figura 2.1, um grifico de barras que exibe os Uados relativos ao consumo de cigarros nos Estados Unidos apresentados na Tabela 2.5. Note-se que quando é representada na forma de um grafico, a tendéncia ao consumo de ci- garros no decorrer dos anos é ainda mais aparente do que o que é na tabela. 4.500 4.000 3.500 3.000] 2500] 2.000 1.800 “C a —— 7900 1810 1920 1930 1940 1950 1960 1970 1980 1990 Ane FIGURA 2.1 Lonsumo de cigarros por pessoa na idade de 18 anos ou is velha, Estodos Unidos, 1900-1990. 2.3.2 Histogramas Talvez o tipo de grafico mais comumente utilizado seja o histograma. Enquanto um gr os de barras configura a representagao pictogréfica de uma distribuigdo de freqiiéncias tan- to para os dados nominais como ordinais, um histograma mostra uma distribuigao de fre- giiéncias para os dados discretos ou continuos. O eixo horizontal exibe os limites verdadeiros dos varios intervalos, que so os pontos que os separam dos outros intervalos em ambos os lados. Por exemplo, a fronteira entre as duas primeiras classes de nivel sérico de colesterol da Tabela 2.6 € 19,5 mg/100 ml; ele & 0 limite superior verdadeiro do intervalo 80-119 € 0 limite inferior verdadeiro de 120-159. O eixo vertical de um histograma mostra a freqiién- cia ou a freqiiéncia relativa das observagdes dentro de cada intervalo. A primeira etapa na construcdo de um histograma é tragar as escalas dos eixos. A es- cala vertical deve comegar do zero; se isso nio ¢ feito, as comparagées visuais entre os tervalos podem ficar distorcidas. Uma vez que os eixos tenham sido desenhados, uma barra vertical centrada no ponto médio é colocada sobre cada intervalo. A altura da barra demar- caa freqiiéncia associada com o intervalo. Como exemplo, a Figura 2.2 exibe um histogra- ma constru(do a partir dos dados dos nfveis séricos de colesterol na Tabela 2.6. Na realidade, a frequéncia associada a cada intervalo em um histograma é represen. tada ndo pela altura da barra acima dela, mas pela érea da barra. Assim, na Figura 2.2, 1,2% da érea total corresponde as 13 observagdes que existem entre 79,5 € 119,5 mg/100 ml e 14,1% da rea corresponde 3s 150 observagdes entre 119,5 e 159,5 mg/100 mi. A érea do histograma inteiro soma 100% ou 1. Note-se que a proporgio da drea total que corresponde um intervalo é igual & freqiéncia relativa daquele intervalo. Como resultado, um his- tograma que exibe freqiiéncias relativas — tal como a Figura 2.3 — terd a mesma forma de um histograma com freqiiéncias absolutas. Porque é a area de cada barra que represen- ta a proporgdo relativa de observagdes em um intervalo, ¢ preciso tomar cuidado quando se constréi um histograma com larguras de intervalos diferentes; a altura precisa variar junto com a largura, de modo que a drea de cada uma das barras permanega em proporgao apropriada. 450 400 350 300 250 200 150 100 so 2 Zz 79,5 1195 159,5 19,5 239,5 2795 319, 359, Nivel sérico de colesterol (mg/100 ml) 399,5 FIGURA 2.2 ma: freqéncias absolutes de niveis séricot Estados Unidos, lesterol para 1.067 homens dos m idade entre 25 © 34 anos, 1976-1980. 16 Pincipios de Bioestatisica 45 79,5 119,5 1595 199,5 239,5 279,5 319,5 359,5 399.5 Nivel sérico de colesterol (mg/100 ml) FIGURA 2.3 Histograma: freqbéncias relatives de niveis séricos de colesterol para 1.067 homens dos Estados Unidos, com idade entre 25 @ 34 anos, 1976-1980. 2.3.3 Poligonos de Freqiéncia 0 poligono de freqiléncia, outro gréfico comumente utilizado, € similar ao histograma em muitos aspectos. Um polfgono de freqiiéncia usa os mesmos dois eixos que um histograma, € construfdo a0 se colocar um ponto no centro de cada um dos intervalos de forma tal que a altura do ponto seja igual & freqligncia ou freqiéncia relativa associada com o intervalo. Pontos também sao colocados no eixo horizontal nos pontos médios dos intervalos ime- diatamente precedentes ¢ imediatamente seguintes aos intervalos que contém as obser- ‘vagdes. Ent, 0s pontos sio conectados por linhas retas. Como em um histograma, a fre- quencia de observagdes para um determinado intervalo € representada pela érea dentro dele ¢ abaixo do segmento de linha. ‘A Figura 2.4 € um poligono de frequéncia dos dados de niveis séricos de colesterol na Tabela 2.6. Compare-o com o histograma na Figura 2.2, que esté reproduzido muito leve- mente no fundo. Se o ntimero total de observagées no conjunto de dados fosse aumentado regularmente, poderfamos diminuir as larguras dos intervalos no histograma e ainda ter um adequado nimero de medidas em cada classe; nesse caso, o histograma e o pol{gono de fre qiéncia se tornariam indistingu(veis. Como eles esto, ambos os tipos de graficos tran mitem essencialmente a mesma informagao sobre a distrbuigdo de niveis séricos de coles- terol para essa populagio de homens. Podemos ver que as medidas estfo centradas a0 redor de 180 mg/100 ml e diminuem mais rapidamente para a esquerda desse valor do que 0 fa- zem para a direita. A maioria das observacGes fica entre 120 e 280 mg/100 ml e todas estio entre 80 e 400 mg/100 mi p or poderem ser facilmente superpostos, 0S poligonos de frequéncia so superiores aos histogramas para se comparar dois ou mais conjuntos de dados. A Figura 2.5 exibe os polf- gonos de freqiiéncia dos dados de niveis séricos de colesterol apresentados na Tabela 2.7. Como os homens mais velhos tendem a ter niveis séricos de colesterol mais altos, seu poli- ’adireita do poligono dos homens mais jovens. Cop. 2— Apresentacéio de Dados 17 4s0p 400 350 300 250 200 150 Zz 100 495 995 139.5 1795 219.5 259.5 I99,5 339.5 3795 4195, Nivel sérco de colesterol (mg/100 mi) FIGURA 2.4 Poligono de eqincia: Heqiéncios absolies de ei séicos de colestetol para 1.067 ners dos Estados Unidos, com idode ente 25.6 5d a 1976-1980, © Mdade 2, 8 Idade 55-64 45h 5%S 99,5 139,5179,5 219.5 259,5 299,5 339,5 379, Nivel sérico de colesterol(mg/100 ml) FIGURA 2.5 Poligone de Freaiéncia: haquénciosrlaives de niveis séricos de colesterol Pare 2.294 homens dos Estados Unidos, 1976. 1a Embora seu cixo horizontal seja 0 mesmo de um Poligono de frequiéncia padrio, 0 ei- des Cal de um poligono de freaiiéncia acumulada exibe freqliéncias relativas acumula. das. Um ponto €colocado no limite superior erdadeiro de cada interval; a altura do ponto recta & tegilncia relative acumulada associada ng intervalo. Os pontos so entio co. nectadlos por linhas retas. Como 0s poligonos de freqiléncia, os poligonos de frequéncia acu, Imulada podem ser usados para comparar conjuntoe ie,

Você também pode gostar