Você está na página 1de 7
1 Organiza¢do de dados quantitativos ‘ma contribuigéo importante da estatistica no manejo das informacées foi a criagdo de procedimentos para a organizagio e o resumo de grandes quanti- dades de dados. A descrigio das varidveis ¢ imprescindfvel como um passo prévio para a adequada interpretagao dos resultados de uma investigacio, e a metodolo- gia empregada faz parte da estatistica descritiva. Os dados podem ser organizados em tabelas ou gréficos. Neste capitulo, se- ro apresentados conceitos basicos para a montagem e a apresentaco dessas es- truturas quando os dados sio quantitativos. Para a descrigao dos dados podem-se utilizar, além de tabelas e gréficos, medidas de tendéncia central e de dispersio, que sero abordadas em capitulos subseqiientes. Suponha que, ao estudar a quantidade de albumina no plasma de pessoas com determinada doenca, um pesquisador obtenha, em 25 individuos, os seguin- tes valores (em g/100 mL): wurbou 43 5,0 4,9 5,1 5,3 aRuon Dos dados obtidos, o pesquisador pode concluir inicialmente que: (1) Os valores de albumina nos pacientes variam de individuo para individuo. (2) Alguns individuos apresentam valores iguais. (3) Os valores oscilam entre 4,5 ¢ 5,5. As duas primeiras conclusées so obtidas de forma imediata, mas a terceira exige paciéncia e atencao, especialmente se a amostra for grande. Organizando os dados em tabelas de freqiiéncias, nas quais se indicam os valores obtidos e a fre- giténcia com que ocorrem, estas e outras conclusées podem ser obtidas mais rapi- damente e com menor probabilidade de erro. 20 Sidia M. Callegari-Jacques DISTRIBUIGOES DE FREQUENCIAS: TABELAS Tabela de grupamento simples As tabelas de grupamento simples mostram os valores obtidos e 0 mimero de vezes que cada valor foi observado. Inicia-se a construcao de uma tabela de gru- pamento simples procurando-se o menor valor obtido. A partir dele, organiza-se uma lista por ordem crescente dos valores que podem ocorrer (coluna 1 da Tabela 1.1). A seguir, volta-se aos valores anotados de forma desorganizada e, lendo um um, marea-se um traco vertical ao lado do valor correspondente na tabela (tabu- lac&o ou contagem). TABELA 1.1 Taxa de albumina (g/100 mL) no plasma de 25 pacientes ‘Albumina (x) Contagem f fr FE Fr 45 1 1 0,04 1 0,04 46 0 0,00 1 0,04 47 u 2 0,08 3 0,12 48 1 1 0,04 4 0,16 49 a a 0,12 7 0.28 5,0 HH 5 0,20 12 0,48 51 He 5 0,20 7 068 52 W 2 0,08 19 0.76 53 mw 3 0,12 22 088 54 a 2 0,08 24 0,96 55 i 1 0,04 25 1,00 2 ou soma 25 1,00 = - Recomenda-se reunir os tracos de 5 em 5, cortando quatro tragos com 0 quinto, para facilitar a contagem. O método de procurar cada valor ao longo de toda a amostra, verificando quantas vezes ele ocorre, é bastante desaconselhado, pois leva facilmente a erro, além de exigir que a seqiiéncia de dados seja lida varias vezes. Costuma-se chamar de x os valores da varidvel quantitativa em estudo. O total de tracos obtidos em cada valor de x é denominado freqiiéncia absoluta sim- ples, sendo indicada por f O sinal © (sigma maitisculo; letra S no alfabeto grego) 6 usado para indicar “soma”. Observe que a soma dos valores de f (Sf) € igual a0 ntimero de individuos examinados, que também costuma ser indicado por n. Por- tanto, Bf =n. Dividindo f por 3f, obtém-se a freqiténcia relativa simples (fr), que representa a proporcao com que cada valor ocorre. Os valores mais freqiientes apresentados na Tabela 1.1 séo x = 5,0 ex =5,1, tendo, cada um, uma freqiiéncia relativa fr = 0,20 (ou 20% do total de individuos estudados). Atabela pode, ainda, indicar as freqiiéncias acumuladas (F), que identificam quantos individuos tém taxa de albumina igual ou menor do que um determinado valor. Observando-se a coluna F da Tabela 1.1, é possfvel notar que quatro pessoas possuem uma taxa de albumina igual ou menor do que 4,8. As freqiiéncias acu- muladas séo obtidas somando-se a freqiéncia simples (f) da linha desejada (x) Bioestattstica 24 com as freqiiéncias simples dos valores de x menores do que o considerado. A soma da coluna F nao tem o menor sentido. Para saber a proporcao de pessoas com taxa de albumina igual ou menor do que 4,8, calcula-se a freqiiéncia acumulada relativa (Fr), obtida ou por meio da diviséo de F por 3f (4/25 = 0,16 ou 16%) ou pela soma acumulada das fr a partir do valor de interesse [fr (4,8) = 0,04 + 0,08 + 0 + 0,04 = 0,16). Qualquer freqtiéncia relativa (fr ou Fr) pode ser transformada em freqiiéncia percentual, bastando multiplicé-la por 100. A Fr pode ser usada para se obter percentis, quantidades bastante usadas em certas dreas da medicina. O percentil de ordem k (P,) 6 0 valor de x que é precedi- do por k% valores e seguido por (100-)% dos valores. Por exemplo, Ps. 0 valor de x que é precedido por 25% dos valores (os 25% menores da série) e seguido pelos restantes 75%. Os percentis P,;, Psy € Ps dividem 0 conjunto de dados em quatro partes iguais; por isso, recebem 0 nome de quartis e sao respectivamente os quartis Q,, Q, € Q,. Na Tabela 1.1, 0 percentil P,, é um valor entre 4,8 e 4,9, j4 que 16% dos individuos tém valores iguais ou menores do que 4,8 ¢ 28% das pessoas tém niveis de albumina iguais ou menores do que 4,9. Estima-se, entdo, 0 percentil pela média entre 4,8 e 4,9, obtendo-se P,, = 4,85. Sio bastante popula- Tes os percentis P, € Po., que delimitam os 5% valores menores, os 90% centrais ¢ 05 5% maiores de um conjunto de dados. As tabelas elaboradas para realizar cdlculos estatisticos nao se prestam para publicacéo em relatérios ou artigos cientificos. Em tabelas para publicacao, nao se apresenta a tabulagdo dos dados. Tampouco se apresentam informagées redun- dantes: se for indicado f, nao se apresenta fr ou a percentagem. Além disso, a estrutura da tabela segue regras determinadas. As principais sao: (1) Atabela deve ser precedida de um titulo, suficientemente claro para que 0 leitor nao necessite voltar ao texto para entender o contetido da mesma. (2) A tabela é limitada por uma linha limitante superior e outra inferior, que indica seu final. O cabecalho deve ser separado do restante do texto por uma linha horizontal. (3) Nao se usam linhas verticais separando as colunas; usam-se espacos em bran- co. (4) As abreviaturas e os simbolos pouco conhecidos devem ser explicados no rodapé da tabela. (5) Deve ser indicada a fonte dos dados. Tabela de grupamento por intervalo de classe Quando os valores de uma caracteristica variam muito, como é o caso da estatura ou do peso das pessoas, uma tabela como a Tabela 1.1 tenderia a ser muito exten- sa, perdendo a propriedade de condensar a informagio. A solugio é grupar os dados por intervalos de classe, como foi feito na Tabela 1.2 para valores de peso em 256 universitérias gatichas. Cada intervalo de classe possui um extremo ou limite inferior e um extremo ou limite superior. O sinal |— indica que o extremo inferior estd incluido no inter- valo, mas 0 superior, nao. Intervalos indicados por esse sinal so denominados intervalos abertos & direita e s4o os mais comumente usados. 22. Sidia M. Callegari-Jacques TABELA 1.2 Pesos (kg) de 256 alunas da Universidade Federal do Rio Grande do Sul, obtidos no periodo de 1980 a 1899 (dados organizados em intervalos de classe) Peso (ka) t Ga 40 |-45, 9 0,035 45[-50 36 0,141 50-55 78 0,304 55/60 55 0,215 60 |-65 53. 0,207 651-70 1" 0,043, 70-75 7 0,027 75-80 5 0,020 80}-85 4 0,004 85-90 1 0,004 zr 256 1,000 A notagao envolvendo intervalos abertos a direita (/_), abertos a esquerda (—) ou fechados em ambos os lados (4) € muito titil quando se quer elaborar tabelas de freqiiéncias para varidveis continuas, pois nao permite ambigitidade na locacdo dos valores nos intervalos. Note, porém, que é comum encontrar, refe- rindo-se a idade de criancas, por exemplo, a notagio 3-4 anos, 5~6 anos, 7-8 anos para indicar 3 a 4 anos, 5 a 6 anos, 7 a 8 anos. A notacio é de intervalo aberto, mas a idéia transmitida é a de intervalo fechado em ambas as extremi- dades! © ntimero escolhido de classes fica geralmente entre 6 e 8, podendo oscilar entre 5 e 20, dependendo do detalhamento desejado pelo investigador e do tama- nho da amostra. Nas tabelas de grupamento por intervalo de classe, além de f e fr pode-se calcular F e Fr, do mesmo modo como foi explicado para tabelas de grupamento simples. DISTRIBUIGOES DE FREQUENCIAS: GRAFICOS A representagio gréfica é bastante interessante, porque dé uma visio mais ime- diata de como se distribuem os individuos nos diferentes valores da varidvel. Nas Publicagdes, os gréficos devem ser chamados de figuras. 0 titulo do grafico deve ser claro, para evitar que 0 leitor volte ao texto para entender a que se refere, sendo colocado ao pé do desenho, ao contrério da tabela que tem o titulo colocado na stia parte superior. Histograma Ohistograma é o grafico mais utilizado para varidveis continuas. Consiste de uma sucessao de retdngulos cont{guos, cuja base € o intervalo de classe, e a altura, a freqiiéncia relativa em cada classe dividida por h, a amplitude do intervalo de classe. Se as classes forem todas de igual amplitude, nao é necessdrio realizar a divisdo. No final, tem-se uma figura geométrica, com area total considerada como Bioestatistica 23 100% ow 1 (a soma de todas as freqiién- cias relativas). A Figura 1.1 apresenta 0 histograma relativo ao peso corporal de estudantes do sexo feminino da Uni- versidade Federal do Rio Grande do Sul (UFRGS), obtido no perfodo 1980- 1999. Ogiva A ogiva € 0 grafico adequado para re- presentar as freqiténcias acumuladas (F ou Fr). No eixo horizontal, so coloca- dos os intervalos de classe. No ponto — médio de cada intervalo, levanta-se uma perpendicular imaginéria e mar- ca-se um ponto na altura corresponden- 0 1 eco the aboervene em 286 sunas 6st tea freqiiéncia acumulada na classe. A FIGURA 1.1 Peso (kg) observado em 256 alunas da Universi ‘© @ ‘req umulada nace Sade Federal do Rio Grande do Sul seguit, 0s pontos so unidos por seg- mentos de reta, A ogiva é util para se identificar graficamente percentis de interesse, como, por exemplo, a mediana (percentil 50). ‘A Figura 1.2 apresenta a ogiva correspondente a dados de pressao arterial sistélica medida nas primeiras 24 horas de vida, em 96 recém-nascidos de Porto Alegre (Oliveira, 1991; Tabela 1.3). Desenhando uma linha auxiliar a partir da freqiiéncia acumulada igual a 50% até a ogiva e desta para o eixo horizontal, pode-se obter graficamente uma estimativa para a mediana da pressao arterial sistdlica nesses recém-nascidos (md: 65 mmHg). Diagrama de bastoes A representacio gréfica apropriada para varidveis quantitativas discretas é 0 dia- grama em bastio. Esse gréfico & parecido com um histograma, com uma impor- tante diferenca: as freqiiéncias para cada valor de x so agora representadas por TABELA 1.3 Presséo arterial sistélica medida em 96 recém-nascidos, nas primeiras 24 horas de vida PAS (mmHg) t Fr 55|—59 3 0,031 59 |—63 5 0,083 63 |—67 40 0,500 67|-71 24 0,750 71-75 15 0,906 75|—79 8 0,980 79|-83 1 1,000 Total 96 = Fonte: Oliveira, 1901 24 Sidia M. Callegari-Jacques 100 80 80 70 60 50 40 30 20 10 0 Freq. acumulada (%) FIGURA 1.2 Pressao arte- rial sistolica (mmHg) de 96 50 55 60 65 70 75 80 8 90 recém-nascidos, nas pri- meiras 24 horas de vida. Pressao arterial sistélica (mmHg) (Fonte: Oliveira, 1991) bastées e nao retangulos, pois inexiste continuidade entre os valores. A Tabela 1.4 ea Figura 1.3 apresentam um exemplo de representacéo tabular e gréfica para dados deste tipo. FREQUENCIA RELATIVA E PROBABILIDADE A freqiiéncia relativa (fr) de um valor estima a probabilidade verdadeira de ocor- réncia deste valor, que s6 € conhecida tendo-se informac&o quanto a todos os individuos da populagdo. A freqiiéncia relativa associada a x = 2 irmaos, confor- me mostra a Tabela 1.4, é de 0,35 na amostra estudada. Pode-se, entio, estimar em 35% a fracdo de universitérios que tém dois irmaos. Isto equivale também a dizer que se estima em 0,35 a probabilidade de que um universitdrio, selecionado ao acaso desta populacao, tenha dois irmaos. Estas conclusées sao validas se a amostra for representativa da populacao de estudantes da UFRGS. Por outro lado, quanto maior for uma amostra representa- tiva, melhor serd a idéia da ocorréncia relativa (f+) do valor x = 2 na populacio, isto é, melhor ser a estimativa da probabilidade verdadeira. O mesmo raciocinio vale para as tabelas de dados grupados por intervalo de classe (Tabela 1.2). A probabilidade estimada de que uma estudante tenha peso entre 45 e 50 kg é 0,14. 40 30 % 20 10 FIGURA 1.3. Numero de 0 irmaos relatados por 118 estudantes universitérios Oe 2 4 Sear eo) eee Numero de irmaos Bioestatistica 25 TABELA 1.4 Numero de irmaos relatados por 115 estudantes universitérios da UFRGS (dados obtidos entre 1986 ¢ 1992) N2 de irmaos f fr Fr o 8 0,07 0,07 1 20 0,17 0,24 2 40 0,35 0.59 3 26 0,23 0.82 4 9 0,08 0,90 5 7 0,08 0,96 6 4 0,03 0.99 7 0 0,00 0.99 8 0 0,00 0,99 9 1 0.01 4,00 No histograma relativo a estes dados (Figura 1.1), a drea do reténgulo refe- rente ao intervalo 45 |— 50 corresponde a 14% da area de todo o histograma (100%). Portanto, a area deste retangulo é a representacéio geométrica da proba- bilidade estimada de se encontrar valores entre 45 e 50 na populagaio. No grafico de bastées, a probabilidade estimada para cada valor é a altura do bastao.

Você também pode gostar