Você está na página 1de 18

Curso de Capacitao em Epidemiologia Bsica e Anlise da Situao de Sade Ministrio da Sade Secretaria de Vigilncia em Sade

NOES BSICAS DE ESTATSTICA


Gleice Margarete de Souza Conceio Airlane Pereira Alencar Gizelton Pereira Alencar

Estatstica Bsica Gleice, Airlane, Gizelton

NOES BSICAS DE ESTATSTICA

Anlise Exploratria de Dados Aps a coleta e a digitao de dados em um banco de dados apropriado, o prximo passo a anlise descritiva. Esta etapa fundamental, pois uma anlise descritiva detalhada permite ao pesquisador familiarizar-se com os dados, organiz-los e sintetiz-los de forma a obter as informaes necessrias do conjunto de dados para responder as questes que esto sendo investigadas. Tradicionalmente, a anlise descritiva limitava-se a calcular algumas medidas de posio e variabilidade. No final da dcada de 70, Tukey criou uma nova corrente de anlise. Utilizando principalmente tcnicas visuais, buscando descrever quase sem utilizar clculos, alguma forma de regularidade ou padro nos dados, em oposio aos resumos numricos. Nessa etapa, iremos produzir tabelas, grficos e medidas resumo que descrevam a tendncia dos dados, quantifiquem a sua variabilidade, permitam a deteco de estruturas interessantes e valores atpicos no banco de dados.

Tipo de variveis Cada uma das caractersticas de interesse observadas ou medidas durante o estudo denominada de varivel. As variveis que assumem valores numricos so denominadas quantitativas, enquanto que as no numricas, qualitativas. Uma varivel qualitativa quando seus valores so atributos ou qualidades (por ex: sexo, raa, classe social). Se tais variveis possuem uma ordenao natural, indicando intensidades crescentes de realizao, so classificadas de qualitativas ordinais (por ex: classe social - baixa, mdia ou alta). Se no for possvel estabelecer uma ordem natural entre seus valores, so classificadas como qualitativas nominais (por ex: Sexo - masculino ou feminino). As variveis quantitativas podem ser classificadas ainda em discretas ou contnuas. Variveis discretas podem ser vistas como resultantes de contagens, e assumem, em geral, valores inteiros (por ex: Nmero de filhos). Variveis contnuas podem assumir qualquer valor dentro de um intervalo especificado e so, geralmente, resultados de uma mensurao (por ex: Peso, em kg; Altura, em metros).

Descrio dos dados importante conhecer e saber construir os principais tipos de tabelas, grficos e medidas resumo para realizar uma boa anlise descritiva dos dados. Vamos tentar entender como os dados se distribuem, onde esto centrados, quais observaes so mais freqentes, como a variabilidade Estatstica Bsica Gleice, Airlane, Gizelton 2

etc., tendo em vista responder s principais questes do estudo. Cada ferramenta fornece um tipo de informao e o seu uso depende, em geral, do tipo de varivel que est sendo investigada. Grosso modo, utilizaremos as duas abordagens sugeridas no quadro:

varivel qualitativa* tabela de freqncias grfico de barras diagrama circular (pizza)

varivel quantitativa medidas de posio: mdia, mediana, moda medidas de disperso: varincia, desvio-padro, amplitude, coeficiente de variao tabela de freqncias histograma boxplot grfico de linha ou seqncia polgono de freqncias

*Esta abordagem tambm pode ser interessante para as variveis quantitativas discretas.

Tabela de freqncias Como o nome indica, conter os valores da varivel e suas respectivas contagens, as quais so denominadas freqncias absolutas ou simplesmente, freqncias. No caso de variveis qualitativas ou quantitativas discretas, a tabela de freqncia consiste em listar os valores possveis da varivel, numricos ou no, e fazer a contagem na tabela de dados brutos do nmero de suas ocorrncias. A freqncia do valor i ser representada por ni , a freqncia total por n e a freqncia relativa por fi = n i /n. Para variveis cujos valores possuem ordenao natural (qualitativas ordinais e quantitativas em geral), faz sentido incluirmos tambm uma coluna contendo as freqncias acumuladas f ac, obtidas pela soma das freqncias de todos os valores da varivel, menores ou iguais ao valor considerado. No caso das variveis quantitativas contnuas, que podem assumir infinitos valores diferentes, invivel construir a tabela de freqncia nos mesmos moldes do caso anterior, pois obteramos praticamente os valores originais da tabela de dados brutos. Para resolver este problema, determinamos classes ou faixas de valores e contamos o nmero de ocorrncias em cada faixa. Por ex., no caso da varivel peso de adultos, poderamos adotar as seguintes faixas: 30 | 40 kg, 40 | 50 kg, 50 | 60, 60 | 70, e assim por diante. Apesar de no adotarmos nenhuma regra formal para estabelecer as faixas, procuraremos utilizar, em geral, de 5 a 8 faixas com mesma amplitude. Eventualmente, faixas de tamanho desigual podem ser convenientes para representar valores nas extremidades da tabela.

Estatstica Bsica Gleice, Airlane, Gizelton

Exs.: Nmero e Proporo (%) de bitos, segundo regies. Brasil, 1996 e 1999. Regio n % Norte Nordeste Sudeste Sul Centro-Oeste BRASIL 16117 69811 170050 48921 21830 326729 4,93 21,37 52,05 14,97 6,68 100,00

Nmero e Proporo (%) de bitos, segundo sexo e regies. Brasil, 1996 e 1999. masculino Regio Norte Nordeste Sudeste Sul Centro-Oeste BRASIL n 10857 46242 118774 33113 14958 223944 % 4,85 20,65 53,04 14,79 6,68 100,00 n 5260 23569 51276 15808 6872 102785 feminino % 5,12 22,93 49,89 15,38 6,69 100,00

Grfico de barras Para construir um grfico de barras, representamos os valores da varivel no eixo das abscissas e suas as freqncias ou porcentagens no eixo das ordenadas. Para cada valor da varivel desenhamos uma barra com altura correspondendo sua freqncia ou porcentagem. Este tipo de grfico interessante para as variveis qualitativas ordinais ou quantitativas discretas, pois permite investigar a presena de tendncia nos dados. Ex.:

Estatstica Bsica Gleice, Airlane, Gizelton

Proporo (%) de bitos, segundo sexo e regies. Brasil, 1996 e 1999.


60.00

50.00

40.00

30.00

20.00

10.00

0.00 Norte Nordeste Sudeste regies masculino feminino Sul Centro-Oeste

Diagrama Circular Para construir um diagrama circular ou grfico de pizza, repartimos um disco em setores circulares correspondentes s porcentagens de cada valor (calculadas multiplicando-se a freqncia relativa por 100). Este tipo de grfico adapta-se muito bem para as variveis qualitativas nominais. Ex.:

Proporo (%) de internaes de homens adultos, segundo motivos de hospitalizao. Regio Centro-Oeste, 1999.

Leses e envenenamentos

Aparelho circulatrio

Aparelho digestivo

Aparelho respiratrio

Demais

Estatstica Bsica Gleice, Airlane, Gizelton

Histograma O histograma consiste em retngulos contguos com base nas faixas de valores da varivel e com rea igual freqncia relativa da respectiva faixa. Desta forma, a altura de cada retngulo denominada densidade de freqncia ou simplesmente densidade definida pelo quociente da rea pela amplitude da faixa. Alguns autores utilizam a freqncia absoluta ou a porcentagem na construo do histograma, o que pode ocasionar distores (e, conseqentemente, ms interpretaes) quando amplitudes diferentes so utilizadas nas faixas. Ex.:

Medidas de posio (tendncia central) So medidas que visam localizar o centro de um conjunto de dados, isto , identificar um valor em torno do qual os dados tendem a se agrupar. As medidas de posio ou de tendncia central mais utilizadas so: mdia aritmtica, mediana e moda. mdia aritmtica: a soma de todas as observaes dividida pelo nmero de observaes. Ex.: mdia aritmtica de 3, 4, 7, 8 e 8.

x=

3 + 4 + 7 + 8 +8 30 x= x=6 5 5

mediana: valor que ocupa a posio central dos dados ordenados; o valor que deixa metade dos dados abaixo e metade acima dele. Se o nmero de observaes for par, a mediana ser a mdia aritmtica dos dois valores centrais. Ex.: mediana de a) 3, 4, 7, 8 e 8 ? Md=7 b) 3, 4, 7, 8, 8 e 9 ? Md =

7 +8 15 Md = Md = 7,5 2 2

moda: o valor mais freqente no conjunto de dados. Estatstica Bsica Gleice, Airlane, Gizelton 6

Ex.: Nmero de filhos por funcionrio de uma certa empresa: No de filhos Freqncia 0 4 1 5 2 7 3 3 5 1 Total 20

Medidas de disperso As medidas de tendncia central fornecem informaes valiosas mas, em geral, no so suficientes para descrever e discriminar diferentes conjuntos de dados. As medidas de disperso ou variabilidade permitem visualizar a maneira como os dados espalham-se (ou concentram-se) em torno do valor central. Para mensurarmos esta variabilidade podemos utilizar as seguintes estatsticas: amplitude total; distncia interquartlica; desvio mdio; varincia; desvio padro e coeficiente de variao. Amplitude total: a diferena entre o maior e o menor valor do conjunto de dados. Ex.: dados: 3, 4, 7, 8 e 8. amplitude total = 8 3 = 5 Distncia interquartlica: a diferena entre o terceiro e o primeiro quartil de um conjunto de dados. O primeiro quartil o valor que deixa um quarto dos valores abaixo e trs quartos acima dele. O terceiro quartil o valor que deixa trs quartos dos dados abaixo e um quarto acima dele. O segundo quartil a mediana. (O primeiro e o terceiro quartis fazem o mesmo que a mediana para as duas metades demarcadas pela mediana.) Ex.: quando se discutir o boxplot. Desvio mdio: a diferena entre o valor observado e a medida de tendncia central do conjunto de dados. Varincia: uma medida que expressa um desvio quadrtico mdio do conjunto de dados, e sua unidade o quadrado da unidade dos dados.

s2 =

(x
i =1

x )2

n 1

Desvio Padro: raiz quadrada da varincia e sua unidade de medida a mesma que a do conjunto de dados.

s = s2
Coeficiente de variao: uma medida de variabilidade relativa, definida como a razo percentual entre o desvio padro e a mdia, e assim sendo uma medida adimensional expressa em percentual.

cv =

s x

Estatstica Bsica Gleice, Airlane, Gizelton

Boxplot Tanto a mdia como o desvio padro podem no ser medidas adequadas para representar um conjunto de valores, uma vez que so afetados, de forma exagerada, por valores extremos. Alm disso, apenas com estas duas medidas no temos idia da assimetria da distribuio dos valores. Para solucionar esses problemas, podemos utilizar o Boxplot. Para constru-lo, desenhamos uma "caixa" com o nvel superior dado pelo terceiro quartil (Q3 ) e o nvel inferior pelo primeiro quartil (Q1 ). A mediana (Q2 ) representada por um trao no interior da caixa e segmentos de reta so colocados da caixa at os valores mximo e mnimo, que no sejam observaes discrepantes. O critrio para decidir se uma observao discrepante pode variar; por ora, chamaremos de discrepante os valores maiores do que Q3 +1.5*(Q3 -Q1 ) ou menores do que Q1 -1.5*(Q3-Q1 ).

observaes extremas ou outliers (y) Q3 +1.5* (Q3-Q1) maior valor Q3 Q2 (mediana) Q1 menor valor Q1 -1.5* (Q3-Q1)

O Boxplot fornece informaes sobre posio, disperso, assimetria, caudas e valores discrepantes.

Grfico de linha ou seqncia Adequados para apresentar observaes medidas ao longo do tempo, enfatizando sua tendncia ou periodicidade. Ex.:

Estatstica Bsica Gleice, Airlane, Gizelton

Taxa de fecundidade total. Brasil, 1970 a 2000


7

4 % 3 2 1 0 1970 Fonte: IBGE. 1980 anos 1990 2000

Polgono de freqncias Semelhante ao histograma, mas construdo a partir dos pontos mdios das classes. Ex.:
Distribuio de recm-nascidos acometidos de sndrome de desconforto idioptico grave segundo peso ao nascer (g)
16 14 12 10 nmero 8 6 4 2 0 0 500 1000 1500 2000 peso (g) 2500 3000 3500 4000 4500
Fonte: Hand DJ et al. 1994.

Grfico de ogiva Apresenta uma distribuio de freqncias acumuladas, utiliza uma poligonal ascendente utilizando os pontos extremos. Ex.:

Estatstica Bsica Gleice, Airlane, Gizelton

Distribuio de mulheres idosas segundo a altura


100

80

% acumulado

60

40

20

0 140 145 150 155 160 165 170 175 180 185
Fonte: Hand DJ et al. 1994.

altura (cm)

Diagrama de disperso Adequado para descrever o comportamento conjunto de duas variveis quantitativas. Cada ponto do grfico representa um par de valores observados. Ex:

3.6 3.4 3.2 Volume (l) 3.0 2.8 2.6 2.4 2.2 50 60 70 Peso (Kg) 80 90 100

Estatstica Bsica Gleice, Airlane, Gizelton

10

BIBLIOGRAFIA BSICA

BUSSAB WO, MORETTIN PA (2002). Estatstica Bsica. 5 ed. So Paulo: Saraiva Editora. CALLEGARI-JACQUES SM (2003). Bioestastica princpios e aplicaes. Porto Alegre: Artmed. 255p. MAGALHES MN, LIMA ACP (2004). Noes de probabilidade e estatstica. 6 ed. So Paulo: Edusp. 392 p. SOARES JF, SIQUEIRA AL (1999). Introduo estatstica mdica. Belo Horizonte, UFMG: Coopmed Editora Mdica. 300p.

Estatstica Bsica Gleice, Airlane, Gizelton

11

Exerccios Um questionrio foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informaes: Id: Sexo: Alt: Peso: identificao do aluno F se feminino, M se masculino altura em metros peso em quilogramas

Turma: turma a que o aluno foi colocado (A ou B) Idade: idade, em anos

Filhos: nmero de filhos na famlia Fuma: hbito de fumar, sim ou no Toler: tolerncia ao cigarro: (I) Indiferente, (P) Incomoda pouco e (M) Incomoda muito Exerc: horas de atividade fsica, por semana Cine: nmero de vezes que vai ao cinema, por semana opinio a respeito das salas de cinema na cidade: OpCine: TV :

(B) regular a boa e (M) muito boa horas gastas assistindo TV, por semana (R) ruim, (M) mdia, (B) boa e (N) no sabe O conjunto de informaes disponveis, aps a tabulao do questionrio ou pesquisa de campo, denominado tabela de dados brutos e contm os dados da maneira que foram coletados inicialmente. Os valores obtidos para cada uma dessas informaes esto apresentados na Tabela 1.1. OpTV: opinio a respeito da qualidade da programao na TV:

Estatstica Bsica Gleice, Airlane, Gizelton

12

Tabela 1.1. Informaes de questionrio estudantil dados brutos Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Turma Sexo Idade Alt Peso Filhos Fuma Toler Exerc Cine OpCine TV OpTV A F 17 1,60 60,5 2 NAO P 0 1 B 16 R A F 18 1,69 55,0 1 NAO M 0 1 B 7 R A M 18 1,85 72,8 2 NAO P 5 2 M 15 R A M 25 1,85 80,9 2 NAO P 5 2 B 20 R A F 19 1,58 55,0 1 NAO M 2 2 B 5 R A M 19 1,76 60,0 3 NAO M 2 1 B 2 R A F 20 1,60 58,0 1 NAO P 3 1 B 7 R A F 18 1,64 47,0 1 SIM I 2 2 M 10 R A F 18 1,62 57,8 3 NAO M 3 3 M 12 R A F 17 1,64 58,0 2 NAO M 2 2 M 10 R A F 18 1,72 70,0 1 SIM I 10 2 B 8 N A F 18 1,66 54,0 3 NAO M 0 2 B 0 R A F 21 1,70 58,0 2 NAO M 6 1 M 30 R A M 19 1,78 68,5 1 SIM I 5 1 M 2 N A F 18 1,65 63,5 1 NAO I 4 1 B 10 R A F 19 1,63 47,4 3 NAO P 0 1 B 18 R A F 17 1,82 66,0 1 NAO P 3 1 B 10 N A M 18 1,80 85,2 2 NAO P 3 4 B 10 R A F 20 1,60 54,5 1 NAO P 3 2 B 5 R A F 18 1,68 52,5 3 NAO M 7 2 B 14 M A F 21 1,70 60,0 2 NAO P 8 2 B 5 R A F 18 1,65 58,5 1 NAO M 0 3 B 5 R A F 18 1,57 49,2 1 SIM I 5 4 B 10 R A F 20 1,55 48,0 1 SIM I 0 1 M 28 R A F 20 1,69 51,6 2 NAO P 8 5 M 4 N A F 19 1,54 57,0 2 NAO I 6 2 B 5 R B F 23 1,62 63,0 2 NAO M 8 2 M 5 R B F 18 1,62 52,0 1 NAO P 1 1 M 10 R B F 18 1,57 49,0 2 NAO P 3 1 B 12 R B F 25 1,65 59,0 4 NAO M 1 2 M 2 R B F 18 1,61 52,0 1 NAO P 2 2 M 6 N B M 17 1,71 73,0 1 NAO P 1 1 B 20 R B F 17 1,65 56,0 3 NAO M 2 1 B 14 R B F 17 1,67 58,0 1 NAO M 4 2 B 10 R B M 18 1,73 87,0 1 NAO M 7 1 B 25 B B F 18 1,60 47,0 1 NAO P 5 1 M 14 R B M 17 1,70 95,0 1 NAO P 10 2 M 12 N B M 21 1,85 84,0 1 SIM I 6 4 B 10 R B F 18 1,70 60,0 1 NAO P 5 2 B 12 R B M 18 1,73 73,0 1 NAO M 4 1 B 2 R B F 17 1,70 55,0 1 NAO I 5 4 B 10 B B F 23 1,45 44,0 2 NAO M 2 2 B 25 R B M 24 1,76 75,0 2 NAO I 7 0 M 14 N B F 18 1,68 55,0 1 NAO P 5 1 B 8 R B F 18 1,55 49,0 1 NAO M 0 1 M 10 R B F 19 1,70 50,0 7 NAO M 0 1 B 8 R B F 19 1,55 54,5 2 NAO M 4 3 B 3 R B F 18 1,60 50,0 1 NAO P 2 1 B 5 R B M 17 1,80 71,0 1 NAO P 7 0 M 14 R B M 18 1,83 86,0 1 NAO P 7 0 M 20 B

Estatstica Bsica Gleice, Airlane, Gizelton

13

1. Construa a tabela de freqncias para a varivel sexo e interprete. Sexo F M total n=50 ni fi ni = freqncia do valor i fi = ni / n

2. Construa a tabela de freqncias para as demais variveis qualitativas e interprete.

3. Calcule medidas descritivas (de posio e disperso) para a idade dos estudantes do sexo masculino. Interprete.

Estatstica Bsica Gleice, Airlane, Gizelton

14

4. Construa o boxplot da varivel peso para os dois sexos. Interprete. Feminino Ordem 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Peso 70,0 66,0 63,5 63,0 60,5 60,0 60,0 59,0 58,5 58,0 58,0 58,0 58,0 57,8 57,0 56,0 55,0 55,0 55,0 55,0 54,5 54,5 54,0 52,5 52,0 52,0 51,6 50,0 50,0 49,2 49,0 49,0 48,0 47,4 47,0 47,0 44,0 Masculino Ordem 13 12 11 10 9 8 7 6 5 4 3 2 1 Peso 95,0 87,0 86,0 85,2 84,0 80,9 75,0 73,0 73,0 72,8 71,0 68,5 60,0

Estatstica Bsica Gleice, Airlane, Gizelton

15

5. Uma nova rao foi fornecida a sunos recm desmamados e deseja -se avaliar sua eficincia. A rao tradicional dava um ganho de peso ao redor de 3,5 kg em um ms. A seguir, apresentamos os dados referentes ao ganho, em quilos, para essa nova rao, aplicada durante um ms em 200 animais nas condies acima. a. Construa o histograma b. Determine o 1 , 2 e 3 quartis. c. Voc acha que a nova rao mais eficiente que a tradicional? Justifique. Ganho de peso (kg) 1.0+ - - - 2.0 2.0+ - - - 3.0 3.0+ - - - 4.0 4.0+ - - - 5.0 5.0+ - - - 6.0 6.0+ - - - 7.0 Total 45 83 52 15 4 1 ni fi di

Estatstica Bsica Gleice, Airlane, Gizelton

16

6. Como parte de uma avaliao mdica em uma empresa, foi medida a freqncia cardaca dos funcionrios de um determinado setor.

Freqncia cardaca (bpm) 60+ - - - 65 65+ - - - 70 70+ - - - 85 75+ - - - 80 80+ - - - 85 85+ - - - 90 90+ - - - 95 95+ - - - 100 Total

ni 11 35 68 20 12 10 1 3

fi

di

a. Obtenha o histograma. b. Freqncias cardacas que estejam abaixo de 62 ou acima de 92 requerem acompanhamento mdico. Qual a porcentagem de funcionrios nestas condies? c. Uma freqncia ao redor de 72 batidas por minuto considerada padro. Voc acha que de modo geral esses funcionrios se encaixam nesse caso?

Estatstica Bsica Gleice, Airlane, Gizelton

17

8. O que acontece com a mdia e o desvio padro: a. Se um mesmo nmero somado a todos os elementos de um conjunto de dados? b. Se cada elemento de um conjunto de dados for multiplicado por um valor constante.

9. Comente as seguintes afirmativas: c. Sempre a metade dos dados est abaixo da mdia. d. A mdia o valor tpico de um conjunto de dados. e. Enquanto tivermos alunos com rendimento abaixo da mdia, no poderemos descansar.

Estatstica Bsica Gleice, Airlane, Gizelton

18

Você também pode gostar