Escolar Documentos
Profissional Documentos
Cultura Documentos
Anlise Exploratria de Dados Aps a coleta e a digitao de dados em um banco de dados apropriado, o prximo passo a anlise descritiva. Esta etapa fundamental, pois uma anlise descritiva detalhada permite ao pesquisador familiarizar-se com os dados, organiz-los e sintetiz-los de forma a obter as informaes necessrias do conjunto de dados para responder as questes que esto sendo investigadas. Tradicionalmente, a anlise descritiva limitava-se a calcular algumas medidas de posio e variabilidade. No final da dcada de 70, Tukey criou uma nova corrente de anlise. Utilizando principalmente tcnicas visuais, buscando descrever quase sem utilizar clculos, alguma forma de regularidade ou padro nos dados, em oposio aos resumos numricos. Nessa etapa, iremos produzir tabelas, grficos e medidas resumo que descrevam a tendncia dos dados, quantifiquem a sua variabilidade, permitam a deteco de estruturas interessantes e valores atpicos no banco de dados.
Tipo de variveis Cada uma das caractersticas de interesse observadas ou medidas durante o estudo denominada de varivel. As variveis que assumem valores numricos so denominadas quantitativas, enquanto que as no numricas, qualitativas. Uma varivel qualitativa quando seus valores so atributos ou qualidades (por ex: sexo, raa, classe social). Se tais variveis possuem uma ordenao natural, indicando intensidades crescentes de realizao, so classificadas de qualitativas ordinais (por ex: classe social - baixa, mdia ou alta). Se no for possvel estabelecer uma ordem natural entre seus valores, so classificadas como qualitativas nominais (por ex: Sexo - masculino ou feminino). As variveis quantitativas podem ser classificadas ainda em discretas ou contnuas. Variveis discretas podem ser vistas como resultantes de contagens, e assumem, em geral, valores inteiros (por ex: Nmero de filhos). Variveis contnuas podem assumir qualquer valor dentro de um intervalo especificado e so, geralmente, resultados de uma mensurao (por ex: Peso, em kg; Altura, em metros).
Descrio dos dados importante conhecer e saber construir os principais tipos de tabelas, grficos e medidas resumo para realizar uma boa anlise descritiva dos dados. Vamos tentar entender como os dados se distribuem, onde esto centrados, quais observaes so mais freqentes, como a variabilidade Estatstica Bsica Gleice, Airlane, Gizelton 2
etc., tendo em vista responder s principais questes do estudo. Cada ferramenta fornece um tipo de informao e o seu uso depende, em geral, do tipo de varivel que est sendo investigada. Grosso modo, utilizaremos as duas abordagens sugeridas no quadro:
varivel quantitativa medidas de posio: mdia, mediana, moda medidas de disperso: varincia, desvio-padro, amplitude, coeficiente de variao tabela de freqncias histograma boxplot grfico de linha ou seqncia polgono de freqncias
*Esta abordagem tambm pode ser interessante para as variveis quantitativas discretas.
Tabela de freqncias Como o nome indica, conter os valores da varivel e suas respectivas contagens, as quais so denominadas freqncias absolutas ou simplesmente, freqncias. No caso de variveis qualitativas ou quantitativas discretas, a tabela de freqncia consiste em listar os valores possveis da varivel, numricos ou no, e fazer a contagem na tabela de dados brutos do nmero de suas ocorrncias. A freqncia do valor i ser representada por ni , a freqncia total por n e a freqncia relativa por fi = n i /n. Para variveis cujos valores possuem ordenao natural (qualitativas ordinais e quantitativas em geral), faz sentido incluirmos tambm uma coluna contendo as freqncias acumuladas f ac, obtidas pela soma das freqncias de todos os valores da varivel, menores ou iguais ao valor considerado. No caso das variveis quantitativas contnuas, que podem assumir infinitos valores diferentes, invivel construir a tabela de freqncia nos mesmos moldes do caso anterior, pois obteramos praticamente os valores originais da tabela de dados brutos. Para resolver este problema, determinamos classes ou faixas de valores e contamos o nmero de ocorrncias em cada faixa. Por ex., no caso da varivel peso de adultos, poderamos adotar as seguintes faixas: 30 | 40 kg, 40 | 50 kg, 50 | 60, 60 | 70, e assim por diante. Apesar de no adotarmos nenhuma regra formal para estabelecer as faixas, procuraremos utilizar, em geral, de 5 a 8 faixas com mesma amplitude. Eventualmente, faixas de tamanho desigual podem ser convenientes para representar valores nas extremidades da tabela.
Exs.: Nmero e Proporo (%) de bitos, segundo regies. Brasil, 1996 e 1999. Regio n % Norte Nordeste Sudeste Sul Centro-Oeste BRASIL 16117 69811 170050 48921 21830 326729 4,93 21,37 52,05 14,97 6,68 100,00
Nmero e Proporo (%) de bitos, segundo sexo e regies. Brasil, 1996 e 1999. masculino Regio Norte Nordeste Sudeste Sul Centro-Oeste BRASIL n 10857 46242 118774 33113 14958 223944 % 4,85 20,65 53,04 14,79 6,68 100,00 n 5260 23569 51276 15808 6872 102785 feminino % 5,12 22,93 49,89 15,38 6,69 100,00
Grfico de barras Para construir um grfico de barras , representamos os valores da varivel no eixo das abscissas e suas as freqncias ou porcentagens no eixo das ordenadas. Para cada valor da varivel desenhamos uma barra com altura correspondendo sua freqncia ou porcentagem. Este tipo de grfico interessante para as variveis qualitativas ordinais ou quantitativas discretas, pois permite investigar a presena de tendncia nos dados. Ex.:
50.00
40.00
30.00
20.00
10.00
Diagrama Circular Para construir um diagrama circular ou grfico de pizza, repartimos um disco em setores circulares correspondentes s porcentagens de cada valor (calculadas multiplicando-se a freqncia relativa por 100). Este tipo de grfico adapta-se muito bem para as variveis qualitativas nominais. Ex.:
Proporo (%) de internaes de homens adultos, segundo motivos de hospitalizao. Regio Centro-Oeste, 1999.
Leses e envenenamentos
Aparelho circulatrio
Aparelho digestivo
Aparelho respiratrio
Demais
Histograma O histograma consiste em retngulos contguos com base nas faixas de valores da varivel e com rea igual freqncia relativa da respectiva faixa. Desta forma, a altura de cada retngulo denominada densidade de freqncia ou simplesmente densidade definida pelo quociente da rea pela amplitude da faixa. Alguns autores utilizam a freqncia absoluta ou a porcentagem na construo do histograma, o que pode ocasionar distores (e, conseqentemente, ms interpretaes) quando amplitudes diferentes so utilizadas nas faixas. Ex.:
Medidas de posio (tendncia central) So medidas que visam localizar o centro de um conjunto de dados, isto , identificar um valor em torno do qual os dados tendem a se agrupar. As medidas de posio ou de tendncia central mais utilizadas so: mdia aritmtica, mediana e moda. mdia aritmtica : a soma de todas as observaes dividida pelo nmero de observaes. Ex.: mdia aritmtica de 3, 4, 7, 8 e 8.
x=
3 + 4 + 7 + 8 +8 30 x= x=6 5 5
mediana: valor que ocupa a posio central dos dados ordenados; o valor que deixa metade dos dados abaixo e metade acima dele. Se o nmero de observaes for par, a mediana ser a mdia aritmtica dos dois valores centrais. Ex.: mediana de a) 3, 4, 7, 8 e 8 ? Md=7 b) 3, 4, 7, 8, 8 e 9 ? Md =
7 +8 15 Md = Md = 7,5 2 2
moda: o valor mais freqente no conjunto de dados. Estatstica Bsica Gleice, Airlane, Gizelton 6
Ex.: Nmero de filhos por funcionrio de uma certa empresa: No de filhos Freqncia 0 4 1 5 2 7 3 3 5 1 Total 20
Medidas de disperso As medidas de tendncia central fornecem informaes valiosas mas, em geral, no so suficientes para descrever e discriminar diferentes conjuntos de dados. As medidas de disperso ou variabilidade permitem visualizar a maneira como os dados espalham-se (ou concentram-se) em torno do valor central. Para mensurarmos esta variabilidade podemos utilizar as seguintes estatsticas: amplitude total; distncia interquartlica; desvio mdio; varincia; desvio padro e coeficiente de variao. Amplitude total: a diferena entre o maior e o menor valor do conjunto de dados. Ex.: dados: 3, 4, 7, 8 e 8. amplitude total = 8 3 = 5 Distncia interquartlica: a diferena entre o terceiro e o primeiro quartil de um conjunto de dados. O primeiro quartil o valor que deixa um quarto dos valores abaixo e trs quartos acima dele. O terceiro quartil o valor que deixa trs quartos dos dados abaixo e um quarto acima dele. O segundo quartil a mediana. (O primeiro e o terceiro quartis fazem o mesmo que a mediana para as duas metades demarcadas pela mediana.) Ex.: quando se discutir o boxplot. Desvio mdio: a diferena entre o valor observado e a medida de tendncia central do conjunto de dados. Varincia: uma medida que expressa um desvio quadrtico mdio do conjunto de dados, e sua unidade o quadrado da unidade dos dados.
s2 =
(x
i =1
x )2
n 1
Desvio Padro: raiz quadrada da varincia e sua unidade de medida a mesma que a do conjunto de dados.
s = s2
Coeficiente de variao : uma medida de variabilidade relativa, definida como a razo percentual entre o desvio padro e a mdia, e assim sendo uma medida adimensional expressa em percentual.
cv =
s x
Boxplot Tanto a mdia como o desvio padro podem no ser medidas adequadas para representar um conjunto de valores, uma vez que so afetados, de forma exagerada, por valores extremos. Alm disso, apenas com estas duas medidas no temos idia da assimetria da distribuio dos valores. Para solucionar esses problemas, podemos utilizar o Boxplot. Para constru-lo, desenhamos uma "caixa" com o nvel superior dado pelo terceiro quartil (Q3 ) e o nvel inferior pelo primeiro quartil (Q1 ). A mediana (Q2 ) representada por um trao no interior da caixa e segmentos de reta so colocados da caixa at os valores mximo e mnimo, que no sejam observaes discrepantes. O critrio para decidir se uma observao discrepante pode variar; por ora, chamaremos de discrepante os valores maiores do que Q3 +1.5*(Q3 -Q1 ) ou menores do que Q1 -1.5*(Q3-Q1 ).
observaes extremas ou outliers (y) Q3 +1.5* (Q3-Q1) maior valor Q3 Q2 (mediana) Q1 menor valor Q1 -1.5* (Q3-Q1)
O Boxplot fornece informaes sobre posio, disperso, assimetria, caudas e valores discrepantes.
Grfico de linha ou seqncia Adequados para apresentar observaes medidas ao longo do tempo, enfatizando sua tendncia ou periodicidade. Ex.:
Polgono de freqncias Semelhante ao histograma, mas construdo a partir dos pontos mdios das classes. Ex.:
Distribuio de recm-nascidos acometidos de sndrome de desconforto idioptico grave segundo peso ao nascer (g)
16 14 12 10 nmero 8 6 4 2 0 0 500 1000 1500 2000 peso (g) 2500 3000 3500 4000 4500
Fonte: Hand DJ et al. 1994.
Grfico de ogiva Apresenta uma distribuio de freqncias acumuladas, utiliza uma poligonal ascendente utilizando os pontos extremos. Ex.:
80
% acumulado
60
40
20
0 140 145 150 155 160 165 170 175 180 185
Fonte: Hand DJ et al. 1994.
altura (cm)
Diagrama de disperso Adequado para descrever o comportamento conjunto de duas variveis quantitativas. Cada ponto do grfico representa um par de valores observados. Ex:
3.6 3.4 3.2 Volume (l) 3.0 2.8 2.6 2.4 2.2 50 60 70 Peso (Kg) 80 90 100
10
BIBLIOGRAFIA BSICA
BUSSAB WO, MORETTIN PA (2002). Estatstica Bsica. 5 ed. So Paulo: Saraiva Editora. CALLEGARI-JACQUES SM (2003). Bioestastica princpios e aplicaes. Porto Alegre: Artmed. 255p. MAGALHES MN, LIMA ACP (2004). Noes de probabilidade e estatstica. 6 ed. So Paulo: Edusp. 392 p. SOARES JF, SIQUEIRA AL (1999). Introduo estatstica mdica. Belo Horizonte, UFMG: Coopmed Editora Mdica. 300p.
11
Exerccios Um questionrio foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informaes: Id: Sexo: Alt: Peso: identificao do aluno F se feminino, M se masculino altura em metros peso em quilogramas
Filhos: nmero de filhos na famlia Fuma: hbito de fumar, sim ou no Toler: tolerncia ao cigarro: (I) Indiferente, (P) Incomoda pouco e (M) Incomoda muito Exerc: horas de atividade fsica, por semana Cine: nmero de vezes que vai ao cinema, por semana opinio a respeito das salas de cinema na cidade: OpCine: TV :
(B) regular a boa e (M) muito boa horas gastas assistindo TV, por semana (R) ruim, (M) mdia, (B) boa e (N) no sabe O conjunto de informaes disponveis, aps a tabulao do questionrio ou pesquisa de campo, denominado tabela de dados brutos e contm os dados da maneira que foram coletados inicialmente. Os valores obtidos para cada uma dessas informaes esto apresentados na Tabela 1.1. OpTV: opinio a respeito da qualidade da programao na TV:
12
Tabela 1.1. Informaes de questionrio estudantil dados brutos Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Turma Sexo Idade Alt Peso Filhos Fuma Toler Exerc Cine OpCine TV OpTV A F 17 1,60 60,5 2 NAO P 0 1 B 16 R A F 18 1,69 55,0 1 NAO M 0 1 B 7 R A M 18 1,85 72,8 2 NAO P 5 2 M 15 R A M 25 1,85 80,9 2 NAO P 5 2 B 20 R A F 19 1,58 55,0 1 NAO M 2 2 B 5 R A M 19 1,76 60,0 3 NAO M 2 1 B 2 R A F 20 1,60 58,0 1 NAO P 3 1 B 7 R A F 18 1,64 47,0 1 SIM I 2 2 M 10 R A F 18 1,62 57,8 3 NAO M 3 3 M 12 R A F 17 1,64 58,0 2 NAO M 2 2 M 10 R A F 18 1,72 70,0 1 SIM I 10 2 B 8 N A F 18 1,66 54,0 3 NAO M 0 2 B 0 R A F 21 1,70 58,0 2 NAO M 6 1 M 30 R A M 19 1,78 68,5 1 SIM I 5 1 M 2 N A F 18 1,65 63,5 1 NAO I 4 1 B 10 R A F 19 1,63 47,4 3 NAO P 0 1 B 18 R A F 17 1,82 66,0 1 NAO P 3 1 B 10 N A M 18 1,80 85,2 2 NAO P 3 4 B 10 R A F 20 1,60 54,5 1 NAO P 3 2 B 5 R A F 18 1,68 52,5 3 NAO M 7 2 B 14 M A F 21 1,70 60,0 2 NAO P 8 2 B 5 R A F 18 1,65 58,5 1 NAO M 0 3 B 5 R A F 18 1,57 49,2 1 SIM I 5 4 B 10 R A F 20 1,55 48,0 1 SIM I 0 1 M 28 R A F 20 1,69 51,6 2 NAO P 8 5 M 4 N A F 19 1,54 57,0 2 NAO I 6 2 B 5 R B F 23 1,62 63,0 2 NAO M 8 2 M 5 R B F 18 1,62 52,0 1 NAO P 1 1 M 10 R B F 18 1,57 49,0 2 NAO P 3 1 B 12 R B F 25 1,65 59,0 4 NAO M 1 2 M 2 R B F 18 1,61 52,0 1 NAO P 2 2 M 6 N B M 17 1,71 73,0 1 NAO P 1 1 B 20 R B F 17 1,65 56,0 3 NAO M 2 1 B 14 R B F 17 1,67 58,0 1 NAO M 4 2 B 10 R B M 18 1,73 87,0 1 NAO M 7 1 B 25 B B F 18 1,60 47,0 1 NAO P 5 1 M 14 R B M 17 1,70 95,0 1 NAO P 10 2 M 12 N B M 21 1,85 84,0 1 SIM I 6 4 B 10 R B F 18 1,70 60,0 1 NAO P 5 2 B 12 R B M 18 1,73 73,0 1 NAO M 4 1 B 2 R B F 17 1,70 55,0 1 NAO I 5 4 B 10 B B F 23 1,45 44,0 2 NAO M 2 2 B 25 R B M 24 1,76 75,0 2 NAO I 7 0 M 14 N B F 18 1,68 55,0 1 NAO P 5 1 B 8 R B F 18 1,55 49,0 1 NAO M 0 1 M 10 R B F 19 1,70 50,0 7 NAO M 0 1 B 8 R B F 19 1,55 54,5 2 NAO M 4 3 B 3 R B F 18 1,60 50,0 1 NAO P 2 1 B 5 R B M 17 1,80 71,0 1 NAO P 7 0 M 14 R B M 18 1,83 86,0 1 NAO P 7 0 M 20 B
13
1. Construa a tabela de freqncias para a varivel sexo e interprete. Sexo F M total n=50 ni fi ni = freqncia do valor i fi = ni / n
3. Calcule medidas descritivas (de posio e disperso) para a idade dos estudantes do sexo masculino. Interprete.
14
4. Construa o boxplot da varivel peso para os dois sexos. Interprete. Feminino Ordem 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Peso 70,0 66,0 63,5 63,0 60,5 60,0 60,0 59,0 58,5 58,0 58,0 58,0 58,0 57,8 57,0 56,0 55,0 55,0 55,0 55,0 54,5 54,5 54,0 52,5 52,0 52,0 51,6 50,0 50,0 49,2 49,0 49,0 48,0 47,4 47,0 47,0 44,0 Masculino Ordem 13 12 11 10 9 8 7 6 5 4 3 2 1 Peso 95,0 87,0 86,0 85,2 84,0 80,9 75,0 73,0 73,0 72,8 71,0 68,5 60,0
15
5. Uma nova rao foi fornecida a sunos recm desmamados e deseja -se avaliar sua eficincia. A rao tradicional dava um ganho de peso ao redor de 3,5 kg em um ms. A seguir, apresentamos os dados referentes ao ganho, em quilos, para essa nova rao, aplicada durante um ms em 200 animais nas condies acima. a. Construa o histograma b. Determine o 1 , 2 e 3 quartis. c. Voc acha que a nova rao mais eficiente que a tradicional? Justifique. Ganho de peso (kg) 1.0+ - - - 2.0 2.0+ - - - 3.0 3.0+ - - - 4.0 4.0+ - - - 5.0 5.0+ - - - 6.0 6.0+ - - - 7.0 Total 45 83 52 15 4 1 ni fi di
16
6. Como parte de uma avaliao mdica em uma empresa, foi medida a freqncia cardaca dos funcionrios de um determinado setor.
Freqncia cardaca (bpm) 60+ - - - 65 65+ - - - 70 70+ - - - 85 75+ - - - 80 80+ - - - 85 85+ - - - 90 90+ - - - 95 95+ - - - 100 Total
ni 11 35 68 20 12 10 1 3
fi
di
a. Obtenha o histograma. b. Freqncias cardacas que estejam abaixo de 62 ou acima de 92 requerem acompanhamento mdico. Qual a porcentagem de funcionrios nestas condies? c. Uma freqncia ao redor de 72 batidas por minuto considerada padro. Voc acha que de modo geral esses funcionrios se encaixam nesse caso?
17
8. O que acontece com a mdia e o desvio padro: a. Se um mesmo nmero somado a todos os elementos de um conjunto de dados? b. Se cada elemento de um conjunto de dados for multiplicado por um valor constante.
9. Comente as seguintes afirmativas: c. Sempre a metade dos dados est abaixo da mdia. d. A mdia o valor tpico de um conjunto de dados. e. Enquanto tivermos alunos com rendimento abaixo da mdia, no poderemos descansar.
18