Escolar Documentos
Profissional Documentos
Cultura Documentos
Maro, 2012 c
1 / 60
Sumrio a
Introduo ca Estat stica: O que ? e Diviso da estat a stica Conceitos bsicos de estat a stica Populao e amostra ca Variveis a Anlise descritiva dos dados a Tabelas e Grcos a Medidas Descritivas Assimetria Anlise Bivariada a Associao entre duas variveis categricas ca a o Associao entre duas variveis numricas ca a e
2 / 60
3 / 60
A Estat stica est compreendida em duas partes: a Estat stica Descritiva: Rene um conjunto de tcnicas para u e sumarizar os dados (tabelas, grcos) e medidas descritivas que a permitem tirar muitas informaes contidas nos dados. co Estat stica Indutiva: Consiste em obter e generalizar concluses. Isto , inferir propriedades para o todo (populao) o e ca tratada atravs de tcnicas e mtodos com base na amostra. E e e e que se fundamentam na Teoria das Probabilidades.
4 / 60
A nalidade da pesquisa coletar dados para obter informaes. e co Dados: observaes de uma ou mais variveis. co a Varivel: aquilo que se deseja observar para se tirar algum tipo a de concluso, por exemplo, idade, sexo, peso. a Dados usualmente provem de uma amostra, a qual representa uma populao de interesse. ca
5 / 60
Populao: E o conjunto de indiv ca duos (ou objetos) que apresentam pelo menos uma caracter stica em comum, cujo comportamento deseja-se analisar ou inferir.
Exemplo: Estudo sobre a ocorrncia de sobrepeso em crianas e c de 7 a 12 anos no Munic de So Lu pio a s. Populao de estudo: crianas matriculadas em escolas. ca c
6 / 60
Variveis a
Varivel a caracter a e stica de interesse que medida em cada e elemento da amostra ou populao. ca As variveis podem ser numricas ou categricas. a e o Variveis numricas: caracter a e sticas que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numricos. e Variveis categricas: caracter a o sticas que no possuem valores a quantitativos, sendo denidas apenas por vrias categorias. a
7 / 60
Variveis Categricas a o
As variveis categricas (ou qualitativas) podem ser nomia o nais ou ordinais. Variveis categricas nominais: so representadas por categoa o a rias que no mantm necessariamente relao entre elas. a e ca Exemplos: Sexo, estado civil, tipo sangu neo, cor da pele, etc. Variveis categricas ordinais: apresentam ordenao de uma a o ca categoria em relao ` outra. ca a Exemplos: Grau de instruo (1o grau, 2o grau, grau superior), ca classe social (alta, mdia, baixa), presso sangu e a nea (baixa, normal, alta), etc.
8 / 60
Variveis Numricas a e
As variveis numricas (ou quantitativas) podem ser discrea e tas ou cont nuas. Variveis numricas discretas: apresentam valores inteiros. Frea e quentemente, resultam de contagem. Exemplos: Nmero de lhos, nmero de consultas mdicas em u u e um determinado per odo, nmero de leitos, etc. u Variveis numricas cont a e nuas: valores podem ser nmeros frau cionrios e a varivel pode apresentar qualquer valor pertena a cente ao conjunto dos nmeros reais. Geralmente, as variveis u a cont nuas so resultados de mensurao. a ca Exemplos: Altura, idade, peso, altura, presso sangu a nea, taxa de colesterol,etc.
9 / 60
A anlise descritiva consiste basicamente na organizao e desa ca crio dos dados. ca A organizao e apresentao de dados consiste em: ca ca
Tabelas de frequncias; e Grcos; a Medidas descritivas (por exemplo, mdia e desvio padro). e a
10 / 60
Tabelas de Frequncias e
Uma maneira de sintetizar os dados pela distribuio de free ca quncias que consiste na construo de uma tabela a partir dos e ca dados brutos. As tabelas de frequncias indicam cada valor distinto de uma e varivel, juntamente com uma contagem do nmero de vezes a u que esse valor ocorre. Esta contagem conhecida por frequncia e e simples ou absoluta. Juntamente com as freqncias simples, a tabela poder ainda ue a incluir:
Frequncias relativas e Frequncias acumuladas e Frequncias relativas acumuladas. e
11 / 60
Tipos de Frequncias e
Frequncia relativa: percentagem relativa ` frequncia sime a e ples. Frequncia acumulada: nmero de vezes que uma varivel e u a assume um valor inferior ou igual a esse valor. Frequncia relativa acumulada: percentagem relativa ` free a quncia acumulada. e
12 / 60
13 / 60
Tabela: Estado civil dos residentes em So Lu no per a s, odo de 10 de agosto a 31 de dezembro de 2005
Estado civil Solteiro Casado Separado Divorciado Vivo u Unio estvel a a Total Fonte: Dados Fict cios
14 / 60
Frequncias e 3 4 6 10 7 30
15 / 60
Em geral, as variveis cont a nuas assumem muitos valores distintos. Assim, costuma-se descrever as variveis cont a nuas por meio de tabelas de frequncias agrupadas em classes. e Para construo da tabela precisamos calcular: ca
i) Nmero de classes: u
k = 1 + 3, 3 log (n) , sendo n o tamanho da amostra.
16 / 60
Temos que
i) Nmero de classes: u
k = 1 + 3, 3 log (30) = 5, 87 6
17 / 60
Tabela: Tempo de coagulao (em minutos) de 30 provas de coagulao, ca ca encontrados em exames hematolgicos de pacientes do Hospital o Universitrio Materno Infantil. a Tempo 4 6 6 8 8 10 10 12 12 14 14 16 Total
Fonte:Fict cia.
Frequncias e 9 9 6 3 2 1 30
18 / 60
20 / 60
21 / 60
22 / 60
Tambm devemos calcular o limite inferior (LI ) e o limite sue perior (LS), os quais so dados por: a LI = Q1 1, 5(Q3 Q1 ) LS = Q3 + 1, 5(Q3 Q1 )
23 / 60
24 / 60
25 / 60
26 / 60
Medidas Descritivas
27 / 60
Servem para termos uma idia acerca dos valores mdios da e e varivel em estudo. a So usadas para sintetizar em um unico nmero os dados oba u servados. So exemplos de medidas de tendncia central: Mdia, Moda a e e e Mediana. A escolha de qual medida usar, depende...
28 / 60
Mdia aritmtica e e
A medida de tendncia central mais comumente usada para e descrever resumidamente um conjunto de dados. E denida como a soma das observaes dividida pelo nmero co u delas. Denotada por x . Sejam x1 , x2 , . . . , xn os n valores da varivel X , obtidos pelo a pesquisador. A mdia aritmtica denida por: e e e x= x1 + x2 + ... + xn n
29 / 60
Mdia aritmtica e e
Exemplo: Considere os dados relativos `s idades (em anos) de a onze pacientes: 10 12 11 17 21 18 16 17 20 15 27.
Determine a mdia de idade. e A mdia de idade ser dada por: e a x= 198 10 + 12 + 11 + ... + 27 = = 18 11 11
30 / 60
Mediana
Exemplo 1: Retornemos aos dados relativos `s idades (em anos) a de onze pacientes. Determine a idade mediana. 10 12 11 17 21 18 16 17 20 15 27.
Logo, a idade mediana neste caso 17 anos. e Acrescentando-se mais uma idade ao conjunto de dados, temse: 10 11 12 14 15 16 17 17 18 20 21 27.
Moda
Ao contrrio do que acontece com a mediana e a mdia, uma a e amostra pode possuir mais do que uma moda.
32 / 60
Moda
Exemplo: Considere os dados relativos `s idades (em anos) de a onze pacientes. Determine a idade modal. 10 12 11 17 21 18 16 17 20 15 27.
Temos que a idade modal igual a 17 anos, pois este valor se e repetiu em maior nmero de vezes. u
33 / 60
Mdia ou Mediana? e
Considere a idade (em meses) de 7 indiv duos em diferentes amostras (A e B).
A B 10 10 20 20 30 30 40 40 50 50 60 60 70 350 Total 280 560 Mdia e 40 80 Mediana 40 40
Medidas Separatrizes
Quartis
Decis
Percentis
35 / 60
Quartis
Os quartis dividem a base de dados em 4 partes. Precisamos portanto de 3 quartis para dividir a base de dados em quatro partes iguais. So representados pelo 1o quartil(Q1 ), 2o quartil(Q2 ) e 3o quartil(Q3 ) a quartil. O 2o (Q2 ) quartil indica que abaixo existem 50% da distribuio, ca logo, acima esto os outros 50% dos dados. a Observe que Q2 = mediana.
36 / 60
Vimos que a mediana igual 17 anos, que ser igual a Q2 . e a Temos agora {10, 11, 12, 15, 16} e {17, 18, 20, 21, 27} como sendo os dois grupos de valores iguais proporcionados pela mediana (Q2 ). Para o clculo do Q1 e Q3 basta calcular as medianas das partes a iguais provenientes da mediana. Portanto, temos que Q1 = 12 e Q3 = 20.
37 / 60
Decis
Precisamos de 9 decis para dividirmos a base de dados em 10 partes iguais. So representados por D1 , D2 , D3 , ... e D9 . a O 1o decil (D1 ) de um conjunto de dados informa que abaixo esto localizados 10% dos dados e, assim sendo, acima esto a a os 90% restantes. Os outros decis so interpretados de forma semelhante. a Observe que o 5o decil (D5 ) igual ao valor mediano (Md). e
38 / 60
Precentis ou centis
Denominamos percentis ou centis como sendo os noventa e nove valores que separam uma srie em 100 partes iguais. e Indicamos por P1 , P2 , ..., P99 . E evidente que P50 = Md, P25 = Q1 e P75 = Q3 . O clculo dos percentis segue a mesma tcnica do clculo da a e a mediana.
39 / 60
Medidas de Variabilidade
Medidas de tendncia central so descritores insucientes de e a uma amostra. So necessrias medidas que reitam a variao dentro de um a a ca conjunto de dados (medidas de variabilidade). Essas medidas sero pequenas se os dados forem prximos e a o grandes se eles estiverem muito espalhados. Alm disso, tais medidas devem permitir comparar amostras e de diferentes tamanhos e determinar se uma amostra mais e varivel (ou heterognea) que a outra. a e
40 / 60
Medidas de Variabilidade
Amplitude Total
Coeciente de variao ca
41 / 60
Amplitude total
E a diferena entre o maior e o menor valor observado. Isto , c e At = maior valor observado menor valor observado Vantagem: fcil de ser calculada. a Inconveniente: muito afetada pelos valores extremos, porque no seu clculo no so consideradas todas as observaes. a a a co
42 / 60
Varincia a
E um indicativo da disperso de um conjunto de dados em a relao ` mdia. ca a e A varincia populacional denotada por 2 . Usualmente 2 a e e desconhecida. A varincia amostral denotada por S 2 , sendo obtida da seguinte a e forma:
n n
(xi x )2 S2 =
i=1
xi2 n2 x =
i=1
n1
n1
Desvantagem: no expressa na unidade de medida dos dados a e originais. Por exemplo, caso estejamos avaliando com o peso corporal de indiv duos, tomados em kg, a varincia destes pesos a 2. expressa em kg e
43 / 60
Desvio padro a
Corresponde ` raiz quadrada da varincia, tendo portanto a a a mesma unidade da varivel que est sendo estudada. a a O desvio padro ser denotado por S. a a E a medida mais usada na comparao de diferenas entre gruca c pos. Fornece um nmero que permite especicar quo acima ou quo u a a abaixo da mdia est um determinado valor. e a Quanto maior o desvio-padro, maior a variabilidade dos dados. a
44 / 60
Coeciente de variao ca
Avalia a homogeneidade dos dados Vantagem: caracteriza a disperso dos dados em termos relaa tivos a seu valor mdio. e Quanto menor o valor, mais homogneo ser o conjunto de e a dados. o Coeciente de variao (CV) dado por: ca e S CV = X Como o CV uma medida que exprime a variabilidade relativa e ` mdia, algumas vezes, o CV ainda multiplicado por 100, a e e passando a ser expresso como percentagem. Para efeitos prticos, costuma-se considerar que o CV supea rior a 50% indica alto grau de disperso e, consequentemente, a pequena representatividade da mdia. e
45 / 60
Medidas de assimetria
A assimetria o quanto a distribuio de frequncia se desvia e ca e ou afasta da posio simtrica. ca e Podemos caracterizar as distribuies de frequncia em: co e
Assimetria nula ou simtrica e Assimtrica ` direita ou positiva e a Assimtrica ` esquerda ou negativa e a
O grau de assimetria de uma distribuio de frequncias pode ca e ser calculado pelo Coeciente de assimetria de Pearson.
46 / 60
Interpretao: ca
Se AS = 0, distribuio simtrica ( = Md = Mo). ca e x Se AS > 0, distribuio assimtrica positiva ( > Md > Mo). ca e x Se AS < 0, distribuio assimtrica negativa ( < Md < Mo). ca e x
47 / 60
48 / 60
Em uma amostra quase imposs observar simetria pura. Por e vel isso, o coeciente de assimetria assume valores quase sempre diferentes de zero. Desta forma, consideraremos a seguinte interpretao para o ca coeciente de Pearson:
Se AS [0, 5; 0, 5] distribuio simtrica; ca e
49 / 60
b) Escolha da mediana
i) quando h valores extremos; a ii) quando desejamos conhecer o ponto central da distribuio; ca iii) quando a distribuio dos dados muito assimtrica. ca e e
c) Escolha da moda
i) quando a medida de interesse o ponto mais t e pico ou popular dos dados; ii) quando precisamos apenas de uma rpida idia sobre a tendncia a e e central dos dados.
50 / 60
Anlise Bivariada a
A anlise bivariada consiste em examinar simultaneamente duas a variveis, com o objetivo de avaliar associao entre elas. a ca Podemos construir tabelas de frequncia com dupla entrada e ou grcos de disperso. Essas tabelas de dados cruzados so a a a conhecidas por tabelas de contingncia. e As tabelas de contingncia so utilizadas para estudar a assoe a ciao entre duas variveis categricas. ca a o
51 / 60
Tabela de contingncia e
Suponhamos que temos duas variveis: tipo de parto (vaginal a e cesreo) e categoria de internao (pblica, privada). a ca u Observamos os valores de ambas as variveis em uma amostra a de 2.443 mulheres. Uma tabela de contingncia pode ser usada para expressar a e associao entre tais variveis. ca a Vamos construir a tabela de contingncia para os dados acima. e
52 / 60
Tabela de contingncia e
Para construo da tabela de contingncia, vamos considerar ca e as seguintes informaes: co
Dos 824 partos cesreos, 252 foram realizados na rede privada. a Foram realizados 2.174 partos na rede pblica, sendo 1.602 paru tos do tipo vaginal.
53 / 60
A quanticao do grau de associao entre duas variveis ca ca a categricas feita pelo coeciente de associao. o e ca Existem diversas medidas que quanticam a associao entre ca as variveis categricas, entre elas citamos o coeciente de cona o tingncia, a ser denido mais adiante. e
54 / 60
55 / 60
Diagrama de Disperso a
O diagrama de disperso um grco onde pontos no espao a e a c cartesiano XY so usados para representar simultaneamente a os valores de duas variveis numricas. a e
56 / 60
Diagrama de Disperso a
Nos grcos (c) e (f), os pontos esto alinhados exatamente em a a uma reta e correspondem a situaes de correlaes perfeitas co co (negativa e positiva,respectivamente). Nos demais grcos, ca evidente que a correlao do tipo a ca linear inversa e direta. e A diferena bsica entre estes grcos a intensidade da corc a a e relao, podendo ser classicada como alta, moderada e baixa. ca
57 / 60
r=
ny x yi y 2 )
58 / 60
59 / 60
Observao: Correlao no o mesmo que causa e efeito. ca ca a e Duas variveis podem estar altamente correlacionadas e, no a entanto, no haver relao de causa e efeito entre elas. a ca
60 / 60