Você está na página 1de 31

FACULDADE VRTICE UNIVRTIX

Credenciada junto ao MEC: Portaria 1.084/2007

DISCIPLINA: Estatstica e Probabilidade PROFa: Irlane Bastos Costa TURMA: Engenharia Civil 4o perodo

ESTATSTICA DESCRITIVA

Apresentao de dados Tabelas e Grficos Medidas de tendncia central Medidas de disperso

Fevereiro, 2013
1

1.1 INTRODUO Estatstica um ramo do conhecimento que consta de um conjunto de processos cujo objetivo a observao, a classificao formal e a anlise de fenmenos coletivos ou de massa (finalidade descritiva) e, tambm, a possibilidade de efetuar inferncias indutivas vlidas, a partir de dados observados, e buscar mtodos para permitir essa inferncia (finalidade indutiva). A Estatstica descritiva refere-se coleta, organizao, descrio dos dados, clculos e interpretao de coeficientes. J a anlise e a interpretao dos dados, associados a uma margem de incerteza, esto cargo da Estatstica indutiva ou Inferencial. Os objetivos da estatstica descritiva envolvem organizao, sumarizao e descrio de dados quantitativos ou qualitativos. Mostraremos como se podem construir tabelas e grficos, particularmente, tabelas de distribuies de frequncias e seus grficos. Estatstica Descritiva Aps ter definido os objetivos, formulado as hipteses, planejado a pesquisa e coletado os dados, por um estudo observacional (amostragem) ou por um estudo experimental esses dados devem ser digitados em uma planilha. Quase sempre o conjunto de dados se trata de uma massa de valores incompreensvel, sem uma estrutura aparente. Tcnicas descritivas ou exploratrias so utilizadas para organizar os dados e investig-los, relatar ou expor caractersticas dos mesmos e procurar indcios de padres ou caractersticas interessantes que possam indicar possveis tendncias. Essas tcnicas consistem na leitura e no resumo dos dados utilizando tabelas, grficos, estatsticas e esquemas. Elas devem fornecer resultados simples, que tem algumas caractersticas: Atraem a ateno, So auto-explicativos, So de fcil compreenso e so confiveis. As tcnicas usadas so: Descrio Tabular: Tabelas so utilizadas para sumarizar os dados, especialmente as tabelas de distribuio de frequncias. Grficos descritivos: Grficos so usados para sumarizar os dados e Descrio Paramtrica: Estima-se os valores de certos parmetros que completam a descrio do conjunto dos dados. Descrio paramtrica Sempre h interesse em saber como os dados coletados se "comportam". Uma descrio dos mesmos deve gerar uma idia sobre como os valores das variveis observadas esto se distribuindo entre os indivduos e indicar tendncias, se existirem. Assim, a Estatstica descritiva pretende chegar a um relatrio que apresente informaes sobre a tendncia central e a disperso dos dados. Para tal, deve-se evidenciar: valor mnimo, valor mximo e calcular: mdia, moda, mediana, varincia e desvio padro.
2

Pode ser til usar quartis, decis, percentis e tambm, amplitude e distncia interquartlica. 1.2 OBTENO DE DADOS Existem vrias fontes para obter dados e informaes: Dados publicados pelo governo, indstria ou indivduos. Dados oriundos de experimentos. Dados oriundos de pesquisa {survey). Dados oriundos de observaes de comportamentos, atitudes etc. So considerados dados secundrios aqueles j coletados que se encontram organizados em arquivos, bancos de dados, anurios estatsticos, publicaes etc., enquanto so denominados dados primrios aqueles colhidos diretamente na fonte das informaes. 1.3-TIPOS DE VARIVEIS Varivel a caracterstica de interesse que medida em cada elemento da amostra ou populao1. Como o nome diz, seus valores variam de elemento para elemento. As variveis podem ter valores numricos ou no numricos. Variveis podem ser classificadas da seguinte forma: Variveis Quantitativas: so as caractersticas que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numricos que fazem sentido. Podem ser contnuas ou discretas. Variveis discretas: caractersticas mensurveis que podem assumir apenas um nmero finito ou infinito contvel de valores e, assim, somente fazem sentido valores inteiros. Geralmente so os resultados de contagens. Exemplos: nmero de filhos, nmero de bactrias por litro de leite, nmero de cigarros fumados por dia. Variveis contnuas, caractersticas mensurveis que assumem valores em uma escala contnua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas atravs de algum instrumento. Exemplos: peso (balana), altura (rgua), tempo (relgio), presso arterial, idade. _______________________________________________________________________
1

POPULAO: a totalidade de itens, objetos ou pessoas sob considerao. AMOSTRA:

uma parte da populao que selecionada para anlise. Variveis Qualitativas (ou categricas): Envolve simplesmente o ato de nomear, rotular, quantificar ou classificar objetos, pessoa ou qualquer caracterstica. Ex: sexo, profisso,
3

estado civil, vendas, compras, etc.Trata-se de uma varivel restritiva em termos de possibilidades do uso de tcnicas estatsticas, uma vez que no so possveis operaes aritmticas com seus valores.. Podem ser nominais ou ordinais. Variveis nominais: no existe ordenao dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/no fumante, doente/sadio. Exemplo: Automveis nacionais mais vendidos em janeiro/agosto de 2000.

Veculos Gol Uno Palio Astra Corsa Vectra Palio Weekend Fiesta Corsa Sedan Parati

Quantidades vendidas 166.158 58.556 86.776 22.006 66.065 23.162 18.997 24.586 55.334 18.765

Fonte: Revista rodas, 2000 Variveis ordinais: existe uma ordenao entre as categorias. Exemplos: escolaridade (1o, 2o, 3o graus), estgio da doena (inicial, intermedirio, terminal), ms de observao (janeiro, fevereiro,..., dezembro). Uma varivel originalmente quantitativa pode ser coletada de forma qualitativa. Por exemplo, a varivel idade, medida em anos completos, quantitativa; mas, se for informada apenas a faixa etria (0 a 5 anos, 6 a 10 anos, etc...), qualitativa (ordinal). Outro exemplo o peso dos lutadores de boxe, uma varivel quantitativa se trabalharmos com o valor obtido na balana, mas qualitativa (ordinal) se o classificarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.). Outro ponto importante que nem sempre uma varivel representada por nmeros quantitativa. O nmero do telefone de uma pessoa, o nmero da casa, o nmero de sua identidade. s vezes o sexo do indivduo registrado na planilha de dados como 1 se
4

macho e 2 se fmea, por exemplo. Isto no significa que a varivel sexo passou a ser quantitativa. 1.4. DESCRIO DE DADOS QUALITATIVOS A organizao, sumarizao e descrio de dados podem ser feitas por meio da construo de grficos. O grfico de barras, colunas e setores (pizza) so os grficos mais comuns para a descrio de dados oriundos de variveis qualitativas. Basicamente, eles mostram as frequncias de observaes para cada rtulo, ou categoria, da varivel que se deseja descrever. Os softwares estatsticos tm comandos especficos para a construo desses tipos de grficos. No grfico de colunas utilizamos no eixo horizontal os rtulos que so usados para identificar as classes (categorias). No eixo vertical utilizamos uma escala de frequncia absoluta simples ou em porcentagem. No grfico de Barras faz-se o contrrio, ou seja, as classes so colocadas no eixo vertical e as frequncias no eixo horizontal. As barras e colunas devem ter larguras fixas e devem estar separadas. O grfico um dispositivo que utilizamos para descrever os dados qualitativos que foram sintetizados em uma tabela de distribuio de frequncia. Exemplos: GRFICO DE COLUNAS

GRFICO DE BARRAS

O grfico em setores ou pizza constitui outro dispositivo grfico para representar as distribuies de frequncias de dados qualitativos. Para construir um grfico de pizza precisamos calcular a coluna de frequncias relativas (frequncia absoluta/nmero total de observaes): fi = Fi/n. Este valor pode ser apresentado na forma de porcentagem: fi% = fi x 100 . Feito isto utilizaremos as porcentagens das frequncias relativas para subdividirmos o crculo em setores, ou partes, que correspondem frequncia relativa de cada rtulo ou classe. Exemplo: Automveis nacionais mais vendidos no perodo de janeiro/agosto de 2000. Veculos Gol Uno Palio Astra Corsa Vectra Palio Weekend Fiesta Corsa Sedan Quantidades vendidas Fi 166.158 58.556 86.776 22.006 66.065 23.162 18.997 24.586 55.334 proporo 166.158/540.405 =0,3075 58.556/540.405 =0,1084 0,1606 0,0407 0,1223 0,0429 0,0352 0,0455 0,1024 porcentagem

0,3075 x 100 = 31 0,1084 x 100 = 11 16 4 12 4 4 5 10


6

Parati Soma

18.765 540.405

0,0347 1

3 100

Fonte: Revista quatro rodas 2000. Uma vez que um crculo tem 360 graus e o gol exibe uma porcentagem de vendas de 0,31%, o setor do grfico que detm o rtulo GOL consiste em 0,31 x 360 = 111,6 graus. Fazendo assim para as demais classes tem-se o grfico a seguir. GRFICO DE PIZZA

1.5. DESCRIO DE DADOS QUANTITATIVOS

Dados Brutos
So aqueles valores a que se chegou pela simples coleta, sem qualquer Preocupao quanto sua ordenao. Exemplo: Consumo Mensal de Energia Eltrica, por 49 Usurios Particulares KWH (quilowatts-hora) 58 62 80 57 8 126 136 96 144 19 90 86 38 94 82 75 148 114 131 28 66 95 121 158 64 105 118 73 83 81 50 92 60 52 89 58 10 90 94 74 9 75 72 157 125 76 88 78 84 36 Como se pode observar, as cifras esto dispostas de forma desordenada. Em razo disso, pouca informao se consegue obter inspecionando os dados anotados. Mesmo uma informao to simples como a de saber os consumos mximo e mnimo requer um certo exame dos dados da tabela.
7

Rol
Consiste em representar os dados na ordem crescente .
Consumo Mensal de Energia Eltrica, por 50 Usurios Particulares KWH(quilowatts-hora)

8 50 64 76 86 95 126

9 52 66 78 88 96 131

10 57 72 80 89 105 136

19 58 73 81 90 114 144

28 58 74 82 92 118 148

36 60 75 83 94 121 157

38 62 75 84 94 125 158

Essa classificao dos dados proporciona algumas vantagens concretas com relao sua forma original: - possvel visualizar de forma ampla as variaes de consumo. - os valores extremos so percebidos de imediato. - possvel observar uma tendncia de concentrao dos valores na faixa de 50-90 kwh Apesar de o rol propiciar ao analista mais informao e com menos esforo de concentrao do que os dados brutos, ainda assim persiste o problema de a anlise ter que se basear nas 50 observaes. O problema se agravar quando o nmero de dados for muito grande.

Distribuies de frequncias para dados no agrupados em classes Distribuio de Frequncias de Dados Tabulados No-Agrupados em Classes - uma tabela onde os valores da varivel aparecem individualmente. Esse tipo de distribuio utilizado geralmente para representar uma varivel discreta, com pouca variedade de valores. Exemplo: Idade dos alunos do curso de medicina veterinria da UFBA, no ano de 1993. Dados Brutos 24 - 23 - 22 - 28 - 35 - 21 - 23 - 33 - 34 - 24 - 21 - 25 - 36 - 26 - 22 - 30 - 32 - 25 26 - 33 - 34 - 21 - 31 - 25 - 31 - 26 - 25 - 35 - 33 31 Rol 21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -32 - 33 - 33 - 33 - 34 - 34 - 34 - 35 - 35 - 36 Tabela 1: Idade dos alunos do curso de medicina veterinria da UFBA, no ano de 1993. 2 Idade (Xi) 1 Fi 3 2 2 2 2 3 2 2 4 1 2 5 4 2 6 3 2 8 1 3 0 1 3 1 3 3 2 1 3 3 3 3 4 3 3 5 2

36 1

Distribuies de frequncias para dados agrupados em Intervalo de classes


8

Vamos construir uma tabela de distribuies de frequncias e o histograma das idades dos funcionrios de uma amostra de 50 elementos selecionados da empresa X. Tabela 2. Idades de 50 funcionrios (colocadas em ordem crescente). 18 - 20 - 20 - 21 - 22 - 24 - 25 - 25 - 26 - 27 - 29 - 29 - 30 - 30 - 31 - 31 - 32 - 33 - 34 - 35 36 - 36 - 37 - 37 - 37 - 37 - 38 - 38 - 38 - 40 - 41 - 43 - 44 -44 - 45 - 45 - 45 - 46 - 47 - 48 49 - 50 - 51 - 53 - 54 - 54 - 56 - 58 - 62 - 65 1 passo: Construir o rol (dados em ordem crescente) atravs dos dados brutos ( So aqueles valores a que se chegou pela simples coleta, sem qualquer preocupao quanto sua ordenao) e determinar a Amplitude Total: R R = Maior medida - Menor medida No caso, o rol j foi construdo, e a Amplitude Total ser: R = 65 - 18 = 47. 2 passo: Como os dados sero agrupados em classes, preciso escolher o nmero de classes - K, bem como o tamanho do intervalo das classes - h. possvel o uso de intervalos com tamanhos iguais, ou desiguais. Geralmente, escolhem-se tamanhos iguais. H vrios critrios para a escolha do nmero de classes. Dos dois critrios mostrados a seguir, usaremos o 1 critrio. 1 Critrio: Frmula de Sturges:
K 1 + 3,33 log n

onde: n = nmero de elementos que se deseja representar. 2 Critrio: Regra emprica, dada pela Tabela 3. Tabela 3. Nmero de classes para a construo da distribuio de freqncias e histograma. Nmero de elementos que se deseja representar Menor do que 25 Entre 25 e 50 Maior do que 50 No exemplo que estamos mostrando:
K 1 +3,33 log n

Nmero de classes 5 ou 6 De 7 a 14 De 15 a 20

= 1 + 3,33 (1, 7)

7
9

3 passo: Quanto ao tamanho dos intervalos (iguais) das classes h: No exemplo: h R/ K = 47 7 7 Quanto aos limites das classes, utilizaremos o seguinte critrio: a b (incluiremos nesta classe todos os elementos maiores ou iguais a a e menores do que b. Dessa forma teremos a tabela a seguir referente idade dos funcionrios: Classes 1 2 3 4 5 6 7 somas Intervalos das classes 18 25 25 32 32 39 39 46 46 53 53 60 60 67 Fi 6 10 13 8 6 5 2 50

Tipos de freqncias
Frequncia Absoluta (Fi) o nmero de repeties de um valor individual ou de uma classe de valores da varivel. Frequncia Relativa (fi ou fi%) Representa a proporo de observaes de um valor individual ou de uma classe, em relao ao nmero total de observaes. fi = Fi/n onde n o total de observaes da amostra. Desejando expressar o resultado em termos percentuais: fi% = fi x 100 Frequncia Absoluta Acumulada (Fac) A frequncia acumulada abaixo de uma classe ou de um valor individual a soma da frequncia absoluta dessa classe ou desse valor com as frequncias absolutas das classes ou dos valores anteriores. Frequncia Relativa Acumulada (fac ou fac%) A frequncia relativa acumulada abaixo de uma classe ou de um valor individual a soma da frequncia relativa dessa classe ou desse valor com as frequncias relativas das classes ou dos valores anteriores. Ponto Mdio

10

Como a varivel de estudo agrupada em classes, temos interesse em determinar os pontos mdios das classes - xi . Xi = Li + (Ls Li)/2 Eis a tabela de distribuio de freqncias para os dados do exemplo: Recordando: K = nmero de classes = 7 h = tamanho do intervalo = 7 Menor medida = 18 anos Maior medida = 65 anos Logo, a primeira classe conter todas as idades maiores ou iguais a 18 e menores do que 25, pois os limites da 1 classe so 18 25. Assim, a tabela da distribuio de freqncias das idades poder ser representada da seguinte maneira: Classes 1 2 3 4 5 6 7 somas Intervalos das classes 18 25 25 32 32 39 39 46 46 53 53 60 60 67 Fi 6 10 13 8 6 5 2 50 fi 6/50=0,12 0,20 0,26 0,16 0,12 0,10 0,04 1 fi% 12 20 26 16 12 10 4 100 Fac 6 16 29 37 43 48 50 fac 0,12 0,32 0,58 0,74 0,86 0,96 1 %fac 12 32 58 74 86 96 100 xi 21,5 28,5 53,5 42,5 49,5 56,5 63,5

Conforme os objetivos da Estatstica Descritiva, a tabela de distribuio das freqncias sintetiza e organiza uma coleo de dados, facilitando a compreenso e anlise da varivel sob estudo. Dentre outras consideraes sobre as idades dos 50 funcionrios que estamos analisando, poderemos afirmar: a maior quantidade de funcionrios tem idade entre 32 e 38 anos; apenas 4% dos funcionrios possuem idades iguais ou superiores a 60 anos, sendo 65 anos a maior idade do grupo; cinqenta e oito por cento dos funcionrios da amostra tm idades inferiores a 38 anos, sendo 18 anos a menor idade do grupo. Os histogramas so os grficos mais adequados para a descrio de dados oriundos de variveis quantitativas. Basicamente, eles mostram as frequncias de observaes para cada valor ou conjunto de valores da varivel que se deseja descrever. Os softwares estatsticos tm comandos especficos para a construo dos histogramas.

11

Observar: os histogramas contm as mesmas informaes da tabela de distribuio das freqncias. So representaes que buscam a organizao e sintetizao de grupos de dados quantitativos. EXERCCIOS 1. A tabela a seguir mostra as reas, em milhes de km 2, dos oceanos. Representar graficamente os dados com a construo de um grfico de barras, de colunas, e de pizza. Oceano rea (milhes km2) Antrtico 36,8 rtico 23,2 Atlntico 199,4 ndico 137,9 Pacfico 342,7

2. Uma amostra de 35 estudantes apontou o seguinte rol de notas de Estatstica (avaliao de O a 100 pontos): 35 - 41 - 41 - 42 - 45 - 47 - 48 - 53 - 54 - 55 - 55 - 57 - 59 - 60 60 - 61 - 64 - 65 - 66 - 66 68 - 71 - 73 - 73 - 74 78 - 80 - 81 - 85 - 85 - 88 - 89 - 91 - 94 - 97 a) Construir a tabela de distribuio de frequncias. b) Construir os histogramas das freqncias absolutas e relativas. c) Qual a classe com maior frequncia? d) Quantos alunos obtiveram notas maiores ou iguais a 70? e) Qual o ponto mdio da primeira classe? 3. Considerar os dados obtidos pelas medidas das alturas de 100 indivduos (dadas em cm):

12

151 - 152 - 154 - 155 - 158 - 159 - 159 - 160 - 161 - 161 161 - 162 - 163 - 163 - 163 - 164 165 - 165 - 165 - 166 166 - 166 - 166 - 167 - 167 - 167 - 167 - 167 - 168 - 168 168 - 168 168 - 168 - 168 - 168 - 168 - 168 - 169 - 169 -169 - 169 - 169 - 169 - 169 - 169 - 170 - 170 - 170 - 170 170 - 170 - 171 -171 - 171 - 171 - 172 - 172 - 172 - 172 173 - 173 - 174 - 174 174 - 175 - 175 - 175 - 175 - 176 176 - 176 - 176 - 177 - 177 - 177 - 177 - 178 - 178 - 178 179 - 179 - 180 - 180 - 180 - 180 - 181 - 181 - 181 182 - 182 - 182 - 183 - 184 - 185 186 - 187 - 188 - 190 - 190 a) Qual a amplitude total? b) Em quantas classes poderemos agrupar esse conjunto de medidas? Lembre-se: log 100 = 2. c) Qual ser o tamanho dos intervalos das classes? d) Construir a tabela das classes com seus limites. e) Determinar para cada classe: Fi, fi, %, Fac,fac %fac e x i. f) Construir os histogramas das freqncias absolutas e relativas. g) Analisando a tabela e os grficos, redigir um breve relatrio sobre as alturas desse grupo de pessoas. 1.6. DIAGRAMA RAMO-E-FOLHA Um diagrama ramo-e-folha uma forma relativamente simples de se organizar e apresentar medies em uma sequencia ordenada no formato de um grfico de barras. Esta uma tcnica bem conhecida na anlise exploratria de dados. Como o nome sugere, a anlise exploratria de dados consiste em tcnicas para anlises preliminares dos dados, proporcionando esclarecimentos sobre padres e relacionamentos. Distribuies de frequncia e as tcnicas grficas associadas abordadas nas sees anteriores deste captulo so tambm, s vezes, usadas para este propsito. Um diagrama ramo-e-folha similar a um histograma, exceto que mais fcil de se construir e mostra os valores individuais dos dados, mesmo os tendo perdido pelo agrupamento dentro de classes definidas. Entretanto, a tcnica mais facilmente aplicvel e compreendida somente se o primeiro dgito da medio, ou possivelmente os dois primeiros dgitos, proverem uma boa base para separao dos dados em grupos. Cada grupo ento anlogo a uma classe ou categoria em uma distribuio de frequncia. Na situao em que o primeiro dgito usado sozinho para agrupar medies, o nome ramo-e-folha se refere ao fato de que o primeiro dgito o ramo e cada uma das medies com o mesmo valor do primeiro dgito se tornam folhas no grfico. Exemplo: A Tabela a seguir mostra os pontos obtidos por 50 estudantes em uma prova final de contabilidade financeira valendo 100 pontos. Pontuaes recebidas por 50 estudantes em uma prova de contabilidade financeira 58 74 8 8 6 9 6 5 6 3 96 88 85 65
13

85

9 1 65 6 6 82 9 8 72 9 4 76 7 8 83 8 2 62 6 2 100 7 5

8 1 8 1 8 6 7 2 7 8 6 6 5 9 8 4

80 92

90 71

100 82 84 77 76 87 96 73 74 63 97 99

Dados dispostos em ordem crescente 58 66 76 83 59 69 77 84 62 71 78 84 62 72 78 85 63 72 80 85 63 73 81 86 65 74 81 87 65 74 82 88 65 75 82 88 66 76 82 90

91 92 94 96 96 97 98 99 100 100

Apresentao dos dados no esquema Ramo e Folha Ramo 5 6 7 8 9 10 Folha 8 9 2 2 3 1 2 2 O 1 1 O 1 2 O O

3 3 2 4

5 4 2 6

5 4 2 6

5 5 3 7

6 6 4 8

6 9 6 7 8 8 4 5 5 6 7 8 8 9

Pode ser notado que, adicionalmente capacidade de se observar todo o conjunto do padro de pontuaes, as pontuaes individuais podem tambm ser vistas. Por exemplo, na linha com o ramo 6, esto os dois valores de folha postados dos dois representantes das duas pontuaes de 62 que esto includas na Tabela abaixo.
14

1.7 MEDIDAS DE POSIO Como o prprio ttulo sugere, nossa pretenso aqui a determinao e o clculo de medidas que ofeream o posicionamento da distribuio dos valores de uma varivel que desejamos analisar. Mdia aritmtica ou mdia amostral A medida de tendncia central mais comum para um conjunto de dados a mdia aritmtica. A mdia aritmtica de uma amostra de n observaes x 1, x2, ... , xn representada pelo smbolo x (l-se X - barra), calculada por:

x=

x
i =1

Onde n o nmero total de observaes. EXEMPLO: Encontrar a mdia aritmtica para o conjunto de observaaes: 5, 1, 6, 2, 4. Soluo: temos cinco observaes: n = 5, ento:

x=

x
i =1

5 + 1 + 6 + 2 + 4 18 = = 3,6 5 5

Quando os valores de xi esto agrupados com suas respectivas freqncias absolutas Fi, a mdia aritmtica ou mdia amostral expressa por:

x=

x F
i =1 i

EXEMPLO: Determinar a idade mdia para o conjunto dos 50 funcionrios considerados na Tabela a seguir: Soluo: Da tabela de distribuio de freqncias, temos:
15

Classes 1 2 3 4 5 6 7 somas Logo:

Intervalos das classes 18 25 25 32 32 39 39 46 46 53 53 60 60 67

Fi 6 10 13 8 6 5 2 50

xi 21,5 28,5 35,5 42,5 49,5 56,5 63,5

xiFi 129 285 461,50 340 297 282,50 127 1.922

x=

x F
i =1 i

1922 = 38,44 50

anos

O resultado 38,44 anos aproximado, uma vez que utilizamos os pontos mdios xi como representantes das classes em que foram agrupadas as 50 idades. O valor da mdia aritmtica, desconsiderando-se o agrupamento em classes, de:

x=

x
i =1

18 + 20 + 20 + + 65 = 38,32 50

anos

Observar: a diferena entre os resultados foi de 38,32 - 38,44 = - 0,12. Assim, quando o analista dispuser da tabela de distribuio de freqncias, e admitir que uma aproximao do clculo da mdia no vai comprometer suas concluses, poder usar a frmula para os dados agrupados. Caso contrrio, dever utilizar a frmula comum para o clculo da mdia aritmtica. EXERCCIOS PROPOSTOS 1. A mdia mnima para aprovao em determinada disciplina 5,0. Se um estudante obtm as notas 7,5; 8,0; 6,0; 2,5; 2,0; 5,5; 4,0 nos trabalhos mensais da disciplina em questo, pergunta-se se ele foi ou no aprovado. 2. A seguir, dada a distribuio da quantidade de defeitos por computador para uma amostra de 100 aparelhos: Quantidade de defeitos por microcomputador O 1 2 3 4 5 6 Nmero de aparelhos 15 28 20 14 10 7 6 Determinar o nmero mdio de defeitos por microcomputador.
16

3. Considerar os dados do Exerccio 3 da pgina 8 e calcular a mdia aritmtica das 100 observaes e a mdia para os dados agrupados. 1.8- Mediana Colocados em ordem crescente, mediana (Md) o valor que divide a amostra, ou populao, em duas partes iguais. Assim:

Md

50%

100%

Clculo da mediana para dados no agrupados Se n for mpar, a mediana ser o elemento central de ordem
n +1 2 . Se n n e 2

for par, a mediana ser a mdia entre os elementos centrais de ordem


n +1 2

EXEMPLO: Calcular a mediana para as distribuies: Classes 1 2 3 4 soma a) Fi 1 3 5 2 1 1 Fac 1 4 9 11

n = 11, n impar, logo a mediana ser o elemento de ordem:


n + 1 11 + 1 = = 6o . Para 2 2

identific-lo, abre-se a coluna das frequncias acumuladas Fac.

Por meio da Fac encontra-se o valor x i correspondente mediana. Neste exemplo, ser o 3 (Md= 3). Observar: o x i correspondente classe que contiver a ordem calculada, no caso o sexto elemento. Explicao prtica: 12223333344

17

b) Classes Fi 82 5 85 1 0 87 1 5 89 8 90 4 soma 4 2 Fac 5 15 30 38 42

n = 42, n par, logo a mediana ser a mdia entre os elementos de ordem:


n n e +1 , ou 2 2

seja, 21 e 22. Identifica-se os elementos pela Fac.

Assim: 21 corresponde a 87 e 22 corresponde a 87, logo


Md = 87 + 87 = 87 2

Clculo da mediana para os dados agrupados em classes 1 passo: Calcula-se a ordem n/2. 2 passo: Pela Fac identifica-se a classe que contm a mediana (classe Md). 3 passo: Utiliza-se a frmula:
n Fant h 2 + FMd

Md = l Md

em que:
l Md = limite inferior da classe que contem a mediana

n = tamanho da amostra ou nmero de elementos.


18

F
mediana.

ant

= soma das frequncias absolutas anteriores classe que contem

h = amplitude da classe que contem a mediana FMd = frequncia da classe que contem a mediana

EXEMPLO: Dada a distribuio amostral, calcular a mediana: Intervalo das classes 35 45 45 55 55 65 65 75 75 85 85 95 soma Fi 5 1 2 1 8 1 4 6 3 5 8 Fac 5 17 35 49 55 58

1 passo: Calcula-se n/2 = 58/2 = 29 2 passo: Identifica-se a classe Md pela Fac Nesse caso, a classe Md a 3. 3 passo: Aplica-se a frmula:
58 17 10 2 = 61,67 Md = 55 + 18

Ento: 50% das observaes tm medidas abaixo de 61,67, e 50% acima desse valor. 1.9- QUATIS Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:

0%

25%

50%

75%

100%

19

Q1

Q 2 = Md

Q3

1 quartil deixa 25% dos dados 2 quartil coincide com a mediana, deixa 50% dos dados 3 quartil deixa 75% dos dados DETERMINAO DO 1 QUARTIL 1 Passo: Calcula-se a ordem n/4 2 Passo: identifica-se a classe que contem o quartil pela F ac 3 Passo: Aplica-se a frmula:
n F h 4 + FQ1

Q1 = l Q1

em que:
lQ1 = limite inferior da classe que contem o quartil

n = tamanho da amostra ou nmero de elementos


F = soma das frequncias absolutas anteriores classe Q 1

h = amplitude da classe que contem o quartil FQ1 = frequncia da classe que contem o quartil DETERMINAO DO 3 QUARTIL 1 Passo: Calcula-se a ordem 3n/4 2 P1asso: identifica-se a classe que contem o quartil 3 pela F ac 3 Passo: Aplica-se a frmula:
3n F h 4 + FQ3

Q3 = lQ3

em que:
lQ3 = limite inferior da classe que contem o quartil 3.
20

n = tamanho da amostra ou nmero de elementos


F = soma das frequncias absolutas anteriores classe que contem o quartil

3. h = amplitude da classe que contem o quartil 3. FQ3 = frequncia absoluta da classe que contem o quartil 3. Exemplo: Dada a distribuio, determinar os quartis (Q 1 e Q3) e a mediana. Classes 7 17 17 27 27 37 37 47 47 57 Soma Fi 6 1 5 2 0 1 0 5 5 6 Fac 6 21 41 51 56
Classe Q1 n/4 = 56/4 = 14

Classe Md n/2 = 56/2 = 28

Classe Q3 3n/4 = 3 x 56/4 = 42

Q1 = lQ1

n 56 F h 6 10 4 4 = 17 + + = 22,33 FQ1 15

Q3 = l Q3

3n 3 56 41 10 F h 4 = 37 + 4 + = 38 FQ3 10

Md = l Md

n 56 F h 21 10 2 = 27 + 2 + = 30,5 FMd 20
21

Diante desses resultados, pode-se afirmar que, nessa distribuio, h: 25% 25% 25% 25%

7 1.10- DECIS

22,33

30,5

38

57

Continuando o estudo das medidas separatrizes: mediana e quartis, h os decis. So os valores que dividem a srie em 10 partes iguais. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

D1

D2

D3

D4

D5

D6

D7

D8

D9

O clculo para um decil dado por: 1 Passo: Calcula-se a ordem in/10, em que i = 1, 2, 3, ...,9 2 Passo: identifica-se a classe que contem o decil pela F ac 3 Passo: Aplica-se a frmula:
in F h 10 + FD1

Di = l Di

em que:
l Di = limite inferior da classe que contem o decil.

n = tamanho da amostra ou nmero de elementos.


F = soma das frequncias absolutas anteriores classe que contem o decil.

h = amplitude da classe que contem o decil. FDi = frequncia absoluta da classe que contem o decil.

1.11- PERCENTIS So as medidas que dividem a serie em 100 partes iguais.


22

0%

1%

2%

3%

...

50%

...

97%

98%

99%

100%

P1

P2

P3

...

P50

...

P97

P98

P99

P100

O clculo de um percentil (Pi) dado por: 1 Passo: Calcula-se a ordem in/100, em que i = 1, 2, 3, ...,97, 98, 99, 100. 2 Passo: identifica-se a classe que contem o percentil pela F ac 3 Passo: Aplica-se a frmula:
in F h 100 Pi = l Pi + FP1 Exemplo: Determinar o 4 decil e o 72 percentil da seguinte distribuio:

Classes 49 9 14 14 19 19 24 Soma

Fi 8 1 2 1 7 3 4 0

Fac 8 20 37 40 Classe D4 = in/10 = (4 x 40)/10 = 16


Classe P72 = in/100 = (72 x

Di = l Di

in 4 40 8 5 F h 10 D = 9 + 10 + = 12,33 4 FD1 12

in 72 40 F h 20 5 100 P = 14 + 100 Pi = l Pi + = 16,59 72 FP1 17

Portanto, nessa distribuio, o valor 12,33 divide a distribuio em duas partes: uma ( esquerda) com 40% dos elementos e a outra com 60%. O valor 16,59 indica que 72% dos elementos da distribuio esto abaixo de 16,59 e 28% acima.
23

1.12- MODA Clculo da Moda para dados no agrupados em classes Dentre as principais medidas de posio, destaca-se a Moda. o valor mais frequente da distribuio. Para distribuies simples (sem agrupamento de classes), a identificao da Moda facilitada pela simples observao do elemento que apresenta maior frequncia. Assim, para a distribuio: xi F i 243 245 248 251 307 7 17 23 20 8

A moda ser 248 (Mo = 248). Clculo da Moda para dados agrupados em classes H diversas formulas para o calculo da moda agrupada em classes. Destacaremos o calculo da moda por meio da formula de Czuber. 1o Passo: identifica-se a classe modal (classe com maior frequncia) 2o Passo: Aplica-se a formula:
Mo = l Mo + 1 h 1 + 2

Em que:
l Mo = limite inferior da classe modal

1 = Diferena entre a frequncia da classe modal e a frequncia da classe

imediatamente anterior 2 = Diferena entre a frequncia da classe modal e a frequncia da classe imediatamente posterior h = Amplitude da classe moda Exemplo: Determinar a moda para a distribuio: Classes Fi 0 1 3 1 2 10 2 3 17 3 4 8 4 5 5 soma 43

1o Passo: Indica-se a classe modal: 2 3 2 Passo: Aplica-se a frmula


Mo = l Mo + 1 17 10 h = 2+ 1 = 2,44 (17 10) + (17 8) 1 + 2

24

EXERCCIOS PROPOSTOS Para cada srie e distribuio determine a mediana e a moda. a) 12, 7, 10, 8, 8 b) 1, 3, 3, 4, 6, 8 ,8, 9 xi F xi i Fi 7 10 1 6 2 5 1 3 1 3 10 13 1 10 17 5 1 9 13 16 15 16 19 10 19 22 5 c)

20

d)

2. MEDIDAS DE DISPERSO So medidas estatsticas utilizadas para avaliar o grau de variabilidade, ou disperso, dos valores em torno da mdia. Servem para medir a representatividade da mdia. Sejam as sries: (A) 20, 20, 20 e (B) 15, 10, 20, 25, 30 Tem-se x a = 20 e xb = 20

Apesar de as sries terem mdias iguais, a srie A no apresenta disperso em torno da mdia, enquanto os valores da srie B apresentam disperso em torno da mdia. Nesta seo so apresentadas medidas estatsticas que avaliam o grau de disperso, ou variabilidade, de uma varivel. Varincia Amostral Como se deseja medir a disperso dos dados em relao mdia interessante analisar os desvios de cada valor (isto d i = xi x ). Se os desvios forem baixos, teremos pouca disperso; ao contrrio, se os desvios forem altos, teremos elevada disperso. fcil constatar que a soma dos desvios em torno da mdia zero

=o.

25

Para o clculo da varincia, consideram-se os quadrados dos desvios. A varincia, S , de uma amostra de n medidas igual soma dos quadrados dos desvios dividida por (n - 1), assim:
x) ( xi x ) 2 S Desenvolvendo o quadrado das diferenas: e somando os termos n 1 n 1 comuns, encontram-se as seguintes frmulas prticas para o clculo da varincia
2

d =

2 i

( x =

amostral:

S2 =

2 i

( x )
i

n 1

Quanto maior o valor de S2, maior a disperso dos dados amostrais. Para dados agrupados tem-se:

d =

2 i

Fi

n 1

( x =

x ) Fi
2

n 1

Ou

S =
2

2 i

Fi

( x F )
i i

n 1

EXEMPLO: Calcular a varincia para as medidas amostrais: 3, 7, 2, 1, 8. Usar frmula bsica e frmula prtica. Soluo: Frmula Bsica Xi 3 7 2 1 8 21
d i = xi x

d i2 = ( xi x )

soma

3 4,2 = -1,2 2,8 -2,2 -3,2 3,8 0

1,44 7,84 4,84 10,24 14,44 38,80

x=
A mdia amostral =

x
i =1

3 + 7 + 2 + 1+ 8 = 4,2 5

Feito os clculos dos desvios pode-se obter a varincia amostral aplicando se a frmula:
S
2

d =

2 i

n 1

38,80 = 9,7 5 1
26

Soluo: Frmula prtica


xi

xi2

3 7 2 1 8 21 Ento a varincia ser:

9 49 4 1 64 127

S2 =

x
2 i

( x )
i

n 1

127

212 5 = 9,7 5 1

1.5.2 Desvio padro amostral O clculo da varincia obtido pela soma dos quadrados dos desvios em relao mdia. Assim que, se a varivel sob anlise for medida em metros, a varincia dever ser expressa em m2 (metros ao quadrado). Ou seja, a varincia expressa pelo quadrado da unidade de medida da varivel que est sendo estudada. Para melhor interpretar a disperso de uma varivel, calcula-se a raiz quadrada da varincia, obtendo-se o desvio padro (S) que ser expresso na unidade de medida original. Assim: Exemplo: Calcular o desvio padro para as medidas utilizadas no exemplo da varincia.
S = S 2 = 9,7 = 3,1

un2

Interpretao do desvio padro Para qualquer distribuio de varivel aleatria normal cuja distribuio simtrica tem-se que: O intervalo x S contm 68,27% das observaes amostrais. O intervalo x 2 S contm 95,45% das observaes amostrais. O intervalo x 3S contm 99,73% das observaes amostrais.

27

EXEMPLO 1: Calcular a varincia e o desvio padro da seguinte distribuio amostral: xi F i 5 7 8 9 11 2 3 5 4 2

EXEMPLO 2: Determinar a varincia e o desvio padro dos dados da tabela a seguir: Classes 1 2 3 4 5 6 7 somas Intervalos das classes 18 25 25 32 32 39 39 46 46 53 53 60 60 67 Fi 6 10 13 8 6 5 2 50 xi 21,5 28,5 53,5 42,5 49,5 56,5 63,5 xiFi x2Fi

28

Interpretar os resultados. Coeficiente de variao de Pearson Trata-se de uma medida relativa de disperso. Enquanto a amplitude total, varincia e o desvio padro so medidas absolutas de disperso, o coeficiente de variao (C.V.) mede a disperso relativa. Assim:
CV = S 100 x

Eis algumas regras empricas para interpretao do coeficiente de variao: C.V. < 15% h baixa disperso 15% > C.V. < 30% h mdia disperso C.V. 30% h elevada disperso EXEMPLO: Em uma empresa, o salrio mdio dos homens de $ 4.000, com desvio padro de $ 1.500, e o salrio mdio das mulheres de $ 3.000, com desvio padro de $ 1.200. A disperso relativa dos salrios maior para os homens? Soluo: Dos dados do problema ternos: para os homens: para as mulheres:
CV = 1500 100 = 37,5% 4000 1200 100 = 40% 3000

CV =

Resposta: Os salrios das mulheres tm disperso relativa maior de que os salrios dos homens. As duas distribuies apresentam elevada disperso. EXERCCIOS PROPOSTOS 1) Foram feitas oito medidas do dimetro (em mm) interno de anis forjados de pisto de um motor de um automvel. Os dados codificados so: 1, 3, 15, 0, 5, 2, 5 e 4. Calcule a mdia, desvio padro da amostra e o Coeficiente de Variao. 2) Sete medidas da espessura de xido em pastilhas so estudadas para verificar a qualidade em um processo de fabricao de semicondutores. Os dados
29

(angstroms) so: 1.264, 1.280, 1.301, 1.300, 1.292, 1.307, 1275. Calcule a mdia e o desvio padro da amostra. 2.1 A AMPLITUDE A amplitude, ou R, a diferena entre o maior e o menor valor inclusos no conjunto de dados. Dessa forma, quando H representa o maior valor no grupo e L representa o menor valor, a amplitude dos dados no-agrupados R =H-L Exemplo: Durante um determinado ms de vero, os oito representantes de venda de uma empresa de aquecimento e ar-condicionado venderam os seguintes nmeros de unidades de ar-condicionado central: 8, 11, 5, 14, 8, 11, 16, I I. A amplitude do nmero de unidades vendidas R = H - L = 16 - 5 = 11,0 unidades AMPLITUDES MODIFICADAS Uma amplitude modificada uma amplitude para a qual alguns valores em cada extremidade da distribuio so eliminados da considerao. A amplitude dos 50% centrais uma amplitude entre os valores do 25 percentil e o 75 percentil da distribuio. Sendo assim, ela tambm a amplitude entre o primeiro e o terceiro quartis da distribuio. Por esta razo, a amplitude dos 50% centrais usualmente designada como a amplitude interquartil (IRQ). Dessa forma, IRQ = Q3 Q1 Outras amplitudes modificadas que so s vezes usadas so a dos 80% centrais, 90% centrais e 95% centrais. 1.5.6 DIAGRAMAS ESQUEMTICOS (BOX PLOTS) Um diagrama esquemtico um grfico que retrata a distribuio do conjunto de dados atravs da referncia aos valores dos quartis como medidas de posio, e o valor da amplitude interquartil como a referncia da medida de variabilidade. Um diagrama esquemtico uma forma relativamente fcil de se construir grficos dos dados e observar a extenso da simetria na distribuio. Sendo assim, ele uma alternativa simples de formar uma distribuio de frequncias e fazer um histograma. Devido sua relativa facilidade de uso, o diagrama esquemtico uma tcnica de anlise exploratria de dados, conforme descrito nos diagramas ramo-efolha. Exemplo: A Figura a seguir apresenta o diagrama esquemtico para as unidades vendidas de ar-condicionado por oito represetantes de venda de uma empresa: 5, 8, 8, 11, 11, 11, 14, 16. Os limites inferior e superior do diagrama esquemtico no
30

grfico so chamados de dobradias e geralmente esto localizados em QI e Q3 Dessa forma, baseados nos valores do quartil determinados no Exemplo 3, a dobradia inferior est em 8,0 e a dobradia superior est em 12,5. A linha vertical dentro do retngulo indica a posio da mediana (ou Q 2)' a qual est em 11,0. As linhas tracejadas horizontais direita e esquerda do retngulo so chamadas de bigodes e se estendem at a "cerca interna", que esto 1,5 unidades da amplitude interquartil em cada direo. Dessa forma, os bigodes se estendem a: Q1 - (1,5 x IQR) = 8,0 - (1,5)(4,5) = 1,25 Q3 + (1,5 x IQR) = 12,5 + (1,5)(4,5) = 19,25 As "cercas externas" se estendem at 3,0 unidades da amplitude interquartil em cada direo, de Q1 a Q3, ou at -5,5 e 22,5 para as cercas inferior e superior, respectivamente. Para este exemplo, observe que a cerca externa inferior est no valor O para propsitos prticos, uma vez que no possvel ter unidades de venda negativas. Quaisquer valores situados entre as cercas interna e externa so considerados distanciadores suaves, enquanto valores situados alm das cercas externas so distanciadores extremos. Para quaisquer distanciadores, devemos investigar se tais valores foram coletados sob as mesmas circunstncias que os outros valores, e se quaisquer erros de medida podem ter ocorrido. Claramente no existem distanciadores para nosso pequeno grupo de oito valores, uma vez que todos os valores de vendas listados no exemplo esto dentro das cercas internas.

31