Você está na página 1de 31

ESTATSTICA 1 INTRODUO Desde a antiguidade vrios povos j registravam o nmero de habitantes, de nascimentos, de bitos, faziam estimativas das riquezas

individual e social, distribuam eqitativamente terras ao povo, cobravam impostos e at realizavam inquritos quantitativos por processos que hoje chamaramos de Estatstica. A palavra estatstica vem de status, que significa em latim Estado. Com essa palavra faziam-se as descries e dados relativos aos Estados, tornando a Estatstica um meio de administrao para os governantes. Mais recentemente se passou a falar em estatstica em vrias cincias de todas as reas do conhecimento humano, onde se pode definir a Estatstica como um conjunto de mtodos e processos quantitativos que servem para estudar e medir os fenmenos coletivos, segundo Bernoulli. Ao se estudar os fenmenos coletivos, o que interessa so os fatos que envolvem os elementos desses fenmenos, como eles se relacionam e qual o seu comportamento. Para isso, necessrio que esse estudo seja feito atravs de uma pesquisa cientfica, ou seja, por uma investigao planejada, desenvolvida e redigida de acordo com a metodologia exigida. 2 PESQUISA CIENTFICA

Defini-se Pesquisa Cientfica como sendo um procedimento racional que utiliza mtodos cientficos para encontrar respostas s questes propostas.

3 ROTEIRO PARA PESQUISAS DESCRITIVA E EXPERIMENTAL 1. Escolha o assunto: O assunto deve ser significativo, adequado ao interesse e ao nvel de formao como tambm s condies do pesquisador. 2. Ttulo da pesquisa: deve esclarecer o tema que est sendo trabalhado. 3. Delimitao do assunto: Selecionar um tpico para ser estudado e analisado em profundidade, tornando o assunto vivel de ser pesquisado. Evitar temas amplos que resultem em trabalhos superficiais.

4. Objetivos: Indicao do que se pretende alcanar com a pesquisa. 5. Justificativa da escolha: Mostrar as razes da preferncia pelo assunto escolhido e sua importncia em relao a outros temas. 6. Reviso da literatura: a realizao de uma pesquisa bibliogrfica do assunto e da questo delimitada. Tal estudo preliminar tem o objetivo de mostrar os trabalhos realizados sobre o assunto, apresentar as informaes sobre a situao atual do problema, e as opinies existentes. Estes conhecimentos prvios iro auxiliar o investigador nos passos seguintes. 7. Formulao do problema: Redigir de forma interrogativa, clara, precisa e objetiva, a questo cuja soluo vivel possa ser alcanada pela pesquisa. O problema levantado deve expressar as relaes entre duas ou mais variveis. A elaborao clara do problema fruto da reviso da literatura e da reflexo pessoal. 8. Enunciado da hiptese: A hiptese, como resposta e explicao provisria, relaciona duas ou mais variveis do problema levantado. Deve ser colocado prova e responder o problema. Num trabalho, o nmero de hipteses no deve ser muito grande. As variveis so aqueles aspectos, propriedades ou fatores reais ou potencialmente mensurveis atravs dos valores que assumem e possveis de serem identificados em um objeto de estudo. 9. Definio operacional das variveis: A hiptese orienta a execuo da pesquisa. Por isso, os termos empregados na hiptese devem esclarecer, com o mximo de preciso, o que eles significam no contexto concreto e objetivo da pesquisa a ser feita. A definio operacional das variveis indica as operaes a serem realizadas e os mecanismos a serem usados para verificar a conexo entre as variveis. 10. Amostragem: A pesquisa procura estabelecer generalizaes a partir de observaes em grupos ou em conjuntos de indivduos chamados de populao ou universo. Populao pode referir-se a um conjunto de pessoas, animais ou objetos que representam a totalidade de indivduos que possuem as mesmas caractersticas definidas para um estudo. Geralmente, a pesquisa feita com uma parte representativa da populao, denominada amostra, e no com a totalidade dos indivduos. Portanto, a amostra uma parte da populao selecionada segundo uma tcnica de amostragem que garante sua representatividade.

11. Instrumentos de pesquisa: Na pesquisa descritiva relatar a tcnica a ser usada para a coleta de dados, como por exemplo: entrevista, questionrio, formulrio. Quando se trata de pesquisa experimental so descritos os instrumentos e materiais ou as tcnicas a serem usados. 12. Procedimentos: Em pesquisas descritivas faz-se a descrio detalhada de todos os passos da coleta e registro dos dados: Quem? Quando? Onde? Como? Descrevem-se ainda as dificuldades, as precaues, a superviso e o controle. No relatrio, os dados so apresentados depois de classificados sob forma descritiva , de preferncia, em tabelas, quadros ou grficos. Os dados devem ser auto explicativos a fim de no exigir do leitor exames exaustivos que o obrigue a um grande esforo para sua interpretao. 13. Anlise dos dados: Coletados os dados realizado uma anlise exploratria dos mesmos e expostos em tabelas de forma sinttica e, submetidos ou no, conforme o caso, ao tratamento estatstico mais profundo, onde todas as informaes reunidas nos passos anteriores so comparadas entre si e analisadas. A anlise atravs da classificao ordenada dos dados, do confronto dos resultados das tabelas e dos testes estatsticos, quando empregados, procura verificar a comprovao ou no das hipteses em estudo. 14. Discusso dos resultados: a generalizao dos resultados obtidos pela anlise. Na discusso, o pesquisador far as inferncias e generalizaes cabveis com base nos resultados alcanados. Os resultados tambm sero discutidos e comparados com afirmaes e posies de outros autores. 15. Concluso: A concluso apresentar um resumo dos resultados mais significativos da pesquisa e sintetizar os resultados que conduziram comprovao ou rejeio da hiptese de estudo. Far inferncias que os dados alcanados permitam fazer e indicar aspectos que meream mais estudo e aprofundamento. 16. Bibliografia: So as referncias bibliogrficas que serviram de embasamento terico. 17. Anexos: Os anexos so constitudos de elementos complementares, como questionrios, fichas de observao e registros utilizados no trabalho que venham auxiliar a anlise do leitor da pesquisa.

4 OBJETIVO DA ESTATSTICA Dependendo do objetivo da pesquisa pode-se classificar a metodologia estatstica em: Descritiva ou Indutiva 4.1 Estatstica descritiva Usualmente a expresso estatstica descritiva empregada para se referir ordenao, exposio e sumarizao de registros quantitativos relativos aos atributos do fenmeno em estudo.

4.2 Estatstica indutiva A estatstica indutiva objetiva a generalizao do que estudado descritivamente, em subconjuntos, para o conjunto que as contm.

5 COLETA DE DADOS fase onde so aplicados os instrumentos para a obteno de dados necessrios que sero objetos da anlise estatstica. 5.1 Noes Bsicas Na pesquisa cientfica coleta-se caractersticas de pessoas, animais, empresas, indstrias, sistema de produo, fenmenos fsicos ou qumicos, com a finalidade de estudar o comportamento dessas caractersticas.

5.1.1 Populao um conjunto de elementos que detm pelo menos uma caracterstica em comum.

5.1.2 Amostra uma parte retirada da populao para estudo segundo uma tcnica adequada de maneira a garantir sua representatividade.

6 TIPOS DE AMOSTRAGEM Amostragem um procedimento ou uma tcnica para se obter uma amostra que seja representativa de uma populao.

As tcnicas usadas para obteno de uma amostra podem ser classificadas como amostragens probabilsticas ou no-probabilsticas.

6.1 Amostragem Probabilstica Se destacam a Amostragem Simples ao Acaso, a Sistemtica, a Estratificada e a Conglomerado. a) Amostragem Simples ao Acaso (ASA) : Tambm conhecida como amostragem aleatria simples, utilizada quando todos os elementos de uma populao tm a mesma chance (probabilidade) de serem selecionados. um procedimento que pode se tornar trabalhoso quando a populao muito grande. aplicado quando a populao considerada homognea. Para manter essa propriedade deve-se numerar todos os elementos da populao e, atravs de um sorteio ou do auxlio de uma tabela de nmeros aleatrios, obter os elementos que comporo a amostra desejada. b) Amostragem Sistemtica : Usada quando a populao se encontra organizada, como por exemplo: em ordem alfabtica, em um fichrio ou em uma lista telefnica, cujo procedimento descrito a seguir: divide-se o tamanho da populao pelo tamanho da amostra para se ter o valor de K (salto). Assim:
K= N n

onde: K = Salto,

N = tamanho da populao

n = tamanho da amostra

Com o valor de K (salto), sorteia-se um de seus elementos, que ser o primeiro elemento da amostra. A partir da, basta ir somando K posio do elemento retirado at formar a amostra desejada.

c) Amostragem Estratificada : Utilizada quando a populao se apresenta de forma heterognea, isto , por ter elementos discrepantes. Neste caso, para se compor uma amostra preciso dividir a populao em grupos de elementos homogneos, chamados de estratos e, nesses estratos, fazer um sorteio entre seus elementos para compor a amostra. O nmero de elementos sorteados de cada grupo poder ser proporcional ao tamanho do grupo, obtendo assim, a Amostragem Estratificada Proporcional.

d) Amostragem por Conglomerado: Algumas populaes no permitem, ou tornam extremamente difcil que se identifique seus elementos. No obstante isso pode ser relativamente fcil separar alguns subgrupos destas populaes. Em tais casos, uma amostra aleatria simples desses subgrupos (conglomerados) pode ser colhida e, uma contagem completa (censo) deve ser feita para o conglomerado sorteado. Exemplos de agregados simples so: quarteires, famlias, organizaes, agncias, edifcios, etc. 6.2 Amostragem No-Probabilstica So as que no permitem a retirada de uma amostra de forma aleatria, pois em algumas situaes a amostragem se torna obrigatria, por exemplo: ensaios de drogas, vacinas, tcnicas cirrgicas, pesquisa de opinio e etc. Destacam-se dentre elas as amostragens por Convenincia, por Julgamento e por Quota. a) Amostragem por convenincia : Ocorre quando o pesquisador seleciona membros da populao dos quais mais fcil se obter informaes. Esse tipo de amostragem, embora no aleatria, bastante utilizada na rea de marketing, geralmente so amostras obtidas em teatros, cinemas, etc. Neste caso, importante o senso crtico do pesquisador para evitar vieses, por exemplo, no selecionar sempre pessoas de mesmo sexo, de mesma faixa etria, etc. os

b) Amostragem por julgamento : Ocorre quando o pesquisador utiliza seu prprio julgamento para selecionar os membros da populao que tenham boas perspectivas de fornecerem as informaes necessrias. c) Amostragem por quotas : Ocorre quando o pesquisador encontra e entrevista um nmero pr-determinado de pessoas em cada uma das vrias categorias da populao.

Observao: A amostragem no-probabilstica geralmente influenciada por tendncias, preferncias e fatores subjetivos pessoais diversos.

6.3 Cuidados com a Amostragem Para que no haja erros na amostragem conveniente observar: 1) Definio do Universo que ser amostrado face aos objetivos e definio do problema da pesquisa. 2) Definio da unidade da amostra que ser base do processo da seleo. Exemplo: em uma pesquisa poderamos utilizar como unidade amostral, o domiclio ou a famlia, uma vez definido operacionalmente o que vem a ser a famlia, por exemplo, s entrevistaramos aqueles que realmente se ajustem definio adotada. Ex.: uma repblica de estudantes no considerada famlia em muitas pesquisas porque cada indivduo isoladamente decide o que consome, no existe gerao conjunta de recursos para ajudar no oramento de despesas e o processo decisrio no consistente como de famlia, de marido, de mulher e de filhos. 3) Confiabilidade. Se aplicarmos o estudo com metodologia semelhante, deveremos conseguir resultados similares. 4) Tamanho da amostra. Apesar da existncia de vrias frmulas, a amostra varia muito de pesquisa para pesquisa. Porm, deve se levar em conta o tamanho da populao. Todavia, algumas observaes podem ser levadas em consideraes, a saber: a) Quanto maior o nmero de elementos numa amostra, menor os desvios dos parmetros em relao ao valor esperado da populao. b) Quanto maior a homogeneidade da populao, menor a amostra a ser pesquisada.

7 VARIVEL qualquer quantidade ou caracterstica que pode assumir diferentes valores numricos. Por exemplo, um questionrio de uma pesquisa em marketing contm as seguintes perguntas: Qual a sua idade? Idade Tamanho da famlia Renda familiar Estado civil Emprego Tempo de trabalho.

Qual o nmero de pessoas de sua famlia? Gerem informaes Qual a renda familiar? Qual o seu estado civil? Voc tem emprego fixo? Qual o tempo de trabalho na empresa? nas variveis -

7.1 Classificao das Variveis Ao se fazer um estudo estatstico de um determinado fato ou grupo, tem-se que considerar o tipo da varivel. Pode-se ter variveis qualitativas ou quantitativas. As variveis qualitativas so as que descrevem os atributos de um indivduo, tais como: sexo, estado civil, grau de instruo, etc. J as variveis quantitativas so as provenientes de uma contagem ou mensurao, tais como: idade, salrio, peso, etc. As variveis qualitativas e as quantitativas dividem-se em dois tipos: Variveis Qualitativas ou Categricas Ordinal Tipos Descrio No existe nenhuma Nominal ordenao. Obedece a uma certa ordenao. Dados oriundos de Quantitativas Discretas contagem. Dados oriundos de Contnuas medio. Exemplos Cor dos olhos, sexo, estado civil.

grau de instruo; classe social. Nmero de funcionrios; nmero acidentes de trabalho ocorrido durante um ms. Medidas de altura e peso.

8 DESCRIO E APRESENTAO DE DADOS Os dados obtidos em pesquisas devem ser analisados e interpretados com o auxlio de mtodos estatsticos. Na primeira etapa deve-se fazer uma anlise descritiva que consiste na organizao e descrio dos dados, na identificao de valores que representem o elemento tpico e, na quantificao da variabilidade presente nos dados.

8.1 DADOS

So as informaes inerentes s variveis que caracterizam os elementos que constituem a populao ou a amostra em estudo. 8.1.1 Dados Brutos

So os dados obtidos diretamente da pesquisa, sem terem passados por nenhum processo de sntese ou anlise. Exemplos: 1) Depsitos bancrios Depsitos bancrios da Empresa AKI-SE-TRABALHA, em milhares de Reais, Fev/Mar, 2002 3,7 1,8 0,8 1,6 2,4 1,6 1,4 3,1 2,9 2,1 2,5 2,7 1,8 2,0 1,3 3,0 2,1 1,0 1,0 2,7 3,9 3,3 2,0 2,7 2,1 1,9 3,2 2,0 3,0 2,8 3,8 2,3 2,9 1,3 1,9 1,5 2,3 3,2 1,5 1,3 1,1 2,4 1,9 4,6 2,6

Apesar de todos estes valores terem sido obtidos na mesma empresa, nota-se uma grande variao em seus resultados. Esta variabilidade exige que o padro de referncia procurado seja expresso por uma faixa e no por um nico valor. Pode-se perceber a grande variabilidade entre os dados considerados no exemplo anterior. Assim, os mtodos estatsticos so fundamentais para o estudo de situaes em que a variabilidade inerente. A Estatstica Descritiva ajuda na percepo, avaliao e

quantificao da variabilidade em tabelas e grficos obtidos a partir de um conjunto de dados que sintetizem os valores, com o objetivo de se ter uma viso global e clara da variao existente nas variveis. 8.2 Rol Rol o arranjo dos dados brutos numricos em ordem crescente ou decrescente, se os dados forem qualitativos o rol construdo em ordem alfabtica. Pode-se, pelo rol, verificar de maneira mais clara e rpida a composio do conjunto identificando o maior e o menor valor, alm de alguns elementos que podem se repetir vrias vezes, mostrando assim o comportamento dos dados. Como exemplo, o rol dos dados anterior fica: Depsitos bancrios da Empresa AKI-SE-TRABALHA, em milhares de Reais, Fev/Mar, 2002 0,8 1,5 2 2,5 3 1 1,6 2 2,6 3,1 1 1,6 2,1 2,7 3,2 1,1 1,8 2,1 2,7 3,2 1,3 1,8 2,1 2,7 3,3 1,3 1,9 2,3 2,8 3,7 1,3 1,9 2,3 2,9 3,8 1,4 1,9 2,4 2,9 3,9 1,5 2 2,4 3 4,6

8.3 Representao Tabular Consiste em apresentar os dados coletados atravs de tabelas dando uma viso mais clara do que ocorre com os dados observados. Para organizar uma srie estatstica ou uma distribuio de freqncias, existem algumas normas nacionais ditadas pela Associao Brasileira de Normas Tcnicas (ABNT) as quais devem ser respeitadas. Assim, toda tabela estatstica deve conter: a) Elementos essenciais Ttulo indica a natureza do fato estudado (o qu?), as variveis escolhidas na anlise do fato (como?), o local (onde?) e a poca (quando?). Corpo o conjunto de linhas e colunas que contm, respectivamente, as sries horizontais e verticais de informaes. Cabealho designa a natureza do contedo de cada coluna.

10

Coluna indicadora mostra a natureza do contedo de cada linha. b) Elementos complementares (se necessrio) Fonte o indicativo, no rodap da tabela, da entidade responsvel pela sua organizao ou fornecedora dos dados primrios. Notas so colocadas no rodap da tabela para esclarecimentos de ordem geral. Chamadas so colocadas no rodap, servem para esclarecer mincias em relao as caselas, colunas ou linhas. Nenhuma casela da tabela deve ficar em branco, apresentando sempre um nmero ou sinal. Exemplo: Tendo a seguinte tabela Percentuais de exportaes brasileiras por Estados, ms de maro de 2000. Estados Minas Gerais So Paulo Rio Grande do Sul Esprito Santo Paran Santa Catarina Total Fonte: Ministrio da Agricultura c) numerar as tabelas quando houver mais de uma; d) as tabelas devem ser fechadas acima e abaixo por linha horizontais, no sendo fechadas direita e esquerda por linhas verticais. facultativo o emprego de traos verticais para separao de colunas no corpo da tabela; e) os totais e subtotais devem ser destacados; f) manter a uniformidade do nmero de casas decimais. 8.3.1 Sries Estatsticas Existem vrias maneiras de representar um conjunto de dados atravs de tabelas, dependendo para isso, dos tipos de dados e da classificao que se queira dar. Fixando uma das trs modalidades que caracterizam um fato: tempo, local e fato observado, pode-se classific-las em cinco tipos: Srie Cronolgica (varia o tempo e fixa o local e o fato). Percentuais (%) 21,92 39,96 17,50 7,68 9,56 3,38 100,00

11

Srie Geogrfica (varia o local e fixa o tempo e o fato). Srie Categrica (varia o fato e fixa o tempo e o local). Srie Conjugada ou Mista (combinao de duas sries acima). Distribuio de Freqncia.(especfica para valores numricos). Srie Unidimensional

TABELA 1 Nmero e porcentagem de causas de morte de residentes de Londrina, no perodo de 10 de agosto a 31 de dezembro de 1993. CAUSAS DA MORTE Doenas do ap. circulatrio Neoplasias Causas externas Doenas do ap. respiratrio Doenas das glnd. endc./transt. Imunitrios Doenas do ap. digestivo Doenas e infec. e parasitrias Afeces do per. Perinatal Demais grupos TOTAL FONTE: Ncleo de informao em mortalidade PML. Srie Bidimensional ou Conjugada TABELA 2 Percentual da populao economicamente ativa empregada no setor primrio e o respectivo ndice de analfabetismo, algumas regies metropolitanas brasileiras. 1977. Regies Metropolitanas So Paulo Rio de Janeiro Belm Belo Horizonte Salvador Porto Alegre Recife Fortaleza Setor Primrio 2,0 2,5 2,9 3,3 4,1 4,3 7,0 13,0 ndice de Analfabetismo 17,5 18,5 19,5 22,2 26,5 16,6 36,6 38,4 NO 281 115 92 87 56 54 46 26 82 839 % 33,5 13,7 11,0 10,4 6,7 6,4 5,5 3,1 9,8 100,0

FONTE: Indicadores Sociais para reas Urbanas - IBGE

12

8.4 Tabela de Distribuio de Freqncias Tendo os dados relativos a uma varivel quantitativa contnua razovel apresenta-los por intervalos de acordo com a preciso necessria, assim, pode-se construir uma tabela de distribuio de freqncias, como observa-se no exemplo: Idade dos freqentadores do Shopping AKI-SE-GASTA, 2001 Idade (anos) 10 |-- 20 20 |-- 30 30 |-- 40 40 |-- 50 50 |-- 60 60 |-- 70 70 |-- 80 Total Freqncia absoluta 570 1130 570 320 190 170 70 3020 Porcentagem 18,87 37,42 18,87 10,60 6,29 5,63 2,32 100 Porcentagem acumulada 18,87 56,29 75,17 85,76 92,05 97,68 100

Para agrupar os dados selecionamos intervalos contnuos para os quais cada valor coletado ser alocado. Estes intervalos so chamados de intervalos de classe. aconselhvel que sejam sempre do mesmo tamanho. O nmero intervalos pode ser um problema, pois poucos intervalos podem resultar em perda da informao. Por outro lado, muitos intervalos no resumem a informao. Etapas para a construo de tabelas de distribuio de freqncia: 1) Encontrar o menor e o maior valor do conjunto de dados e calcular a amplitude entre eles por: At = no do maior no do menor 2) No existindo um critrio rgido para estabelecer o nmero ideal de intervalos, sugere-se que no se utilize menos de 6 e no mais de 15 intervalos. A experincia tem demonstrado que se pode fixar o nmero de intervalo como:
K = 1 + 3,3.log n, para uma amostra de tamanho n

3) Uma vez determinado o nmero de intervalos, o tamanho destes dado por:


a= maior valor - menor valor A t = K K

13

Assim, se podem construir os intervalos partindo do menor valor do conjunto e somando a amplitude calculada (a), o que permite determinar os limites dos intervalos.

Aplicao: Faa uma distribuio de freqncias para os dados abaixo que representam o tempo de atendimento de assessoria econmica (min) . 11,4 18 24,2 29,8 35,4 38 39,4 42 45 12,2 18 24,8 30 35,4 38,4 39,8 42 45,6 12,6 19,4 27 30,2 36,2 38,4 40 42,2 45,8 12,6 20,2 27,4 30,4 37 39 40,4 42,6 46 12,6 20,4 28 31 37 39 40,6 43 47 14 22,2 28,2 31,8 37,4 39,2 40,8 43,2 47,8 15,8 22,6 28,4 32,4 37,6 39,4 41 44 49,2 16,2 23 28,8 33,6 37,6 39,4 41 44 49,4 16,2 23,6 29,2 35,2 37,8 39,4 41,4 44 49,6

9 REPRESENTAO GRFICA A representao grfica usada para aumentar a legibilidade do resultado de uma pesquisa. Os grficos devem ser auto-explicativos e de fcil compreenso. Devem sempre: Ter um ttulo, onde se destaca o fato, o local e o tempo;

Ser construdos em uma escala que no desfigure os fatos ou as relaes que se


deseja destacar. Assim, a altura de um grfico deve compreender entre 60% a 80% da largura;

Colocar a fonte de obteno dos dados, caso no seja o prprio autor que tenha feito
a coleta.

14

9.1 Representao grfica para varivel qualitativa (categrica)

Para esse tipo de varivel os grficos mais utilizados so os de: colunas, barras, de setores e de linhas. a) Grfico de Colunas Dados sobre as doenas mais comuns ocorridas no Estado de So Paulo
30000 25000

Frequncia

20000 15000 10000 5000 0 Tetano Pneumonia Tuberculose Hepatite Leptospirose

Doenas

b) Grfico de Setores Circulares

Leptospirose 10% Hepatite 12% Tetano 33%

Tuberculose 21% Pneumonia 24%

15

c) Grfico de Barras Dados sobre as doenas mais comuns ocorridas no Estado de So Paulo

Leptospirose

Hepatite

Doenas

Tuberculose

Pneumonia

Tetano 0 5000 10000 15000 20000 25000 30000

Frequncia

d) Grfico de Linha o tipo mais utilizado para representar a evoluo de uma varivel ao longo do tempo. Produo de Dormitrios da Empresa Moveleira JS, 1990 a 2000. Ano 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Quantidade (1.000 unidades) 55,64 73,16 65,15 61,20 54,96 44,93 56,57 29,65 34,59 34,51 29,32

Fonte: Departamento de Produo.

16

Produo de Dormitrios da Empresa JS, 1990 a 2000


Quantidade (1000 unidades) 80 70 60 50 40 30 20 10 0 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

9.1.1 Distribuio de duas ou mais variveis qualitativas


Balana Comercial Brasileira de janeiro a maio de 1999
40000 35000 30000 25000 20000 15000 10000 5000 0 Janeiro Fevereiro Maro Abril Maio Exportao Importao

17

Balana Comercial Brasileira de janeiro a maio de 1999


100% 80% 60% 40% 20% 0% Janeiro Fevereiro Maro Abril Maio Importao Exportao

Balana Comercial Brasileira de janeiro a maio de 1999


45000 40000 35000 30000 25000 20000 15000 10000 5000 0 Janeiro Fevereiro Maro Abril Maio

Exportao Importao

9.2 Representao grfica de variveis quantitativas Resultados referentes a variveis contnuas freqentemente so organizadas em tabelas de distribuies de freqncias por intervalos. Trs tipos de grficos geralmente so utilizados neste caso: histograma, polgono de freqncia e ogivas.

18

Medidas do dimetro de peas tipo WKJ Medidas Mm 3,0 |-- 3,5 3,5 |-- 4,0 4,0 |-- 4,5 4,5 |-- 5,0 5,0 |-- 5,5 5,5 |-- 6,0 6,0 |-- 6,5 6,5 |-- 7,0 7,0 |-- 7,5 7,5 |-- 8,0 8,0 |-- 8,5 8,5 |-- 9,0 Total a) Histograma Freqncia absoluta 2 15 33 40 54 47 38 16 15 3 1 3 267 Porcentagem Simples Acumulada 0,7 5,6 12,4 15 20,2 17,6 14,2 6 5,6 1,1 0,4 1,1 100 0,7 6,3 18,7 33,7 53,9 71,5 85,7 91,7 97,3 98,4 98,8 100 P. mdio Xi 3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75

Dim etros d as Peas W K J


60 50 40 30 20 10 0
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9

19

b) Polgono de Freqncias

Dimetros das Peas WKJ


60 50 40 30 20 10 0
2,75 3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75 9,25

c) Ogiva

Dimetros das Peas WKJ


120 100 80 60 40 20 0 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5

20

10 - DESCRIO ARITMTICA DE UMA DISTRIBUIO Uma das principais razes de se estudar um fenmeno determinar a natureza da distribuio dos dados. No caso das variveis quantitativas, ao se construir a tabela de distribuio de freqncia e o histograma obtm-se uma considervel quantidade de informaes referentes distribuio de conjunto de dados de uma amostra, porm, so necessrias informaes mais precisas para se ter uma descrio aritmtica da distribuio, pois, quanto mais medidas se conhecem, mais informaes se tm sobre a distribuio. Neste trabalho destacam-se as seguintes medidas: Medidas de Posio: mdia, mediana, moda e separatrizes. Medidas de Disperso: amplitude total, varincia, desvio padro e coeficiente de variao. Medidas Separatrizes: quartil, decil e percentil. 10.1 - Medidas de Posio So medidas usadas para representar as variveis quantitativas de forma resumida. Tais medidas possibilitam a comparao de variveis entre si pelo confronto desses nmeros. So tambm chamadas de medidas de tendncia central, pois representam os fenmenos pelos seus valores mdios, em torno dos quais tendem a concentrar-se os demais valores. a ) Mdia Aritmtica Seja uma amostra de n elementos composta pelos seguintes valores: x1 , x2 , ... , xn. A mdia aritmtica simples desses elementos, representada por X . definida por:

xi
X=
i =1

ou simplesmente

X=

x n

onde, n o nmero de elementos da

amostra.

21

No caso de se ter dados relativos a uma populao, calcula-se a mdia aritmtica simples atravs de:

x onde, N o nmero de elementos da populao. N

Exemplo: Tendo a seguinte amostra A = 6, 9, 10 e 14

X=

b ) Mediana Mediana de um conjunto de valores em rol o valor que o separa em duas partes iguais em nmero de elementos. Para o clculo da mediana aconselhvel que o rol esteja em ordem crescente. 0% 50% Md Se o nmero de elementos da amostra for impar, a mediana o elemento central do rol. 1, 3, 4, 6, 7, 9, 15, 16, 19 => Md = Caso tenha nmero de elementos par, a mediana a mdia aritmtica dos dois termos centrais do rol. 3, 4, 7, 10, 12, 14, 15, 18 => Md = 100%

x n + x n
Frmulas: n mpar

Md X = x n+1 e n par
2

Md X =

2 +1

onde x [i ] a observao que ocupa a i-sima posio, no conjunto de dados colocados em ordem crescente ou decrescente.
c ) Moda o valor mais freqente de uma distribuio de dados. Para distribuies simples (sem agrupamento em classes), a identificao da moda facilitada pela simples observao do elemento que apresenta maior freqncia. Assim, para a distribuio:

22

243 Xi fi 7 A moda : Mo = 248.

245 17

248 23

251 20

307 8

De acordo com o comportamento dos valores da srie, pode-se ter: Srie amodal no existe moda Srie modal ou unimodal existe uma nica moda Srie bimodal existem duas modas Srie multimodal ou plurimodal existem mais de duas modas

10.2 - Medidas de Disperso


Antes de definirmos o que disperso, verificaremos qual a sua utilidade atravs da seguinte situao: Com o objetivo de contratar um digitador determinada empresa submeteu aos candidatos a digitarem 5 textos de tamanhos variados, onde foram anotados os tempos de execuo (em minutos). Destacaram-se dois candidatos, cujos tempos esto descritos na tabela abaixo:

Candidatos A B

Provas
1 6 5 2 8 7 3 8 8 4 9 8 5 9 12

Qual o melhor candidato? Uma maneira de classific-los seria pela mdia, porm verifica-se que tm mdias iguais, ou seja, de 8 minutos, ocasionando assim um impasse. Se optar pela mediana ou pela moda o valor tambm ser de 8 minutos. Percebe-se que as medidas de tendncia central nem sempre so suficientes para descrever plenamente um conjunto de dados. As medidas que complementam essa descrio so as chamadas medidas de disperso, pois medem o grau de

concentrao dos dados.


Nesse caso, o melhor candidato o que apresentou maior homogeneidade, ou menor disperso nos tempos de execuo. Para se calcular essa disperso podemos usar um das seguintes medidas:

23

a ) Amplitude Total Como j se verificou na construo da tabela de distribuio de freqncias, a amplitude total de um rol definida como a diferena entre o maior e o menor valor de uma srie. A amplitude total tem o grave inconveniente de depender somente dos valores extremos da srie, desprezando assim os valores intermedirios, o que a torna insensvel disperso dos demais valores. Para calcular usa-se: AT = Nomaior Nomenor Exemplo: No caso apresentado anteriormente: Candidato A a amplitude _______________ Candidato B a amplitude _______________ Desta maneira o candidato escolhido ser __________. b ) Varincia certamente a medida de disperso mais usada pela sua facilidade de aplicao e tambm por ser uma medida mais precisa, pois leva todos os valores da distribuio em considerao no seu clculo. - Para dados no agrupados: Utiliza-se a seguinte frmula:

(x i x )2
s2 =
i =1

n 1

Exemplo: Tendo a seguinte amostra: 5, 6, 8, 10,12. c ) Desvio - Padro Ao calcular a varincia, os valores das variveis so todos elevados ao quadrado, ficando assim a sua unidade tambm elevada ao quadrado. Por exemplo, se a varivel for uma medida de comprimento em metro (m), ao calcular a varincia a sua unidade ser metro ao quadrado (m2). Para voltarmos a unidade original, precisamos definir uma outra medida de disperso, que a raiz quadrada da varincia, que se denomina desvio-padro, logo:

24

(x i x )2
s=
i=1

n 1

Para dados agrupados em uma Distribuio de freqncias. Quando j se tm os dados organizados em uma tabela, pode-se calcular a mdia aritmtica e a varincia pelas seguintes frmulas:

MEDIA ARITMTICA

VARINCIA

xi f i
X =
i =1

ou

X =

x. f n

s2 =

2 i

fi

( x f )
i i

n 1

onde: xi o ponto mdio e fi a freqncia absoluta de cada intervalo de classe. d) Medida de Disperso Relativa Coeficiente de Variao As medidas de disperso absolutas so sempre indicadas nas mesmas unidades de medida do fenmeno estudado. Suponhamos que desejamos comparar a disperso das atribuies de conjuntos com unidades diferentes, como por exemplo, o peso, em kg, e alturas, em cm. Como comparar essas duas variveis? Em situaes como estas, as medidas de disperso relativa podem ser mais adequadas, pois independem da unidade de medida. Dentre vrios estimadores da disperso relativa existentes, adotaremos o COEFICIENTE DE VARIAO DE PEARSON, definido por:
CV = s .100% X

Exemplo: A tabela a seguir nos fornece a tendncia central e a disperso absoluta dos pesos e alturas das mulheres de certa amostra.

25

Estatstica Mdia (X) Desvio-padro (s) Coeficiente de Variao (C.V.) Observa-se ento, que embora o

Estatura 168 cm 30 cm 17,86% desvio-padro das

Peso 53 kg 9,49 kg 17,90% estaturas seja

aproximadamente 3 vezes maior que o desvio-padro dos pesos, os coeficientes de variao so praticamente iguais para as duas variveis, isso significa que, embora os desvios padro sejam discrepantes, o grau de concentrao dos dados em torno da mdia em cada varivel aproximadamente igual. O coeficiente de variao serve tambm para nos indicar o grau de representatividade da mdia dentro de um conjunto de dados, alm de comparar o comportamento de dois conjuntos com unidades diferentes. Quanto menor o coeficiente de variao maior a representatividade da mdia. Para os digitadores, temos: Estatstica Mdia ( X ) Desvio-Padro (s) Coeficiente de Variao (C.V.) DIGITADORES

A
8 1,22 15,25%

B
8 2,55 31,88%

Percebe-se que o C.V. de B o dobro do C.V. de A, possibilitando verificar que realmente o conjunto de tempos do digitador A mais homogneo, logo a sua mdia (8) representa melhor o conjunto de tempo de execuo que a mdia do digitador B.

10.3 Medidas Separatrizes: Percentis 10.3.1 Percentis (Centis)


So mediadas que dividem um conjunto de dados em cem partes iguais. 0% 1% P1 2% P2 . . . . . . 50% P50 . . . . . . 98% P98 99% P99 100%

26

onde: P1 = 10 percentil, deixa 1% dos elementos abaixo do seu valor. P2 = 20 percentil, deixa 2% dos elementos abaixo do seu valor. ............................................................. P50 = 50 0 percentil, deixa 50% dos elementos. (coincide com a mediana) ............................................................. P99 = 99 0 percentil, deixa 99% dos elementos abaixo do seu valor. Exemplo: Tendo a seguinte amostra. 4,44 4,68 4,87 4,99 5,09 5,24 4,47 4,69 4,88 5,00 5,10 5,26 4,48 4,71 490 5,01 5,11 5,27 4,51 4,73 4,90 5,01 5,11 5,27 4,54 4,76 4,95 5,01 5,16 5,29 4,54 4,78 4,95 5,02 5,17 5,32 4,61 4,80 4,96 5,04 5,18 5,35 4,64 4,81 4,97 5,05 5,18 5,46 4,66 4,86 4,98 5,08 5,19 5,50 4,68 4,86 4,98 5,09 5,24 5,85

Para determinar o percentil do valor 5,08, deve-se organizar os dados em ordem crescente, e verificar quantos valores esto abaixo de 5,08, que so 38 valores, ento pode-se aplicar a expresso: Percentil de 5,08 =

38 .100 = 63,3 63 60

O valor 5,08 o 63 percentil, o que equivale a dizer que aproximadamente 63% dos elementos so menores que 5,08. Para o processo inverso, ou seja, determinar o valor correspondente a um certo percentil, deve seguir a seguinte seqncia: 1) Ordenar os dados do menor para o maior. 2) Tabular o indicador de localizao (P100p), nas seguintes condies:

np inteiro P p = 100

x[ np] + x[ np +1] 2

np no inteiro P100 p = x[int( np ) +1]

27

Por exemplo, para calcular o percentil 25, que corresponde ao primeiro quartil, que deixa pelo menos 25% dos dados abaixo e pelo menos 75% dos dados acima dele, usase: n=60 e p=0,25. Ento np=15 e

P25 =

x15 + x16 4, 76 + 4, 78 = = 4, 77 , logo o primeiro quartil (25%) Q1= 4,77. 2 2

Boxplot

Um tipo de grfico muito til para a descrio de dados, visualizao de sua variabilidade, comparao entre diferentes grupos o grfico em caixas,(boxplot). Foi introduzido pelo estatstico americano John Tukey em 1977. Para a construo do boxplot obtm-se primeiro as seguintes estatsticas,ou seja o resumo de cinco pontos:1o quartil (Q1), mediana (Q2), 3o quartil (Q3) e a distncia interquartlica definida como DIQ = Q3 Q1. O boxplot obtido seguindo-se os seguintes passos: 1. Numa reta so marcados o 1o quartil (Q1), a mediana (Q2) e o 3o quartil (Q3). 2. Acima dessa reta constri-se um retngulo com limites iguais s posies do primeiro e terceiro quartis, cortado por um segmento de reta na posio relativa mediana. 3. A partir dos limites do retngulo, traam-se linhas at: a) encontrar um extremo (valor mximo ou mnimo) ou b) um valor correspondente a 1,5 DIQ, se o extremo correspondente estiver a mais de DIQ do quartil respectivo. Os pontos que so maiores do que Q3+1,5 DIQ ou menores do que Q1-1,5 DIQ so chamados de pontos extremos (outliers). Existem smbolos especiais para representar no boxplot os pontos extremos. Um esquema de boxplot apresentado na figura abaixo:

28

1,5 DIQ

DIQ

1,5 DIQ

(i)

Q1

Md = Q2

Q3

(ii)

O boxplot tambm fornece informaes importantes sobre o comportamento do conjunto de dados, como simetria e variabilidade. Se a amplitude for muito maior que a distncia interquartlica e a mediana estiver mais prxima do 1o quartil do que do 3o quartil, h forte indicaes de assimetria positiva e de grande disperso das observaes.

Exemplo: Tendo a seguinte amostra: 3 15 17 18 21 21 22 25 27 30 38 49 68

Xmin =

Q1 =

Md =

Q3 =

Xmax=

D IQ =

15 17 18 21 22 25 27

30

38

49

68

Observaes atpicas (outlier)

muito comum aparecerem entre os dados coletados, observaes atpicas (outliers), isto , valor muito grande ou muito pequeno em relao aos demais. Um conjunto de dados pode apresentar apenas um ou vrios outliers.
Observaes atpicas alteram enormemente as mdias e variabilidade dos grupos a que pertencem e podem at mesmo distorcer as concluses obtidas atravs de uma anlise estatstica padro. Portanto, de fundamental importncia detectar e dar um tratamento adequado a elas. bom fazer uma inspeo dos dados no incio da anlise estatstica, atravs das tcnicas descritivas de dados.

29

Causas do aparecimento de outliers

Dentre as possveis causas do aparecimento de outliers, pode-se citar as seguintes: Leitura, anotao ou transio incorreta dos dados. Erro na execuo do experimento ou na tomada da medida. Mudanas no controlveis nas condies experimentais ou dos elementos. Caracterstica inerente varivel estudada (por exemplo, grande instabilidade do que est sendo medido).
Como detectar outliers

Os outliers podem ser detectados simplesmente por uma verificao lgica dos dados, atravs de grficos especficos ou ainda atravs de teste apropriados. Uma forma grfica usual o boxplot.

Exemplo: A distribuio do retorno de capital em semestres. Tempo de retorno (semestres) 2 3 4 5 6 17 Total Freqncia absoluta Simples 10 28 10 1 1 1 51 19,60 54,90 19,60 1,96 1,96 1,96 100,00 Porcentagem Acumulada 19,60 74,50 94,10 96,06 98,02 100,00

O valor 17 semestres est muito fora do padro (3 semestres segundo a prtica), o que confirmado no boxplot abaixo:

*
2 3 6 9

12 15 18

30

Foram identificados dois outliers: os valores 6 e 17. Baseado nos estudo da rea considerando o tipo de investimento, o primeiro valor detectado no foi considerado aberrante e assim optou-se por no retir-lo da anlise. O investimento que teve retorno aos 17 semestres era em um local perifrico de uma grande cidade, enquanto que os demais analisados se localizavam prximo ao centro da cidade.

Medidas a serem tomadas

Quando um outlier detectado, duas medidas podem ser tomadas: abandon-lo ou conserv-lo. Existem justificativas para cada uma dessas medidas e o tipo de anlise pode variar, dependendo se o outlier foi ou no eliminado. Um outlier deve ser eliminado da anlise quando houver uma justificativa convincente para isto, por exemplo quando a observao incorreta ou houve erro na execuo do experimento ou na medida tomada. Aps a eliminao do outlier pode-se fazer a anlise estatstica usando-se apenas as observaes restantes, ou uma anlise mais sofisticada, que foge ao nvel deste texto. Por outro lado, se nenhuma explicao pode ser dada observao atpica, o
outlier pode refletir uma caracterstica do que est sendo estudado. Neste caso, tal

observao deve ser includa na anlise e um tratamento especial deve ser dado aos dados. Por exemplo, pode-se usar uma ponderao da influncia das observaes ou alternativamente uma transformao ( x , logx, etc.) da varivel estudada.