Você está na página 1de 82

CENTRO DE CINCIAS EXATAS CCE DEPARTAMENTO DE ESTATSTICA

Curso de Especializao Lato Sensu em Estatstica

ANLISE EXPLORATRIA DE DADOS

Professor: Dr. Waldir Medri


medri@uel.br

Londrina/Pr Maro de 2011

ii

NDICE

ESTATSTICA ...................................................................................................................................................... 1 1 INTRODUO .................................................................................................................................................. 1 2 REAS DA ESTATSTICA .............................................................................................................................. 2 2.1 ESTATSTICA DESCRITIVA ............................................................................................................................. 2 2.2 ESTATSTICA INFERENCIAL ........................................................................................................................... 3 3 POPULAO E AMOSTRA............................................................................................................................ 4 3.1 POPULAO .................................................................................................................................................. 4 3.2 AMOSTRA ...................................................................................................................................................... 4 4 VARIVEIS........................................................................................................................................................ 5 4.1 VARIVEIS QUALITATIVAS ............................................................................................................................. 5 4.2 VARIVEIS QUANTITATIVAS .......................................................................................................................... 5 5 DADOS................................................................................................................................................................ 9 5.1 DADOS BRUTOS ............................................................................................................................................ 9 5.2 ROL ............................................................................................................................................................... 9 5.3 DISPOSITIVO - RAMO E FOLHAS ................................................................................................................. 10 5.4 REPRESENTAO TABULAR ....................................................................................................................... 11 5.5 REPRESENTAO GRFICA ........................................................................................................................ 13 5.5.1 Representao Grfica para uma Varivel Qualitativa ....................................................................... 13 5.5.2 Representao Grfica para uma Varivel Quantitativa ..................................................................... 16 5.5.3 Sries Conjugadas ................................................................................................................................ 17 5.5.4 Distribuio de Frequncias ................................................................................................................ 19 5.6 LISTA 1 EXERCCIOS ................................................................................................................................ 27 6 MEDIDAS ESTATSTICAS ........................................................................................................................... 30 6.1 MEDIDAS TENDNCIA CENTRAL (POSIO)............................................................................................... 30 6.1.1 Mdia.................................................................................................................................................... 30 6.1.2 Mediana................................................................................................................................................ 31 Conceito de resistncia de uma medida ........................................................................................................ 32 6.1.3 Moda..................................................................................................................................................... 32 6.2 MEDIDAS DE DISPERSO ............................................................................................................................ 33 6.2.1 Amplitude.............................................................................................................................................. 33 6.2.2 Desvio Mdio........................................................................................................................................ 34 6.2.3 Varincia .............................................................................................................................................. 34 6.2.4 Desvio Padro ...................................................................................................................................... 35 6.2.5 Erro Padro ......................................................................................................................................... 35 6.2.6 Coeficiente de Variao ....................................................................................................................... 35 6.3 SEPARATRIZES: QUARTIS, DECIS E PERCENTIS ........................................................................................ 37 6.4 ASSIMETRIA................................................................................................................................................. 39 6.5 CURTOSE .................................................................................................................................................... 40 6.6 BOX PLOT ................................................................................................................................................... 41 6.7 MEDIDAS DE POSIO E DISPERSO DE UMA DISTRIBUIO DE FREQUNCIA ........................................ 45 6.7.1 Mdia.................................................................................................................................................... 46 6.7.2 Mediana................................................................................................................................................ 46 6.7.3 Moda..................................................................................................................................................... 47 6.7.4 Separatrizes: Quartis, Decis e Percentis.............................................................................................. 47 Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

iii

6.7.5 Clculo das Separatrizes Utilizando Propores................................................................................. 49 6.7.6 Desvio Mdio........................................................................................................................................ 50 6.7.7 Varincia .............................................................................................................................................. 50 6.7.8 Desvio Padro ...................................................................................................................................... 50 6.7.9 Erro Padro ......................................................................................................................................... 50 6.8 LISTA 2 - EXERCCIOS ................................................................................................................................. 51 7 TRANSFORMAES DE VARIVEIS....................................................................................................... 53 7.1 MUDANA DE ORIGEM ................................................................................................................................ 54 7.2 MUDANA DA UNIDADE............................................................................................................................... 55 8 ANLISE BIDIMENSIONAL ........................................................................................................................ 56 8.1 INTRODUO ............................................................................................................................................... 56 8.2 VARIVEIS QUALITATIVAS ........................................................................................................................... 57 8.3 ASSOCIAO ENTRE VARIVEIS QUALITATIVAS ......................................................................................... 59 8.4 MEDIDAS DE ASSOCIAO ENTRE VARIVEIS QUALITATIVAS ................................................................... 66 8.5 ASSOCIAO ENTRE VARIVEIS QUANTITATIVAS ...................................................................................... 66 8.5.1 Coeficientes de associao ou correlao............................................................................................ 67 8.6 ASSOCIAO ENTRE AS VARIVEIS QUALITATIVAS E QUANTITATIVAS ...................................................... 71 8.7 LISTA 3 - EXERCCIOS ................................................................................................................................. 76 REFERNCIAS BIBLIOGRAFIAS ................................................................................................................. 78

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

iv

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

ESTATSTICA

1 INTRODUO Desde a Antigidade vrios povos j registravam o nmero de habitantes, de nascimento, de bitos, faziam estimativas das riquezas individual e social, distribuam equitativamente terras ao povo, cobravam impostos e at realizavam inquritos quantitativos por processos que, hoje, se chama de Estatstica. A palavra Estatstica vem de status, que significa em latim Estado. Com essa palavra faziam-se as descries e dados relativos aos Estados, tornando a Estatstica um meio de administrao para os governantes. Mais recentemente se passou a falar em estatstica em vrias cincias de todas as reas do conhecimento humano, onde pode definir a Estatstica como um conjunto de mtodos e processos quantitativos que servem para estudar e medir os fenmenos coletivos. Ao se estudar os fenmenos coletivos, o que interessa so os fatos que envolvem os elementos desses fenmenos, como eles se relacionam e qual o seu comportamento. Para que tal estudo possa acontecer com toda a seriedade que a cincia exige, necessrio que o levantamento seja feito atravs de uma pesquisa cientfica, sendo ela definida como a realizao concreta de uma investigao planejada, desenvolvida e redigida de acordo com as normas de metodologia. A Estatstica muito mais do que a simples construo de grficos e o clculo de mdias. As informaes numricas so obtidas com a finalidade de acumular informao para a tomada de deciso. Ento, a estatstica pode ser vista como um conjunto de tcnicas para planejar experimentos, obter dados e organiz-los, resumilos, analis-los, interpret-los e deles extrair concluses. A informao de estatstica apresentada constantemente no rdio e na televiso, como por exemplo, a coleta de dados sobre nascimentos e mortes, a avaliao da eficincia de produtos comerciais e a previso do tempo. As tcnicas clssicas da estatstica foram delineadas para serem as melhores possveis sob rigorosas suposies. Entretanto, a experincia tem forado os estudiosos a conhecer que as tcnicas clssicas comportam-se mal quando situaes prticas no apresentam o ideal descrito por tais suposies. O

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

desenvolvimento recente de mtodos exploratrios robustos est aumentando a eficincia da anlise estatstica. Os bons profissionais de estatstica tm sempre olhado com detalhes os dados antes de levantar suposies estatsticas e testes de hipteses. Mas o uso indiscriminado de pacotes estatsticos computacionais, sem o exame cuidadoso dos dados profissionais da rea, conduz, s vezes, a resultados aberrantes. A anlise exploratria de dados nos fornece um extenso repertrio de mtodos para um estudo detalhado dos dados, antes de adapt-los. Nessa abordagem, a finalidade obter dos dados a maior quantidade possvel de informao, que indique modelos plausveis a serem utilizados numa fase posterior, a anlise confirmatria de dados ou inferncia estatstica.

2 REAS DA ESTATSTICA Se entender Estatstica como a Cincia dos Dados, ser de grande valia o domnio que seu corpo de conhecimento pode oferecer. Primeiramente, como ponto de partida, pode-se dividir a Estatstica em duas reas: Descritiva Inferencial (Indutiva)

Obs. Alguns autores, como por exemplo, Marcos Nascimento Magalhes e Antonio Carlos Pedroso de Lima, dizem que a estatstica, grosso modo, pode ser dividida em trs reas: Estatstica descritiva; Probabilidade e Inferncia estatstica.

2.1 ESTATSTICA DESCRITIVA A Estatstica Descritiva se preocupa com a organizao, apresentao e sintetizao de dados. Utilizam grficos, tabelas e medidas descritivas como ferramentas. Utilizada na etapa inicial da anlise, destinada a obter informaes que indicam possveis modelos a serem utilizados numa fase final que seria a chamada inferncia estatstica.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

2.2 ESTATSTICA INFERENCIAL A Estatstica Inferencial postula um conjunto de tcnicas que permitem utilizar dados oriundos de uma amostra para generalizaes sobre a populao. Constitui esse conjunto de tcnicas: a determinao do nmero de observaes (tamanho da amostra); o esquema de seleo das unidades observacionais; o clculo das medidas estatsticas; a determinao da confiana nas estimativas; a significncia dos testes estatsticos; a preciso das estimativas; dentre outras. Essa generalizao feita a partir do processo de estimao das medidas estatsticas que podem ser calculadas, porm no sem antes se antecipar um grau de certeza de que a amostra esteja fornecendo os dados que seriam de se esperar caso toda a populao fosse estudada. Nesse caso, o ramo da matemtica que ser utilizado para se avaliar tal grau de certeza a probabilidade. Com ela teremos condies de mensurar a fidedignidade de cada inferncia feita com base na amostra.

Antes de comear a estudar os mtodos estatsticos que permitir analisar dados, sejam eles qualitativos ou quantitativos, importante introduzir alguns conceitos preliminares a fim no apenas de dar nomes aos instrumentos, mas tambm adequar e equalizar a terminologia a ser utilizada ao longo do curso. Na terminologia estatstica, o grande conjunto de dados que contm a caracterstica que temos interesse recebe o nome de populao. Esse termo referese no somente a uma coleo de indivduos, mas tambm ao alvo sobre o qual reside nosso interesse. Assim, nossa populao pode ser tanto todos os habitantes de Londrina como todas as lmpadas produzidas por uma fbrica em certo perodo de tempo. Algumas vezes podemos acessar toda a populao para estudarmos caractersticas de interesse, mas, em muitas situaes, tal procedimento no pode ser realizado. Em geral, razes econmicas so determinantes dessas situaes. Por exemplo, uma empresa, usualmente, no dispe de verba suficiente para saber o que pensam todos os consumidores de seus produtos. H ainda razes ticas, quando, por exemplo, os experimentos de laboratrio que envolvem o uso de seres vivos. Alm disso, existem casos em que a impossibilidade de se acessar toda a populao de interesse incontornvel. Por exemplo, em um experimento para determinar o tempo de funcionamento das lmpadas produzidas por uma indstria, no podemos observar toda a populao de interesse.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

Tendo em vista as dificuldades de vrias naturezas para se observar todos os elementos da populao, tomaremos alguns deles para formar um grupo a ser estudado. Este subconjunto da populao, em geral com dimenso menor, denominado amostra.

3 POPULAO E AMOSTRA

3.1 POPULAO Populao o conjunto constitudo por todos os indivduos que representam pelo menos uma caracterstica comum, cujo comportamento interessa analisar (inferir). Assim sendo, o objetivo das generalizaes estatsticas est em dizer se algo acerca de diversas caractersticas da populao estudada, com base em fatos conhecidos.

3.2 AMOSTRA Amostra pode ser definida como um subconjunto, uma parte selecionada da totalidade de observaes abrangidas pela populao, atravs da qual se faz inferncia sobre as caractersticas da populao. Uma amostra tem que ser representativa, a tomada de uma amostra bem como seu manuseio requer cuidados especiais para que os resultados no sejam distorcidos.

Parmetro uma medida numrica que descreve uma caracterstica de uma populao. So valores fixos, geralmente desconhecidos e usualmente representados por caracteres gregos. Por exemplo, (mdia populacional), p (proporo populacional), (desvio-padro populacional), 2 (varincia populacional).

Estatstica uma estatstica numrica que descreve uma caracterstica de uma amostra. Representada por caracteres latinos. Por exemplo,
x (mdia amostral), p (proporo amostral), s (desvio-padro amostral),

s2 (varincia amostral). Unidade Observvel a portadora da(s) caracterstica(s), ou

propriedade(s), que se deseja investigar.


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

A seleo da amostra pode ser feita de vrias maneiras, dependendo, entre outros fatores, do grau de conhecimento que temos da populao, da quantidade de recursos disponveis a assim por diante. Cabe ressaltar que este item ser apresentado mais para frente.

4 VARIVEIS Ao se fazer um estudo estatstico de um determinado fato ou grupo, tem-se que considerar o tipo de varivel. Pode ter variveis qualitativas ou variveis quantitativas. 4.1 VARIVEIS QUALITATIVAS Variveis qualitativas so aquelas em que a varivel assume valores em categorias, classes ou rtulos. So, portanto, por natureza, dados no numricos. Apesar de ser considerada de baixo nvel de mensurao, do ponto de vista da aplicao de instrumental estatstico, a varivel qualitativa oferece um vasto espectro de aplicao nas cincias sociais e do comportamento. Variveis qualitativas denotam caractersticas individuais das unidades sob anlise, tais como sexo, estado civil, naturalidade, raa, grau de instruo, dentre outras, permitindo estratificar as unidades para serem analisadas de acordo com outras variveis.

4.2 VARIVEIS QUANTITATIVAS Variveis quantitativas so aquelas expressas pelas variveis com nveis de mensurao intervalar ou de razo. Ou seja, so aqueles nas quais as variveis assumem valores numa escala mtrica definida por uma origem e uma unidade, por exemplo: idade, salrio, peso, etc. As variveis qualitativas podem ser, tambm, classificadas como nominal e ordinal. Por outro lado, as variveis quantitativas podem ser classificadas como discretas, quando assumem um nmero finito de valores, ou contnuas, quando assume um nmero infinito de valores, geralmente em intervalos, como apresentam na Tabela 1.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

Tabela 1: Classificao das variveis qualitativas e quantitativas Variveis Qualitativas ou Categricas Tipos Nominal Descrio Exemplos

No existe nenhuma Cor dos olhos, sexo, estado ordenao civil, tipo sangneo. Nvel de escolaridade, estgio Existe uma ordenao da doena, colocao de I, II, III concurso. Valor pertence a um Nmero de filhos por casal, conjunto enumervel quantidade de leitos valor Medidas de altura e peso, taxa um de glicose, nvel de colesterol.

Ordinal

Discretas Quantitativas

Quando o a Contnuas pertence intervalo real

Em algumas situaes podem-se atribuir valores numricos s vrias qualidades ou atributos e depois proceder anlise como esta varivel como se fosse quantitativa, desde que o procedimento seja passvel de interpretao. Uma vez obtidos os dados referentes s variveis qualitativas, a tarefa seguinte represent-los atravs de uma tabela e de um grfico. Posteriormente, poder ser til calcular as frequncias, simples, acumuladas e as relativas. Para os dados quantitativos, quando o nmero de observaes cresce e os valores so diferenciados entre si, h que se represent-los de modo resumido. Para isso a melhor forma de representao tabular atravs de distribuies de frequncia por classes de valores.

Como exemplo: Suponha que um mdico est interessado em fazer um levantamento sobre algumas caractersticas de pacientes atendidos em sua clnica neurolgica: sexo peso, tipo de tratamento, nmero de convulses e classificao da doena (leve, moderada e severa). Os dados podem ser organizados em uma tabela. Usualmente os indivduos so representados nas linhas e as variveis nas colunas. Este formato utilizado pela maioria do programas computacionais. Note atravs da Tabela 2 que cada indivduo uma unidade de observao na qual so feitas vrias medidas e/ou anotados vrios atributos, referentes s variveis.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

Tabela 2: Caractersticas de pacientes atendidos em uma clnica neurolgica Paciente 1 2 3 4 5 ... 58 59 60 M M F 71,0 78,8 71,0 B A B 0 2 3 Severa Leve Moderada Sexo M F M F F Peso 89,8 64,2 91,0 56,7 48,5 Tipo de Tratamento A A B A B No de Convulses 1 3 2 0 1 Classificao da Doena Leve Severa Moderada Moderada Leve

Analise a tabela 2 e classifique as variveis: Variveis qualitativas nominal: Sexo, Tipo de tratamento. Variveis qualitativas ordinal: Classificao da doena. Variveis quantitativas discreta: Nmero de convulses Variveis quantitativas contnua: Peso.

Um outro exemplo: Um pesquisador est interessado em fazer um levantamento sobre alguns aspectos socioeconmicos dos empregados da seo de oramentos da Companhia MB. Usando informaes obtidas do departamento pessoal, ele elaborou a Tabela 3.

De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo realizao de uma caracterstica (ou caractersticas). Algumas variveis, como sexo, educao, estado civil, apresentam como possveis realizaes de qualidade (ou atributo) do indivduo pesquisado, ao passo que outras, como nmero de filhos, salrio, idade, apresentam como possveis realizaes nmeros resultantes de uma contagem ou mensurao. As variveis do primeiro tipo so chamadas qualitativas e as do segundo quantitativas.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

Tabela 3: Informaes sobre estado civil, grau de instruo, nmero de filhos, salrio mnimo, idade e procedncia de 36 empregados da seo de oramentos da companhia MB. N
o

Estado Civil

Grau de Instruo

1 Solteiro Ensino fundamental 2 Casado Ensino fundamental 3 Casado Ensino fundamental 4 Solteiro Ensino mdio 5 Solteiro Ensino fundamental 6 Casado Ensino fundamental 7 Solteiro Ensino fundamental 8 Solteiro Ensino fundamental 9 Casado Ensino mdio 10 Solteiro Ensino mdio 11 Casado Ensino mdio 12 Solteiro Ensino fundamental 13 Solteiro Ensino mdio 14 Casado Ensino fundamental 15 Casado Ensino mdio 16 Solteiro Ensino mdio 17 Casado Ensino mdio 18 Casado Ensino fundamental 19 Solteiro Ensino superior 20 Solteiro Ensino mdio 21 Casado Ensino mdio 22 Solteiro Ensino mdio 23 Solteiro Ensino fundamental 24 Casado Ensino superior 25 Casado Ensino mdio 26 Casado Ensino mdio 27 Solteiro Ensino fundamental 28 Casado Ensino mdio 29 Casado Ensino mdio 30 Casado Ensino mdio 31 Solteiro Ensino superior 32 Casado Ensino mdio 33 Casado Ensino superior 34 Solteiro Ensino superior 35 Casado Ensino mdio 36 Casado Ensino superior Fonte: Dados hipotticos

No de Salrio Idade Regio de Filho mnimo Anos Meses Procedncia s 4,00 26 3 Interior 1 4,56 32 10 Capital 2 5,25 36 5 Capital 5,73 20 10 Outra 6,26 40 7 Outra 0 6,66 28 0 Interior 6,86 41 0 Interior 7,39 43 4 Capital 1 7,44 34 10 Capital 7,59 23 6 Outra 2 8,12 33 6 Interior 8,46 27 11 Capital 8,74 37 5 Outra 3 8,95 44 2 Outra 0 9,13 30 5 Interior 9,35 38 8 Outra 1 9,77 31 7 Capital 2 9,80 39 7 Outra 10,35 25 8 Interior 10,76 37 4 Interior 1 11,06 30 9 Outra 11,59 34 2 Capital 12,00 41 0 Outra 0 12,79 26 1 Outra 2 13,23 32 5 Interior 2 13,60 35 0 Outra 13,85 46 7 Outra 0 14,69 29 8 Interior 5 14,71 40 6 Interior 2 15,99 35 10 Capital 16,22 31 5 Outra 1 16,61 36 4 Interior 3 17,26 43 7 Capital 18,75 33 7 Capital 2 19,40 48 11 Capital 3 23,30 42 2 Interior

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

5 DADOS So as informaes inerentes s variveis que caracterizam os elementos que constituem a populao ou a amostra em estudo. Os dados obtidos em pesquisas devem ser analisados e interpretados com o auxlio de mtodos estatsticos. Na primeira etapa deve-se fazer uma anlise descritiva que consiste na organizao e descrio dos dados, na identificao de valores que representem o elemento tpico e, na quantificao da variabilidade presente nos dados.

5.1 DADOS BRUTOS Qualquer pesquisa baseada em levantamento ou coleta de dados. Os dados so obtidos diretamente da pesquisa, sem terem passados por nenhum processo de sntese ou anlise. Por exemplo, os 50 valores, em decibis, de nvel de rudo de trfego em certo cruzamento esto apresentados a seguir: 58,0 62,5 59,5 67,0 68,3 62,5 62,5 59,5 67,0 68,3 65,0 66,4 59,5 70,1 65,0 67,0 66,4 65,0 70,1 65,0 68,3 65,0 66,4 71,9 62,5 65,0 65,0 66,4 70,1 62,5 66,4 60,2 66,4 67,0 65,0 58,0 60,2 60,2 66,4 65,0 67,0 60,2 62,5 66,4 68,3 67,0 60,2 67,0 68,3 71,9

Apesar de todos estes valores terem sido obtidos em de nvel de rudo de trfego em certo cruzamento, nota-se uma grande variao nos resultados. Assim, os mtodos estatsticos so fundamentais para o estudo de situaes em que a variabilidade inerente. A Estatstica Descritiva ajuda na percepo, avaliao e quantificao da variabilidade em tabelas e grficos obtidos a partir de um conjunto de dados que sintetizem os valores, com o objetivo de se ter uma viso global e clara da variao existente nas variveis.

5.2 ROL A mo, ou com auxlio de computador, pode-se classificar os dados x1, x2,...,xn em ordem crescente. Pode-se, pelo rol, verificar de maneira mais clara e rpida a composio do conjunto, identificando o maior e o menor valor alm de alguns elementos que podem se repetir vrias vezes, mostrando assim o comportamento dos dados.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

10

5.3 DISPOSITIVO - RAMO E FOLHAS A mais comum estrutura de dados um grupo de nmeros. At mesmo esta to simples estrutura de dados pode ter caractersticas no facilmente distinguveis por estudos dos nmeros. O dispositivo ramo e folhas uma tcnica flexvel e eficaz para comearmos a olhar um conjunto ou uma amostra de dados. Os dgitos mais significantes dos valores, por si prprios, fazem muito trabalho de ordenao do grupo. Est tcnica bsica, mas verstil, intensamente usada, principalmente para comparar grupos e examinar cada caracterstica, tais como: quanto o grupo est prxima da assimetria; como esto distribudos os valores; se alguns valores esto distanciados dos demais; se existe concentrao de dados; se existe lacunas nos dados.

Aplicao do dispositivo ramo e folhas. No existe uma regra fixa para construir o ramo e folhas, mas a idia bsica dividir cada observao em duas partes: a primeira (o ramo) colocada esquerda de uma linha vertical, a segunda (a folha) colocada direita. A Figura 1 apresenta um dessa aplicao. Ramo Folha Frequncia

58 59 60 62 65 66 67 68 70 71

0 5 2 5 0 4 0 3 1 9

0 5 2 5 0 4 0 3 1 9

5 2 5 0 4 0 3 1

2 5 0 4 0 3

2 5 0 4 0 3

5 0 4 0

0 4 0

0 4

2 3 5 6 9 8 7 5 3 2

Figura 1 - Ramos e folhas para os depsitos bancrios

Assim, o Rol dos 50 valores do nvel de rudo de trfego em certo cruzamento, faca:

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

11

58,0 62,5 65,0 66,4 68,3

58,0 62,5 65,0 66,4 68,3

59,5 62,5 65,0 66,4 68,3

59,5 62,5 65,0 67,0 68,3

59,5 62,5 65,0 67,0 68,3

60,2 62,5 66,4 67,0 70,1

60,2 65,0 66,4 67,0 70,1

60,2 65,0 66,4 67,0 70,1

60,2 65,0 66,4 67,0 71,9

60,2 65,0 66,4 67,0 71,9

A apresentao dos dados pode ser de duas formas: Apresentao Tabular e apresentao Grfica. 5.4 REPRESENTAO TABULAR Apresentao tabular numrica de dados a representao das informaes por intermdio de uma tabela. Uma tabela uma maneira bastante eficiente de mostrar os dados levantados e que facilita a compreenso e interpretao dos dados. Para organizar uma srie estatstica ou uma distribuio de frequncias, existem algumas normas nacionais ditadas pela Associao Brasileira de Normas Tcnicas (ABNT) as quais devem ser respeitadas. Assim, toda tabela estatstica de conter: a) Elementos essenciais Ttulo indica a natureza do fato estudado (o qu?), as variveis escolhidas na anlise do fato (como?), o local (onde?) e a poca (quando?). Corpo o conjunto de linhas e colunas que contm, respectivamente, as sries horizontais e verticais de informaes. Cabealho designa a natureza do contedo de cada coluna. Coluna indicadora mostra a natureza do contedo de cada linha.

b) Elementos complementares (se necessrio) Fonte o indicativo, no rodap da tabela, da entidade responsvel pela sua organizao ou fornecedora dos dados primrios. Notas so colocadas no rodap da tabela para esclarecimentos de ordem geral. c) Sinais convencionais

(hfen), quando o valor numrico nulo; ... (reticncia), quando no se dispe de dado;

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

12

? (ponto de interrogao), quando h dvidas quanto exatido do valor


numrico;

0; 0,0; 0,00 (zero), quando o valor numrico muito pequeno para ser
expresso pela unidade utilizada, respeitando o nmero de casas decimais adotado;

X (letra x), quando o dado for omitido.


d) Numerar as tabelas quando houver mais de uma. e) As tabelas devem ser fechadas acima e abaixo por linha horizontal, no sendo fechadas direita e esquerda por linhas verticais. facultativo o emprego de traos verticais para separao de colunas no corpo da tabela. f) Os totais e subtotais devem ser destacados. g) Manter a uniformidade do nmero de casas decimais.

As tabelas podem ser classificadas como unidimensional ou bidimensional. A Tabela 4 uma representao unidimensional, enquanto a Tabela 5 bidimensional.

Tabela 4: Nmero e porcentagem de causas de morte de residentes de Londrina, no perodo de 10 de agosto a 31 de dezembro de 2008 CAUSAS DA MORTE Doenas do ap. circulatrio Neoplasias Causas externas Doenas do ap. respiratrio Doenas das glnd. endc./transt. Imunitrios Doenas do ap. digestivo Doenas e infec. e parasitrias Afeces do per. Perinatal Demais grupos TOTAL FONTE: Ncleo de informao em mortalidade PML NO 281 115 92 87 56 54 46 26 82 839 % 33,5 13,7 11,0 10,4 6,7 6,4 5,5 3,1 9,8 100,0

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

13

Tabela 5: Percentual de vendas do produto A, da Empresa WD, no ms de maro de 2008

FAIXA ETRIA REGIO Centro Norte Sul Leste Oeste Rural < 1 ano 4,54 6,45 7,27 3,36 4,57 15,71 1 a 4 anos 5 a 19 anos 20 a 49 anos 50 anos ou + 1,61 4,55 1,14 4,29 2,02 2,42 5,45 4,03 3,43 4,28 14,65 26,61 22,73 24,16 18,29 14,29 78,79 62,91 60,00 68,45 72,57 61,43 68,77

LONDRINA 5,83 1,42 3,37 20,61 FONTE: Relatrio do ms de maro do Departamento de vendas.

5.5 REPRESENTAO GRFICA A representao grfica usada para aumentar a legibilidade do resultado de uma pesquisa. Os grficos devem ser auto-explicativos e de fcil compreenso. Devem sempre ter um ttulo, onde se destaca o fato, o local e o tempo. Ser construdos em uma escala que no desfigure os fatos ou as relaes que se deseja destacar. Assim, a altura de um grfico deve compreender entre 60% a 80% da largura.

5.5.1 Representao Grfica para uma Varivel Qualitativa Para esse tipo de varivel os grficos mais utilizados so os de: colunas, barras, linhas e de setores.

Tabela 6: Densidade demogrfica, segundo as Grandes Regies - 2008 Brasil e Grandes Regies Brasil Norte Nordeste Sudeste Sul Centro Oeste Densidade demogrfica (hab/km2) 22,3 4,0 34,4 86,3 47,8 8,6

Fonte: IBGE, Pesquisa Nacional por Amostra de Domiclio 2008


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

14

No Brasil a densidade demogrfica mdia, em 2008, de 22,3 hab/km2. Regio Norte, que possui 45,2% da rea total do Pas e 8,1% da populao, tem apenas 4,0 hab/km2 Nessa regio, ainda existem grandes vazios espaciais, em funo da vastido territorial e de grandes reas intocadas, como a ocupada pela floresta Amaznica. A Regio Sudeste, a mais evoluda economicamente do Pas, com 42% da populao total, a que tem a maior densidade com 86,3 hab/km2 A Regio Metropolitana de So Paulo, com 19,5 milhes de pessoas, corresponde a 47,9% da populao do estado, enquanto a Regio Metropolitana do Rio de Janeiro, com 11,5 milhes de pessoas, contm 73,4% dos habitantes do Rio de Janeiro (Tabela 6).

a) Grfico de Colunas Os grficos de colunas (Figura 2) ou barras (Figura 3) consistem em construir retngulos, em que uma das dimenses proporciona magnitude a ser representada, sendo a outra arbitrria, porm igual para todas as colunas (ou barras). Essas colunas (ou barras) so dispostas paralelamente umas s outras, verticalmente (ou horizontalmente), isto :

Densidade demogrfica (hab/km2)

100 86,3 80 60 40 22,3 20 4,0 0


Brasil Norte Nordeste Sudeste Sul Centro Oeste

47,8 34,4

8,6

Brasil e Grandes Regies

Figura 2 Densidade demogrfica, Brasil e as Grandes Regies - 2008

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

15

b) Grfico de Barras
Centro Oeste

8,6 47,8 86,3 34,4 4,0 22,3 0 20 40 60 80 100

Brasil e Grandes Regies

Sul Sudeste Nordeste Norte Brasil

Densidade demogrfica (hab/km2)

Figura 3 Densidade demogrfica, Brasil e as Grandes Regies - 2008

c) Grfico de Linhas (Figura 4)


Densidade demogrfica (hab/km2) 100 86,3 80 60 47,8 40 20 0
Brasil

34,4 22,3 4,0


Norte Nordeste Sudeste Sul

8,6
Centro Oeste

Bras il e Grandes Regies

Figura 4 Densidade demogrfica, Brasil e as Grandes Regies, 2008

Obs. O grfico de linha acima no adequado para o exemplo

d) Grfico de Setores O grfico de setores (Figura 5) destina-se representar a composio, usualmente em porcentagem, de partes de um todo. Consiste num crculo de raio arbitrrio, representando o todo, dividindo em setores, que correspondem s partes de maneira proporcional.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

16

CO-8,6 B-22,3 S-47,8 N-4,0

Brasil
NE-34,4

Norte Nordeste Sudeste Sul Centro Oeste

SU-86,3

Figura 5 Densidade demogrfica, Brasil e as Grandes Regies - 2008

5.5.2 Representao Grfica para uma Varivel Quantitativa Grficos referentes a variveis quantitativas (discretas ou contnuas) mais utilizados so os de: colunas (Figura 6) e barras (Figura 7). Tabela 7: As taxas mensais, em porcentagem, da Poupana, no perodo de janeiro a dezembro de 2005 Meses Taxa (%) 0,715 Janeiro 0,692 Fevereiro 0,675 Maro 0,734 Abril 0,737 Maio 0,739 Junho 0,774 Julho 0,808 Agosto 0,771 Setembro 0,733 Outubro 0,711 Novembro 0,714 Dezembro Fonte: Caixa Econmica Federal

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

17

a) Grfico de colunas
0,85 0,80

Taxa (%)

0,75 0,70 0,65 0,60 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez

Meses

Figura 6 Taxa de juros em porcentagem da caderneta de Poupana de janeiro a dezembro de 2005

c) Grfico de linhas

0,85 0,808 0,80 0,771 Taxas (%) 0,75 0,70 0,65 0,60 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Meses 0,715 0,675 0,692 0,734 0,739 0,774 0,737 0,733 0,714 0,711

Figura 7 Taxa de juros em porcentagem da caderneta de Poupana de janeiro a dezembro de 2005

5.5.3 Sries Conjugadas Muitas vezes tem-se a necessidade de apresentar, em uma nica tabela, a variao de valores de mais de uma varivel, isto , fazer uma conjuno de duas ou mais sries. Conjugando duas sries em uma nica tabela, obtm-se uma tabela de dupla entrada (horizontal e vertical). A Tabela 8 apresenta a mdia de anos de estudo, no Brasil e nas Regies: Sudeste e Nordeste, no perodo de 2002 a 2008

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

18

Tabela 8: Mdia de anos de estudo, no Brasil e nas Regies, Sudeste e Nordeste, no perodo de 2002 a 2008 Anos Brasil e Regies 2002 2003 2004 2005 2006 2007 2008 Sudeste Brasil Nordeste 7,2 6,5 5,1 7,4 6,7 5,3 7,6 6,8 5,5 7,7 7,0 5,6 7,9 7,2 5,8 7,9 7,3 6,0 8,1 7,4 6,2

Fonte: IBGE, Pesquisa Nacional por Amostra de Domiclio 2008

A educao bsica no Pas formada por dois ciclos fundamental e mdio que correspondem a 11 anos de estudo completos. Os dados sobre os nveis de escolarizao da populao revelam melhoras, se comparados queles da dcada anterior, porm so ainda insuficientes e no compatveis com o nvel de desenvolvimento econmico do Pas. Basta observar a escolaridade mdia da populao. Em 2008, o brasileiro de 15 anos ou mais de idade tinha, em mdia, 7,4 anos de estudo. Na Regio Sudeste, essa mdia atingiu 8,1 anos, enquanto na Regio Nordeste apenas 6,2 anos. Os com os grficos, de linhas (figura 8) e de colunas mltiplas (figura 9) mostram esta situao.

a) Grfico de Linhas (Figura 8)


9 7,9 7,2 7,9 7,3 8,1 7,4

Mdias de estudos (anos)

7,2 6,5

7,4 6,7

7,6 6,8

7,7 7,0

5,1

5,3

5,5

5,6

5,8

6,0

6,2

3 2002 2003 Sudeste 2004 2005 Brasil 2006 2007 Nordeste 2008

Figura 8 Mdias de estudo no Brasil e nas Regies: Sudeste e Nordeste, no perodo de 2002 a 2008

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

19

b) Grfico de Colunas Mltiplas (Figura 9)


9 SU B B SU B SU B SU B SU B

Mdias de estudos (anos)

SU 7 B

SU

NE 5

NE

NE

NE

NE

NE

NE2

3 2002 2003 Sudeste 2004 2005 Brasil 2006 2007 Nordeste 2008

Figura 9 Mdias de estudo no Brasil e nas Regies: Sudeste e Nordeste, no perodo de 2002 a 2008

O grfico de colunas mltiplas til quando se quer fazer estudo comparativo.

5.5.4 Distribuio de Frequncias Quando se estuda uma varivel, o maior interesse do pesquisador conhecer o comportamento dessa varivel, analisando a ocorrncia de suas possveis realizaes. Considerando-se a varivel qualitativa a ser estudada, como por exemplo, grau de instruo (Tabela 3), ser observada e estudada muito mais facilmente quando se dispem os ensinos: Fundamental, Mdio e Superior em uma coluna e coloca-se, ao lado de cada ensino, o nmero de vezes que aparece repetido. Assim, a Tabela 9 apresenta a distribuio de frequncias da varivel grau de instruo.

Tabela 9: Frequncias e porcentagens dos 36 empregados da seo de oramentos da Companhia MB segundo o grau de instruo Grau de Frequncia Proporo Porcentagem Instruo (ni) (fi) (%) Fundamental 12 0,3333 33,33 Mdio Superior Total 18 6 36 0,5000 0,1667 1,0000 50,00 16,67 100,00

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

20

Fonte: Tabela 3 Atravs da Tabela 9 da segunda coluna, nota-se que dos 36 empregados da Companhia MB, 12 tm o ensino fundamental, 18 o ensino mdio e 6 possui curso superior. Uma medida bastante til na interpretao de tabelas de frequncias a proporo (ou a porcentagem) de cada realizao em relao ao total. Assim 6/36 = 0,1667 (16,67%) dos empregados da Companhia MB (seo de oramento) tm instruo superior. As propores so muito teis quando se quer comparar resultados de duas pesquisas distintas. Por exemplo, suponha-se que se queira comparar a varivel grau de instruo para os empregados da seo de oramentos com a mesma varivel para todos os empregados da Companhia MB. Supondo que a empresa tenha 2.000 empregados e que a distribuio de frequncias seja a Tabela 10.

Tabela 10: Frequncias e porcentagens dos 2.000 empregados da Companhia MB segundo o grau de instruo Grau de Instruo Fundamental Mdio Superior Total Fonte: dados hipotticos Frequncia (ni) 650 1.020 330 2.000 Proporo (fi) 0,3250 0,5100 0,1650 1,0000 Porcentagem (%) 32,50 51,00 16,50 100,00

Importante: No pode comparar diretamente as colunas das frequncias das Tabelas 9 e 10, pois os totais de empregados so diferentes nos dois casos. Mas as colunas das porcentagens so comparveis, j que as frequncias foram reduzidas a um mesmo total. (no caso 100).

Grficos para variveis qualitativas O grfico de colunas mltiplas (Figura 10) segundo a varivel qualitativa, grau de instruo das Tabelas 9 e 10, fica:

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

21

60 50 porcentagem (%) 40 30 20 10 0 Fundamental Mdio Grau de instruo Superior Oramento Companhia

Figura 10 Grau de instruo dos funcionrios da Seo de Oramento e da Companhia MB

J o grfico de linhas (Figura 11) referente a varivel, grau de instruo das Tabelas 9 e 10, fica:

60 50 porcentagem (%) 40 30 20 10 0 Fundamental Mdio Grau de instruo Superior Oramento Companhia

Figura 11 Grau de instruo dos funcionrios da Seo de Oramento e da Companhia MB

Grficos para variveis quantitativas Considerando-se, agora, a varivel quantitativa discreta a ser estudada, nmero de filhos dos empregados casados da seo de oramentos da Companhia MB (Tabela 3). A Tabela 11 apresenta a distribuio de frequncias e as porcentagens desta varivel.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

22

Tabela 11: Frequncias e porcentagens dos empregados da seo de oramentos da Companhia MB, segundo o nmero de filhos No de Filhos 0 1 2 3 5 Total Fonte: Tabela 3 Frequncia (ni) 4 5 7 3 1 20 Porcentagem (%) 20 25 35 15 5 100

O grfico de colunas (Figura 12) da varivel quantitativa do nmero de filhos dos empregados casados da seo de oramentos da Companhia MB da Tabela 11, representado da seguinte forma:
8

Frequncia

0 0 1 2 3 5

Nmero de filhos

Figura 12 Nmero de filhos dos empregados dos casados da seo de oramento da Companhia

A construo de tabelas de frequncias para variveis contnuas necessita de certo cuidado. Por exemplo, a construo da tabela de frequncias para a varivel salrio (Tabela 3) usando o mesmo procedimento anterior, no resumir as 36 observaes num grupo menor, pois no existem observaes iguais. A soluo empregada agrupar os dados por faixas de salrio. A Tabela 12 d a distribuio de frequncias dos salrios dos 36 empregados da seo de oramentos da Companhia MB por faixa de salrios.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

23

Tabela 12: Frequncias e porcentagens dos 36 empregados da seo de oramentos da Companhia MB por faixa de salrio Classe de Frequncia Porcentagem Salrios (ni) (%) 4,00 |--- 8,00 10 27,78 8,00 |--- 12,00 12,00 |--- 16,00 16,00 |--- 20,00 20,00 |--- 24,00 Total Fonte: Tabela 3 12 8 5 1 36 33,33 22,22 13,89 2,78 100,00

Procedendo-se desse modo, ao resumir os dados referentes a uma varivel contnua, perde-se alguma informao. Por exemplo, no se sabe quais so os oito salrios da classe de 12 a 16, a no ser que se investiga a tabela original (tabela 3). Sem perda de muita preciso, pode-se supor que todos os oito salrios daquela classe fossem iguais ao ponto mdio da referida classe, isto , 14. A distribuio de frequncias importante quando existe uma grande quantidade de dados. A finalidade em agrupar os dados facilitar a visualizao e tambm os clculos deles, porm, a determinao das medidas de posio e de disperso para uma varivel quantitativa contnua, atravs de sua distribuio de frequncias, exige aproximaes, j que perde a informao dos valores observados. No h um modo nico par se construir uma tabela de frequncia por classe de valores. A escolha dos intervalos arbitrria e a familiaridade do pesquisador com os dados que lhe indicar quantas classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, com um pequeno nmero de classes, perde-se informao, e com um nmero grande de classes, o objetivo de resumir os dados fica prejudicado. Estes dois extremos tm a ver, tambm, com o grau de suavidade da representao grfica dos dados. Normalmente, sugere-se o uso de 5 a 15 classes com a mesma amplitude. As classes no precisam ter amplitude constante, mas por uma questo de simplificao da construo da representao grfica, geralmente so classes com

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

24

intervalos constantes. Por outro lado, existem tcnicas para construo de tabelas de distribuio de frequncias para intervalos contnuos (dados agrupados).

Etapas para a construo de tabelas de frequncia para dados agrupados: 1) O clculo da amplitude total dos dados a diferena entre o maior e o menor valor da srie, isto : At = no do maior no do menor 2) No existindo um critrio rgido para estabelecer o nmero ideal de intervalos, sugere-se que no se utilize menos de 5 e no mais de 15 intervalos. A experincia tem demonstrado que se pode fixar o nmero de intervalo como:
K = n ou K = 1 + 3,3.log n, para uma amostra de tamanho n

3) O intervalo das classes (amplitude de classes) pode ser feito dividindo-se a amplitude total pelo nmero de classes, isto :

aC =

At K

Assim, pode construir os intervalos partindo do menor valor do conjunto e somando a amplitude calculada (aC), o que permite determinar os limites dos intervalos.

Aplicao: A Tabela 13 apresenta uma distribuio de frequncia usando as tcnicas de construo dos 50 valores, em decibis, de nvel de rudo de trfego em certo cruzamento esto apresentados a seguir:

Clculo: At = Xmax X min = 71,9 58,0 = 13,9

k = n = 50 7

aC =

At 13,9 = = 2 K 7

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

25

Tabela 13: Nvel de rudo, em decibis, de trfego em certo cruzamento Nvel de rudo (em db) 58,0 |-- 60,0 60,0 |-- 62,0 62,0 |-- 64,0 64,0 |-- 66,0 66,0 |-- 68,0 68,0 |-- 70,0 70,0 |-- 72,0 Total Quantidade Ponto mdio Freq. Acum. ( fi ) ( Fac ) (xi ) 5 5 6 9 15 5 5 50 59 61 63 65 67 69 71 5 10 16 25 40 45 50 ( xi . f i ) 295 305 378 585 1.005 345 355 3.268 ( xi2 . f i ) 17.405 18.605 23.814 38.025 67.335 23.805 25.205 214.194

Os resultados referentes a variveis contnuas frequentemente so organizados em tabelas de distribuies de frequncias por intervalos. Trs tipos de grficos geralmente so utilizados neste caso: histograma, polgono de frequncia e ogivas.

a) Histograma (Figura 13) a representao grfica de uma distribuio de frequncia por meio de retngulos justapostos, contendo as classes de valores na abscissa e as frequncias, absolutas ou relativas, nas ordenadas, centradas nos pontos mdios.
16 14 12 Quantidade 10 8 6 6 4 2 0 58|--60 60|--62 62|--64 64|--66 66|--68 68|--70 70|--72 Nvel de rudo (db) 5 5 5 5 9 15

Figura 13 Nvel de rudo (db) em certo cruzamento

Atravs da figura, pode-se dizer que 10 nveis de rudo foram inferiores a 62 decibis, ou 5 nveis de rudo foram iguais ou superiores a 70 decibis.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

26

b) Polgono de frequncias (Figura 14) a representao grfica de uma distribuio de frequncia, contendo os pontos mdios de cada classe na abscissa e as frequncias, absolutas ou relativas, nas ordenadas.
16 15

12 Frequncia 8 4 0 55 57 0 59 61 63 65 67 69 71 73 Nvel de rudo (db) 5 5 6 9

0 75

Figura 14 Nvel de rudo (db) em certo cruzamento

O grfico de uma distribuio cumulativo chamado de ogiva (Figura 15). Os valores dos dados so mostrados no eixo horizontal e as frequncias cumulativas so apresentadas no eixo vertical.
60 50 45 Frequncia 40 30 25 20 10 5 0 55 57 0 59 61 63 65 10 16 40 50

x
67 69 71 73 Nvel de rudo (db)

Figura 15 Nvel de rudo (db) acumulado em certo cruzamento

As frequncias nesse exemplo foram acumuladas de modo crescente. H casos, no entanto, que a acumulao das frequncias feita de modo decrescente. Este grfico pose ser usado para fornecer informaes adicionais. Por exemplo, para saber qual o nvel de rudo x tal que 30 das quantidades (frequncias) atingem menos do que x, basta procurar o ponto (x, 30) na curva. Observando as linhas pontilhadas no grfico, nota-se que a soluo aproximadamente 67 decibis.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

27

5.6 LISTA 1 EXERCCIOS

1) Ao nascer, os bebs so pesados e medidos, para se saber se esto dentro das tabelas de peso e altura esperados. Estas duas variveis so: a) qualitativas b) ambas discretas c) ambas contnuas

d) contnua e discreta, respectivamente e) discreta e contnua, respectivamente

2) A distribuio abaixo indica o nmero de acidentes ocorridos em uma empresa com 70 funcionrios. (dados fictcios). No de acidentes N de funcionrios Determine: a) o nmero de funcionrios que no sofreram acidente; b) o nmero de funcionrios que sofreram pelo menos 4 acidentes; c) o nmero de funcionrios que sofreram 1 < acidentes 4; d) o nmero de funcionrios que sofreram no mnimo 3 e no mximo 5 acidentes; e) a porcentagem dos funcionrios que sofreram no mnimo 5 acidentes; f) a porcentagem dos funcionrios que sofreram entre 2 e 4 acidentes; g) grficos de colunas e de barras.
o

0 20

1 10

2 16

3 9

4 6

5 5

6 3

7 1

3) Os depsitos bancrios da Empresa AKI-SE-TRABALHA, em milhares de Reais, Fev/Mar, 2005: 3,7 1,8 0,8 1,6 2,4 1,6 1,4 3,1 2,9 2,1 2,5 2,7 1,8 2,0 1,3 3,0 2,1 1,0 1,0 2,7 3,9 3,3 2,0 2,7 2,1 1,9 3,2 2,0 3,0 2,8 3,8 2,3 2,9 1,3 1,9 1,5 2,3 3,2 1,5 1,1 2,4 1,9 4,2

a) Ordenar os dados pelo dispositivo ramo e folhas. (tambm pelo computador). b) Construa a distribuio de frequncias usando as tcnicas de construo. c) Faa o histograma, o polgono de frequncia e a ogiva do item b.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

28

4) Se os salrios dos professores do Estado aumentam em 20% em dado perodo, enquanto o ndice de Preos aumenta em 10%, ento, o aumento real de salrio, durante o perodo, foi: a) de 10% b) maior que 10% c) menor que 10% d) nulo

5) Substituir por uma tabela o trecho do relatrio seguinte retirado do IBGE Estatsticas de Registro Civil 2004. No Brasil, a porcentagem de bitos violentos para indivduos do sexo masculino entre 2000 e 2003, nas Regies; Norte, Nordeste, Sudeste, Sul e Centro Oeste so: 2000 Norte 17,4%, Nordeste 13,4%, Sudeste 17,3%, Sul 13,6% e Centro-Oeste 19,6%; 2001 Norte 17,6%, Nordeste 13,5%, Sudeste 17,4%, Sul 14,6% e Centro-Oeste 19,4%; 2002 Norte 17,5%, Nordeste 13,4%, Sudeste 17,5%, Sul 13,5% e Centro-Oeste 19,5%; 2003 Norte 15,8%, Nordeste 13,6%, Sudeste 17,0%, Sul 13,3% e Centro-Oeste: 19,7%. Construir tambm o grfico de colunas. 6) Substituir por uma tabela o trecho do relatrio seguinte retirado do IBGE Estatsticas de Registro Civil 2004. No Brasil, a porcentagem de bitos violentos para indivduos do sexo masculino quase 4 vezes superior do sexo feminino. Baseado em dados existentes entre 2000 e 2003, a situao no Norte, Nordeste, Sudeste, Sul e Centro Oeste a seguinte: 2000 Norte: 17,4% masculino e 5,8% feminino; Nordeste: 13,4% masculino e 3,8% feminino; Sudeste: 17,3% masculino e 4,4% feminino; Sul: 13,6% masculino e 4,4% feminino e CentroOeste: 19,6% masculino e 6,5% feminino; 2001 Norte: 17,6% masculino e 5,9% feminino; Nordeste: 13,5% masculino e 3,8% feminino; Sudeste: 17,4% masculino e 4,3% feminino; Sul: 14,6% masculino e 5,1% feminino e CentroOeste: 19,4% masculino e 6,4% feminino; 2002 Norte: 17,5% masculino e 5,8% feminino; Nordeste: 13,4% masculino e 3,7% feminino; Sudeste: 17,5% masculino e 4,2% feminino; Sul: 13,5% masculino e 5,7% feminino e CentroOeste: 19,5% masculino e 6,3% feminino; 2003 Norte: 15,8% masculino e 4,7% feminino; Nordeste: 13,6% masculino e 3,4% feminino; Sudeste: 17,0% masculino e 4,3% feminino; Sul: 13,3% masculino e 3,6% feminino e CentroOeste: 19,7% masculino e 6,0% feminino.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

29

7) Um professor preencheu uma tabela, enviado pelo Departamento de Educao, com os seguintes dados:
Srie e Turma N de alunos 30/03
o

N de alunos 30/11

Promovidos sem recupe reo

Retidos sem Recupe rao

Em recupe rao

Recupe rados

No Recupe rados

Total Geral Promo vidos Reti dos

1o B 49 1o C 49 o 1 E 47 1o F 47 Total 192 Pede-se:

44 42 35 40 161

35 42 27 33 137

03 00 00 06 09

06 00 08 01 15

05 00 03 00 08

01 00 05 01 07

40 42 30 33 145

04 00 05 07 16

a) a taxa de evaso, por classe; c) a taxa de aprovao, por classe; e) a taxa de recuperao, por classe; g) a taxa de reprovao na recuperao geral; h) a taxa de aprovao, sem a recuperao; i) a taxa de retidos, sem a recuperao.

b) a taxa de evaso total; d) a taxa de aprovao geral; f) a taxa de recuperao geral;

8) A tabela abaixo apresenta uma distribuio de frequncia das reas de 400 lotes: reas (m2) No de Lotes Determine: a) o limite inferior da quinta classe c) a amplitude do intervalo da sexta classe e) a frequncia relativa da sexta classe b) o ponto mdio da stima classe d) a frequncia da quarta classe f) a freq. acumulada da quinta classe
300 |-- 400 |--500 |-- 600 |-- 700 |--800 |--900 |-- 1.000 |-- 1.100 |-- 1.200 14 46 58 76 68 62 48 22 6

g) o nmero de lotes cuja rea no atinge 700 m2. h) o nmero de lotes igual ou maior a 800 m2. i) a porcentagem dos lotes cuja rea no atinge 600 m2. j) a porcentagem dos lotes cuja rea de 500 m2, no mnimo, mas inferior a 1.000 m2.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

30

6 MEDIDAS ESTATSTICAS Alm da construo de tabelas e grficos, a anlise exploratria de dados, consiste tambm de clculos de medidas estatsticas que resumem as informaes obtidas dando uma viso global dos dados. Essas medidas, tambm conhecidas como medidas descritivas, recebem o nome genrico de estatsticas quando calculada com os dados da amostra, e de parmetros quando calculadas com dados populacionais. Dentre as medidas estatsticas as mais utilizadas so as de tendncia central (ou de posio) e as de disperso (ou de variabilidade). Destacam-se, ainda, as separatrizes, as assimetrias e os box plot.

6.1 MEDIDAS TENDNCIA CENTRAL (POSIO) As medidas de tendncia central so aquelas que produzem um valor em torno do qual os dados observados se distribuem, e que visam sintetizar em um nico nmero o conjunto de dados. As medidas de tendncia central so: mdia aritmtica, mediana e moda.

6.1.1 Mdia Uma das medidas estatsticas mais utilizadas na representao de uma distribuio de dados a mdia aritmtica, na sua forma simples, ou ponderada. No primeiro caso divide-se a soma de todos os valores da srie pelo nmero de observaes, enquanto no segundo, mais utilizado em distribuies de frequncias, os valores so ponderados pelas frequncias com que ocorrem e depois dividem-se pelo total das frequncias (este segundo caso ser visto em distribuio de frequncias):

Simples:

X=

x1 + x2 + .... + xn = n

i =1

xi n
ou simplesmente
X =

x
n

Exemplo: Foram levantados os dimetros de 10 peas (cm) da Empresa AA Ltda. As medidas foram as seguintes: 13,1 13,5 13,9 13,3 13,7 13,1 13,1 13,7 13,2 13,5. Portanto, dimetro mdio 13,41 cm.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

31

A mdia aritmtica possui algumas propriedades desejveis e no desejveis e so as seguintes: i. ii. Unicidade. Para um conjunto de dados existe somente uma mdia aritmtica. Simplicidade. A mdia aritmtica fcil de ser interpretada e de ser calculada.

iii. Todos os valores entram para o clculo da mdia aritmtica, porm, os valores extremos afetam no valor calculado, e em alguns casos pode haver uma grande distoro, tornando, neste caso, a mdia aritmtica indesejvel como medida de tendncia central. Como a mdia influenciada por valores extremos da distribuio, ela s deve ser utilizada em distribuies simtricas, ou levemente assimtricas, e em distribuies no heterogneas. Sua aplicao nos dois casos acima precria e de pouca utilidade prtica, pois perde sentido prtico e capacidade de representar a distribuio que a originou. Tambm nos casos de srie em que o fenmeno tem uma evoluo no linear, como as sries de valores financeiros no tempo, de acordo com uma capitalizao composta, a mdia mais recomendada seria a geomtrica. Finalmente, no se recomenda aplicao da mdia aritmtica nas sries cujos valores representem relaes recprocas, como por exemplo, velocidades, expressas atravs da relao entre o espao e o tempo. Neste ltimo caso recomenda-se a utilizao da mdia harmnica.

6.1.2 Mediana A mediana o valor que ocupa a posio central de um conjunto de valores ordenados, ou seja, medida divide a distribuio de valores em duas partes iguais: 50% acima e 50% abaixo do seu valor. Quando o conjunto possui quantidade par de valores, h dois valores centrais, neste caso, a mediana o valor mdio dos dois valores centrais do conjunto de dados ordenados.

Exemplo: Com os dados do exemplo anterior, calcular a mediana. 13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,8

Nesta srie tem-se nmero par de observaes logo, tm-se dois valores centrais e so 13,3 e 13,5. Logo, a mediana 13,4 cm.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

32

Suponha, neste mesmo exemplo que se acrescente o valor 14,0 tornando um rol de nmero mpar, 13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,8 14,0

Neste caso, a srie possui apenas um valor central logo, a mediana igual a 13,5 cm.

Propriedades da mediana i. ii. iii. Unicidade. Existe somente uma mediana para um conjunto de dados. Simplicidade. A mediana fcil de ser calculada. A mediana no to afetada pelos valores extremos como a mdia aritmtica, por isso, se diz que a mediana uma medida robusta.

Conceito de resistncia de uma medida Diz-se que uma medida de centralidade ou de disperso resistente quando ela pouco afetada pela presena de observaes discrepantes. Entre as medidas de centralidade, a mdia bem menos resistente que a mediana. Por outro lado, entre as medidas de disperso, o desvio padro bem menos resistente do que o desvio inter-quartlico. 6.1.3 Moda Moda de um conjunto de valores o valor que ocorre com maior frequncia, sua aplicao no depende do nvel de mensurao da varivel, sendo aplicada tanto a fenmenos qualitativos quanto quantitativos. Se todos os valores forem diferentes no h moda, por outro lado, um conjunto pode ter mais do que uma moda: bimodal, trimodal ou multimodal.

Exemplo: Para os dados dos exemplos anteriores a moda igual a 13,1 cm.

A moda pode ser utilizada para descrever dados qualitativos. Por exemplo, suponha que os pacientes vistos em uma clnica de sade mental durante um determinado ano receberam um dos seguintes diagnsticos: retardo mental, psicose,
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

33

neurose e mudana de personalidade. O diagnstico que ocorre com maior frequncia no grupo de pacientes pode ser chamado de diagnstico modal.

6.2 MEDIDAS DE DISPERSO A disperso de conjunto de dados a variabilidade que os dados apresentam entre si. Se todos os valores forem iguais, no h disperso; se os dados no so iguais, existe disperso entre os dados. A disperso pequena quando os valores so prximos uns dos outros. Se os valores so muito diferentes entre si, a disperso grande, assim, as medidas de disperso apresentam o grau de agregao dos dados. Veja como exemplo a Tabela 14.

Tabela 14: Valores das sries A, B e C Repetio 1 2 3 4 5 6 7 8 9 Mdia Mediana Srie A 45 45 45 45 45 45 45 45 45 45 45 Srie B 41 42 43 44 45 46 47 48 49 45 45 Srie C 25 30 35 40 45 50 55 60 65 45 45

Nota-se que a srie A no apresenta disperso, j os valores da srie B apresentam certa disperso em torno da mdia 45, e os valores da srie C apresentam uma disperso em torno da mdia e maior do que a da srie B. As medidas descritivas mais comuns para quantificar a disperso so: amplitude, desvio mdio, varincia, desvio-padro e coeficiente de variao.

6.2.1 Amplitude Uma maneira de medir a variao em um conjunto de valores calcular a amplitude. A amplitude a diferena entre o maior e o menor valor de um conjunto de observaes. At = no maior no menor
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

34

Exemplo: Determinar amplitude total da srie: A, B e C.

A utilidade da amplitude total como medida de disperso muito limitada, pois depende apenas dos valores extremos. A maior vantagem em us-la a simplicidade do seu clculo.

6.2.2 Desvio Mdio Uma vez que se deseja medir a disperso ou grau de concentrao dos valores em torno da mdia, nada mais interessante do que analisar o comportamento dos desvios de cada valor em relao mdia, isto :

d i = ( xi x)

Porm, para qualquer conjunto de dados, a soma de todos os desvios igual a zero, isto :

d i = (xi x) = 0

Neste caso, considera-se o mdulo de cada desvio xi x , evitando com isso que

= 0 . Dessa forma, o desvio de um conjunto de n valores dado por:

DM =

x x
i =1 i

Exemplo: Determinar desvio mdio da srie B.

6.2.3 Varincia Embora o desvio mdio seja uma medida melhor do que a Amplitude, ainda no uma medida ideal, pois no discrimina pequenos dos grandes afastamentos em relao mdia. Se para eliminar o problema dos sinais, ao invs de considerarmos os valores absolutos elevarmos os afastamentos ao quadrado, estaremos no apenas eliminando o problema dos sinais como tambm potencializando os afastamentos, enfatizando os grandes desvios em relao s

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

35

observaes mais prximas da mdia. Como resultado define a medida de variao, denominada de varincia, como:
n

( X
s2 =
i =1

n 1

X )2

X
ou
s2 =
i =1

( X i ) 2
2 i

n 1

i =1

Exemplo: Determinar as varincias das sries A, B e C.

Esta estatstica isolada tem difcil interpretao por apresentar unidade de medida igual ao quadrado da unidade de medida dos dados.

6.2.4 Desvio Padro Devido dificuldade de interpretao da varincia, por ter sua unidade de medida ao quadrado, na prtica usa-se o desvio padro que a raiz quadrada da varincia, ou seja:

s=

s2

Exemplo: Determinar os desvios-padro das sries A, B e C.

6.2.5 Erro Padro Diferentes amostras retiradas de uma mesma populao podem apresentar mdias diferentes. A variao existente entre este conjunto de mdias estimada atravs do erro padro, que corresponde ao desvio padro das mdias, sendo representado por sx e calculado pela frmula: sx = s n

6.2.6 Coeficiente de Variao Uma pergunta que pode surgir se um desvio-padro grande ou pequeno; questo relevante, por exemplo, na avaliao da preciso de mtodos. Um desviopadro pode ser considerado grande ou pequeno dependendo da ordem de grandeza da varivel. Por exemplo, um desvio-padro de 10 pode ser insignificante

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

36

se a observao tpica for 10.000, mas ser um valor bastante significativo para um conjunto de dados cuja observao tpica 100. O coeficiente de variao uma medida relativa de disperso, utilizada para comparar, em termos relativos, o grau de concentrao em torno da mdia. representada por:

CV =

s X

O CV uma medida adimensional, isto , sem unidade de medida, podendo ser expressa em termos decimais ou percentuais (multiplicando por 100). Dizemos que uma distribuio homognea quando a variabilidade relativa expressa pelo coeficiente de variao, no ultrapassar a 20% . Obviamente a distribuio no deixa de ser homognea para valores maiores do que 20% mas vai perdendo o grau de homogeneidade na medida em que o coeficiente aumenta.

Exemplo: Determinar o erro padro e o coeficiente de variao das sries A, B e C.

Esta medida pode ser bastante til na comparao de duas variveis ou dois grupos que a princpio no so comparveis (por exemplo, com ordens de grandeza das variveis diferentes).

Exemplo: Comparao dos depsitos bancrios de duas Empresas (milhares R$).

A Empresa X depositou, em mdia mensal, 2,0 (milhares R$) e um desviopadro de 0,5 (milhares R$). A Empresa Y depositou mdia mensal, 2,3 (milhares R$) e um desvio-padro de 0,8 (milhares R$). A Empresa Y apresenta no s uma mdia mensal mais alta como tambm maior variabilidade em torno da mdia. O coeficiente de variao capta esta diferena. Neste caso, o coeficiente de variao 25% para a Empresa X e 34,8% para a Empresa Y. Alguns especialistas consideram:

Baixa disperso: CV 15% Mdia disperso: 15% < CV < 30% Alta disperso: CV 30%.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

37

6.3 SEPARATRIZES: QUARTIS, DECIS E PERCENTIS Os quartis, decis e percentis so muito similares mediana, uma vez que tambm subdividem a distribuio de medidas de acordo com a proporo das frequncias observadas. Os quartis dividem um conjunto de dados em quatro partes iguais, isto , 25% por parte. 0% 25% 50% 75% 100%

Q1

Q2

Q3

onde: Q1 = 10 quartil, deixa 25% dos elementos. Q2 = 20 quartil, deixa 50% dos elementos (coincide com a mediana). Q3 = 30 quartil, deixa 75% dos elementos. Os decis dividem um conjunto de dados em dez partes iguais, isto , 10% por parte. 0 10% 20% . . . 90% 100%

D1

D2

. . .

D9

onde: D1 = 10 decil, deixa 10% dos elementos. D2 = 20 decil, deixa 20% dos elementos. ............................................................. D9 = 90 decil, deixa 90% dos elementos.

J, os percentis permitem dividir o conjunto de dados em 100 partes, sendo e 1% em cada parte. 0% 1% 2% . . . 50% . . . 98% 99% 100%

P1

P2

. . .

P50

. . .

P98

P99

onde: P1 = 10 percentil, deixa 1% dos elementos. P2 = 20 percentil, deixa 2% dos elementos. ............................................................. P99 = 990 percentil, deixa 99% dos elementos.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

38

A mediana o percentil de ordem 50. Pois, a mediana um valor que divide o conjunto de dados em duas partes iguais, ou seja, 50% dos dados ficam abaixo e 50% acima. Os percentis de ordem 25, 50 e 75 so os respectivamente primeiro, segundo e terceiro quartis, porque dividem a distribuio em 1/4, 2/4 = 1/2 e 3/4. Logo o Q2 outra notao para a mediana. Enquanto que os decis D1, D2,,...,D9 so os valores que dividem o conjunto em dez partes iguais, que coincidem com os percentis P10, P20,,...,P90 , que tambm dividem os dados em grupos com 10% em cada um. Portanto, os quartis e os decis esto inseridos nos percentis. Para determinar o valor correspondente a um certo quartil, decil ou percentil, deve seguir a seguinte sequncia:

Ordenar os dados do menor para o maior. Localizar a posio (L), dado por:
L= k .n 100

onde: k o percentual desejado e n o nmero de valores do conjunto de dados. Se o valor de L for decimal, arredonda o seu valor para o maior inteiro mais prximo, e quando o valor de L for inteiro, deve-se somar o valor correspondente a L ao valor de L+1 e dividir o resultado por 2.

Considere os depsitos bancrios da Empresa AKI-SE- TRABALHA, em milhares de Reais, Fev/Mar, 2005, fica:

0,8 1,6 2,0 2,7 3,2

1,0 1,6 2,1 2,7 3,2

1,0 1,8 2,1 2,7 3,3

1,1 1,8 2,1 2,8 3,7

1,3 1,9 2,3 2,9 3,8

1,3 1,9 2,3 2,9 3,9

1,4 1,9 2,4 3,0 4,2

1,5 2,0 2,4 3,0

1,5 2,0 2,5 3,1

Por exemplo: O percentil 25 que corresponde ao primeiro quartil, que deixa 25% dos dados abaixo e 75% dos dados acima dele, usa-se:

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

39

O percentil de ordem 25 (P25) que deixa 25% dos dados abaixo :


L= 25 x 43 = 10,75 (11o, aposio que ocupa no conjunto). 100

Ento,

P25 = 1,6 (que igual ao primeiro quartil, isto Q1 = 62,5).

Isto implica que 25% dos depsitos bancrios da empresa so iguais ou abaixo de 1,6 (milhares de reais).

6.4 ASSIMETRIA Embora as medias de posio e de variao possibilitam descrever estatisticamente um conjunto de dados, necessrio verificar como est se comportando de forma geral essa distribuio, o que possvel atravs da distribuio de frequncia e de histograma. Sendo que as distribuies possam tomar praticamente qualquer forma, a maioria que se encontra na prtica discreta por alguns tipos padro. de suma importncia que a distribuio seja em forma de sino, ou seja, uma distribuio simtrica, pois metade da esquerda do seu histograma aproximadamente a imagem-espelho da metade direita. As distribuies consideradas assimtricas apresentam uma cauda em uma das extremidades, quando est direita, positivamente assimtrica, e se est esquerda, negativamente assimtrica. As distribuies consideradas assimtricas apresentam uma cauda em uma das extremidades, quando est direita, positivamente assimtrica, e se est esquerda, negativamente assimtrica. Para verificar o tipo e o grau da assimetria da distribuio utiliza-se a medida estatstica adimensional denominada de Coeficiente de Assimetria de Pearson, definido como:

As =

3( x Md ) s

Para uma distribuio perfeitamente simtrica, o valor de As zero, de modo geral, os valores As situam-se entre 3 e 3. Se, 0,15 < As < 1, a assimetria considerada moderada; se As > 1, forte.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

40

Em uma distribuio simtrica, a mdia ( x ), a mediana (Md) e a moda (Mo) so iguais, isto , x = Md = Mo. Em uma distribuio assimtrica positiva ou assimtrica direita, a mdia maior que a mediana, e esta, por sua vez, maior que a moda ( x > Md > Mo), ao passo que, em uma distribuio assimtrica negativa ou assimtrica esquerda, a mdia menor que a mediana, e esta, menor que a moda ( x < Md < Mo). A Figura 16 apresenta um esquema dessas distribuies:

x = Md = Mo

Mo < Md < x

x < Md < Mo

Figura 16: grficos simtrico e assimtrico direita e esquerda

6.5 CURTOSE Curtose o grau de achatamento de uma distribuio em relao a uma distribuio padro, denominada de curva normal. A curva normal, que nossa base referencial, recebe o nome de mesocrtica. J, uma distribuio que apresentar uma curva de frequncia mais achatada do que a normal denominada de leptocrtica, e a que apresentar uma curva de frequncia mais aberta, recebe o nome de platicrtica. A Figura 17 apresenta um esquema dessas curvas.
fx (
f(x

f(x

C
x

C
C

mesocrtica

leptocrtica

platicrtica

Figura 17: Classificao das curvas em relao a uma distribuio padro

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

41

Para verificar o tipo de curva (da distribuio) e o grau de curtose utiliza-se a medida estatstica adimensional denominada de Coeficiente de Curtose definido como:

C=

Q3 Q1 2 ( P90 P10 )

Para uma curva relativamente normal, tem-se que C = 0,263. Isto : Se C = 0,263 C < 0,263 C > 0,263 curva mesocrtica curva leptocrtica curva platicrtica

6.6 BOX PLOT O box plot introduzido pelo estatstico americano John Tukey em 1977 a forma de representar graficamente os dados da distribuio de uma varivel quantitativa em funo de seus parmetros. Os cinco itens ou valores: o menor valor (x1), os quartis (Q1, Q2 e Q3) e o maior valor (xn), so importantes para se ter uma idia da posio, disperso e assimetria da distribuio dos dados. Na sua construo so considerados os quartis e os limites da distribuio, permitindo uma visualizao do posicionamento da distribuio na escala da varivel. Para melhor compreenso deste box plot, a Figura 18 apresenta um esquema sintetizado:
Limite superior Valores tpicos Ponto extremo Outliers

Limite inferior

LI

Q1

Md

Q3

LS

Valores

1,5DQ

DQ

1,5DQ 3,0DQ

Figura 18: Esquema para construo do box plot


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

42

A escala de medida da varivel encontra-se na linha horizontal do quadro onde est inserida a figura. Na caixa retangular da figura so fornecidos os quartis Q1, na parte esquerda, e Q3 na parte direita da caixa. Entre eles encontra-se a Mediana da distribuio. Observe que 50% da distribuio tm valores dentro da caixa. As linhas horizontais que saem da caixa terminam nos limites inferior (LI) e superior (LS) da distribuio. Entre esses limites encontram-se os valores considerados como tpicos da distribuio. Esses limites so determinados em funo da distncia entre os dois quartis (Q3 e Q1), isto , do desvio inter-quartlico: DQ = Q3 Q1. Observaes com afastamento superior a 1,5 desvio inter-quartlico, para cima ou para baixo, so consideradas atpicas, ou possveis outliers. Os pontos que esto mais de 1,5 DQ e menos que 3,0 DQ, so chamados de outliers, aparecendo (o). Valores com afastamento superior a 3,0 DQ, para cima ou para baixo so considerados como pontos extremos, aparecendo na figura com (*). Quanto maior for o valor do desvio inter-quartlico, maior a variabilidade da distribuio. Obs. Muitos livros e softwares apenas comentam sobre os pontos atpicos chamando-os de outliers (pontos discrepantes). O box plot tambm fornece informaes importantes sobre o comportamento do conjunto de dados, como simetria e variabilidade. Se a amplitude for muito maior que distncia interquartlica e a mediana estiver mais prxima do 1o quartil do que do 3o quartil, h forte indicao de assimetria positiva e de grande disperso das observaes.

Exemplo: O objetivo da administrao lucrar o mximo possvel com o capital investido em sua empresa. Uma medida de bom desempenho o retorno sobre os investimentos. A seguir so apresentados os mais recentes retornos em milhares (R$). 2.210 2.420 2.255 2.440 2.350 2.450 2.380 2.550 2.380 2.630 2.390 2.825

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

43

A mediana 2.405 e os quartis Q1 = 2.365 e Q3 = 2.500. A resenha dos dados mostra um menor valor 2.210 e um maior valor de 2.825. Assim, a regra de cinco itens (nmeros) para os dados de pesos dos recm nascidos 2.210; 2.365; 2.405; 2.500; 2.825.

Alm desses valores, tm-se os limites, inferior que dado por LI = Q11,5DQ e superior LS = Q3 + 1,5DQ. No caso, LI = 2.162,5 e LS = 2.702,5. Os dados fora destes limites so considerados pontos fora da curva. Neste caso, o = 2.825 um outliers. A Figura 19 apresenta um esquema do box plot com esses resultados:
2900

2800

2700

2600

2500

2400

2300 Mediana = 2405 Q1=2365 e Q3 = 2500 X1 = 2210 X = 2630 11 Outliers = 2825 Retorno

2200

2100

Figura 19: Resultados do desempenho de retorno de investimento da empresa

Observaes atpicas (outlier) muito comum aparecerem entre os dados coletados, observaes atpicas (outliers), isto , valores muito grande ou muito pequeno em relao aos demais. Um conjunto de dados pode apresentar apenas um ou vrios outliers. Observaes atpicas alteram enormemente as mdias e variabilidade dos grupos a que pertencem e podem at mesmo distorcer as concluses obtidas atravs de uma anlise estatstica padro. Portanto, de fundamental importncia detectar e dar um tratamento adequado a elas. sempre boa a prtica fazer-se uma
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

44

inspeo dos dados no incio da anlise estatstica. Tcnicas descritivas de dados tm um papel importante nesta fase.

Causas do aparecimento de outliers Dentre as possveis causas do aparecimento de outliers, pode citar as seguintes: Leitura, anotao ou transio incorreta dos dados. Erro na execuo do experimento ou na tomada da medida. Mudanas no controlveis nas condies experimentais ou dos pacientes.

Como detectar outliers As questes bsicas so quais observaes devem ser consideradas como outliers e como detect-los. Existem procedimentos para responder a essas perguntas. Os outliers podem ser detectados simplesmente por uma verificao lgica dos dados, atravs de grficos especficos ou ainda atravs de teste apropriados. Uma forma grfica usual o box plot. As plotagens de retngulos so outras maneiras de identificar os pontos fora da curva. Mas eles no necessariamente identificam os mesmos valores que aqueles com uma contagem-z menor que -3 ou maior que +3. No entanto, o objetivo de ambas as abordagens simplesmente identificar os valores de dados extremos que devem ser revisados para assegurar a validade dos dados. Pontos fora da curva identificados pelos dois mtodos devem ser revisados.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

45

6.7 MEDIDAS DE POSIO E DISPERSO DE UMA DISTRIBUIO DE FREQUNCIA Quando existe uma grande quantidade de dados, estes podem ser agrupados. A finalidade em agrupar os dados para facilitar os clculos.

Exemplo: Um novo medicamento para cicatrizao est sendo testado e um experimento feito para estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14. a) Organize uma tabela de frequncia. b) Obter as frequncias relativas de cada classe. c) Calcular a mdia. d) Que porcentagem das observaes est abaixo de 16 dias? e) Classifique como rpida as cicatrizaes iguais ou inferior a 15 dias e como lenta as demais. Quais as porcentagens para cada classificao.

Soluo: a e b Cicatrizao Frequncia Frequncia relativa xi. fi 14 5 0,167 70 15 7 0,233 105 16 6 0,200 96 17 7 0,233 119 18 5 0,167 90 total 30 1,000 480

Mdia

x=

x . f
i

480 = 16 30

A determinao das medidas de posio e de disperso para uma varivel quantitativa contnua, atravs de sua distribuio de frequncias, exige

aproximaes, j que perde a informao dos valores observados. Por exemplo, com as quantidades de depsitos bancrios (milhares R$), a distribuio de frequncia est representada na Tabela 15.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

46

Tabela 15: Nvel de rudo, em decibis, de trfego em certo cruzamento Nvel de rudo (em db) 58,0 |-- 60,0 60,0 |-- 62,0 62,0 |-- 64,0 64,0 |-- 66,0 66,0 |-- 68,0 68,0 |-- 70,0 70,0 |-- 72,0 Total Quantidade Ponto mdio Freq. Acum. ( fi ) ( Fac ) (xi ) 5 5 6 9 15 5 5 50 59 61 63 65 67 69 71 5 10 16 25 40 45 50 ( xi . f i ) 295 305 378 585 1.005 345 355 3.268 ( xi2 . f i ) 17.405 18.605 23.814 38.025 67.335 23.805 25.205 214.194

Como foi dito, no agrupamento dos dados acarreta alguma perda de informao. Cada elemento perde sua identidade, por isso, sabem apenas quantos elementos h em cada classe. Uma aproximao razovel supor que todos os valores dentro de cada classe tenham seus valores iguais ao ponto mdio desta classe.

6.7.1 Mdia Para o clculo da mdia, em geral, obtm-se uma boa aproximao atribuindo a cada elemento que se enquadra em uma classe o valor mdio correspondente. Esse processo em geral satisfatrio, pois os erros introduzidos nos clculos tendem a compensar-se. A frmula para a mdia de uma distribuio de frequncias, onde x1, x2, ..., xn so os valores mdios das classes, ponderados pelas frequncias correspondentes f1, f2, ..., fn dada por:

x=

x .f
i i =1

assim

x=

3.268 = 65,36 50

6.7.2 Mediana A mediana divide um conjunto de dados ordenados em duas partes iguais. A expresso para determinar a mediana de uma distribuio de frequncias dada por:

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

47

n Fac 1 Md = l i + 2 aC , fM d

assim

Md = 64 +

25 16 2 = 66, 0 9

onde: li = limite inferior da classe da mediana; n = nmero de elementos; aC = amplitude da classe; Fac-1 = frequncia acumulada anterior classe da Md; fMd = frequncia simples da classe da Md; Para isso tem-se que: 10) Calcular a posio, isto , a ordem n/2. 20) Identificar a classe que contm a mediana, pela frequncia acumulada.

6.7.3 Moda A moda de um conjunto de n nmeros o valor que ocorre com maior frequncia. A expresso para determinar a moda de uma distribuio de frequncias dada por:

Mo = l i +

1 aC , 1 + 2

assim

Mo = 66 +

6 2 = 66, 75 6 + 10

Para isso tem que identificar a classe modal (de maior frequncia) li = limite inferior da classe modal; aC = amplitude da classe.
1 = diferena entre a frequncia da classe modal e a anterior; 2 = diferena entre a frequncia da classe modal e a posterior;

Obs. Pelos clculos, nota-se que a curva dos dados da tabela assimtrica direita, j que a mdia > mediana > moda.

6.7.4 Separatrizes: Quartis, Decis e Percentis a1) Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. A frmula para o clculo dos quartis de uma distribuio de frequncia dada por:
i.n Fac 1 Qi = li + 4 aC fQi

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

48

10) Calcula-se

i.n , onde i = 1, 2 e 3. 4

20) Identifica-se a classe Qi pela Fac.

a2) Decis Os decis dividem um conjunto de dados em dez partes iguais. A frmula para o clculo dos decis de uma distribuio de frequncia dada por:
i.n Fac 1 Di = li + 10 aC fDi

10) Calcula-se

i.n , onde i = 1, 2, . . . , 9. 10

20) Identifica-se a classe Di pela Fac.

a3) Percentis Os percentis dividem um conjunto de dados em cem partes iguais. A frmula para o clculo dos percentis de uma distribuio de frequncia dada por:
i.n Fac 1 100 Pi = li + aC fPi

10) Calcula-se

i.n , onde i = 1, 2, . . . , 99. 100 25 16 2 = 66,0 9

20) Identifica-se a classe Pi pela Fac. Exemplo: Calcular o percentil de ordem 50


p50 = Md = 64 +

Como j foi dito, os quartis, decis e percentis so muito similares mediana, uma vez que tambm subdividem a distribuio de medidas de acordo com a proporo das frequncias observadas. A mediana o percentil de ordem 50, j que a mediana um valor que divide o conjunto de dados em duas partes iguais, ou seja, 50% dos dados ficam abaixo e 50% acima. Os percentis de ordem 25, 50 e 75 so chamados, respectivamente primeiro, segundo e terceiro quartis porque dividem a distribuio em 1/4, 2/4 e 3/4. So
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

49

representados por Q1, Q2 e Q3 e, evidentemente, Q2 outra notao para a mediana. Enquanto que os decis D1, D2,,...,D9 so os valores que dividem o conjunto em dez partes iguais, que coincidem com os percentis P10, P20,,...,P90 , que tambm dividem os dados em grupos com 10% em cada um. Assim, a frmula do percentil sintetiza as expresses da mediana, dos quartis e dos decis. 6.7.5 Clculo das Separatrizes Utilizando Propores Calcular a mediana utilizando propores com os dados da Tabela 15. Neste caso constri-se o histograma com as frequncias relativas (Figura 20).
32 28 Frequncia (%) 24 20 16 12 8 4 0 Q1
58|--60 60|--62 62|--64 64|--66 66|--68 68|--70 70|--72

30

18 12 5%

10

10

10

10

Nvel de rudo (db)

Figura 20: O nvel de rudo de certo cruzamento Q1 62 5 = 64 62 12 ==> Q = 62,83

Exemplo: A Tabela 16 apresenta as frequncias relativas de ocorrncias de faixas de altura (em cm) para uma amostra de 100 crianas de 12 anos de idade. Tabela 16: Altura de 100 crianas Frequncia Faixas relativa 100 | -- 110 0,10 110 | -- 120 0,25 120 | -- 130 0,30 130 | -- 140 0,25 140 | -- 150 0,10 a) Construa o histograma b) Calcule a mediana c) Desejando-se separar as 15 crianas mais altas, qual seria o ponto de corte?
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

50

6.7.6 Desvio Mdio O desvio mdio para dados agrupados, isto , de uma distribuio de frequncias calculado da seguinte forma:

DM =

x x f
i =1 i

x=

fi

onde: xi so os pontos mdios das classes e os fi as respectivas frequncias.

6.7.7 Varincia A expresso para o clculo da varincia amostral de uma distribuio de frequncias :
n

x
s2 =
i =1

( xi f i ) 2 fi n 1
i =1

2 i

Obter a varincia referenta a tabela 20.


214194 (3268) 2 50 = 12,19 50 1

s2 =

6.7.8 Desvio Padro O desvio padro obtido extraindo a raiz quadrada da varincia, isto :

s= s

==> s = 12,94 = 3,49

6.7.9 Erro Padro


sx = s n = 3,49 50 = 0,49

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

51

6.8 LISTA 2 - EXERCCIOS


1) Considere os seguintes dados amostrais (conjunto de peas, em gramas): 100 105 110 102 103 107 105 90 80 a) Pede-se: a mdia, a mediana, a moda, o desvio mdio, a varincia, o desvio padro, o erro padro, e o coeficiente de variao. b) Os dados possuem pequena disperso? Por qu? c) Somar 100 de cada observao para obter uma amostra com valores transformados e calcule a mdia, a varincia. (Compare essa varincia com os dados originais).

2)

Os coeficientes de liquidez obtidos da anlise de balano em 60 indstrias so apresentados em forma ordenada abaixo.

4,44 4,76 4,97 5,12 5,28 5,45

4,47 4,79 5,00 5,14 5,30 5,47

4,50 4,81 5,01 5,15 5,32 5,50

4,54 4,84 5,03 5,17 5,33 5,55

4,61 4,86 5,05 5,18 5,34 5,59

4,64 4,87 5,08 5,20 5,36 5,63

4,67 4,90 5,08 5,22 5,39 5,68

4,69 4,92 5,09 5,23 5,40 5,72

4,70 4,95 5,11 5,25 5,41 5,80

4,75 4,97 5,11 5,26 5,43 5,85

Pede-se: a) a mdia; d) o quinto decil; f) o desvio-padro (usar calculadora); b) a mediana; c) o primeiro quartil; e) o vigsimo quinto percentil; h) o coeficiente de variao;

i) uma distribuio simtrica ou assimtrica (positiva ou negativa)? Justifique. j) o coeficiente de curtose. Explicar o tipo da curva. l) explicar os resultados dos quartis, decis e percentis;

3)

Em certo ano, alm de outros remdios uma farmcia vendeu quatro tipos relevantes. Vendeu 450 remdios da marca X por R$ 120,00 cada um, 350 da marca Y por R$ 130,00 cada um, 220 da marca Z por R$ 145,00 cada um e 180 da marca W por R$ 95,00 cada um de seus. Qual o valor mdio desses quatro tipos de remdios vendidos?

4)

Em um exame de colesterol, o grau mdio de um grupo A de 150 pessoas foi de 214 mg/dl e um desvio-padro de 22 mg/dl. Em um outro grupo B, entretanto, grau mdio de 150 pessoas foi de 201 mg/dl e um desvio-padro de 21 mg/dl. Em que grupo foi maior a disperso?

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

52

5)

Cronometrando o tempo para vrias provas de uma gincana automobilstica, encontrouse: Equipe 1: 8 provas Tempo mdio: 15 segundos Varincia 22 segundos2 Pede-se: a) Qual o coeficiente de variao relativo equipe 1? b) Qual o tempo mdio e o desvio padro da equipe 2? c) Qual a equipe que apresentou resultados mais disperso? Por qu?
o

Equipe 2: Tempo: 10 15 20 25 N de provas: 3 2 3 2

6) Vinte e uma pacientes de uma clnica mdica tiveram seu nvel de potssio no plasma medido. Os resultados foram os seguintes: Nvel 2,35 |-- 2,55 2,55 |-- 2,75 2,75 |-- 2,95 2,95 |-- 3,15 3,15 |-- 3,35 3,35 |-- 3,55 Frequncia 1 3 2 4 5 6

a) Determine os quartis: 1o., 2o. e 3o. pela frmula de dados agrupados. b) Construa o histograma c) Determine os quartis: 1o., 2o. e 3o. utilizando propores d) Qual a porcentagem de valores que esto acima do nvel 3?

7) As vendas anuais, em milhes de dlares, para 21 empresas farmacuticas so apresentadas a seguir: 8.408 608 10.498 3.653 1.374 14.138 7.478 5.794 1.872 6.452 4.019 8.305 8.879 1.850 4.341 2.459 2.818 739 11.413 1.356 2.127

a) Obter os cinco itens (nmeros) e os limites inferior e superior. b) Parece haver pontos fora da curva? Qual(is)? c) As vendas Johnson & Johnson so as maiores na lista, com US$ 14.138 milhes. Suponha que um erro de lanamento tenha sido cometido e que as vendas tenham sido registradas como US$ 41.138 milhes. Neste caso, este valor um ponto solto (extremo)? Por qu?

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

53

7 TRANSFORMAES DE VARIVEIS Antes de qualquer anlise fundamental que se proceda a um exame dos dados relativos a uma varivel, seja ela qualitativa ou quantitativa. Este procedimento importante como um primeiro contato do analista com a distribuio, alm de servir, tambm, para avaliar a existncia de possveis valores atpicos na distribuio. Se a varivel for qualitativa, a concentrao de respostas em torno de umas poucas categorias, a existncia de clulas esparsas, com baixa frequncia, ou at mesmo o aparecimento de respostas no esperadas, pode indicar algum problema no levantamento dos dados (questo mal formulada ou resposta invlida). No caso da varivel ser quantitativa, valores muito afastados da distribuio, ou at mesmo distribuies com assimetria acentuada pode indicar a existncia de outliers ou a necessidade de se proceder a uma transformao na escala da varivel. A escolha e a mudana de escalas so artifcios teis para melhor compreenso de fenmenos. Considere as notas de uma turma de dez alunos em trs exames, conforme a Tabela 17:

Tabela 17: Notas de uma turma de 10 alunos em trs exames ALUNOS EXAME Portugus Matemtica Cincias 1 36 22 10 2 35 23 11 3 45 17 8 4 38 20 9 5 40 21 10 6 42 19 10 7 44 21 11 8 46 17 9 9 34 22 12 10 40 18 10

Fonte: Dados hipotticos

Sendo a mdia e a disperso de cada exame: Portugus Matemtica Cincias mdia = 40 e desvio = 4 mdia = 20 e desvio = 2 mdia = 10 e desvio = 1

Em primeiro lugar, note que as notas de cada exame esto expressas em escalas diferentes. Como consequncia, nada se pode comparar o desempenho dos alunos nos trs exames. Tampouco pode comparar os desempenhos entre os alunos, o que impede um ordenamento baseado em suas performances.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

54

7.1 MUDANA DE ORIGEM Por uma questo de convenincia, pode-se proceder a uma transformao que separe os escores observados de uma distribuio a partir do seu valor mdio. Nesses casos, valores acima da mdia sero positivos, enquanto aqueles que estiverem abaixo dela sero negativos. A mdia, como valor central de uma distribuio, passa a ser, desse modo, a origem da nova escala dos escores. No exemplo dos escores nos trs exames, essa transformao permite a avaliao dos alunos com respeito ao desempenho individual tendo a mdia como base. Na prtica, essa transformao est simplesmente movendo toda a distribuio para a direita ou esquerda, dependendo do sinal da mdia, sem alterar a unidade das medidas, expressa pela mesma unidade de medida da varivel. A mudana da origem, de zero para a mdia expressa por: Xi - , para i = 1, 2, ... , n. O valor nulo na nova escala verifica-se para os valores da distribuio, na escala primitiva, iguais mdia. A Tabela 18 apresenta os escores dos alunos (do exemplo acima) na nova escala. Os valores nessa tabela so expressos em afastamentos, em pontos, da mdia.

Tabela 18: Valores expressos em relao aos afastamentos, em pontos, da mdia ALUNOS EXAME Portugus Matemtica Cincias 1 -4 2 0 2 -5 3 1 3 5 -3 -2 4 -2 0 -1 5 0 1 0 6 2 -1 0 7 4 1 1 8 6 -3 -1 9 -6 2 2 10 0 -2 0

A tabela 18 permite separar, para cada exame, os alunos que tiveram desempenho superior ou inferior s respectivas mdias. Como afastamentos em torno da mdia, a soma dos novos escores igual a zero. As unidades no foram alteradas, o que no permite, ainda, comparar os desempenhos entre os exames. Por exemplo, no pode avaliar se o aluno 3 teve um desempenho mais fraco em Matemtica ou Cincias. Para isso ser necessrio colocar as trs distribuies numa unidade comum.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

55

7.2 MUDANA DA UNIDADE A transformao acima desloca as distribuies ao longo do eixo das escalas das variveis, centrando as distribuies num ponto comum (zero). No obstante, essa transformao preserva as suas unidades originais. Ao dividir os escores de cada distribuio pelos respectivos desvios padres, esto unificando tambm as novas unidades das variveis. A nova unidade de cada distribuio fica, ento, expressa em termos das unidades de desvios de cada distribuio. Desse modo, um aluno que tenha obtido 44 pontos num exame cuja mdia tenha sido de 40 pontos e desvio padro de 4 pontos, passa a ter 1 unidade de desvio (no mais pontos) acima da mdia na nova escala. A nova transformao pode ser expressa atravs de:
Zi = Xi .

Tanto a mudana da origem como a da unidade pode ser feita separadamente, mas quando feitas simultaneamente unifica as escalas, que tero mdia 0 e desvio padro 1. Por isso, essa transformao denominada padronizao dos escores. Os escores padronizados para as distribuies das notas dos alunos nos trs exames do exemplo acima so apresentados na Tabela 19. Tabela 19: Escores padronizados das notas dos alunos nos trs exames ALUNOS EXAME Portugus Matemtica Cincias 1 -1 1 0 2 -1,25 1,5 1 3 1,25 -1,5 -2 4 -0,5 0 -1 5 0 0,5 0 6 0,5 -0,5 0 7 1 0,5 1 8 1,5 -1,5 -1 9 -1,5 1 2 10 0 -1 0

Agora sim, pode analisar os escores dos alunos em termos comparativos. Note, por exemplo, que embora o aluno 3 tivesse ficado com 3 pontos abaixo da mdia em Matemtica e 2 pontos abaixo da mdia em Cincias, o seu desempenho pior foi no exame de Cincias, em que ficou 2 unidades de desvio abaixo da mdia, tendo sido o aluno de pior performance nessa disciplina, dentre os dez alunos que se submeteram ao exame. Isto significa que anlises comparativas devem considerar parmetros relativos e no absolutos.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

56

8 ANLISE BIDIMENSIONAL 8.1 INTRODUO At agora foi visto como organizar e resumir informaes pertinentes a uma nica varivel de um conjunto de dados, mas freqentemente est interessado em analisar o comportamento conjunto de duas ou mais variveis aleatrias. Os dados aparecem na forma de uma matriz, usualmente com as colunas indicando as variveis e as linhas os indivduos (ou elementos). A Tabela 3 (dados hipotticos da Companhia MB) apresenta uma matriz com 6 variveis e 36 indivduos. O objetivo principal das anlises nessa situao explorar relaes (similaridades) entre as colunas, ou algumas vezes entre as linhas. A distribuio conjunta das frequncias ser um instrumento poderoso para compreenso do comportamento dos dados. Inicialmente deter-se- no caso de duas variveis ou dois conjuntos de dados e, na sequncia, no caso de trs variveis. Em algumas situaes, pode ter dois ou mais conjuntos de dados provenientes da observao da mesma varivel. Por exemplo, pode-se estar interessado em comparar os salrios dos casados e dos solteiros. Na Tabela 3 tm-se sete variveis: estado civil, grau de instruo, nmero de filhos, salrio, idade e procedncia. Quando considera duas variveis ou dois conjuntos de dados, pode ter trs situaes: as duas variveis so qualitativas; as duas variveis so quantitativas; e uma varivel qualitativa e a outra qualitativa.

As tcnicas de anlise de dados nas trs situaes so diferentes. Quando as variveis so qualitativas, os dados so resumidos em tabelas de dupla entrada (ou de contingncia), onde aparecero as frequncias absolutas ou contagens de indivduos que pertencem simultaneamente a categorias de uma e outra varivel; quando as duas variveis so quantitativas, as observaes so provenientes de mensuraes e quando se tem uma varivel qualitativa e outra quantitativa, em geral analisa-se o que acontece com a varivel quantitativa quando os dados so categorizados de acordo com os diversos atributos da varivel qualitativa.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

57

8.2 VARIVEIS QUALITATIVAS Suponha que se queira analisar o comportamento conjunto das variveis: grau de instruo e regio de procedncia, cujos dados esto contidos na Tabela 3. A distribuio de frequncias representada por uma tabela de dupla entrada como mostra a Tabela 20.

Tabela 20: Distribuio conjunta das frequncias das variveis: grau de instruo e regio de procedncia Regio de Procedncia Capital Interior Outra Total Fonte: Tabela 3 Grau de instruo Ensino Ensino Fundamental Mdio 4 5 3 5 12 7 6 18 Total 11 12 13 36

Superior 2 2 2 6

Cada elemento do corpo da tabela d a frequncia observada das realizaes simultneas das variveis: grau de instruo e regio de procedncia. Dessa forma, nota-se quatro indivduos da capital com ensino fundamental, sete do interior com ensino mdio, etc. A linha dos totais fornece a distribuio da varivel grau de instruo, ao passo que a coluna dos totais fornece a distribuio da varivel regio de procedncia. As distribuies assim obtidas so chamadas tecnicamente de distribuies marginais. Em vez de se trabalhar com frequncias absolutas, constri-se tabelas com frequncia relativas . Porm, existem trs possibilidades de se expressar as frequncias relativas de cada casela (clula).

em relao ao total geral; em relao ao total de cada linha; e em relao ao total de cada coluna.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

58

De acordo com o objetivo do problema em estudo, uma delas ser a mais conveniente. A Tabela 21 apresenta a distribuio conjunta das frequncias relativas (propores) com relao ao total geral. Pode-se, ento, afirmar que 11,1% dos empregados vm da capital e tm ensino fundamental. Os totais nas margens fornecem as distribuies unidimensionais de cada uma das variveis. Por exemplo, 30,6% dos indivduos vm da capital, 33,3% do interior e 36,1% de outras regies.

Tabela 21: Distribuio conjunta das frequncias relativas (em porcentagem) em relao ao total geral das variveis: grau de instruo e regio de procedncia Regio de Procedncia Capital Interior Outra Total Fonte: Tabela 3 Grau de instruo Ensino Fundamental 11,1% 8,3% 13,9% 33,3% Ensino Mdio 13,9% 19,4% 16,7% 50,0% Total Superior 5,6% 5,6% 5,6% 16,7% 30,6% 33,3% 36,1% 100,0%

A Tabela 22 a seguir apresenta a distribuio conjunta das frequncias relativas com relao ao total das colunas. Pode-se dizer que, entre os empregados com instruo com ensino fundamental (33,3%), mdio (27,8%) e superior (33,3%) vm da capital. De modo anlogo, pode-se construir a distribuio das frequncias relativas em relao ao total das linhas.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

59

Tabela 22: Distribuio conjunta das frequncias relativas (em porcentagem) em relao aos totais de cada coluna das variveis: grau de instruo e regio de procedncia Regio de Procedncia Capital Interior Outra Total Fonte: Tabela 3 Grau de instruo Ensino Ensino Fundamental Mdio 33,3% 27,8% 25,0% 41,7% 100% 38,9% 33,3% 100% Total 30,6% 33,3% 36,1% 100,0%

Superior 33,3% 33,3% 33,3% 100%

A comparao entre as duas variveis tambm pode ser feita utilizando-se representaes grficas. A Figura 21 mostra a distribuio da regio de procedncia por grau de instruo de acordo com os dados da Tabela 22.

100% 80% 60% 40% 20% 0% Fundamental Mdio Superior Total

Outra Interior Capital

Figura 21: Regio de procedncia versus grau de instruo

8.3 ASSOCIAO ENTRE VARIVEIS QUALITATIVAS Um dos principais objetivos de se construir uma distribuio conjunta de duas variveis qualitativas descrever a associao entre elas, isto , quando se quer
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

60

conhecer o grau de dependncia entre elas, de modo que se possa prever o resultado de uma delas quando se conhece a realizao da outra. Por exemplo, pode-se estimar a renda mdia de uma famlia moradora na cidade de So Paulo, conhecendo a classe social a que ela pertence, pois sabe que existe uma dependncia entre as variveis: renda familiar e classe social. Para identificar se existe uma associao entre duas variveis: sexo e carreira escolhida por 200 alunos da distribuio conjunta apresentada na Tabela 23, deve construir as propores (porcentagens) segundo as linhas ou as colunas para poder fazer comparaes.

Tabela 23: Distribuio conjunta de 200 alunos de acordo com sexo e com o curso escolhido Curso Escolhido Economia Administrao Total Fonte: Dados hipotticos Sexo Masculino 85 55 140 Feminino 35 25 60 Total 120 80 200

A Tabela 24 apresenta as porcentagens, isto , as frequncias relativas referentes ao sexo por curso escolhido, que so obtidas fixando-se os totais das colunas em 100%. Com os dados da tabela nota-se que, independentemente do sexo, 60% das pessoas preferem Economia e 40% Administrao (observe na coluna total). No tendo dependncia entre as varveis, espera essas mesmas porcentagens para cada sexo. Observando a tabela, v que as porcentagens do sexo masculino (61% e 39%) e do sexo feminino (58% e 42%) so prximas das marginais. Esses resultados parecem indicar que no existe dependncia entre as duas variveis, para o conjunto de alunos considerados. Conclui-se, ento, que as variveis: sexo e escolha do curso no esto associadas.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

61

Tabela 24: Distribuio conjunta das porcentagens dos 200 alunos de acordo com sexo e com o curso escolhido Curso Escolhido Economia Administrao Total Fonte: Tabela 23 Sexo Masculino 61% 39% 100% Feminino 58% 42% 100% Total 60% 40% 100%

Considere-se, agora, um problema semelhante, porm envolvendo alunos de Fsica e Cincias Sociais, cuja distribuio conjunta est na Tabela 25.

Tabela 25: Distribuio conjunta das porcentagens dos 200 alunos de acordo com sexo e com o curso escolhido Curso Escolhido Fsica Cincias Sociais Total Fonte: Dados hipotticos Sexo Masculino 100 (71%) 40 (29%) 140 (100%) Feminino 20 (33%) 40 (67%) 60 (100%) Total 120 (60%) 80 (40%) 200 (100%)

Comparando a distribuio das porcentagens pelos cursos, independente do sexo (coluna total), com as distribuies diferenciadas por sexo (coluna de masculino e feminino), nota-se uma disparidade bem acentuada nas porcentagens. H uma maior concentrao dos homens no curso de Fsica e mulheres no curso de Cincias Sociais. Portanto, neste caso, parece que as variveis: sexo e curso escolhidas esto associadas.

Pesquisa sobre consumo cultural Ser que existe algum tipo de relao entre idade de uma pessoa e o tipo de programa que ela prefere na hora de escolher entre: ir ao cinema, ir ao teatro, assistir um show de msica etc.? Ser que as preferncias do pblico mais jovem so completamente diferentes das do pblico de meia idade? Ou ser que existe um
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

62

desses programas que sempre o preferido do pblico, independente da faixa etria? Em uma pesquisa de opinio, n = 499 pessoas foram ouvidas a respeito de suas preferncias em termos de consumo cultural. Admiti-se que essas pessoas representam uma amostra do pblico jovem do Rio de Janeiro. A cada um dos entrevistados perguntou-se, entre outras coisas, a sua faixa etria e qual entre cinco tipos de programa era mais do seu agrado. Com base nos resultados foi montada a seguinte Tabela 26 de contingncia.

Tabela 26: Tabela de contingncia relativa s variveis: Faixa Etria e Programa Preferido em uma pesquisa de opinio sobre consumo cultural
Faixa etria Cinema Programa Preferido Exposies Teatro Dana Shows musicais Total

18 a 21 22 a 25 26 a 30 31 a 40 Total

68 66 66 39 239

1 3 8 3 15

15 21 24 16 76

9 12 11 8 40

45 42 25 17 129

138 144 134 83 499

Nossa

inteno

procurar

extrair

algumas

concluses

sobre

interdependncia entre Faixa Etria e Programa Preferido, a partir dessa tabela de contingncia. Deseja-se que essas concluses fossem aplicveis populao como um todo, e no apenas a essa particular amostra. Mas, neste caso, uma constatao que salta aos olhos quando se olha para a tabela de contingncia o fato de que h relativamente poucas ocorrncias na coluna relativa a Exposies. Isso implica que quaisquer propores simples que venham a ser calculadas a partir das frequncias que constam nessa coluna podero no ser estatisticamente confiveis. Exemplificando melhor: com base nesses dados, as pessoas que escolheram o programa Exposies se dividem pelas faixas etrias conforme a Tabela 27:

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

63

Tabela 27: Faixa etria com relao a Exposies Faixa etria 18 a 21 22 a 25 26 a 30 31 a 40 Total Freq. observada 1 3 8 3 15 Percentagem 6,67% 20,00% 53,33% 20,00% 100,00%

Suponha agora que dispusssemos de uma outra amostra formada por 499 pessoas do pblico jovem. E que nessa outra amostra houvesse tambm apenas 15 pessoas optando por Exposies, porm distribudas entre as faixas etrias de forma levemente diferente, conforme apresenta a Tabela 28.

Tabela 28: Faixa etria referentes a Exposies Faixa etria 18 a 21 22 a 25 26 a 30 31 a 40 Total Freq. observada 2 4 7 2 15 Percentagem 13,33% 26,67% 46,67% 13,33% 100,00%

Como pode observar, bastou introduzir uma pequena perturbao nas frequncias absolutas para que ocorresse uma alterao expressiva nos percentuais. Ora, tal flutuao de uma amostra para outra algo que est perfeitamente dentro do esperado. Assim sendo, ficaria comprometido o nosso propsito de extrapolar para a populao as concluses extradas a partir da amostra. Por isso, nossa primeira providncia aqui ser fundir em uma s as colunas referentes Dana e Exposies, simplesmente somando as frequncias das duas. A nova coluna na criada recebe o ttulo de Dana/Exposies. Dessa forma, a nova

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

64

tabela de contingncia passou a ter quatro colunas de contagens alm da coluna de totais. Esse um expediente muito utilizado na prtica com o objetivo de se preservar a representatividade estatstica dos resultados (Tabela 29).

Tabela 29: Nova tabela de contingncia relativa s variveis: Faixa Etria e Programa Preferido, aps a fuso de duas colunas.
Faixa etria Cinema

Programa preferido
Teatro Shows musicais Dana/Exposies

Total

18 a 21 22 a 25 26 a 30 31 a 40 Total

68 66 66 39 239

15 21 24 16 76

45 42 25 17 129

10 15 19 11 55

138 144 134 83 499

Com base na nova tabela de contingncia podem ser montadas as duas tabelas de percentuais, que certamente so mais informativas sobre a eventual existncia de associao entre as duas variveis aqui consideradas.

Tabela 30: Percentuais (de linha) correspondentes aos Programas Preferidos, uma vez fixada a faixa etria Programa Preferido
Faixa etria Cinema (%) Teatro (%) Shows musicais (%) Dana/Exposies (%) Total (%)

18 a 21 22 a 25 26 a 30 31 a 40 Total

49,28 45,83 49,25 46,99 47,90

10,87 14,58 17,91 19,28 15,23

32,61 29,17 18,66 20,48 25,85

7,25 10,42 14,18 13,25 11,02

100,00 100,00 100,00 100,00 100,00

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

65

A Tabela 30 parece seguir, por exemplo, que:

a) Cinema o programa preferido de praticamente metade do pblico considerado, independente da faixa etria. b) Embora em todas as faixas etrias o segundo tipo de programa mais apontado seja shows musicais, h uma predominncia dessa opo para o pblico de at 25 anos. c) A preferncia pelo teatro aumenta com a idade.

Como j visto antes, uma outra forma de encara independncia entre duas variveis Faixa Etria e Programa Preferido inverter os papis

desempenhados por linhas e colunas, produzindo assim a tabela a seguir:

Tabela 31 Percentuais (de coluna) correspondentes s faixas etrias, uma vez fixado o programa preferido Programa preferido
Faixa etria Cinema (%) Teatro (%) Shows musicais (%) Dana/Exposies (%) Total

18 a 21 22 a 25 26 a 30 31 a 40 Total (%)

28,45 27,62 27,62 16,32 100,00

19,74 27,63 31,58 21,05 100,00

34,88 32,56 19,38 13,18 100,00

18,18 27,27 34,55 20,00 100,00

27,66 28,86 26,85 16,63 100,00

A Tabela 31 parece seguir, por exemplo, que praticamente 2/3 do pblico adepto de shows musicais esto situados nas duas primeiras faixas etrias, ou seja, tm no mximo 25 anos de idade.

Na disciplina de estudos no paramtricos ser feita uma anlise mais aprofundada das tabelas de contingncia, usando o teste qui-quadrado para independncia de variveis.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

66

8.4 MEDIDAS DE ASSOCIAO ENTRE VARIVEIS QUALITATIVAS Quando existe associao entre duas variveis, sempre interessante quantificar essa associao. A quantificao do grau entre duas variveis feita atravs dos coeficientes de associao ou correlao. Essas so medias que descrevem, por meio de um nico nmero, a dependncia entre duas variveis, no intervalo de 0 a 1, e se for prximo de zero significa falta de associao, isto , de dependncia. Existem muitas medidas que qualificam a associao ou dependncia entre duas variveis qualitativas. Por exemplo, o coeficiente de contingncia (C), devido a Pearson. Para isso, deve-se recorrer a uma importante aplicao que o teste quiquadrado ( 2 ). Ressalta-se que esta aplicao ser apresentada na disciplina de estatstica no paramtrica.

8.5 ASSOCIAO ENTRE VARIVEIS QUANTITATIVAS Em muitas situaes de negcios, razovel sugerir que existam associaes entre as variveis. Por exemplo, seria lgico supor que as vendas de um item produzido em massa estejam associadas com seu preo e despesas de propaganda. Para propsitos de tomada de deciso, til identificar se existe uma associao linear entre duas variveis ou entre mais de duas variveis e, se apropriado, quantificar a associao. Um dispositivo bastante til para se verificar a associao entre duas variveis quantitativas, ou entre dois conjuntos de dados, o diagrama de disperso, e sua associao pode ser quantificada utilizando-se uma medida estatstica chamada coeficiente de correlao ou grau de associao.

Diagrama de disperso Um diagrama de disperso simplesmente uma representao de pontos de dados em um grfico X-Y. O eixo y utilizado para representar a varivel dependente que interessa a quem toma as decises, enquanto o eixo x para representar uma varivel que pode ser controlada ou mediada por quem toma as decises, chamada de varivel independente. Dependendo das variveis consideradas, a relao entre elas pode ser fortemente linear, no linear ou mesmo inexistente. Portanto, um diagrama de
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

67

disperso uma primeira indicao til da possvel existncia de uma associao entre duas variveis.

8.5.1 Coeficientes de associao ou correlao A anlise de correlao uma tcnica matemtica utilizada para medir a fora de associao entre duas variveis. Essa medio leva em considerao a disperso entre os valores dados. Quanto menos dispersos estiverem os dados, mais forte ser a dependncia, isto , a associao entre as variveis. O coeficiente de correlao R assume um valor entre [ 1 e + 1] , isto : Se r = 1, a correlao positiva perfeita; Se r = -1, a correlao negativa perfeita; Se r = 0, a correlao nula. Considerando-se os dados das as variveis X e Y, pode construir os diagramas de disperso como mostram as Figuras 22, 23, 24 e 25.
400

400

300

300

200

Y 200

100

100

0
0 10 20 30 X 40 50 60

10

20

30 X

40

50

60

Figura 22: Associao linear positiva R = 1

Figura 23: Associao linear positiva

Em ambas as figuras 22 e 23, nota-se que existe uma associao positiva entre as variveis X e Y, pois medida que aumenta uma, a outra tambm aumenta.
400

300

300

200
Y 200

Y 100 0
0 10 20 30 X 40 50 60

100

10

20

30 X

40

50

60

Figura 24: Associao linear negativa


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

Figura 25: No h associao - R = 0

68

Na figura249, existe uma associao inversa, isto , medida que a varivel X aumenta, a varivel Y diminui. Ao passo que, na figura 25 no h uma associao entre as variveis, pois medida que X aumenta, Y no reage. Na Tabela 32 est apresentado os dados referentes a Taxa de Fundo de Investimento: FIC Executivo RF LP e taxa SELIC, no perodo de outubro de 2004 a setembro de 2006

Tabela 32: Taxa do Fundo de Investimento - FIC Executivo RF LP e taxa SELIC, no perodo de outubro de 2004 a setembro de 2006 Taxa Selic (X) Out/04 1,210 Nov/04 1,250 Dez/04 1,480 Jan/05 1,380 Fev/05 1,220 Mar/05 1,530 Abri/05 1,410 Mai/05 1,500 Jun/05 1,590 Jul/05 1,510 Ago/05 1,660 Set/05 1,500 Out/05 1,410 Nov/05 1,380 Dez/05 1,470 Jan/06 1,430 Fev/06 1,150 Mar/06 1,420 Abri/06 1,080 Mai/06 1,280 Jun/06 1,180 Jul/06 1,170 Ago/06 1,260 Set/06 1,060 Fonte: Caixa Econmica Federal 2006 Meses Taxa FIC Executivo (Y) 1,140 1,190 1,470 1,336 1,177 1,485 1,348 1,430 1,525 1,429 1,550 1,462 1,347 1,428 1,460 1,392 1,098 1,331 1,002 1,162 1,097 1,077 1,153 0,970

Com os dados da tabela 32, constri-se o diagrama de disperso como mostra a Figura 26.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

69

Taxa SELIC e Taxa FIC EXECUTIVO, no perodo de outubro de 2004 a setembro de 2006 1,6 Taxa Executivo 1,4 1,2 1,0 0,8 0,8 1,0 1,2 1,4 Taxa Selic 1,6 1,8

Figura 26: Diagrama de disperso Como j foi visto em medidas de disperso, a soma de todos os desvios em relao mdia igual a zero, como mostra a Tabela 33.

Tabela 33: Calculo do coeficiente de correlao entre as variveis: Selic e FIC


Meses Out/04 Nov/04 Dez/04 Jan/05 Fev/05 Mar/05 Abri/05 Mai/05 Jun/05 Jul/05 Ago/05 Set/05 Out/05 Nov/05 Dez/05 Jan/06 Fev/06 Mar/06 Abri/06 Mai/06 Jun/06 Jul/06 Ago/06 Set/06 Selic (X) 1,210 1,250 1,480 1,380 1,220 1,530 1,410 1,500 1,590 1,510 1,660 1,500 1,410 1,380 1,470 1,430 1,150 1,420 1,080 1,280 1,180 1,170 1,260 1,060 Executivo (Y) 1,140 1,190 1,470 1,336 1,177 1,485 1,348 1,430 1,525 1,429 1,550 1,462 1,347 1,428 1,460 1,392 1,098 1,331 1,002 1,162 1,097 1,077 1,153 0,970

XX
-0,145 -0,105 0,125 0,025 -0,135 0,175 0,055 0,145 0,235 0,155 0,305 0,145 0,055 0,025 0,115 0,075 -0,205 0,065 -0,275 -0,075 -0,175 -0,185 -0,095 -0,295

Y Y
-0,154 -0,104 0,176 0,042 -0,117 0,191 0,054 0,136 0,231 0,135 0,256 0,168 0,053 0,134 0,166 0,098 -0,196 0,037 -0,292 -0,132 -0,197 -0,217 -0,141 -0,324

ZX =

XX

ZY =

Y Y

ZX . Zy 0,804 0,394 0,786 0,037 0,569 1,196 0,106 0,705 1,944 0,748 2,797 0,871 0,104 0,118 0,682 0,262 1,446 0,085 2,887 0,358 1,241 1,445 0,483 3,436 23,504

-0,901 -0,653 0,772 0,152 -0,839 1,082 0,338 0,896 1,453 0,958 1,887 0,896 0,338 0,152 0,710 0,462 -1,273 0,400 -1,706 -0,467 -1,087 -1,149 -0,591 -1,830

-0,893 -0,603 1,019 0,243 -0,678 1,106 0,312 0,787 1,337 0,781 1,482 0,972 0,306 0,775 0,961 0,567 -1,136 0,214 -1,692 -0,765 -1,142 -1,258 -0,817 -1,877

TOTAL 32,530 31,059 0 0 Fonte: Site da Caixa Econmica Federal, 2006


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

70

Observa-se que houve uma mudana de escala das colunas 2 e 3 para escala padronizada colunas 6 e 7.

Na coluna 8 da tabela 33 ocorrem os produtos das coordenadas reduzidas. Dessa forma, pode-se definir o coeficiente de correlao entre duas variveis X e Y como:

R=

1 n x i x y i y ( ).( ) n i =1 x y

ou

R=

1 n

( Zx.Zy)
i =1

ou seja, a mdia dos produtos dos valores padronizados das variveis.

Com relao ao problema anterior, tem-se:

R=

1 23,504 = 0,979 24

Covarincia. Uma medida de dependncia linear entre duas variveis (X, Y) dada pela covarincia:
Cov ( x, y ) = E ( x y ) E ( x).E ( y )

onde:

E ( x) = xi . p ( xi )
i =1

E ( y) = yi . p( yi )
i =1

E ( x y ) = xi . yi p ( xi , yi )
i =1

Neste caso, a Correlao linear dada por: ( x, y ) =

Cov( x, y ) x . y

Com os dados da tabela 33, vamos calcular a correlao linear entre as variveis: Taxa Selic (X) e Taxa FIC Executivo (Y).
E ( x) = xi . p ( xi ) =
i =1 n n

1 (1,210 + 1,250 + L + 1,060) = 1,3554 24 1 (1,140 + 1,190 + L + 0,970) = 1,2941 24 1 (1,379 + 1,487 + L + 1,028) = 1,7814 24

E ( y ) = yi . p ( yi ) =
i =1 n

E ( x y ) = xi . yi p ( xi , yi ) =
i =1

Cov ( x, y ) = E ( x y ) E ( x).E ( y ) = 1,7814 1,3554x 1,2941 = 0,0273

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

71

( x, x ) =

Cov( x, y ) 0,0273 = = 0,979 x . y 0,1614 x0,1726

Outra maneira de se verificar se existe associao entre duas variveis quantitativas por meio do coeficiente de correlao, utilizando o mtodo dos mnimos quadrados, tal que:

x y
[x
2

x y
n ].[ y
2

( x ) n

( y ) 2 n

onde -1 R 1 Esta aplicao ser vista na disciplina de correlao e anlise de regresso.

8.6 ASSOCIAO ENTRE AS VARIVEIS QUALITATIVAS E QUANTITATIVAS comum nessas situaes analisar o que acontece com a varivel quantitativa dentro de cada categoria da varivel qualitativa. Essa anlise pode ser conduzida por meio de medidas-resumo ou box plot. Com os dados da Tabela 3, vamos analisar agora o comportamento dos salrios dentro de cada categoria de grau de instruo, ou seja, investigar o comportamento conjunto das variveis, salrio e grau de instruo, como apresenta a Tabela 34.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

72

Tabela 34: Medidas-resumo para a varivel salrio segundo o grau de instruo, na Companhia MB SALRIO Grau de Instruo Fundamental Mdio Superior Todos n 12 18 6 36

x 7,84
11,53 16,48 11,12

2,83 3,61 4,11 4,52

2 8,02 13,04 16,89 20,46

X1 4,00 5,73 10,53 4,00

Q1 6,00 8,83 13,65 7,55

Q2 7,13 10,91 16,74 10,17

Q3 9,16 14,42 18,38 14,01

Xn 13,85 19,40 23,30 23,30

Com os dados da Tabela 28 podemos construir a Figura 27 de box plot. Essa figura d uma boa visualizao e uma boa idia para analisar a associao entre as variveis, salrio e grau de instruo.
26

22

18

14

10

2 Fundamental Mdio Superior

Figura 27: Salrios segundo o grau de instruo dos funcionrios da Companhia MB Nota-se por meio da figura 27 uma dependncia dos salrios em relao ao grau de instruo: o salrio aumenta conforme aumenta o nvel de educao do indivduo. O salrio mdio de um funcionrio 11,12 (salrios mnimos), j para um

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

73

funcionrio com curso superior o salrio mdio passa a ser 16,48, enquanto funcionrios com ensino fundamental completo recebem, em mdia, 7,84. Como nos casos anteriores, interessante medir o grau de associao ou de dependncia entre as duas variveis. Com esse intuito, convm observar que as varincias podem ser usadas como insumos para determinar essa medida. Sem usar a informao da varivel categorizada, a varincia calculada para a varivel quantitativa para todos os dados mede a disperso dos dados globalmente. Se a varincia dentro de cada categoria for pequena e menor do que a global, significa que a varivel qualitativa melhora a capacidade de previso da quantitativa e, portanto, existe uma relao entre as duas variveis. Observe que, para as variveis: salrio e grau de instruo, as varincias do salrio dentro das trs categorias so menores do que a global. Neste caso, deve-se obter a varincia entre as categorias da varivel qualitativa, bem como a mdia entre elas. A mdia ser ponderada pelo nmero de observaes em cada categoria, ou seja;

n .
2 =
i =1 i

2 i

n
i =1

=
i

12(8,02) + 18(13,04) + 6(16,89) = 12,01 12 + 18 + 6

na qual k o nmero de categorias e i, a varincia dos salrios dentro de cada categoria i, como i = 1, 2, ..., k. Verifica-se que 2 2 , e o grau de associao entre as duas variveis como ganho relativo na varincia, obtido pela introduo da varivel qualitativa dado por:

2 2 2 R = = 1 2 2
2

R2 =1

12,01 = 0,413 = 41,3% 20,46

0 R2 1

Conclui-se que 41,3% da variao total do salrio explicado pela varivel grau de instruo.

Vamos analisar agora o comportamento dos salrios dentro de cada categoria da regio procedente, como apresenta a Tabela 35.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

74

Tabela 35: Medidas-resumo para a varivel salrio, segundo a regio de procedncia, na Companhia MB SALRIO Regio de Procedncia Capital Interior Outra Todos N 11 12 13 36

x 11,46
11,55 10,45 11,12

5,22 5,07 3,02 4,52

2 27,27 25,71 9,13 20,46

X1 4,56 4,00 5,73 4,00

Q1 7,49 7,81 8,74 7,55

Q2 9,77 10,65 9,80 10,17

Q3 16,63 14,70 13,79 14,01

Xn 19,40 23,30 16,22 23,30

Com os dados da Tabela 3 pode-se construir a Figura 28 de box plot para visualizar e analisar a associao entre as variveis, salrio e regio procedncia.

26

22

18

14

10

2 CAPITAL INTERIOR OUTRA

Figura 28: Salrios segundo a regio de procedncia dos funcionrios da Companhia MB

Na figura 28 temos os resultados da anlise dos salrios em funo da regio de procedncia, que mostra a inexistncia de uma relao melhor definida entre as duas variveis. O salrio mdio de um funcionrio 11,12 (salrios

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

75

mnimos), j os funcionrios da capital recebem, em mdia, 11,46; do interior 11,55 e de outras localidades recebem, em mdia, 10,45. Observe que, para as variveis: salrio e regio de procedncia, as varincias do salrio dentro das trs categorias, ora so maiores (capital e interior) ora menor (outros) do que a global. Neste caso, vamos calcular a varincia mdia ser ponderada pelo nmero de observaes em cada categoria, ou seja;

n .
2 =
i =1 i

2 i

n
i =1

=
i

11(27,27) + 12(25,71) + 13(9,13) = 20,20 11 + 12 + 13

e, portanto, R 2 = 1

2 2

R2 = 1

20,20 = 0,013 = 1,3% 20,46

Conclui-se que apenas 1,3% da variabilidade dos salrios explicada pela regio de procedncia.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

76

8.7 LISTA 3 - EXERCCIOS

1) Uma companhia de seguros analisou a frequncia com que 2.000 segurados (1.000 homens e 1.000 mulheres) usaram o hospital. Os resultados foram: Homens Usaram o hospital No usaram o hospital 100 900 Mulheres 150 850

a) Calcule a proporo dos homens entre os indivduos que usaram o hospital. b) Calcule a proporo dos homens entre os indivduos que no usaram o hospital. c) O uso do hospital independe do sexo do segurado?

2) Abaixo esto os dados referentes porcentagem da populao economicamente ativa empregada no setor primrio e o respectivo ndice de analfabetismo para algumas regies metropolitanas brasileiras. Regies metropolitanas So Paulo Rio de Janeiro Belm Belo Horizonte Salvador Porto Alegre Recife Fortaleza Setor primrio (Y) 2,0 2,5 2,9 3,3 4,1 4,3 7,0 13,0 ndice de analfabetismo (X) 17,5 18,5 19,5 22,2 26,5 16,6 36,6 38,3

Fonte: Indicadores Sociais para reas Urbanas-IBGE-1977

a) Faa o diagrama de disperso. b) Voc acha que existe uma dependncia linear entre as duas variveis? Se achar que sim, ento calcule a correlao linear.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

77

3) Uma pesquisa sobre a participao em atividades esportivas de adultos moradores nas proximidades de centros esportivos construdos pelo estado de So Paulo mostrou os resultados da tabela abaixo. Baseado nesses resultados voc diria que a participao em atividades esportivas depende da cidade. Participam So Paulo Sim No 50 150 65 185 Cidade Campinas Rib. Preto 105 195 Santos 120 180

4) Uma pesquisa para verificar a tendncia dos alunos a prosseguir os estudos, segundo a classe social do respondente, mostrou a seguinte tabela: Pretende Continuar Sim No Alta 200 200 Classe social Mdia 220 280 Baixa 380 720 800 1.200 Total

Existe uma dependncia entre os dois fatores? Por qu?

5) Completar a Tabela Medidas-resumo para a varivel salrio, segundo a regio de procedncia, na Companhia MB SALRIO Estado Civil Solteiro Casado Todos 36 11,12 4,52 20,46 4,00 7,55 10,17 14,01 23,30 N

X1

Q1

Q2

Q3

Xn

Verifique se existe associao entre as variveis, salrio e estado civil por meio do box plot. Calcular quanto a variao total (R2) do salrio explicado pela varivel estado civil.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

78

REFERNCIAS BIBLIOGRAFIAS

ANDERSON, David R.; SWEENEY, Dennis J., WILLIAMS, Thomas A. Estatstica aplicada administrao e economia. Trad. Luiz Srgio de Castro Paiva. 2. ed. So Paulo: Pioneira, 2002. BUSSAB, Wilton; MORETTIN, Pedro. A estatstica bsica. 5. ed. So Paulo: Saraiva, 2002. MONTGOMERY, Douglas C.; RUNGER, George C., HUBELE, Norma F. Estatstica Aplicada Engenharia. Traduo Profa. Vernica Calado, D. Sc. 2. ed. Rio de Janeiro: LTC, 2004. FREUND, John E.; SIMON, Gary A. Estatstica aplicada: economia, administrao e contabilidade. Trad. Alfredo Alves de Faria. 9. ed. Porto Alegre: Bookmam, 2000. MAGALHES, Marcos N.; Lima. Antonio C. P. Noes de probabilidade e estatstica. 6.ed. So Paulo: USP, 2004. NEUFELD, John L. Estatstica aplicada administrao usando Excel: Trad. Jos Luiz Celeste. So Paulo: Prentice Hall 2003. PEREIRA, Jlio Csar Rodrigues. Anlise de dados qualitativos: estratgias metodolgicas para as cincias da sade, humanas e sociais. 2.ed. So Paulo: USP, 1999. PINHEIRO, Ismael, D. P.; CUNHA, Sonia, B. da.; CARVAJAL, Santiago, R; GOMES, Gasto, C. Estatstica bsica arte de trabalhar com dados. Rio de Janeiro: Elsevier, 2009. SMAILES, Joanne; McGRANE, ngela. Estatstica aplicada administrao com excel. So Paulo: Atlas, 2002. SOARES, Jos F.; SIQUEIRA, Arminda, L. Introduo estatstica mdica. Belo Horizonte: UFMG,1999.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri

Você também pode gostar