Você está na página 1de 82

CENTRO DE CINCIAS EXATAS CCE

DEPARTAMENTO DE ESTATSTICA

Curso de Especializao Lato Sensu em Estatstica







ANLISE EXPLORATRIA DE DADOS


Professor: Dr. Waldir Medri
medri@uel.br





Londrina/Pr
Maro de 2011

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
ii
NDICE







ESTATSTICA...................................................................................................................................................... 1
1 INTRODUO.................................................................................................................................................. 1
2 REAS DA ESTATSTICA.............................................................................................................................. 2
2.1 ESTATSTICA DESCRITIVA............................................................................................................................. 2
2.2 ESTATSTICA INFERENCIAL ........................................................................................................................... 3
3 POPULAO E AMOSTRA............................................................................................................................ 4
3.1 POPULAO.................................................................................................................................................. 4
3.2 AMOSTRA...................................................................................................................................................... 4
4 VARIVEIS........................................................................................................................................................ 5
4.1 VARIVEIS QUALITATIVAS............................................................................................................................. 5
4.2 VARIVEIS QUANTITATIVAS .......................................................................................................................... 5
5 DADOS................................................................................................................................................................ 9
5.1 DADOS BRUTOS............................................................................................................................................ 9
5.2 ROL ............................................................................................................................................................... 9
5.3 DISPOSITIVO - RAMO E FOLHAS ................................................................................................................. 10
5.4 REPRESENTAO TABULAR ....................................................................................................................... 11
5.5 REPRESENTAO GRFICA........................................................................................................................ 13
5.5.1 Representao Grfica para uma Varivel Qualitativa....................................................................... 13
5.5.2 Representao Grfica para uma Varivel Quantitativa..................................................................... 16
5.5.3 Sries Conjugadas ................................................................................................................................ 17
5.5.4 Distribuio de Frequncias ................................................................................................................ 19
5.6 LISTA 1 EXERCCIOS................................................................................................................................ 27
6 MEDIDAS ESTATSTICAS ........................................................................................................................... 30
6.1 MEDIDAS TENDNCIA CENTRAL (POSIO)............................................................................................... 30
6.1.1 Mdia.................................................................................................................................................... 30
6.1.2 Mediana................................................................................................................................................ 31
Conceito de resistncia de uma medida ........................................................................................................ 32
6.1.3 Moda..................................................................................................................................................... 32
6.2 MEDIDAS DE DISPERSO............................................................................................................................ 33
6.2.1 Amplitude.............................................................................................................................................. 33
6.2.2 Desvio Mdio........................................................................................................................................ 34
6.2.3 Varincia.............................................................................................................................................. 34
6.2.4 Desvio Padro...................................................................................................................................... 35
6.2.5 Erro Padro ......................................................................................................................................... 35
6.2.6 Coeficiente de Variao ....................................................................................................................... 35
6.3 SEPARATRIZES: QUARTIS, DECIS E PERCENTIS........................................................................................ 37
6.4 ASSIMETRIA................................................................................................................................................. 39
6.5 CURTOSE .................................................................................................................................................... 40
6.6 BOX PLOT ................................................................................................................................................... 41
6.7 MEDIDAS DE POSIO E DISPERSO DE UMA DISTRIBUIO DE FREQUNCIA ........................................ 45
6.7.1 Mdia.................................................................................................................................................... 46
6.7.2 Mediana................................................................................................................................................ 46
6.7.3 Moda..................................................................................................................................................... 47
6.7.4 Separatrizes: Quartis, Decis e Percentis.............................................................................................. 47

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
iii
6.7.5 Clculo das Separatrizes Utilizando Propores................................................................................. 49
6.7.6 Desvio Mdio........................................................................................................................................ 50
6.7.7 Varincia.............................................................................................................................................. 50
6.7.8 Desvio Padro...................................................................................................................................... 50
6.7.9 Erro Padro ......................................................................................................................................... 50
6.8 LISTA 2 - EXERCCIOS................................................................................................................................. 51
7 TRANSFORMAES DE VARIVEIS....................................................................................................... 53
7.1 MUDANA DE ORIGEM................................................................................................................................ 54
7.2 MUDANA DA UNIDADE............................................................................................................................... 55
8 ANLISE BIDIMENSIONAL........................................................................................................................ 56
8.1 INTRODUO............................................................................................................................................... 56
8.2 VARIVEIS QUALITATIVAS........................................................................................................................... 57
8.3 ASSOCIAO ENTRE VARIVEIS QUALITATIVAS......................................................................................... 59
8.4 MEDIDAS DE ASSOCIAO ENTRE VARIVEIS QUALITATIVAS ................................................................... 66
8.5 ASSOCIAO ENTRE VARIVEIS QUANTITATIVAS ...................................................................................... 66
8.5.1 Coeficientes de associao ou correlao............................................................................................ 67
8.6 ASSOCIAO ENTRE AS VARIVEIS QUALITATIVAS E QUANTITATIVAS...................................................... 71
8.7 LISTA 3 - EXERCCIOS................................................................................................................................. 76
REFERNCIAS BIBLIOGRAFIAS ................................................................................................................. 78


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
iv

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
1
ESTATSTICA


1 INTRODUO
Desde a Antigidade vrios povos j registravam o nmero de habitantes, de
nascimento, de bitos, faziam estimativas das riquezas individual e social,
distribuam equitativamente terras ao povo, cobravam impostos e at realizavam
inquritos quantitativos por processos que, hoje, se chama de Estatstica.
A palavra Estatstica vem de status, que significa em latim Estado. Com
essa palavra faziam-se as descries e dados relativos aos Estados, tornando a
Estatstica um meio de administrao para os governantes. Mais recentemente se
passou a falar em estatstica em vrias cincias de todas as reas do conhecimento
humano, onde pode definir a Estatstica como um conjunto de mtodos e processos
quantitativos que servem para estudar e medir os fenmenos coletivos.
Ao se estudar os fenmenos coletivos, o que interessa so os fatos que
envolvem os elementos desses fenmenos, como eles se relacionam e qual o seu
comportamento. Para que tal estudo possa acontecer com toda a seriedade que a
cincia exige, necessrio que o levantamento seja feito atravs de uma pesquisa
cientfica, sendo ela definida como a realizao concreta de uma investigao
planejada, desenvolvida e redigida de acordo com as normas de metodologia.
A Estatstica muito mais do que a simples construo de grficos e o clculo
de mdias. As informaes numricas so obtidas com a finalidade de acumular
informao para a tomada de deciso. Ento, a estatstica pode ser vista como um
conjunto de tcnicas para planejar experimentos, obter dados e organiz-los, resumi-
los, analis-los, interpret-los e deles extrair concluses.
A informao de estatstica apresentada constantemente no rdio e na
televiso, como por exemplo, a coleta de dados sobre nascimentos e mortes, a
avaliao da eficincia de produtos comerciais e a previso do tempo.
As tcnicas clssicas da estatstica foram delineadas para serem as melhores
possveis sob rigorosas suposies. Entretanto, a experincia tem forado os
estudiosos a conhecer que as tcnicas clssicas comportam-se mal quando
situaes prticas no apresentam o ideal descrito por tais suposies. O

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
2
desenvolvimento recente de mtodos exploratrios robustos est aumentando a
eficincia da anlise estatstica.
Os bons profissionais de estatstica tm sempre olhado com detalhes os
dados antes de levantar suposies estatsticas e testes de hipteses. Mas o uso
indiscriminado de pacotes estatsticos computacionais, sem o exame cuidadoso dos
dados profissionais da rea, conduz, s vezes, a resultados aberrantes.
A anlise exploratria de dados nos fornece um extenso repertrio de
mtodos para um estudo detalhado dos dados, antes de adapt-los. Nessa
abordagem, a finalidade obter dos dados a maior quantidade possvel de
informao, que indique modelos plausveis a serem utilizados numa fase posterior,
a anlise confirmatria de dados ou inferncia estatstica.

2 REAS DA ESTATSTICA
Se entender Estatstica como a Cincia dos Dados, ser de grande valia o
domnio que seu corpo de conhecimento pode oferecer. Primeiramente, como ponto
de partida, pode-se dividir a Estatstica em duas reas:
Descritiva
Inferencial (Indutiva)

Obs. Alguns autores, como por exemplo, Marcos Nascimento Magalhes e Antonio
Carlos Pedroso de Lima, dizem que a estatstica, grosso modo, pode ser dividida em
trs reas: Estatstica descritiva; Probabilidade e Inferncia estatstica.

2.1 ESTATSTICA DESCRITIVA
A Estatstica Descritiva se preocupa com a organizao, apresentao e
sintetizao de dados. Utilizam grficos, tabelas e medidas descritivas como
ferramentas. Utilizada na etapa inicial da anlise, destinada a obter informaes que
indicam possveis modelos a serem utilizados numa fase final que seria a chamada
inferncia estatstica.




Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
3
2.2 ESTATSTICA INFERENCIAL
A Estatstica Inferencial postula um conjunto de tcnicas que permitem utilizar
dados oriundos de uma amostra para generalizaes sobre a populao. Constitui
esse conjunto de tcnicas: a determinao do nmero de observaes (tamanho da
amostra); o esquema de seleo das unidades observacionais; o clculo das
medidas estatsticas; a determinao da confiana nas estimativas; a significncia
dos testes estatsticos; a preciso das estimativas; dentre outras. Essa
generalizao feita a partir do processo de estimao das medidas estatsticas que
podem ser calculadas, porm no sem antes se antecipar um grau de certeza de
que a amostra esteja fornecendo os dados que seriam de se esperar caso toda a
populao fosse estudada. Nesse caso, o ramo da matemtica que ser utilizado
para se avaliar tal grau de certeza a probabilidade. Com ela teremos condies de
mensurar a fidedignidade de cada inferncia feita com base na amostra.

Antes de comear a estudar os mtodos estatsticos que permitir analisar
dados, sejam eles qualitativos ou quantitativos, importante introduzir alguns
conceitos preliminares a fim no apenas de dar nomes aos instrumentos, mas
tambm adequar e equalizar a terminologia a ser utilizada ao longo do curso.
Na terminologia estatstica, o grande conjunto de dados que contm a
caracterstica que temos interesse recebe o nome de populao. Esse termo refere-
se no somente a uma coleo de indivduos, mas tambm ao alvo sobre o qual
reside nosso interesse. Assim, nossa populao pode ser tanto todos os habitantes
de Londrina como todas as lmpadas produzidas por uma fbrica em certo perodo
de tempo. Algumas vezes podemos acessar toda a populao para estudarmos
caractersticas de interesse, mas, em muitas situaes, tal procedimento no pode
ser realizado. Em geral, razes econmicas so determinantes dessas situaes.
Por exemplo, uma empresa, usualmente, no dispe de verba suficiente para saber
o que pensam todos os consumidores de seus produtos. H ainda razes ticas,
quando, por exemplo, os experimentos de laboratrio que envolvem o uso de seres
vivos. Alm disso, existem casos em que a impossibilidade de se acessar toda a
populao de interesse incontornvel. Por exemplo, em um experimento para
determinar o tempo de funcionamento das lmpadas produzidas por uma indstria,
no podemos observar toda a populao de interesse.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
4
Tendo em vista as dificuldades de vrias naturezas para se observar todos os
elementos da populao, tomaremos alguns deles para formar um grupo a ser
estudado. Este subconjunto da populao, em geral com dimenso menor,
denominado amostra.

3 POPULAO E AMOSTRA

3.1 POPULAO
Populao o conjunto constitudo por todos os indivduos que representam
pelo menos uma caracterstica comum, cujo comportamento interessa analisar
(inferir). Assim sendo, o objetivo das generalizaes estatsticas est em dizer se
algo acerca de diversas caractersticas da populao estudada, com base em fatos
conhecidos.

3.2 AMOSTRA
Amostra pode ser definida como um subconjunto, uma parte selecionada da
totalidade de observaes abrangidas pela populao, atravs da qual se faz
inferncia sobre as caractersticas da populao. Uma amostra tem que ser
representativa, a tomada de uma amostra bem como seu manuseio requer cuidados
especiais para que os resultados no sejam distorcidos.

Parmetro uma medida numrica que descreve uma caracterstica de
uma populao. So valores fixos, geralmente desconhecidos e
usualmente representados por caracteres gregos. Por exemplo, (mdia
populacional), p (proporo populacional), (desvio-padro
populacional),
2
(varincia populacional).
Estatstica uma estatstica numrica que descreve uma caracterstica
de uma amostra. Representada por caracteres latinos. Por exemplo,
x (mdia amostral), p (proporo amostral), s (desvio-padro amostral),
s
2
(varincia amostral).
Unidade Observvel a portadora da(s) caracterstica(s), ou
propriedade(s), que se deseja investigar.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
5
A seleo da amostra pode ser feita de vrias maneiras, dependendo, entre
outros fatores, do grau de conhecimento que temos da populao, da quantidade de
recursos disponveis a assim por diante. Cabe ressaltar que este item ser
apresentado mais para frente.


4 VARIVEIS
Ao se fazer um estudo estatstico de um determinado fato ou grupo, tem-se
que considerar o tipo de varivel. Pode ter variveis qualitativas ou variveis
quantitativas.

4.1 VARIVEIS QUALITATIVAS
Variveis qualitativas so aquelas em que a varivel assume valores em
categorias, classes ou rtulos. So, portanto, por natureza, dados no numricos.
Apesar de ser considerada de baixo nvel de mensurao, do ponto de vista da
aplicao de instrumental estatstico, a varivel qualitativa oferece um vasto espectro
de aplicao nas cincias sociais e do comportamento. Variveis qualitativas
denotam caractersticas individuais das unidades sob anlise, tais como sexo,
estado civil, naturalidade, raa, grau de instruo, dentre outras, permitindo
estratificar as unidades para serem analisadas de acordo com outras variveis.

4.2 VARIVEIS QUANTITATIVAS
Variveis quantitativas so aquelas expressas pelas variveis com nveis de
mensurao intervalar ou de razo. Ou seja, so aqueles nas quais as variveis
assumem valores numa escala mtrica definida por uma origem e uma unidade, por
exemplo: idade, salrio, peso, etc.
As variveis qualitativas podem ser, tambm, classificadas como nominal e
ordinal. Por outro lado, as variveis quantitativas podem ser classificadas como
discretas, quando assumem um nmero finito de valores, ou contnuas, quando
assume um nmero infinito de valores, geralmente em intervalos, como apresentam
na Tabela 1.



Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
6
Tabela 1: Classificao das variveis qualitativas e quantitativas
Variveis Tipos Descrio Exemplos
Nominal
No existe nenhuma
ordenao
Cor dos olhos, sexo, estado
civil, tipo sangneo.

Qualitativas
ou
Categricas
Ordinal
Existe uma ordenao
I, II, III
Nvel de escolaridade, estgio
da doena, colocao de
concurso.
Discretas
Valor pertence a um
conjunto enumervel
Nmero de filhos por casal,
quantidade de leitos


Quantitativas

Contnuas
Quando o valor
pertence a um
intervalo real
Medidas de altura e peso, taxa
de glicose, nvel de colesterol.

Em algumas situaes podem-se atribuir valores numricos s vrias
qualidades ou atributos e depois proceder anlise como esta varivel como se
fosse quantitativa, desde que o procedimento seja passvel de interpretao.
Uma vez obtidos os dados referentes s variveis qualitativas, a tarefa
seguinte represent-los atravs de uma tabela e de um grfico. Posteriormente,
poder ser til calcular as frequncias, simples, acumuladas e as relativas.
Para os dados quantitativos, quando o nmero de observaes cresce e os
valores so diferenciados entre si, h que se represent-los de modo resumido. Para
isso a melhor forma de representao tabular atravs de distribuies de
frequncia por classes de valores.

Como exemplo: Suponha que um mdico est interessado em fazer um
levantamento sobre algumas caractersticas de pacientes atendidos em sua clnica
neurolgica: sexo peso, tipo de tratamento, nmero de convulses e classificao da
doena (leve, moderada e severa).
Os dados podem ser organizados em uma tabela. Usualmente os indivduos
so representados nas linhas e as variveis nas colunas. Este formato utilizado
pela maioria do programas computacionais.
Note atravs da Tabela 2 que cada indivduo uma unidade de observao
na qual so feitas vrias medidas e/ou anotados vrios atributos, referentes s
variveis.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
7
Tabela 2: Caractersticas de pacientes atendidos em uma clnica neurolgica
Paciente Sexo Peso
Tipo de
Tratamento
N
o
de
Convulses
Classificao
da Doena
1 M 89,8 A 1 Leve
2 F 64,2 A 3 Severa
3 M 91,0 B 2 Moderada
4 F 56,7 A 0 Moderada
5 F 48,5 B 1 Leve
. . .
58 M 71,0 B 0 Severa
59 M 78,8 A 2 Leve
60 F 71,0 B 3 Moderada

Analise a tabela 2 e classifique as variveis:
Variveis qualitativas nominal: Sexo, Tipo de tratamento.
Variveis qualitativas ordinal: Classificao da doena.
Variveis quantitativas discreta: Nmero de convulses
Variveis quantitativas contnua: Peso.

Um outro exemplo: Um pesquisador est interessado em fazer um levantamento
sobre alguns aspectos socioeconmicos dos empregados da seo de oramentos
da Companhia MB. Usando informaes obtidas do departamento pessoal, ele
elaborou a Tabela 3.

De modo geral, para cada elemento investigado numa pesquisa, tem-se
associado um (ou mais de um) resultado correspondendo realizao de uma
caracterstica (ou caractersticas).
Algumas variveis, como sexo, educao, estado civil, apresentam como
possveis realizaes de qualidade (ou atributo) do indivduo pesquisado, ao passo
que outras, como nmero de filhos, salrio, idade, apresentam como possveis
realizaes nmeros resultantes de uma contagem ou mensurao. As variveis do
primeiro tipo so chamadas qualitativas e as do segundo quantitativas.



Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
8
Tabela 3: Informaes sobre estado civil, grau de instruo, nmero de filhos, salrio
mnimo, idade e procedncia de 36 empregados da seo de oramentos
da companhia MB.

N
o
Estado
Civil
Grau de
Instruo
N
o
de
Filho
s
Salrio
mnimo
Idade
Anos

Meses
Regio de
Procedncia
1 Solteiro Ensino fundamental 4,00 26 3 Interior
2 Casado Ensino fundamental 1 4,56 32 10 Capital
3 Casado Ensino fundamental 2 5,25 36 5 Capital
4 Solteiro Ensino mdio 5,73 20 10 Outra
5 Solteiro Ensino fundamental 6,26 40 7 Outra
6 Casado Ensino fundamental 0 6,66 28 0 Interior
7 Solteiro Ensino fundamental 6,86 41 0 Interior
8 Solteiro Ensino fundamental 7,39 43 4 Capital
9 Casado Ensino mdio 1 7,44 34 10 Capital
10 Solteiro Ensino mdio 7,59 23 6 Outra
11 Casado Ensino mdio 2 8,12 33 6 Interior
12 Solteiro Ensino fundamental 8,46 27 11 Capital
13 Solteiro Ensino mdio 8,74 37 5 Outra
14 Casado Ensino fundamental 3 8,95 44 2 Outra
15 Casado Ensino mdio 0 9,13 30 5 Interior
16 Solteiro Ensino mdio 9,35 38 8 Outra
17 Casado Ensino mdio 1 9,77 31 7 Capital
18 Casado Ensino fundamental 2 9,80 39 7 Outra
19 Solteiro Ensino superior 10,35 25 8 Interior
20 Solteiro Ensino mdio 10,76 37 4 Interior
21 Casado Ensino mdio 1 11,06 30 9 Outra
22 Solteiro Ensino mdio 11,59 34 2 Capital
23 Solteiro Ensino fundamental 12,00 41 0 Outra
24 Casado Ensino superior 0 12,79 26 1 Outra
25 Casado Ensino mdio 2 13,23 32 5 Interior
26 Casado Ensino mdio 2 13,60 35 0 Outra
27 Solteiro Ensino fundamental 13,85 46 7 Outra
28 Casado Ensino mdio 0 14,69 29 8 Interior
29 Casado Ensino mdio 5 14,71 40 6 Interior
30 Casado Ensino mdio 2 15,99 35 10 Capital
31 Solteiro Ensino superior 16,22 31 5 Outra
32 Casado Ensino mdio 1 16,61 36 4 Interior
33 Casado Ensino superior 3 17,26 43 7 Capital
34 Solteiro Ensino superior 18,75 33 7 Capital
35 Casado Ensino mdio 2 19,40 48 11 Capital
36 Casado Ensino superior 3 23,30 42 2 Interior
Fonte: Dados hipotticos




Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
9
5 DADOS
So as informaes inerentes s variveis que caracterizam os elementos
que constituem a populao ou a amostra em estudo. Os dados obtidos em
pesquisas devem ser analisados e interpretados com o auxlio de mtodos
estatsticos.
Na primeira etapa deve-se fazer uma anlise descritiva que consiste na
organizao e descrio dos dados, na identificao de valores que representem o
elemento tpico e, na quantificao da variabilidade presente nos dados.

5.1 DADOS BRUTOS
Qualquer pesquisa baseada em levantamento ou coleta de dados. Os
dados so obtidos diretamente da pesquisa, sem terem passados por nenhum
processo de sntese ou anlise. Por exemplo, os 50 valores, em decibis, de nvel de
rudo de trfego em certo cruzamento esto apresentados a seguir:
58,0 62,5 65,0 67,0 68,3 65,0 66,4 58,0 67,0 67,0
62,5 62,5 66,4 66,4 65,0 65,0 60,2 60,2 60,2 60,2
59,5 59,5 59,5 65,0 66,4 66,4 66,4 60,2 62,5 67,0
67,0 67,0 70,1 70,1 71,9 70,1 67,0 66,4 66,4 68,3
68,3 68,3 65,0 65,0 62,5 62,5 65,0 65,0 68,3 71,9

Apesar de todos estes valores terem sido obtidos em de nvel de rudo de
trfego em certo cruzamento, nota-se uma grande variao nos resultados. Assim,
os mtodos estatsticos so fundamentais para o estudo de situaes em que a
variabilidade inerente. A Estatstica Descritiva ajuda na percepo, avaliao e
quantificao da variabilidade em tabelas e grficos obtidos a partir de um conjunto
de dados que sintetizem os valores, com o objetivo de se ter uma viso global e
clara da variao existente nas variveis.

5.2 ROL
A mo, ou com auxlio de computador, pode-se classificar os dados x
1
,
x
2
,...,x
n
em ordem crescente. Pode-se, pelo rol, verificar de maneira mais clara e
rpida a composio do conjunto, identificando o maior e o menor valor alm de
alguns elementos que podem se repetir vrias vezes, mostrando assim o
comportamento dos dados.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
10
5.3 DISPOSITIVO - RAMO E FOLHAS
A mais comum estrutura de dados um grupo de nmeros. At mesmo esta
to simples estrutura de dados pode ter caractersticas no facilmente distinguveis
por estudos dos nmeros. O dispositivo ramo e folhas uma tcnica flexvel e
eficaz para comearmos a olhar um conjunto ou uma amostra de dados. Os dgitos
mais significantes dos valores, por si prprios, fazem muito trabalho de ordenao
do grupo.
Est tcnica bsica, mas verstil, intensamente usada, principalmente para
comparar grupos e examinar cada caracterstica, tais como:
quanto o grupo est prxima da assimetria;
como esto distribudos os valores;
se alguns valores esto distanciados dos demais;
se existe concentrao de dados;
se existe lacunas nos dados.

Aplicao do dispositivo ramo e folhas. No existe uma regra fixa para
construir o ramo e folhas, mas a idia bsica dividir cada observao em duas
partes: a primeira (o ramo) colocada esquerda de uma linha vertical, a segunda
(a folha) colocada direita. A Figura 1 apresenta um dessa aplicao.










Figura 1 - Ramos e folhas para os depsitos bancrios

Assim, o Rol dos 50 valores do nvel de rudo de trfego em certo
cruzamento, faca:
58
59
60
62
65
66
67
68
70
71

0 0
5 5 5
2 2 2 2 2
5 5 5 5 5 5
0 0 0 0 0 0 0 0 0
4 4 4 4 4 4 4 4
0 0 0 0 0 0 0
3 3 3 3 3
1 1 1
9 9
Ramo Folha Frequncia
2
3
5
6
9
8
7
5
3
2

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
11
58,0 58,0 59,5 59,5 59,5 60,2 60,2 60,2 60,2 60,2
62,5 62,5 62,5 62,5 62,5 62,5 65,0 65,0 65,0 65,0
65,0 65,0 65,0 65,0 65,0 66,4 66,4 66,4 66,4 66,4
66,4 66,4 66,4 67,0 67,0 67,0 67,0 67,0 67,0 67,0
68,3 68,3 68,3 68,3 68,3 70,1 70,1 70,1 71,9 71,9

A apresentao dos dados pode ser de duas formas: Apresentao Tabular e
apresentao Grfica.

5.4 REPRESENTAO TABULAR
Apresentao tabular numrica de dados a representao das informaes
por intermdio de uma tabela. Uma tabela uma maneira bastante eficiente de
mostrar os dados levantados e que facilita a compreenso e interpretao dos
dados.
Para organizar uma srie estatstica ou uma distribuio de frequncias,
existem algumas normas nacionais ditadas pela Associao Brasileira de Normas
Tcnicas (ABNT) as quais devem ser respeitadas. Assim, toda tabela estatstica de
conter:
a) Elementos essenciais
Ttulo indica a natureza do fato estudado (o qu?), as variveis escolhidas
na anlise do fato (como?), o local (onde?) e a poca (quando?).
Corpo o conjunto de linhas e colunas que contm, respectivamente, as
sries horizontais e verticais de informaes.
Cabealho designa a natureza do contedo de cada coluna.
Coluna indicadora mostra a natureza do contedo de cada linha.
b) Elementos complementares (se necessrio)
Fonte o indicativo, no rodap da tabela, da entidade responsvel pela sua
organizao ou fornecedora dos dados primrios.
Notas so colocadas no rodap da tabela para esclarecimentos de ordem
geral.
c) Sinais convencionais
(hfen), quando o valor numrico nulo;
... (reticncia), quando no se dispe de dado;

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
12
? (ponto de interrogao), quando h dvidas quanto exatido do valor
numrico;
0; 0,0; 0,00 (zero), quando o valor numrico muito pequeno para ser
expresso pela unidade utilizada, respeitando o nmero de casas decimais
adotado;
X (letra x), quando o dado for omitido.
d) Numerar as tabelas quando houver mais de uma.
e) As tabelas devem ser fechadas acima e abaixo por linha horizontal, no
sendo fechadas direita e esquerda por linhas verticais. facultativo o
emprego de traos verticais para separao de colunas no corpo da tabela.
f) Os totais e subtotais devem ser destacados.
g) Manter a uniformidade do nmero de casas decimais.


As tabelas podem ser classificadas como unidimensional ou bidimensional. A
Tabela 4 uma representao unidimensional, enquanto a Tabela 5
bidimensional.

Tabela 4: Nmero e porcentagem de causas de morte de residentes de Londrina, no
perodo de 10 de agosto a 31 de dezembro de 2008
CAUSAS DA MORTE N
O
%
Doenas do ap. circulatrio 281 33,5
Neoplasias 115 13,7
Causas externas 92 11,0
Doenas do ap. respiratrio 87 10,4
Doenas das glnd. endc./transt. Imunitrios 56 6,7
Doenas do ap. digestivo 54 6,4
Doenas e infec. e parasitrias 46 5,5
Afeces do per. Perinatal 26 3,1
Demais grupos 82 9,8
TOTAL 839 100,0
FONTE: Ncleo de informao em mortalidade PML



Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
13
Tabela 5: Percentual de vendas do produto A, da Empresa WD, no ms de maro de 2008
FAIXA ETRIA
REGIO
< 1 ano 1 a 4 anos 5 a 19 anos 20 a 49 anos 50 anos ou +
Centro 4,54 - 2,02 14,65 78,79
Norte 6,45 1,61 2,42 26,61 62,91
Sul 7,27 4,55 5,45 22,73 60,00
Leste 3,36 - 4,03 24,16 68,45
Oeste 4,57 1,14 3,43 18,29 72,57
Rural 15,71 4,29 4,28 14,29 61,43
LONDRINA 5,83 1,42 3,37 20,61 68,77
FONTE: Relatrio do ms de maro do Departamento de vendas.


5.5 REPRESENTAO GRFICA
A representao grfica usada para aumentar a legibilidade do resultado de
uma pesquisa. Os grficos devem ser auto-explicativos e de fcil compreenso.
Devem sempre ter um ttulo, onde se destaca o fato, o local e o tempo. Ser
construdos em uma escala que no desfigure os fatos ou as relaes que se deseja
destacar. Assim, a altura de um grfico deve compreender entre 60% a 80% da
largura.

5.5.1 Representao Grfica para uma Varivel Qualitativa
Para esse tipo de varivel os grficos mais utilizados so os de: colunas,
barras, linhas e de setores.

Tabela 6: Densidade demogrfica, segundo as Grandes Regies - 2008
Brasil e Grandes Regies Densidade demogrfica (hab/km
2
)
Brasil
Norte
Nordeste
Sudeste
Sul
Centro Oeste
22,3
4,0
34,4
86,3
47,8
8,6
Fonte: IBGE, Pesquisa Nacional por Amostra de Domiclio 2008

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
14
No Brasil a densidade demogrfica mdia, em 2008, de 22,3 hab/km
2
.
Regio Norte, que possui 45,2% da rea total do Pas e 8,1% da populao, tem
apenas 4,0 hab/km
2
Nessa regio, ainda existem grandes vazios espaciais, em
funo da vastido territorial e de grandes reas intocadas, como a ocupada pela
floresta Amaznica. A Regio Sudeste, a mais evoluda economicamente do Pas,
com 42% da populao total, a que tem a maior densidade com 86,3 hab/km
2
A
Regio Metropolitana de So Paulo, com 19,5 milhes de pessoas, corresponde a
47,9% da populao do estado, enquanto a Regio Metropolitana do Rio de Janeiro,
com 11,5 milhes de pessoas, contm 73,4% dos habitantes do Rio de Janeiro
(Tabela 6).

a) Grfico de Colunas
Os grficos de colunas (Figura 2) ou barras (Figura 3) consistem em construir
retngulos, em que uma das dimenses proporciona magnitude a ser
representada, sendo a outra arbitrria, porm igual para todas as colunas (ou
barras). Essas colunas (ou barras) so dispostas paralelamente umas s outras,
verticalmente (ou horizontalmente), isto :

22,3
4,0
34,4
86,3
47,8
8,6
0
20
40
60
80
100
Brasil Norte Nordeste Sudeste Sul Centro
Oeste
Brasil e Grandes Regies
D
e
n
s
i
d
a
d
e

d
e
m
o
g
r

f
i
c
a

(
h
a
b
/
k
m
2
)

Figura 2 Densidade demogrfica, Brasil e as Grandes Regies - 2008





Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
15
b) Grfico de Barras
22,3
4,0
34,4
86,3
47,8
8,6
0 20 40 60 80 100
Brasil
Norte
Nordeste
Sudeste
Sul
Centro Oeste
B
r
a
s
i
l

e

G
r
a
n
d
e
s

R
e
g
i

e
s
Densidade demogrfica (hab/km2)

Figura 3 Densidade demogrfica, Brasil e as Grandes Regies - 2008

c) Grfico de Linhas (Figura 4)
22,3
4,0
34,4
86,3
47,8
8,6
0
20
40
60
80
100
Brasil Norte Nordeste Sudeste Sul Centro
Oeste
Brasil e Grandes Regies
D
e
n
s
i
d
a
d
e

d
e
m
o
g
r

f
i
c
a

(
h
a
b
/
k
m
2
)

Figura 4 Densidade demogrfica, Brasil e as Grandes Regies, 2008

Obs. O grfico de linha acima no adequado para o exemplo

d) Grfico de Setores
O grfico de setores (Figura 5) destina-se representar a composio,
usualmente em porcentagem, de partes de um todo. Consiste num crculo de raio
arbitrrio, representando o todo, dividindo em setores, que correspondem s partes
de maneira proporcional.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
16
S-47,8
N-4,0
NE-34,4
SU-86,3
B-22,3
CO-8,6
Brasil
Norte
Nordeste
Sudeste
Sul
Centro Oeste

Figura 5 Densidade demogrfica, Brasil e as Grandes Regies - 2008

5.5.2 Representao Grfica para uma Varivel Quantitativa
Grficos referentes a variveis quantitativas (discretas ou contnuas) mais
utilizados so os de: colunas (Figura 6) e barras (Figura 7).

Tabela 7: As taxas mensais, em porcentagem, da Poupana,
no perodo de janeiro a dezembro de 2005
Meses Taxa (%)
Janeiro
Fevereiro
Maro
Abril
Maio
Junho
Julho
Agosto
Setembro
Outubro
Novembro
Dezembro
0,715
0,692
0,675
0,734
0,737
0,739
0,774
0,808
0,771
0,733
0,711
0,714
Fonte: Caixa Econmica Federal








Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
17
a) Grfico de colunas
0,60
0,65
0,70
0,75
0,80
0,85
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Meses
T
a
x
a

(
%
)

Figura 6 Taxa de juros em porcentagem da caderneta de
Poupana de janeiro a dezembro de 2005




c) Grfico de linhas

0,675
0,692
0,715
0,714
0,711
0,733
0,771
0,808
0,774
0,739
0,737
0,734
0,60
0,65
0,70
0,75
0,80
0,85
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Meses
T
a
x
a
s

(
%
)

Figura 7 Taxa de juros em porcentagem da caderneta de
Poupana de janeiro a dezembro de 2005

5.5.3 Sries Conjugadas
Muitas vezes tem-se a necessidade de apresentar, em uma nica tabela, a
variao de valores de mais de uma varivel, isto , fazer uma conjuno de duas ou
mais sries. Conjugando duas sries em uma nica tabela, obtm-se uma tabela de
dupla entrada (horizontal e vertical). A Tabela 8 apresenta a mdia de anos de
estudo, no Brasil e nas Regies: Sudeste e Nordeste, no perodo de 2002 a 2008


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
18
Tabela 8: Mdia de anos de estudo, no Brasil e nas Regies, Sudeste e
Nordeste, no perodo de 2002 a 2008
Brasil e Regies
Anos
2002 2003 2004 2005 2006 2007 2008
Sudeste
Brasil
Nordeste
7,2 7,4 7,6 7,7 7,9 7,9 8,1
6,5 6,7 6,8 7,0 7,2 7,3 7,4
5,1 5,3 5,5 5,6 5,8 6,0 6,2
Fonte: IBGE, Pesquisa Nacional por Amostra de Domiclio 2008

A educao bsica no Pas formada por dois ciclos fundamental e mdio
que correspondem a 11 anos de estudo completos. Os dados sobre os nveis de
escolarizao da populao revelam melhoras, se comparados queles da dcada
anterior, porm so ainda insuficientes e no compatveis com o nvel de
desenvolvimento econmico do Pas. Basta observar a escolaridade mdia da
populao. Em 2008, o brasileiro de 15 anos ou mais de idade tinha, em mdia, 7,4
anos de estudo. Na Regio Sudeste, essa mdia atingiu 8,1 anos, enquanto na
Regio Nordeste apenas 6,2 anos. Os com os grficos, de linhas (figura 8) e de
colunas mltiplas (figura 9) mostram esta situao.

a) Grfico de Linhas (Figura 8)
7,2
7,4
7,6
7,7
7,9 7,9
8,1
6,5
6,7
6,8
7,0
7,2
7,3
7,4
5,1
5,3
5,5
5,6
5,8
6,0
6,2
3
5
7
9
2002 2003 2004 2005 2006 2007 2008
M

d
i
a
s

d
e

e
s
t
u
d
o
s

(
a
n
o
s
)
Sudeste Brasil Nordeste

Figura 8 Mdias de estudo no Brasil e nas Regies: Sudeste e
Nordeste, no perodo de 2002 a 2008




Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
19
b) Grfico de Colunas Mltiplas (Figura 9)
SU
SU SU
SU
SU
SU
SU
B
B
B
B
B
B
B
NE2
NE
NE
NE
NE
NE
NE
3
5
7
9
2002 2003 2004 2005 2006 2007 2008
M

d
i
a
s

d
e

e
s
t
u
d
o
s

(
a
n
o
s
)
Sudeste Brasil Nordeste


Figura 9 Mdias de estudo no Brasil e nas Regies: Sudeste e
Nordeste, no perodo de 2002 a 2008

O grfico de colunas mltiplas til quando se quer fazer estudo comparativo.


5.5.4 Distribuio de Frequncias
Quando se estuda uma varivel, o maior interesse do pesquisador conhecer
o comportamento dessa varivel, analisando a ocorrncia de suas possveis
realizaes. Considerando-se a varivel qualitativa a ser estudada, como por
exemplo, grau de instruo (Tabela 3), ser observada e estudada muito mais
facilmente quando se dispem os ensinos: Fundamental, Mdio e Superior em uma
coluna e coloca-se, ao lado de cada ensino, o nmero de vezes que aparece
repetido. Assim, a Tabela 9 apresenta a distribuio de frequncias da varivel grau
de instruo.

Tabela 9: Frequncias e porcentagens dos 36 empregados da seo de oramentos
da Companhia MB segundo o grau de instruo
Grau de
Instruo
Frequncia
(n
i
)
Proporo
(f
i
)
Porcentagem
(%)
Fundamental
Mdio
Superior
12
18
6
0,3333
0,5000
0,1667
33,33
50,00
16,67
Total 36 1,0000 100,00

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
20
Fonte: Tabela 3
Atravs da Tabela 9 da segunda coluna, nota-se que dos 36 empregados da
Companhia MB, 12 tm o ensino fundamental, 18 o ensino mdio e 6 possui curso
superior.
Uma medida bastante til na interpretao de tabelas de frequncias a
proporo (ou a porcentagem) de cada realizao em relao ao total. Assim 6/36 =
0,1667 (16,67%) dos empregados da Companhia MB (seo de oramento) tm
instruo superior. As propores so muito teis quando se quer comparar
resultados de duas pesquisas distintas. Por exemplo, suponha-se que se queira
comparar a varivel grau de instruo para os empregados da seo de oramentos
com a mesma varivel para todos os empregados da Companhia MB. Supondo que
a empresa tenha 2.000 empregados e que a distribuio de frequncias seja a
Tabela 10.

Tabela 10: Frequncias e porcentagens dos 2.000 empregados da Companhia MB
segundo o grau de instruo
Grau de
Instruo
Frequncia
(n
i
)
Proporo
(f
i
)
Porcentagem
(%)
Fundamental
Mdio
Superior
650
1.020
330
0,3250
0,5100
0,1650
32,50
51,00
16,50
Total 2.000 1,0000 100,00
Fonte: dados hipotticos

Importante: No pode comparar diretamente as colunas das frequncias das
Tabelas 9 e 10, pois os totais de empregados so diferentes nos dois casos. Mas as
colunas das porcentagens so comparveis, j que as frequncias foram reduzidas
a um mesmo total. (no caso 100).

Grficos para variveis qualitativas
O grfico de colunas mltiplas (Figura 10) segundo a varivel qualitativa, grau
de instruo das Tabelas 9 e 10, fica:


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
21
0
10
20
30
40
50
60
Fundamental Mdio Superior
Grau de instruo
p
o
r
c
e
n
t
a
g
e
m

(
%
)
Oramento
Companhia

Figura 10 Grau de instruo dos funcionrios da Seo
de Oramento e da Companhia MB



J o grfico de linhas (Figura 11) referente a varivel, grau de instruo das
Tabelas 9 e 10, fica:

0
10
20
30
40
50
60
Fundamental Mdio Superior
Grau de instruo
p
o
r
c
e
n
t
a
g
e
m

(
%
)
Oramento
Companhia

Figura 11 Grau de instruo dos funcionrios da Seo
de Oramento e da Companhia MB



Grficos para variveis quantitativas
Considerando-se, agora, a varivel quantitativa discreta a ser estudada,
nmero de filhos dos empregados casados da seo de oramentos da Companhia
MB (Tabela 3). A Tabela 11 apresenta a distribuio de frequncias e as
porcentagens desta varivel.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
22
Tabela 11: Frequncias e porcentagens dos empregados da seo de oramentos
da Companhia MB, segundo o nmero de filhos
N
o
de
Filhos
Frequncia
(n
i
)
Porcentagem
(%)
0
1
2
3
5
4
5
7
3
1
20
25
35
15
5
Total 20 100
Fonte: Tabela 3

O grfico de colunas (Figura 12) da varivel quantitativa do nmero de filhos
dos empregados casados da seo de oramentos da Companhia MB da Tabela 11,
representado da seguinte forma:
0
2
4
6
8
0 1 2 3 5
Nmero de filhos
F
r
e
q
u

n
c
i
a

Figura 12 Nmero de filhos dos empregados dos casados da
seo de oramento da Companhia


A construo de tabelas de frequncias para variveis contnuas necessita de
certo cuidado. Por exemplo, a construo da tabela de frequncias para a varivel
salrio (Tabela 3) usando o mesmo procedimento anterior, no resumir as 36
observaes num grupo menor, pois no existem observaes iguais. A soluo
empregada agrupar os dados por faixas de salrio. A Tabela 12 d a distribuio
de frequncias dos salrios dos 36 empregados da seo de oramentos da
Companhia MB por faixa de salrios.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
23
Tabela 12: Frequncias e porcentagens dos 36 empregados da seo
de oramentos da Companhia MB por faixa de salrio
Classe de
Salrios
Frequncia
(n
i
)
Porcentagem
(%)
4,00 |--- 8,00
8,00 |--- 12,00
12,00 |--- 16,00
16,00 |--- 20,00
20,00 |--- 24,00
10
12
8
5
1
27,78
33,33
22,22
13,89
2,78
Total 36 100,00
Fonte: Tabela 3

Procedendo-se desse modo, ao resumir os dados referentes a uma varivel
contnua, perde-se alguma informao. Por exemplo, no se sabe quais so os oito
salrios da classe de 12 a 16, a no ser que se investiga a tabela original (tabela 3).
Sem perda de muita preciso, pode-se supor que todos os oito salrios daquela
classe fossem iguais ao ponto mdio da referida classe, isto , 14.
A distribuio de frequncias importante quando existe uma grande
quantidade de dados. A finalidade em agrupar os dados facilitar a visualizao e
tambm os clculos deles, porm, a determinao das medidas de posio e de
disperso para uma varivel quantitativa contnua, atravs de sua distribuio de
frequncias, exige aproximaes, j que perde a informao dos valores
observados.
No h um modo nico par se construir uma tabela de frequncia por
classe de valores. A escolha dos intervalos arbitrria e a familiaridade do
pesquisador com os dados que lhe indicar quantas classes (intervalos) devem ser
usadas. Entretanto, deve-se observar que, com um pequeno nmero de classes,
perde-se informao, e com um nmero grande de classes, o objetivo de resumir os
dados fica prejudicado. Estes dois extremos tm a ver, tambm, com o grau de
suavidade da representao grfica dos dados. Normalmente, sugere-se o uso de 5
a 15 classes com a mesma amplitude.
As classes no precisam ter amplitude constante, mas por uma questo de
simplificao da construo da representao grfica, geralmente so classes com

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
24
intervalos constantes. Por outro lado, existem tcnicas para construo de tabelas
de distribuio de frequncias para intervalos contnuos (dados agrupados).

Etapas para a construo de tabelas de frequncia para dados agrupados:
1) O clculo da amplitude total dos dados a diferena entre o maior e o menor
valor da srie, isto :
At = n
o
do maior n
o
do menor
2) No existindo um critrio rgido para estabelecer o nmero ideal de intervalos,
sugere-se que no se utilize menos de 5 e no mais de 15 intervalos. A
experincia tem demonstrado que se pode fixar o nmero de intervalo como:
ou 1 3, 3.log , para uma amostra de tamanho n K n K n = = +
3) O intervalo das classes (amplitude de classes) pode ser feito dividindo-se a
amplitude total pelo nmero de classes, isto :

K
At
a
C
=
Assim, pode construir os intervalos partindo do menor valor do conjunto e
somando a amplitude calculada (a
C
), o que permite determinar os limites dos
intervalos.

Aplicao: A Tabela 13 apresenta uma distribuio de frequncia usando as
tcnicas de construo dos 50 valores, em decibis, de nvel de rudo de trfego em
certo cruzamento esto apresentados a seguir:

Clculo:
At = X
max
X
min

= 71,9 58,0 = 13,9

50 7 k n = =

2
7
9 , 13
= = =
K
At
a
C



Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
25
Tabela 13: Nvel de rudo, em decibis, de trfego em certo cruzamento
Nvel de rudo
(em db)
Quantidade
(
i
f )
Ponto mdio
) ( i x
Freq. Acum.
(
ac
F )
(
i i
f x . )

(
i i
f x .
2
)
58,0 |-- 60,0 5 59 5 295 17.405
60,0 |-- 62,0 5 61 10 305 18.605
62,0 |-- 64,0 6 63 16 378 23.814
64,0 |-- 66,0 9 65 25 585 38.025
66,0 |-- 68,0 15 67 40 1.005 67.335
68,0 |-- 70,0 5 69 45 345 23.805
70,0 |-- 72,0 5 71 50 355 25.205
Total 50 3.268 214.194

Os resultados referentes a variveis contnuas frequentemente so
organizados em tabelas de distribuies de frequncias por intervalos. Trs tipos de
grficos geralmente so utilizados neste caso: histograma, polgono de frequncia e
ogivas.

a) Histograma (Figura 13) a representao grfica de uma distribuio de
frequncia por meio de retngulos justapostos, contendo as classes de valores na
abscissa e as frequncias, absolutas ou relativas, nas ordenadas, centradas nos
pontos mdios.
5 5
6
9
15
5 5
0
2
4
6
8
10
12
14
16
58|--60 60|--62 62|--64 64|--66 66|--68 68|--70 70|--72
Nvel de rudo (db)
Q
u
a
n
t
i
d
a
d
e

Figura 13 Nvel de rudo (db) em certo cruzamento

Atravs da figura, pode-se dizer que 10 nveis de rudo foram inferiores a 62
decibis, ou 5 nveis de rudo foram iguais ou superiores a 70 decibis.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
26
b) Polgono de frequncias (Figura 14) a representao grfica de uma
distribuio de frequncia, contendo os pontos mdios de cada classe na
abscissa e as frequncias, absolutas ou relativas, nas ordenadas.
0
5 5
6
9
15
5 5
0 0
4
8
12
16
55 57 59 61 63 65 67 69 71 73 75
Nvel de rudo (db)
F
r
e
q
u

n
c
i
a

Figura 14 Nvel de rudo (db) em certo cruzamento

O grfico de uma distribuio cumulativo chamado de ogiva (Figura 15). Os
valores dos dados so mostrados no eixo horizontal e as frequncias cumulativas
so apresentadas no eixo vertical.
0
5
10
16
25
40
45
50
0
10
20
30
40
50
60
55 57 59 61 63 65 67 69 71 73
Nvel de rudo (db)
F
r
e
q
u

n
c
i
a

Figura 15 Nvel de rudo (db) acumulado em certo cruzamento

As frequncias nesse exemplo foram acumuladas de modo crescente. H
casos, no entanto, que a acumulao das frequncias feita de modo decrescente.
Este grfico pose ser usado para fornecer informaes adicionais. Por exemplo, para
saber qual o nvel de rudo x tal que 30 das quantidades (frequncias) atingem
menos do que x, basta procurar o ponto (x, 30) na curva. Observando as linhas
pontilhadas no grfico, nota-se que a soluo aproximadamente 67 decibis.
x

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
27
5.6 LISTA 1 EXERCCIOS

1) Ao nascer, os bebs so pesados e medidos, para se saber se esto dentro das
tabelas de peso e altura esperados. Estas duas variveis so:
a) qualitativas b) ambas discretas c) ambas contnuas
d) contnua e discreta, respectivamente
e) discreta e contnua, respectivamente

2) A distribuio abaixo indica o nmero de acidentes ocorridos em uma empresa
com 70 funcionrios. (dados fictcios).
N
o
de acidentes 0 1 2 3 4 5 6 7
N
o
de funcionrios 20 10 16 9 6 5 3 1
Determine:
a) o nmero de funcionrios que no sofreram acidente;
b) o nmero de funcionrios que sofreram pelo menos 4 acidentes;
c) o nmero de funcionrios que sofreram 1 < acidentes 4;
d) o nmero de funcionrios que sofreram no mnimo 3 e no mximo 5 acidentes;
e) a porcentagem dos funcionrios que sofreram no mnimo 5 acidentes;
f) a porcentagem dos funcionrios que sofreram entre 2 e 4 acidentes;
g) grficos de colunas e de barras.

3) Os depsitos bancrios da Empresa AKI-SE-TRABALHA, em milhares de Reais,
Fev/Mar, 2005:
3,7 1,6 2,5 3,0 3,9 1,9 3,8 1,5 1,1
1,8 1,4 2,7 2,1 3,3 3,2 2,3 2,3 2,4
0,8 3,1 1,8 1,0 2,0 2,0 2,9 3,2 1,9
1,6 2,9 2,0 1,0 2,7 3,0 1,3 1,5 4,2
2,4 2,1 1,3 2,7 2,1 2,8 1,9

a) Ordenar os dados pelo dispositivo ramo e folhas. (tambm pelo computador).
b) Construa a distribuio de frequncias usando as tcnicas de construo.
c) Faa o histograma, o polgono de frequncia e a ogiva do item b.


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
28
4) Se os salrios dos professores do Estado aumentam em 20% em dado perodo,
enquanto o ndice de Preos aumenta em 10%, ento, o aumento real de salrio,
durante o perodo, foi:
a) de 10% b) maior que 10% c) menor que 10% d) nulo

5) Substituir por uma tabela o trecho do relatrio seguinte retirado do IBGE -
Estatsticas de Registro Civil 2004. No Brasil, a porcentagem de bitos violentos
para indivduos do sexo masculino entre 2000 e 2003, nas Regies; Norte,
Nordeste, Sudeste, Sul e Centro Oeste so: 2000 Norte 17,4%, Nordeste
13,4%, Sudeste 17,3%, Sul 13,6% e Centro-Oeste 19,6%; 2001 Norte 17,6%,
Nordeste 13,5%, Sudeste 17,4%, Sul 14,6% e Centro-Oeste 19,4%; 2002 Norte
17,5%, Nordeste 13,4%, Sudeste 17,5%, Sul 13,5% e Centro-Oeste 19,5%; 2003
Norte 15,8%, Nordeste 13,6%, Sudeste 17,0%, Sul 13,3% e Centro-Oeste:
19,7%. Construir tambm o grfico de colunas.
6) Substituir por uma tabela o trecho do relatrio seguinte retirado do IBGE -
Estatsticas de Registro Civil 2004. No Brasil, a porcentagem de bitos violentos
para indivduos do sexo masculino quase 4 vezes superior do sexo feminino.
Baseado em dados existentes entre 2000 e 2003, a situao no Norte, Nordeste,
Sudeste, Sul e Centro Oeste a seguinte: 2000 Norte: 17,4% masculino e
5,8% feminino; Nordeste: 13,4% masculino e 3,8% feminino; Sudeste: 17,3%
masculino e 4,4% feminino; Sul: 13,6% masculino e 4,4% feminino e Centro-
Oeste: 19,6% masculino e 6,5% feminino; 2001 Norte: 17,6% masculino e 5,9%
feminino; Nordeste: 13,5% masculino e 3,8% feminino; Sudeste: 17,4%
masculino e 4,3% feminino; Sul: 14,6% masculino e 5,1% feminino e Centro-
Oeste: 19,4% masculino e 6,4% feminino; 2002 Norte: 17,5% masculino e 5,8%
feminino; Nordeste: 13,4% masculino e 3,7% feminino; Sudeste: 17,5%
masculino e 4,2% feminino; Sul: 13,5% masculino e 5,7% feminino e Centro-
Oeste: 19,5% masculino e 6,3% feminino; 2003 Norte: 15,8% masculino e 4,7%
feminino; Nordeste: 13,6% masculino e 3,4% feminino; Sudeste: 17,0%
masculino e 4,3% feminino; Sul: 13,3% masculino e 3,6% feminino e Centro-
Oeste: 19,7% masculino e 6,0% feminino.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
29
7) Um professor preencheu uma tabela, enviado pelo Departamento de Educao,
com os seguintes dados:
Total Geral
Srie
e
Turma
N
o
de
alunos
30/03
N
o
de
alunos
30/11
Promovidos
sem
recupe
reo
Retidos
sem
Recupe
rao
Em
recupe
rao

Recupe
rados
No
Recupe
rados
Promo
vidos
Reti
dos
1
o
B
1
o
C
1
o
E
1
o
F
49
49
47
47
44
42
35
40
35
42
27
33
03
00
00
06
06
00
08
01
05
00
03
00
01
00
05
01
40
42
30
33
04
00
05
07
Total 192 161 137 09 15 08 07 145 16
Pede-se:
a) a taxa de evaso, por classe; b) a taxa de evaso total;
c) a taxa de aprovao, por classe; d) a taxa de aprovao geral;
e) a taxa de recuperao, por classe; f) a taxa de recuperao geral;
g) a taxa de reprovao na recuperao geral;
h) a taxa de aprovao, sem a recuperao;
i) a taxa de retidos, sem a recuperao.

8) A tabela abaixo apresenta uma distribuio de frequncia das reas de 400 lotes:
reas (m
2
)
300 |-- 400 |--500 |-- 600 |-- 700 |--800 |--900 |-- 1.000 |-- 1.100 |-- 1.200
N
o
de Lotes
14 46 58 76 68 62 48 22 6
Determine:
a) o limite inferior da quinta classe b) o ponto mdio da stima classe
c) a amplitude do intervalo da sexta classe d) a frequncia da quarta classe
e) a frequncia relativa da sexta classe f) a freq. acumulada da quinta classe
g) o nmero de lotes cuja rea no atinge 700 m
2
.
h) o nmero de lotes igual ou maior a 800 m
2
.
i) a porcentagem dos lotes cuja rea no atinge 600 m
2
.
j) a porcentagem dos lotes cuja rea de 500 m
2
, no mnimo, mas inferior a
1.000 m
2
.








Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
30
6 MEDIDAS ESTATSTICAS
Alm da construo de tabelas e grficos, a anlise exploratria de dados,
consiste tambm de clculos de medidas estatsticas que resumem as informaes
obtidas dando uma viso global dos dados. Essas medidas, tambm conhecidas
como medidas descritivas, recebem o nome genrico de estatsticas quando
calculada com os dados da amostra, e de parmetros quando calculadas com dados
populacionais.
Dentre as medidas estatsticas as mais utilizadas so as de tendncia central
(ou de posio) e as de disperso (ou de variabilidade). Destacam-se, ainda, as
separatrizes, as assimetrias e os box plot.

6.1 MEDIDAS TENDNCIA CENTRAL (POSIO)
As medidas de tendncia central so aquelas que produzem um valor em
torno do qual os dados observados se distribuem, e que visam sintetizar em um
nico nmero o conjunto de dados. As medidas de tendncia central so: mdia
aritmtica, mediana e moda.

6.1.1 Mdia
Uma das medidas estatsticas mais utilizadas na representao de uma
distribuio de dados a mdia aritmtica, na sua forma simples, ou ponderada. No
primeiro caso divide-se a soma de todos os valores da srie pelo nmero de
observaes, enquanto no segundo, mais utilizado em distribuies de frequncias,
os valores so ponderados pelas frequncias com que ocorrem e depois dividem-se
pelo total das frequncias (este segundo caso ser visto em distribuio de
frequncias):
Simples:
n
x
n
x x x
X
i
n
i n 1 2 1

....
=

=
+ + +
=
ou simplesmente
n
x
X
i
=


Exemplo: Foram levantados os dimetros de 10 peas (cm) da Empresa AA Ltda. As
medidas foram as seguintes: 13,1 13,5 13,9 13,3 13,7 13,1 13,1 13,7
13,2 13,5. Portanto, dimetro mdio 13,41 cm.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
31
A mdia aritmtica possui algumas propriedades desejveis e no desejveis
e so as seguintes:
i. Unicidade. Para um conjunto de dados existe somente uma mdia aritmtica.
ii. Simplicidade. A mdia aritmtica fcil de ser interpretada e de ser calculada.
iii. Todos os valores entram para o clculo da mdia aritmtica, porm, os valores
extremos afetam no valor calculado, e em alguns casos pode haver uma grande
distoro, tornando, neste caso, a mdia aritmtica indesejvel como medida de
tendncia central.
Como a mdia influenciada por valores extremos da distribuio, ela s
deve ser utilizada em distribuies simtricas, ou levemente assimtricas, e em
distribuies no heterogneas. Sua aplicao nos dois casos acima precria e de
pouca utilidade prtica, pois perde sentido prtico e capacidade de representar a
distribuio que a originou.
Tambm nos casos de srie em que o fenmeno tem uma evoluo no
linear, como as sries de valores financeiros no tempo, de acordo com uma
capitalizao composta, a mdia mais recomendada seria a geomtrica. Finalmente,
no se recomenda aplicao da mdia aritmtica nas sries cujos valores
representem relaes recprocas, como por exemplo, velocidades, expressas
atravs da relao entre o espao e o tempo. Neste ltimo caso recomenda-se a
utilizao da mdia harmnica.

6.1.2 Mediana
A mediana o valor que ocupa a posio central de um conjunto de valores
ordenados, ou seja, medida divide a distribuio de valores em duas partes iguais:
50% acima e 50% abaixo do seu valor. Quando o conjunto possui quantidade par de
valores, h dois valores centrais, neste caso, a mediana o valor mdio dos dois
valores centrais do conjunto de dados ordenados.

Exemplo: Com os dados do exemplo anterior, calcular a mediana.
13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,8

Nesta srie tem-se nmero par de observaes logo, tm-se dois valores
centrais e so 13,3 e 13,5. Logo, a mediana 13,4 cm.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
32
Suponha, neste mesmo exemplo que se acrescente o valor 14,0 tornando um
rol de nmero mpar,
13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,8 14,0

Neste caso, a srie possui apenas um valor central logo, a mediana igual
a 13,5 cm.

Propriedades da mediana
i. Unicidade. Existe somente uma mediana para um conjunto de dados.
ii. Simplicidade. A mediana fcil de ser calculada.
iii. A mediana no to afetada pelos valores extremos como a mdia aritmtica,
por isso, se diz que a mediana uma medida robusta.

Conceito de resistncia de uma medida
Diz-se que uma medida de centralidade ou de disperso resistente quando
ela pouco afetada pela presena de observaes discrepantes. Entre as medidas
de centralidade, a mdia bem menos resistente que a mediana. Por outro lado,
entre as medidas de disperso, o desvio padro bem menos resistente do que o
desvio inter-quartlico.

6.1.3 Moda
Moda de um conjunto de valores o valor que ocorre com maior frequncia,
sua aplicao no depende do nvel de mensurao da varivel, sendo aplicada
tanto a fenmenos qualitativos quanto quantitativos. Se todos os valores forem
diferentes no h moda, por outro lado, um conjunto pode ter mais do que uma
moda: bimodal, trimodal ou multimodal.

Exemplo: Para os dados dos exemplos anteriores a moda igual a 13,1 cm.

A moda pode ser utilizada para descrever dados qualitativos. Por exemplo,
suponha que os pacientes vistos em uma clnica de sade mental durante um
determinado ano receberam um dos seguintes diagnsticos: retardo mental, psicose,

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
33
neurose e mudana de personalidade. O diagnstico que ocorre com maior
frequncia no grupo de pacientes pode ser chamado de diagnstico modal.

6.2 MEDIDAS DE DISPERSO
A disperso de conjunto de dados a variabilidade que os dados
apresentam entre si. Se todos os valores forem iguais, no h disperso; se os
dados no so iguais, existe disperso entre os dados. A disperso pequena
quando os valores so prximos uns dos outros. Se os valores so muito diferentes
entre si, a disperso grande, assim, as medidas de disperso apresentam o grau
de agregao dos dados. Veja como exemplo a Tabela 14.

Tabela 14: Valores das sries A, B e C
Repetio Srie A
Srie B Srie C
1 45 41 25
2 45 42 30
3 45 43 35
4 45 44 40
5 45 45 45
6 45 46 50
7 45 47 55
8 45 48 60
9 45 49 65
Mdia 45 45 45
Mediana 45 45 45

Nota-se que a srie A no apresenta disperso, j os valores da srie B
apresentam certa disperso em torno da mdia 45, e os valores da srie C
apresentam uma disperso em torno da mdia e maior do que a da srie B.
As medidas descritivas mais comuns para quantificar a disperso so:
amplitude, desvio mdio, varincia, desvio-padro e coeficiente de variao.

6.2.1 Amplitude
Uma maneira de medir a variao em um conjunto de valores calcular a
amplitude. A amplitude a diferena entre o maior e o menor valor de um conjunto
de observaes.
At = n
o
maior n
o
menor

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
34
Exemplo: Determinar amplitude total da srie: A, B e C.

A utilidade da amplitude total como medida de disperso muito limitada, pois
depende apenas dos valores extremos. A maior vantagem em us-la a
simplicidade do seu clculo.

6.2.2 Desvio Mdio
Uma vez que se deseja medir a disperso ou grau de concentrao dos
valores em torno da mdia, nada mais interessante do que analisar o
comportamento dos desvios de cada valor em relao mdia, isto :
) ( x x d
i i
=

Porm, para qualquer conjunto de dados, a soma de todos os desvios
igual a zero, isto :
0 ) ( = =

x x d
i
i


Neste caso, considera-se o mdulo de cada desvio x x
i
, evitando com
isso que 0 =
i
d . Dessa forma, o desvio de um conjunto de n valores dado por:

n
x x
DM
n
i
i
=

=
1

Exemplo: Determinar desvio mdio da srie B.


6.2.3 Varincia
Embora o desvio mdio seja uma medida melhor do que a Amplitude, ainda
no uma medida ideal, pois no discrimina pequenos dos grandes afastamentos
em relao mdia. Se para eliminar o problema dos sinais, ao invs de
considerarmos os valores absolutos elevarmos os afastamentos ao quadrado,
estaremos no apenas eliminando o problema dos sinais como tambm
potencializando os afastamentos, enfatizando os grandes desvios em relao s

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
35
observaes mais prximas da mdia. Como resultado define a medida de variao,
denominada de varincia, como:

1
) (
1
2
2

=
n
X X
s
n
i
i
ou
1
) (
1
1
2
2
2


=
=
n
n
X
X
s
n
i
n
i
i
i

Exemplo: Determinar as varincias das sries A, B e C.

Esta estatstica isolada tem difcil interpretao por apresentar unidade de
medida igual ao quadrado da unidade de medida dos dados.

6.2.4 Desvio Padro
Devido dificuldade de interpretao da varincia, por ter sua unidade de
medida ao quadrado, na prtica usa-se o desvio padro que a raiz quadrada da
varincia, ou seja:

2
s s =
Exemplo: Determinar os desvios-padro das sries A, B e C.

6.2.5 Erro Padro
Diferentes amostras retiradas de uma mesma populao podem apresentar
mdias diferentes. A variao existente entre este conjunto de mdias estimada
atravs do erro padro, que corresponde ao desvio padro das mdias, sendo
representado por
x
s e calculado pela frmula:

x
s
s
n
=

6.2.6 Coeficiente de Variao
Uma pergunta que pode surgir se um desvio-padro grande ou pequeno;
questo relevante, por exemplo, na avaliao da preciso de mtodos. Um desvio-
padro pode ser considerado grande ou pequeno dependendo da ordem de
grandeza da varivel. Por exemplo, um desvio-padro de 10 pode ser insignificante

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
36
se a observao tpica for 10.000, mas ser um valor bastante significativo para um
conjunto de dados cuja observao tpica 100.
O coeficiente de variao uma medida relativa de disperso, utilizada para
comparar, em termos relativos, o grau de concentrao em torno da mdia.
representada por:

X
s
CV =

O CV uma medida adimensional, isto , sem unidade de medida, podendo
ser expressa em termos decimais ou percentuais (multiplicando por 100). Dizemos
que uma distribuio homognea quando a variabilidade relativa expressa pelo
coeficiente de variao, no ultrapassar a 20% . Obviamente a distribuio no
deixa de ser homognea para valores maiores do que 20% mas vai perdendo o grau
de homogeneidade na medida em que o coeficiente aumenta.

Exemplo: Determinar o erro padro e o coeficiente de variao das sries A, B e C.

Esta medida pode ser bastante til na comparao de duas variveis ou dois
grupos que a princpio no so comparveis (por exemplo, com ordens de grandeza
das variveis diferentes).

Exemplo: Comparao dos depsitos bancrios de duas Empresas (milhares R$).

A Empresa X depositou, em mdia mensal, 2,0 (milhares R$) e um desvio-
padro de 0,5 (milhares R$). A Empresa Y depositou mdia mensal, 2,3 (milhares
R$) e um desvio-padro de 0,8 (milhares R$). A Empresa Y apresenta no s uma
mdia mensal mais alta como tambm maior variabilidade em torno da mdia. O
coeficiente de variao capta esta diferena. Neste caso, o coeficiente de variao
25% para a Empresa X e 34,8% para a Empresa Y.
Alguns especialistas consideram:
Baixa disperso: CV 15%
Mdia disperso: 15% < CV < 30%
Alta disperso: CV 30%.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
37
6.3 SEPARATRIZES: QUARTIS, DECIS E PERCENTIS
Os quartis, decis e percentis so muito similares mediana, uma vez que
tambm subdividem a distribuio de medidas de acordo com a proporo das
frequncias observadas.
Os quartis dividem um conjunto de dados em quatro partes iguais, isto , 25%
por parte.
0% 25% 50% 75% 100%

Q
1
Q
2
Q
3


onde: Q
1
= 1
0
quartil, deixa 25% dos elementos.
Q
2
= 2
0
quartil, deixa 50% dos elementos (coincide com a mediana).
Q
3
= 3
0
quartil, deixa 75% dos elementos.

Os decis dividem um conjunto de dados em dez partes iguais, isto , 10% por
parte.
0 10% 20% . . . 90% 100%

D
1
D
2
. . . D
9

onde: D
1
= 1
0
decil, deixa 10% dos elementos.
D
2
= 2
0
decil, deixa 20% dos elementos.
.............................................................
D
9
= 9
0
decil, deixa 90% dos elementos.

J, os percentis permitem dividir o conjunto de dados em 100 partes, sendo e
1% em cada parte.
0% 1% 2% . . . 50% . . . 98% 99% 100%

P
1
P
2
. . . P
50
. . . P
98
P
99

onde: P
1
= 1
0
percentil, deixa 1% dos elementos.
P
2
= 2
0
percentil, deixa 2% dos elementos.
.............................................................
P
99
= 99
0
percentil, deixa 99% dos elementos.


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
38
A mediana o percentil de ordem 50. Pois, a mediana um valor que divide o
conjunto de dados em duas partes iguais, ou seja, 50% dos dados ficam abaixo e
50% acima.
Os percentis de ordem 25, 50 e 75 so os respectivamente primeiro, segundo
e terceiro quartis, porque dividem a distribuio em 1/4, 2/4 = 1/2 e 3/4. Logo o Q
2

outra notao para a mediana.
Enquanto que os decis D
1
, D
2
,,...,D
9
so os valores que dividem o conjunto
em dez partes iguais, que coincidem com os percentis P
10
, P
20
,,...,P
90
,

que tambm
dividem os dados em grupos com 10% em cada um. Portanto, os quartis e os decis
esto inseridos nos percentis.
Para determinar o valor correspondente a um certo quartil, decil ou percentil,
deve seguir a seguinte sequncia:
Ordenar os dados do menor para o maior.
Localizar a posio (L), dado por:

100
.n k
L =

onde: k o percentual desejado e n o nmero de valores do conjunto de dados.
Se o valor de L for decimal, arredonda o seu valor para o maior inteiro mais
prximo, e quando o valor de L for inteiro, deve-se somar o valor correspondente a L
ao valor de L+1 e dividir o resultado por 2.

Considere os depsitos bancrios da Empresa AKI-SE- TRABALHA, em
milhares de Reais, Fev/Mar, 2005, fica:

0,8 1,0 1,0 1,1 1,3 1,3 1,4 1,5 1,5
1,6 1,6 1,8 1,8 1,9 1,9 1,9 2,0 2,0
2,0 2,1 2,1 2,1 2,3 2,3 2,4 2,4 2,5
2,7 2,7 2,7 2,8 2,9 2,9 3,0 3,0 3,1
3,2 3,2 3,3 3,7 3,8 3,9 4,2

Por exemplo: O percentil 25 que corresponde ao primeiro quartil, que deixa 25% dos
dados abaixo e 75% dos dados acima dele, usa-se:


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
39
O percentil de ordem 25 (P
25
) que deixa 25% dos dados abaixo :
75 , 10
100
43 25
= =
x
L (11
o
, aposio que ocupa no conjunto).
Ento, P
25
= 1,6 (que igual ao primeiro quartil, isto Q1 = 62,5).

Isto implica que 25% dos depsitos bancrios da empresa so iguais ou abaixo de
1,6 (milhares de reais).

6.4 ASSIMETRIA
Embora as medias de posio e de variao possibilitam descrever
estatisticamente um conjunto de dados, necessrio verificar como est se
comportando de forma geral essa distribuio, o que possvel atravs da
distribuio de frequncia e de histograma. Sendo que as distribuies possam
tomar praticamente qualquer forma, a maioria que se encontra na prtica discreta
por alguns tipos padro.
de suma importncia que a distribuio seja em forma de sino, ou seja,
uma distribuio simtrica, pois metade da esquerda do seu histograma
aproximadamente a imagem-espelho da metade direita.
As distribuies consideradas assimtricas apresentam uma cauda em uma
das extremidades, quando est direita, positivamente assimtrica, e se est
esquerda, negativamente assimtrica.
As distribuies consideradas assimtricas apresentam uma cauda em uma
das extremidades, quando est direita, positivamente assimtrica, e se est
esquerda, negativamente assimtrica. Para verificar o tipo e o grau da assimetria
da distribuio utiliza-se a medida estatstica adimensional denominada de
Coeficiente de Assimetria de Pearson, definido como:
s
Md x
As
) ( 3
=

Para uma distribuio perfeitamente simtrica, o valor de As zero, de modo
geral, os valores As situam-se entre 3 e 3.
Se, 0,15 < As < 1, a assimetria considerada moderada; se As > 1,
forte.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
40
Em uma distribuio simtrica, a mdia ( x ), a mediana (Md) e a moda (Mo)
so iguais, isto , x = Md = Mo. Em uma distribuio assimtrica positiva ou
assimtrica direita, a mdia maior que a mediana, e esta, por sua vez, maior que
a moda ( x > Md > Mo), ao passo que, em uma distribuio assimtrica negativa ou
assimtrica esquerda, a mdia menor que a mediana, e esta, menor que a moda
( x < Md < Mo). A Figura 16 apresenta um esquema dessas distribuies:









Figura 16: grficos simtrico e assimtrico direita e esquerda

6.5 CURTOSE
Curtose o grau de achatamento de uma distribuio em relao a uma
distribuio padro, denominada de curva normal.
A curva normal, que nossa base referencial, recebe o nome de mesocrtica.
J, uma distribuio que apresentar uma curva de frequncia mais achatada do que
a normal denominada de leptocrtica, e a que apresentar uma curva de frequncia
mais aberta, recebe o nome de platicrtica. A Figura 17 apresenta um esquema
dessas curvas.








Figura 17: Classificao das curvas em relao a uma distribuio padro









Mo Md x = = x Md Mo < <

Mo Md x < <

f(x
x
C


f(x
x
C

f ( x
x
C

mesocrtica leptocrtica platicrtica

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
41
Para verificar o tipo de curva (da distribuio) e o grau de curtose utiliza-se a
medida estatstica adimensional denominada de Coeficiente de Curtose definido
como:
) ( 2
10 90
1 3
P P
Q Q
C

=

Para uma curva relativamente normal, tem-se que C = 0,263. Isto :
Se C = 0,263 curva mesocrtica
C < 0,263 curva leptocrtica
C > 0,263 curva platicrtica

6.6 BOX PLOT
O box plot introduzido pelo estatstico americano John Tukey em 1977 a
forma de representar graficamente os dados da distribuio de uma varivel
quantitativa em funo de seus parmetros. Os cinco itens ou valores: o menor valor
(x
1
), os quartis (Q
1
,

Q
2
e Q
3
) e o maior valor (x
n
), so importantes para se ter uma
idia da posio, disperso e assimetria da distribuio dos dados. Na sua
construo so considerados os quartis e os limites da distribuio, permitindo uma
visualizao do posicionamento da distribuio na escala da varivel. Para melhor
compreenso deste box plot, a Figura 18 apresenta um esquema sintetizado:











Figura 18: Esquema para construo do box plot


Q
1
Md Q
3
Ponto extremo
* 0
Outliers
1,5DQ DQ 1,5DQ
Valores
LI LS
Valores tpicos
3,0DQ
Limite inferior
Limite superior

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
42
A escala de medida da varivel encontra-se na linha horizontal do quadro
onde est inserida a figura.
Na caixa retangular da figura so fornecidos os quartis Q
1
, na parte esquerda,
e Q
3
na parte direita da caixa. Entre eles encontra-se a Mediana da distribuio.
Observe que 50% da distribuio tm valores dentro da caixa.
As linhas horizontais que saem da caixa terminam nos limites inferior (LI) e
superior (LS) da distribuio. Entre esses limites encontram-se os valores
considerados como tpicos da distribuio. Esses limites so determinados em
funo da distncia entre os dois quartis (Q
3
e Q
1
), isto , do desvio inter-quartlico:
DQ = Q
3
Q
1
.
Observaes com afastamento superior a 1,5 desvio inter-quartlico, para
cima ou para baixo, so consideradas atpicas, ou possveis outliers. Os pontos que
esto mais de 1,5 DQ e menos que 3,0 DQ, so chamados de outliers, aparecendo
(o).
Valores com afastamento superior a 3,0 DQ, para cima ou para baixo so
considerados como pontos extremos, aparecendo na figura com (*). Quanto maior
for o valor do desvio inter-quartlico, maior a variabilidade da distribuio.
Obs. Muitos livros e softwares apenas comentam sobre os pontos atpicos
chamando-os de outliers (pontos discrepantes).
O box plot tambm fornece informaes importantes sobre o comportamento
do conjunto de dados, como simetria e variabilidade. Se a amplitude for muito maior
que distncia interquartlica e a mediana estiver mais prxima do 1
o
quartil do que
do 3
o
quartil, h forte indicao de assimetria positiva e de grande disperso das
observaes.

Exemplo: O objetivo da administrao lucrar o mximo possvel com o capital
investido em sua empresa. Uma medida de bom desempenho o retorno sobre os
investimentos. A seguir so apresentados os mais recentes retornos em milhares
(R$).
2.210 2.255 2.350 2.380 2.380 2.390
2.420 2.440 2.450 2.550 2.630 2.825


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
43
A mediana 2.405 e os quartis Q
1
= 2.365 e Q
3
= 2.500. A resenha dos
dados mostra um menor valor 2.210 e um maior valor de 2.825. Assim, a regra de
cinco itens (nmeros) para os dados de pesos dos recm nascidos 2.210; 2.365;
2.405; 2.500; 2.825.

Alm desses valores, tm-se os limites, inferior que dado por LI = Q
1
1,5DQ
e superior LS = Q
3
+ 1,5DQ. No caso, LI = 2.162,5 e LS = 2.702,5. Os dados fora
destes limites so considerados pontos fora da curva. Neste caso, o = 2.825 um
outliers. A Figura 19 apresenta um esquema do box plot com esses resultados:
Mediana = 2405
Q
1
=2365 e Q
3
= 2500
X
1
= 2210 X
11
= 2630
Outliers = 2825
Retorno
2100
2200
2300
2400
2500
2600
2700
2800
2900

Figura 19: Resultados do desempenho de retorno de investimento da empresa

Observaes atpicas (outlier)
muito comum aparecerem entre os dados coletados, observaes atpicas
(outliers), isto , valores muito grande ou muito pequeno em relao aos demais. Um
conjunto de dados pode apresentar apenas um ou vrios outliers.
Observaes atpicas alteram enormemente as mdias e variabilidade dos
grupos a que pertencem e podem at mesmo distorcer as concluses obtidas
atravs de uma anlise estatstica padro. Portanto, de fundamental importncia
detectar e dar um tratamento adequado a elas. sempre boa a prtica fazer-se uma

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
44
inspeo dos dados no incio da anlise estatstica. Tcnicas descritivas de dados
tm um papel importante nesta fase.

Causas do aparecimento de outliers
Dentre as possveis causas do aparecimento de outliers, pode citar as
seguintes:
Leitura, anotao ou transio incorreta dos dados.
Erro na execuo do experimento ou na tomada da medida.
Mudanas no controlveis nas condies experimentais ou dos
pacientes.

Como detectar outliers
As questes bsicas so quais observaes devem ser consideradas como
outliers e como detect-los. Existem procedimentos para responder a essas
perguntas.
Os outliers podem ser detectados simplesmente por uma verificao lgica
dos dados, atravs de grficos especficos ou ainda atravs de teste apropriados.
Uma forma grfica usual o box plot. As plotagens de retngulos so outras
maneiras de identificar os pontos fora da curva. Mas eles no necessariamente
identificam os mesmos valores que aqueles com uma contagem-z menor que -3 ou
maior que +3. No entanto, o objetivo de ambas as abordagens simplesmente
identificar os valores de dados extremos que devem ser revisados para assegurar a
validade dos dados. Pontos fora da curva identificados pelos dois mtodos devem
ser revisados.











Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
45
6.7 MEDIDAS DE POSIO E DISPERSO DE UMA DISTRIBUIO DE FREQUNCIA
Quando existe uma grande quantidade de dados, estes podem ser
agrupados. A finalidade em agrupar os dados para facilitar os clculos.

Exemplo: Um novo medicamento para cicatrizao est sendo testado e um
experimento feito para estudar o tempo (em dias) de completo fechamento em
cortes provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores:
15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17,
15, 16, 14, 18, 18, 16, 15 e 14.
a) Organize uma tabela de frequncia.
b) Obter as frequncias relativas de cada classe.
c) Calcular a mdia.
d) Que porcentagem das observaes est abaixo de 16 dias?
e) Classifique como rpida as cicatrizaes iguais ou inferior a 15 dias e como
lenta as demais. Quais as porcentagens para cada classificao.

Soluo: a e b
Cicatrizao 14 15 16 17 18 total
Frequncia 5 7 6 7 5 30
Frequncia relativa 0,167 0,233 0,200 0,233 0,167 1,000
x
i
. f
i
70 105 96 119 90 480

Mdia 16
30
480
.
= = =

n
f x
x
i i


A determinao das medidas de posio e de disperso para uma varivel
quantitativa contnua, atravs de sua distribuio de frequncias, exige
aproximaes, j que perde a informao dos valores observados. Por exemplo,
com as quantidades de depsitos bancrios (milhares R$), a distribuio de
frequncia est representada na Tabela 15.


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
46
Tabela 15: Nvel de rudo, em decibis, de trfego em certo cruzamento
Nvel de rudo
(em db)
Quantidade
(
i
f )
Ponto mdio
) ( i x
Freq. Acum.
(
ac
F )
(
i i
f x . )

(
i i
f x .
2
)
58,0 |-- 60,0 5 59 5 295 17.405
60,0 |-- 62,0 5 61 10 305 18.605
62,0 |-- 64,0 6 63 16 378 23.814
64,0 |-- 66,0 9 65 25 585 38.025
66,0 |-- 68,0 15 67 40 1.005 67.335
68,0 |-- 70,0 5 69 45 345 23.805
70,0 |-- 72,0 5 71 50 355 25.205
Total 50 3.268 214.194

Como foi dito, no agrupamento dos dados acarreta alguma perda de
informao. Cada elemento perde sua identidade, por isso, sabem apenas quantos
elementos h em cada classe. Uma aproximao razovel supor que todos os
valores dentro de cada classe tenham seus valores iguais ao ponto mdio desta
classe.

6.7.1 Mdia
Para o clculo da mdia, em geral, obtm-se uma boa aproximao atribuindo
a cada elemento que se enquadra em uma classe o valor mdio correspondente.
Esse processo em geral satisfatrio, pois os erros introduzidos nos clculos
tendem a compensar-se.
A frmula para a mdia de uma distribuio de frequncias, onde x
1
, x
2
, ..., x
n

so os valores mdios das classes, ponderados pelas frequncias correspondentes
f
1
, f
2
, ..., f
n
dada por:

n
f x
x
n
i
i
i

=
=
1
.
, assim
3.268
65, 36
50
x = =
6.7.2 Mediana
A mediana divide um conjunto de dados ordenados em duas partes iguais. A
expresso para determinar a mediana de uma distribuio de frequncias dada
por:

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
47
C
d M
ac
i
a
f
F
n
l Md
1
2

+ = , assim
25 16
64 2 66, 0
9
Md

= + =
onde: l
i
= limite inferior da classe da mediana; n = nmero de elementos;
a
C
= amplitude da classe;
F
ac-1
= frequncia acumulada anterior classe da Md;
f
Md
= frequncia simples da classe da Md;
Para isso tem-se que:
1
0
) Calcular a posio, isto , a ordem n/2.
2
0
) Identificar a classe que contm a mediana, pela frequncia acumulada.

6.7.3 Moda
A moda de um conjunto de n nmeros o valor que ocorre com maior
frequncia. A expresso para determinar a moda de uma distribuio de frequncias
dada por:

C i
a l Mo
2 1
1
+

+ = , assim
6
66 2 66, 75
6 10
Mo = + =
+

Para isso tem que identificar a classe modal (de maior frequncia)
l
i
= limite inferior da classe modal; a
C
= amplitude da classe.

1
= diferena entre a frequncia da classe modal e a anterior;

2
= diferena entre a frequncia da classe modal e a posterior;

Obs. Pelos clculos, nota-se que a curva dos dados da tabela assimtrica
direita, j que a mdia > mediana > moda.

6.7.4 Separatrizes: Quartis, Decis e Percentis
a1) Quartis
Os quartis dividem um conjunto de dados em quatro partes iguais. A frmula
para o clculo dos quartis de uma distribuio de frequncia dada por:
C
i
ac
i i
a
fQ
F
n i
l Q
1
4
.

+ =

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
48
1
0
) Calcula-se
4
. n i
, onde i = 1, 2 e 3.
2
0
) Identifica-se a classe Q
i
pela F
ac
.

a2) Decis
Os decis dividem um conjunto de dados em dez partes iguais. A frmula para
o clculo dos decis de uma distribuio de frequncia dada por:

C
i
ac
i i
a
fD
F
n i
l D
1
10
.

+ =

1
0
) Calcula-se
10
. n i
, onde i = 1, 2, . . . , 9.
2
0
) Identifica-se a classe D
i
pela F
ac
.

a3) Percentis
Os percentis dividem um conjunto de dados em cem partes iguais. A frmula
para o clculo dos percentis de uma distribuio de frequncia dada por:

C
i
ac
i i
a
fP
F
n i
l P
1
100
.

+ =
1
0
) Calcula-se
100
. n i
, onde i = 1, 2, . . . , 99.
2
0
) Identifica-se a classe P
i
pela F
ac
.
Exemplo: Calcular o percentil de ordem 50 0 , 66 2
9
16 25
64
50
=

+ = = Md p
Como j foi dito, os quartis, decis e percentis so muito similares mediana,
uma vez que tambm subdividem a distribuio de medidas de acordo com a
proporo das frequncias observadas.
A mediana o percentil de ordem 50, j que a mediana um valor que divide
o conjunto de dados em duas partes iguais, ou seja, 50% dos dados ficam abaixo e
50% acima.
Os percentis de ordem 25, 50 e 75 so chamados, respectivamente primeiro,
segundo e terceiro quartis porque dividem a distribuio em 1/4, 2/4 e 3/4. So

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
49
representados por Q
1
, Q
2
e Q
3
e, evidentemente, Q
2
outra notao para a
mediana. Enquanto que os decis D
1
, D
2
,,...,D
9
so os valores que dividem o conjunto
em dez partes iguais, que coincidem com os percentis P
10
, P
20
,,...,P
90
,

que tambm
dividem os dados em grupos com 10% em cada um. Assim, a frmula do percentil
sintetiza as expresses da mediana, dos quartis e dos decis.

6.7.5 Clculo das Separatrizes Utilizando Propores
Calcular a mediana utilizando propores com os dados da Tabela 15. Neste
caso constri-se o histograma com as frequncias relativas (Figura 20).
10 10
12
18
30
10 10
0
4
8
12
16
20
24
28
32
58|--60 60|--62 62|--64 64|--66 66|--68 68|--70 70|--72
Nvel de rudo (db)
F
r
e
q
u

n
c
i
a

(
%
)
5%
Q1

Figura 20: O nvel de rudo de certo cruzamento
83 , 62
12
62 64
5
62
1
= ==>

Q
Q


Exemplo: A Tabela 16 apresenta as frequncias relativas de ocorrncias de faixas
de altura (em cm) para uma amostra de 100 crianas de 12 anos de idade.

Tabela 16: Altura de 100 crianas
Faixas
Frequncia
relativa
100 | -- 110
110 | -- 120
120 | -- 130
130 | -- 140
140 | -- 150
0,10
0,25
0,30
0,25
0,10

a) Construa o histograma
b) Calcule a mediana
c) Desejando-se separar as 15 crianas mais altas, qual seria o ponto de corte?

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
50
6.7.6 Desvio Mdio
O desvio mdio para dados agrupados, isto , de uma distribuio de
frequncias calculado da seguinte forma:

n
f x x
DM
n
i
i i
=

=
1
e
n
f x
x
i i
=
onde: x
i
so os pontos mdios das classes e os f
i
as respectivas frequncias.

6.7.7 Varincia
A expresso para o clculo da varincia amostral de uma distribuio de
frequncias :

1
) (
1
1
2
2
2


=
=
n
n
f x
f x
s
n
i
n
i
i i
i i

Obter a varincia referenta a tabela 20.

2
2
(3268)
214194
50
12,19
50 1
s

= =



6.7.8 Desvio Padro
O desvio padro obtido extraindo a raiz quadrada da varincia, isto :

49 , 3 94 , 12 = = ==> = s s s

6.7.9 Erro Padro
49 , 0
50
49 , 3
= = =
n
s
s
x








Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
51
6.8 LISTA 2 - EXERCCIOS

1) Considere os seguintes dados amostrais (conjunto de peas, em gramas):
100 105 110 102 103 107 105 90 80
a) Pede-se: a mdia, a mediana, a moda, o desvio mdio, a varincia, o desvio padro, o
erro padro, e o coeficiente de variao.
b) Os dados possuem pequena disperso? Por qu?
c) Somar 100 de cada observao para obter uma amostra com valores transformados e
calcule a mdia, a varincia. (Compare essa varincia com os dados originais).

2) Os coeficientes de liquidez obtidos da anlise de balano em 60 indstrias so
apresentados em forma ordenada abaixo.
4,44 4,47 4,50 4,54 4,61 4,64 4,67 4,69 4,70 4,75
4,76 4,79 4,81 4,84 4,86 4,87 4,90 4,92 4,95 4,97
4,97 5,00 5,01 5,03 5,05 5,08 5,08 5,09 5,11 5,11
5,12 5,14 5,15 5,17 5,18 5,20 5,22 5,23 5,25 5,26
5,28 5,30 5,32 5,33 5,34 5,36 5,39 5,40 5,41 5,43
5,45 5,47 5,50 5,55 5,59 5,63 5,68 5,72 5,80 5,85
Pede-se:
a) a mdia; b) a mediana; c) o primeiro quartil;
d) o quinto decil; e) o vigsimo quinto percentil;
f) o desvio-padro (usar calculadora); h) o coeficiente de variao;
i) uma distribuio simtrica ou assimtrica (positiva ou negativa)? Justifique.
j) o coeficiente de curtose. Explicar o tipo da curva.
l) explicar os resultados dos quartis, decis e percentis;

3) Em certo ano, alm de outros remdios uma farmcia vendeu quatro tipos relevantes.
Vendeu 450 remdios da marca X por R$ 120,00 cada um, 350 da marca Y por R$
130,00 cada um, 220 da marca Z por R$ 145,00 cada um e 180 da marca W por R$
95,00 cada um de seus. Qual o valor mdio desses quatro tipos de remdios vendidos?

4) Em um exame de colesterol, o grau mdio de um grupo A de 150 pessoas foi de 214
mg/dl e um desvio-padro de 22 mg/dl. Em um outro grupo B, entretanto, grau mdio
de 150 pessoas foi de 201 mg/dl e um desvio-padro de 21 mg/dl. Em que grupo foi
maior a disperso?


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
52
5) Cronometrando o tempo para vrias provas de uma gincana automobilstica, encontrou-
se:
Equipe 1: Equipe 2:
8 provas Tempo: 10 15 20 25
Tempo mdio: 15 segundos N
o
de provas: 3 2 3 2
Varincia 22 segundos
2
Pede-se: a) Qual o coeficiente de variao relativo equipe 1?
b) Qual o tempo mdio e o desvio padro da equipe 2?
c) Qual a equipe que apresentou resultados mais disperso? Por qu?

6) Vinte e uma pacientes de uma clnica mdica tiveram seu nvel de potssio no plasma
medido. Os resultados foram os seguintes:
Nvel Frequncia
2,35 |-- 2,55
2,55 |-- 2,75
2,75 |-- 2,95
2,95 |-- 3,15
3,15 |-- 3,35
3,35 |-- 3,55
1
3
2
4
5
6

a) Determine os quartis: 1
o
., 2
o
. e 3
o
. pela frmula de dados agrupados.
b) Construa o histograma
c) Determine os quartis: 1
o
., 2
o
. e 3
o
. utilizando propores
d) Qual a porcentagem de valores que esto acima do nvel 3?

7) As vendas anuais, em milhes de dlares, para 21 empresas farmacuticas so
apresentadas a seguir:
8.408 1.374 1.872 8.879 2.459 11.413
608 14.138 6.452 1.850 2.818 1.356
10.498 7.478 4.019 4.341 739 2.127
3.653 5.794 8.305

a) Obter os cinco itens (nmeros) e os limites inferior e superior.
b) Parece haver pontos fora da curva? Qual(is)?
c) As vendas Johnson & Johnson so as maiores na lista, com US$ 14.138 milhes.
Suponha que um erro de lanamento tenha sido cometido e que as vendas tenham
sido registradas como US$ 41.138 milhes. Neste caso, este valor um ponto solto
(extremo)? Por qu?

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
53
7 TRANSFORMAES DE VARIVEIS
Antes de qualquer anlise fundamental que se proceda a um exame dos
dados relativos a uma varivel, seja ela qualitativa ou quantitativa. Este
procedimento importante como um primeiro contato do analista com a distribuio,
alm de servir, tambm, para avaliar a existncia de possveis valores atpicos na
distribuio. Se a varivel for qualitativa, a concentrao de respostas em torno de
umas poucas categorias, a existncia de clulas esparsas, com baixa frequncia, ou
at mesmo o aparecimento de respostas no esperadas, pode indicar algum
problema no levantamento dos dados (questo mal formulada ou resposta invlida).
No caso da varivel ser quantitativa, valores muito afastados da distribuio, ou at
mesmo distribuies com assimetria acentuada pode indicar a existncia de outliers
ou a necessidade de se proceder a uma transformao na escala da varivel.
A escolha e a mudana de escalas so artifcios teis para melhor
compreenso de fenmenos. Considere as notas de uma turma de dez alunos em
trs exames, conforme a Tabela 17:

Tabela 17: Notas de uma turma de 10 alunos em trs exames
ALUNOS
EXAME
1 2 3 4 5 6 7 8 9 10
Portugus
Matemtica
Cincias
36 35 45 38 40 42 44 46 34 40
22 23 17 20 21 19 21 17 22 18
10 11 8 9 10 10 11 9 12 10
Fonte: Dados hipotticos

Sendo a mdia e a disperso de cada exame:
Portugus mdia = 40 e desvio = 4
Matemtica mdia = 20 e desvio = 2
Cincias mdia = 10 e desvio = 1

Em primeiro lugar, note que as notas de cada exame esto expressas em
escalas diferentes. Como consequncia, nada se pode comparar o desempenho dos
alunos nos trs exames. Tampouco pode comparar os desempenhos entre os
alunos, o que impede um ordenamento baseado em suas performances.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
54
7.1 MUDANA DE ORIGEM
Por uma questo de convenincia, pode-se proceder a uma transformao
que separe os escores observados de uma distribuio a partir do seu valor mdio.
Nesses casos, valores acima da mdia sero positivos, enquanto aqueles que
estiverem abaixo dela sero negativos. A mdia, como valor central de uma
distribuio, passa a ser, desse modo, a origem da nova escala dos escores. No
exemplo dos escores nos trs exames, essa transformao permite a avaliao dos
alunos com respeito ao desempenho individual tendo a mdia como base.
Na prtica, essa transformao est simplesmente movendo toda a
distribuio para a direita ou esquerda, dependendo do sinal da mdia, sem alterar a
unidade das medidas, expressa pela mesma unidade de medida da varivel. A
mudana da origem, de zero para a mdia expressa por: X
i
- , para i = 1, 2, ... , n.
O valor nulo na nova escala verifica-se para os valores da distribuio, na
escala primitiva, iguais mdia. A Tabela 18 apresenta os escores dos alunos (do
exemplo acima) na nova escala. Os valores nessa tabela so expressos em
afastamentos, em pontos, da mdia.

Tabela 18: Valores expressos em relao aos afastamentos, em pontos, da mdia
ALUNOS
EXAME
1 2 3 4 5 6 7 8 9 10
Portugus
Matemtica
Cincias
-4 -5 5 -2 0 2 4 6 -6 0
2 3 -3 0 1 -1 1 -3 2 -2
0 1 -2 -1 0 0 1 -1 2 0

A tabela 18 permite separar, para cada exame, os alunos que tiveram
desempenho superior ou inferior s respectivas mdias. Como afastamentos em
torno da mdia, a soma dos novos escores igual a zero. As unidades no foram
alteradas, o que no permite, ainda, comparar os desempenhos entre os exames.
Por exemplo, no pode avaliar se o aluno 3 teve um desempenho mais fraco em
Matemtica ou Cincias. Para isso ser necessrio colocar as trs distribuies
numa unidade comum.


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
55
7.2 MUDANA DA UNIDADE
A transformao acima desloca as distribuies ao longo do eixo das escalas
das variveis, centrando as distribuies num ponto comum (zero). No obstante,
essa transformao preserva as suas unidades originais. Ao dividir os escores de
cada distribuio pelos respectivos desvios padres, esto unificando tambm as
novas unidades das variveis. A nova unidade de cada distribuio fica, ento,
expressa em termos das unidades de desvios de cada distribuio. Desse modo, um
aluno que tenha obtido 44 pontos num exame cuja mdia tenha sido de 40 pontos e
desvio padro de 4 pontos, passa a ter 1 unidade de desvio (no mais pontos) acima
da mdia na nova escala. A nova transformao pode ser expressa atravs de:


=
i
i
X
Z .
Tanto a mudana da origem como a da unidade pode ser feita
separadamente, mas quando feitas simultaneamente unifica as escalas, que tero
mdia 0 e desvio padro 1. Por isso, essa transformao denominada
padronizao dos escores.
Os escores padronizados para as distribuies das notas dos alunos nos trs
exames do exemplo acima so apresentados na Tabela 19.
Tabela 19: Escores padronizados das notas dos alunos nos trs exames
ALUNOS
EXAME
1 2 3 4 5 6 7 8 9 10
Portugus
Matemtica
Cincias
-1 -1,25 1,25 -0,5 0 0,5 1 1,5 -1,5 0
1 1,5 -1,5 0 0,5 -0,5 0,5 -1,5 1 -1
0 1 -2 -1 0 0 1 -1 2 0


Agora sim, pode analisar os escores dos alunos em termos comparativos.
Note, por exemplo, que embora o aluno 3 tivesse ficado com 3 pontos abaixo da
mdia em Matemtica e 2 pontos abaixo da mdia em Cincias, o seu desempenho
pior foi no exame de Cincias, em que ficou 2 unidades de desvio abaixo da mdia,
tendo sido o aluno de pior performance nessa disciplina, dentre os dez alunos que
se submeteram ao exame. Isto significa que anlises comparativas devem
considerar parmetros relativos e no absolutos.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
56
8 ANLISE BIDIMENSIONAL

8.1 INTRODUO
At agora foi visto como organizar e resumir informaes pertinentes a uma
nica varivel de um conjunto de dados, mas freqentemente est interessado em
analisar o comportamento conjunto de duas ou mais variveis aleatrias. Os dados
aparecem na forma de uma matriz, usualmente com as colunas indicando as
variveis e as linhas os indivduos (ou elementos). A Tabela 3 (dados hipotticos da
Companhia MB) apresenta uma matriz com 6 variveis e 36 indivduos.
O objetivo principal das anlises nessa situao explorar relaes
(similaridades) entre as colunas, ou algumas vezes entre as linhas. A distribuio
conjunta das frequncias ser um instrumento poderoso para compreenso do
comportamento dos dados.
Inicialmente deter-se- no caso de duas variveis ou dois conjuntos de dados
e, na sequncia, no caso de trs variveis.
Em algumas situaes, pode ter dois ou mais conjuntos de dados
provenientes da observao da mesma varivel. Por exemplo, pode-se estar
interessado em comparar os salrios dos casados e dos solteiros.
Na Tabela 3 tm-se sete variveis: estado civil, grau de instruo, nmero de
filhos, salrio, idade e procedncia.
Quando considera duas variveis ou dois conjuntos de dados, pode ter trs
situaes:
as duas variveis so qualitativas;
as duas variveis so quantitativas; e
uma varivel qualitativa e a outra qualitativa.

As tcnicas de anlise de dados nas trs situaes so diferentes. Quando as
variveis so qualitativas, os dados so resumidos em tabelas de dupla entrada (ou
de contingncia), onde aparecero as frequncias absolutas ou contagens de
indivduos que pertencem simultaneamente a categorias de uma e outra varivel;
quando as duas variveis so quantitativas, as observaes so provenientes de
mensuraes e quando se tem uma varivel qualitativa e outra quantitativa, em geral
analisa-se o que acontece com a varivel quantitativa quando os dados so
categorizados de acordo com os diversos atributos da varivel qualitativa.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
57
8.2 VARIVEIS QUALITATIVAS
Suponha que se queira analisar o comportamento conjunto das variveis:
grau de instruo e regio de procedncia, cujos dados esto contidos na Tabela 3.
A distribuio de frequncias representada por uma tabela de dupla entrada como
mostra a Tabela 20.

Tabela 20: Distribuio conjunta das frequncias das variveis: grau de instruo e
regio de procedncia
Grau de instruo
Regio de
Procedncia
Ensino
Fundamental
Ensino
Mdio
Superior
Total
Capital
Interior
Outra
4
3
5
5
7
6
2
2
2
11
12
13
Total 12 18 6 36
Fonte: Tabela 3

Cada elemento do corpo da tabela d a frequncia observada das realizaes
simultneas das variveis: grau de instruo e regio de procedncia. Dessa forma,
nota-se quatro indivduos da capital com ensino fundamental, sete do interior com
ensino mdio, etc.
A linha dos totais fornece a distribuio da varivel grau de instruo, ao
passo que a coluna dos totais fornece a distribuio da varivel regio de
procedncia. As distribuies assim obtidas so chamadas tecnicamente de
distribuies marginais.
Em vez de se trabalhar com frequncias absolutas, constri-se tabelas com
frequncia relativas . Porm, existem trs possibilidades de se expressar as
frequncias relativas de cada casela (clula).

em relao ao total geral;
em relao ao total de cada linha; e
em relao ao total de cada coluna.


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
58
De acordo com o objetivo do problema em estudo, uma delas ser a mais
conveniente.
A Tabela 21 apresenta a distribuio conjunta das frequncias relativas
(propores) com relao ao total geral. Pode-se, ento, afirmar que 11,1% dos
empregados vm da capital e tm ensino fundamental. Os totais nas margens
fornecem as distribuies unidimensionais de cada uma das variveis. Por exemplo,
30,6% dos indivduos vm da capital, 33,3% do interior e 36,1% de outras regies.

Tabela 21: Distribuio conjunta das frequncias relativas (em porcentagem) em
relao ao total geral das variveis: grau de instruo e regio de
procedncia
Grau de instruo
Regio de
Procedncia Ensino
Fundamental
Ensino
Mdio
Superior
Total
Capital
Interior
Outra
11,1%
8,3%
13,9%
13,9%
19,4%
16,7%
5,6%
5,6%
5,6%
30,6%
33,3%
36,1%
Total 33,3% 50,0% 16,7% 100,0%
Fonte: Tabela 3

A Tabela 22 a seguir apresenta a distribuio conjunta das frequncias
relativas com relao ao total das colunas. Pode-se dizer que, entre os empregados
com instruo com ensino fundamental (33,3%), mdio (27,8%) e superior (33,3%)
vm da capital.
De modo anlogo, pode-se construir a distribuio das frequncias relativas
em relao ao total das linhas.







Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
59
Tabela 22: Distribuio conjunta das frequncias relativas (em porcentagem) em
relao aos totais de cada coluna das variveis: grau de instruo e
regio de procedncia
Grau de instruo
Regio de
Procedncia
Ensino
Fundamental
Ensino
Mdio
Superior
Total
Capital
Interior
Outra
33,3%
25,0%
41,7%
27,8%
38,9%
33,3%
33,3%
33,3%
33,3%
30,6%
33,3%
36,1%
Total 100% 100% 100% 100,0%
Fonte: Tabela 3

A comparao entre as duas variveis tambm pode ser feita utilizando-se
representaes grficas. A Figura 21 mostra a distribuio da regio de procedncia
por grau de instruo de acordo com os dados da Tabela 22.

0%
20%
40%
60%
80%
100%
Fundamental Mdio Superior Total
Outra
Interior
Capital

Figura 21: Regio de procedncia versus grau de instruo



8.3 ASSOCIAO ENTRE VARIVEIS QUALITATIVAS
Um dos principais objetivos de se construir uma distribuio conjunta de duas
variveis qualitativas descrever a associao entre elas, isto , quando se quer

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
60
conhecer o grau de dependncia entre elas, de modo que se possa prever o
resultado de uma delas quando se conhece a realizao da outra. Por exemplo,
pode-se estimar a renda mdia de uma famlia moradora na cidade de So Paulo,
conhecendo a classe social a que ela pertence, pois sabe que existe uma
dependncia entre as variveis: renda familiar e classe social.
Para identificar se existe uma associao entre duas variveis: sexo e carreira
escolhida por 200 alunos da distribuio conjunta apresentada na Tabela 23, deve
construir as propores (porcentagens) segundo as linhas ou as colunas para poder
fazer comparaes.

Tabela 23: Distribuio conjunta de 200 alunos de acordo com sexo e com o curso
escolhido
Sexo
Curso
Escolhido
Masculino Feminino
Total
Economia
Administrao
85
55
35
25
120
80
Total 140 60 200
Fonte: Dados hipotticos

A Tabela 24 apresenta as porcentagens, isto , as frequncias relativas
referentes ao sexo por curso escolhido, que so obtidas fixando-se os totais das
colunas em 100%.
Com os dados da tabela nota-se que, independentemente do sexo, 60% das
pessoas preferem Economia e 40% Administrao (observe na coluna total). No
tendo dependncia entre as varveis, espera essas mesmas porcentagens para
cada sexo. Observando a tabela, v que as porcentagens do sexo masculino (61% e
39%) e do sexo feminino (58% e 42%) so prximas das marginais. Esses
resultados parecem indicar que no existe dependncia entre as duas variveis,
para o conjunto de alunos considerados. Conclui-se, ento, que as variveis: sexo e
escolha do curso no esto associadas.




Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
61
Tabela 24: Distribuio conjunta das porcentagens dos 200 alunos de acordo com
sexo e com o curso escolhido
Sexo
Curso
Escolhido
Masculino Feminino
Total
Economia
Administrao
61%
39%
58%
42%
60%
40%
Total 100% 100% 100%
Fonte: Tabela 23

Considere-se, agora, um problema semelhante, porm envolvendo alunos de
Fsica e Cincias Sociais, cuja distribuio conjunta est na Tabela 25.

Tabela 25: Distribuio conjunta das porcentagens dos 200 alunos de acordo com
sexo e com o curso escolhido
Sexo
Curso
Escolhido
Masculino Feminino
Total
Fsica
Cincias Sociais
100 (71%)
40 (29%)
20 (33%)
40 (67%)
120 (60%)
80 (40%)
Total 140 (100%) 60 (100%) 200 (100%)
Fonte: Dados hipotticos

Comparando a distribuio das porcentagens pelos cursos, independente do
sexo (coluna total), com as distribuies diferenciadas por sexo (coluna de
masculino e feminino), nota-se uma disparidade bem acentuada nas porcentagens.
H uma maior concentrao dos homens no curso de Fsica e mulheres no curso de
Cincias Sociais. Portanto, neste caso, parece que as variveis: sexo e curso
escolhidas esto associadas.

Pesquisa sobre consumo cultural
Ser que existe algum tipo de relao entre idade de uma pessoa e o tipo de
programa que ela prefere na hora de escolher entre: ir ao cinema, ir ao teatro,
assistir um show de msica etc.? Ser que as preferncias do pblico mais jovem
so completamente diferentes das do pblico de meia idade? Ou ser que existe um

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
62
desses programas que sempre o preferido do pblico, independente da faixa
etria?
Em uma pesquisa de opinio, n = 499 pessoas foram ouvidas a respeito de
suas preferncias em termos de consumo cultural. Admiti-se que essas pessoas
representam uma amostra do pblico jovem do Rio de Janeiro. A cada um dos
entrevistados perguntou-se, entre outras coisas, a sua faixa etria e qual entre cinco
tipos de programa era mais do seu agrado. Com base nos resultados foi montada a
seguinte Tabela 26 de contingncia.

Tabela 26: Tabela de contingncia relativa s variveis: Faixa Etria e Programa
Preferido em uma pesquisa de opinio sobre consumo cultural
Programa Preferido
Faixa etria
Cinema Exposies Teatro Dana Shows musicais
Total
18 a 21
22 a 25
26 a 30
31 a 40
68
66
66
39
1
3
8
3
15
21
24
16
9
12
11
8
45
42
25
17
138
144
134
83
Total 239 15 76 40 129 499

Nossa inteno procurar extrair algumas concluses sobre a
interdependncia entre Faixa Etria e Programa Preferido, a partir dessa tabela
de contingncia. Deseja-se que essas concluses fossem aplicveis populao
como um todo, e no apenas a essa particular amostra. Mas, neste caso, uma
constatao que salta aos olhos quando se olha para a tabela de contingncia o
fato de que h relativamente poucas ocorrncias na coluna relativa a Exposies.
Isso implica que quaisquer propores simples que venham a ser calculadas a partir
das frequncias que constam nessa coluna podero no ser estatisticamente
confiveis.
Exemplificando melhor: com base nesses dados, as pessoas que escolheram
o programa Exposies se dividem pelas faixas etrias conforme a Tabela 27:





Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
63
Tabela 27: Faixa etria com relao a Exposies
Faixa etria Freq. observada Percentagem
18 a 21
22 a 25
26 a 30
31 a 40
1
3
8
3
6,67%
20,00%
53,33%
20,00%
Total 15 100,00%


Suponha agora que dispusssemos de uma outra amostra formada por 499
pessoas do pblico jovem. E que nessa outra amostra houvesse tambm apenas 15
pessoas optando por Exposies, porm distribudas entre as faixas etrias de forma
levemente diferente, conforme apresenta a Tabela 28.

Tabela 28: Faixa etria referentes a Exposies
Faixa etria Freq. observada Percentagem
18 a 21
22 a 25
26 a 30
31 a 40
2
4
7
2
13,33%
26,67%
46,67%
13,33%
Total 15 100,00%


Como pode observar, bastou introduzir uma pequena perturbao nas
frequncias absolutas para que ocorresse uma alterao expressiva nos
percentuais. Ora, tal flutuao de uma amostra para outra algo que est
perfeitamente dentro do esperado.
Assim sendo, ficaria comprometido o nosso propsito de extrapolar para a
populao as concluses extradas a partir da amostra.
Por isso, nossa primeira providncia aqui ser fundir em uma s as colunas
referentes Dana e Exposies, simplesmente somando as frequncias das duas.
A nova coluna na criada recebe o ttulo de Dana/Exposies. Dessa forma, a nova

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
64
tabela de contingncia passou a ter quatro colunas de contagens alm da coluna de
totais.
Esse um expediente muito utilizado na prtica com o objetivo de se
preservar a representatividade estatstica dos resultados (Tabela 29).

Tabela 29: Nova tabela de contingncia relativa s variveis: Faixa Etria e
Programa Preferido, aps a fuso de duas colunas.
Programa preferido
Faixa etria
Cinema Teatro Shows musicais Dana/Exposies
Total
18 a 21
22 a 25
26 a 30
31 a 40
68
66
66
39
15
21
24
16
45
42
25
17
10
15
19
11
138
144
134
83
Total 239 76 129 55 499


Com base na nova tabela de contingncia podem ser montadas as duas
tabelas de percentuais, que certamente so mais informativas sobre a eventual
existncia de associao entre as duas variveis aqui consideradas.

Tabela 30: Percentuais (de linha) correspondentes aos Programas Preferidos, uma
vez fixada a faixa etria
Programa Preferido
Faixa etria
Cinema
(%)
Teatro
(%)
Shows
musicais (%)
Dana/Exposies
(%)
Total
(%)
18 a 21
22 a 25
26 a 30
31 a 40
49,28
45,83
49,25
46,99
10,87
14,58
17,91
19,28
32,61
29,17
18,66
20,48
7,25
10,42
14,18
13,25
100,00
100,00
100,00
100,00
Total 47,90 15,23 25,85 11,02 100,00






Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
65
A Tabela 30 parece seguir, por exemplo, que:

a) Cinema o programa preferido de praticamente metade do pblico
considerado, independente da faixa etria.
b) Embora em todas as faixas etrias o segundo tipo de programa mais
apontado seja shows musicais, h uma predominncia dessa opo para o
pblico de at 25 anos.
c) A preferncia pelo teatro aumenta com a idade.

Como j visto antes, uma outra forma de encara independncia entre duas
variveis Faixa Etria e Programa Preferido inverter os papis
desempenhados por linhas e colunas, produzindo assim a tabela a seguir:

Tabela 31 Percentuais (de coluna) correspondentes s faixas etrias, uma vez fixado
o programa preferido
Programa preferido
Faixa etria
Cinema
(%)
Teatro
(%)
Shows musicais
(%)
Dana/Exposies
(%)
Total

18 a 21
22 a 25
26 a 30
31 a 40
28,45
27,62
27,62
16,32
19,74
27,63
31,58
21,05
34,88
32,56
19,38
13,18
18,18
27,27
34,55
20,00
27,66
28,86
26,85
16,63
Total (%) 100,00 100,00 100,00 100,00 100,00

A Tabela 31 parece seguir, por exemplo, que praticamente 2/3 do pblico
adepto de shows musicais esto situados nas duas primeiras faixas etrias, ou seja,
tm no mximo 25 anos de idade.

Na disciplina de estudos no paramtricos ser feita uma anlise mais
aprofundada das tabelas de contingncia, usando o teste qui-quadrado para
independncia de variveis.


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
66
8.4 MEDIDAS DE ASSOCIAO ENTRE VARIVEIS QUALITATIVAS
Quando existe associao entre duas variveis, sempre interessante
quantificar essa associao. A quantificao do grau entre duas variveis feita
atravs dos coeficientes de associao ou correlao. Essas so medias que
descrevem, por meio de um nico nmero, a dependncia entre duas variveis, no
intervalo de 0 a 1, e se for prximo de zero significa falta de associao, isto , de
dependncia.
Existem muitas medidas que qualificam a associao ou dependncia entre
duas variveis qualitativas. Por exemplo, o coeficiente de contingncia (C), devido a
Pearson. Para isso, deve-se recorrer a uma importante aplicao que o teste qui-
quadrado (
2
). Ressalta-se que esta aplicao ser apresentada na disciplina
de estatstica no paramtrica.

8.5 ASSOCIAO ENTRE VARIVEIS QUANTITATIVAS
Em muitas situaes de negcios, razovel sugerir que existam
associaes entre as variveis. Por exemplo, seria lgico supor que as vendas de
um item produzido em massa estejam associadas com seu preo e despesas de
propaganda.
Para propsitos de tomada de deciso, til identificar se existe uma
associao linear entre duas variveis ou entre mais de duas variveis e, se
apropriado, quantificar a associao. Um dispositivo bastante til para se verificar a
associao entre duas variveis quantitativas, ou entre dois conjuntos de dados, o
diagrama de disperso, e sua associao pode ser quantificada utilizando-se uma
medida estatstica chamada coeficiente de correlao ou grau de associao.

Diagrama de disperso
Um diagrama de disperso simplesmente uma representao de pontos de
dados em um grfico X-Y. O eixo y utilizado para representar a varivel
dependente que interessa a quem toma as decises, enquanto o eixo x para
representar uma varivel que pode ser controlada ou mediada por quem toma as
decises, chamada de varivel independente.
Dependendo das variveis consideradas, a relao entre elas pode ser
fortemente linear, no linear ou mesmo inexistente. Portanto, um diagrama de

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
67
disperso uma primeira indicao til da possvel existncia de uma associao
entre duas variveis.

8.5.1 Coeficientes de associao ou correlao
A anlise de correlao uma tcnica matemtica utilizada para medir a fora
de associao entre duas variveis. Essa medio leva em considerao a
disperso entre os valores dados. Quanto menos dispersos estiverem os dados,
mais forte ser a dependncia, isto , a associao entre as variveis.
O coeficiente de correlao R assume um valor entre [ 1 e + 1] , isto :
Se r = 1, a correlao positiva perfeita;
Se r = -1, a correlao negativa perfeita;
Se r = 0, a correlao nula.
Considerando-se os dados das as variveis X e Y, pode construir os
diagramas de disperso como mostram as Figuras 22, 23, 24 e 25.









Em ambas as figuras 22 e 23, nota-se que existe uma associao positiva
entre as variveis X e Y, pois medida que aumenta uma, a outra tambm aumenta.








0
1
0
0
2
0
0
3
0
0
4
0
0
0 10 20 30 40 50 60
X
Y

0
100
200
300
400
0 10 20 30 40 50 60
X
Y

0
100
200
300
400
0 10 20 30 40 50 60
X
Y

0
100
200
300
0 10 20 30 40 50 60
X
Y

Figura 22: Associao linear positiva R = 1 Figura 23: Associao linear positiva
Figura 24: Associao linear negativa
Figura 25: No h associao - R = 0

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
68
Na figura249, existe uma associao inversa, isto , medida que a varivel
X aumenta, a varivel Y diminui. Ao passo que, na figura 25 no h uma associao
entre as variveis, pois medida que X aumenta, Y no reage.
Na Tabela 32 est apresentado os dados referentes a Taxa de Fundo de
Investimento: FIC Executivo RF LP e taxa SELIC, no perodo de outubro de 2004 a
setembro de 2006

Tabela 32: Taxa do Fundo de Investimento - FIC Executivo RF LP e taxa
SELIC, no perodo de outubro de 2004 a setembro de 2006
Meses
Taxa Selic
(X)
Taxa FIC Executivo
(Y)
Out/04
Nov/04
Dez/04
Jan/05
Fev/05
Mar/05
Abri/05
Mai/05
Jun/05
Jul/05
Ago/05
Set/05
Out/05
Nov/05
Dez/05
Jan/06
Fev/06
Mar/06
Abri/06
Mai/06
Jun/06
Jul/06
Ago/06
Set/06
1,210
1,250
1,480
1,380
1,220
1,530
1,410
1,500
1,590
1,510
1,660
1,500
1,410
1,380
1,470
1,430
1,150
1,420
1,080
1,280
1,180
1,170
1,260
1,060
1,140
1,190
1,470
1,336
1,177
1,485
1,348
1,430
1,525
1,429
1,550
1,462
1,347
1,428
1,460
1,392
1,098
1,331
1,002
1,162
1,097
1,077
1,153
0,970
Fonte: Caixa Econmica Federal 2006

Com os dados da tabela 32, constri-se o diagrama de disperso como
mostra a Figura 26.

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
69
Taxa SELIC e Taxa FIC EXECUTIVO, no perodo de outubro de
2004 a setembro de 2006
0,8
1,0
1,2
1,4
1,6
0,8 1,0 1,2 1,4 1,6 1,8
Taxa Selic
T
a
x
a

E
x
e
c
u
t
i
v
o


Como j foi visto em medidas de disperso, a soma de todos os desvios em
relao mdia igual a zero, como mostra a Tabela 33.

Tabela 33: Calculo do coeficiente de correlao entre as variveis: Selic e FIC
Meses
Selic
(X)
Executivo
(Y)
X X Y Y

X X
Z
X

Y Y
Z
Y

=
Z
X
.

Z
y
Out/04
Nov/04
Dez/04
Jan/05
Fev/05
Mar/05
Abri/05
Mai/05
Jun/05
Jul/05
Ago/05
Set/05
Out/05
Nov/05
Dez/05
Jan/06
Fev/06
Mar/06
Abri/06
Mai/06
Jun/06
Jul/06
Ago/06
Set/06
1,210
1,250
1,480
1,380
1,220
1,530
1,410
1,500
1,590
1,510
1,660
1,500
1,410
1,380
1,470
1,430
1,150
1,420
1,080
1,280
1,180
1,170
1,260
1,060
1,140
1,190
1,470
1,336
1,177
1,485
1,348
1,430
1,525
1,429
1,550
1,462
1,347
1,428
1,460
1,392
1,098
1,331
1,002
1,162
1,097
1,077
1,153
0,970
-0,145
-0,105
0,125
0,025
-0,135
0,175
0,055
0,145
0,235
0,155
0,305
0,145
0,055
0,025
0,115
0,075
-0,205
0,065
-0,275
-0,075
-0,175
-0,185
-0,095
-0,295
-0,154
-0,104
0,176
0,042
-0,117
0,191
0,054
0,136
0,231
0,135
0,256
0,168
0,053
0,134
0,166
0,098
-0,196
0,037
-0,292
-0,132
-0,197
-0,217
-0,141
-0,324
-0,901
-0,653
0,772
0,152
-0,839
1,082
0,338
0,896
1,453
0,958
1,887
0,896
0,338
0,152
0,710
0,462
-1,273
0,400
-1,706
-0,467
-1,087
-1,149
-0,591
-1,830
-0,893
-0,603
1,019
0,243
-0,678
1,106
0,312
0,787
1,337
0,781
1,482
0,972
0,306
0,775
0,961
0,567
-1,136
0,214
-1,692
-0,765
-1,142
-1,258
-0,817
-1,877
0,804
0,394
0,786
0,037
0,569
1,196
0,106
0,705
1,944
0,748
2,797
0,871
0,104
0,118
0,682
0,262
1,446
0,085
2,887
0,358
1,241
1,445
0,483
3,436
TOTAL 32,530 31,059 0 0 23,504
Fonte: Site da Caixa Econmica Federal, 2006
Figura 26: Diagrama de disperso

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
70
Observa-se que houve uma mudana de escala das colunas 2 e 3 para
escala padronizada colunas 6 e 7.

Na coluna 8 da tabela 33 ocorrem os produtos das coordenadas reduzidas.
Dessa forma, pode-se definir o coeficiente de correlao entre duas variveis X e Y
como:

) ).( (
1
1
y
i
x
i
n
i
y y x x
n
R


=

=
ou

=
=
n
i
Zy Zx
n
R
1
) . (
1

ou seja, a mdia dos produtos dos valores padronizados das variveis.

Com relao ao problema anterior, tem-se: 979 , 0 504 , 23
24
1
= = R

Covarincia. Uma medida de dependncia linear entre duas variveis (X, Y)
dada pela covarincia:

) ( ). ( ) ( ) , ( y E x E y x E y x Cov =
onde:

=
=
n
i
i i
x p x x E
1
) ( . ) (

=
=
n
i
i i
y p y y E
1
) ( . ) (

=
=
n
i
i i i i
y x p y x y x E
1
,
) ( . ) (

Neste caso, a Correlao linear dada por:
y x
y x Cov
y x

.
) , (
) , ( =

Com os dados da tabela 33, vamos calcular a correlao linear entre as
variveis: Taxa Selic (X) e Taxa FIC Executivo (Y).

=
=
n
i
i i
x p x x E
1
) ( . ) ( = 3554 , 1 ) 060 , 1 250 , 1 210 , 1 (
24
1
= + + + L

=
=
n
i
i i
y p y y E
1
) ( . ) ( = 2941 , 1 ) 970 , 0 190 , 1 140 , 1 (
24
1
= + + + L

=
=
n
i
i i i i
y x p y x y x E
1
,
) ( . ) ( = 7814 , 1 ) 028 , 1 487 , 1 379 , 1 (
24
1
= + + + L
) ( ). ( ) ( ) , ( y E x E y x E y x Cov = = 1,7814 1,3554x 1,2941 = 0,0273

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
71

y x
y x Cov
x x

.
) , (
) , ( = = 979 , 0
1726 , 0 1614 , 0
0273 , 0
=
x


Outra maneira de se verificar se existe associao entre duas variveis
quantitativas por meio do coeficiente de correlao, utilizando o mtodo dos
mnimos quadrados, tal que:

2
2
2 2
( ) ( )
[ ].[ ]
x y
x y
n
r
x y
x y
n n





onde -1 R 1

Esta aplicao ser vista na disciplina de correlao e anlise de
regresso.







8.6 ASSOCIAO ENTRE AS VARIVEIS QUALITATIVAS E QUANTITATIVAS

comum nessas situaes analisar o que acontece com a varivel
quantitativa dentro de cada categoria da varivel qualitativa. Essa anlise pode ser
conduzida por meio de medidas-resumo ou box plot.
Com os dados da Tabela 3, vamos analisar agora o comportamento dos
salrios dentro de cada categoria de grau de instruo, ou seja, investigar o
comportamento conjunto das variveis, salrio e grau de instruo, como apresenta
a Tabela 34.





Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
72
Tabela 34: Medidas-resumo para a varivel salrio segundo o grau de instruo, na
Companhia MB
SALRIO
Grau de
Instruo

n

x




2

X
1

Q
1

Q
2

Q
3

X
n
Fundamental
Mdio
Superior
12
18
6
7,84
11,53
16,48
2,83
3,61
4,11
8,02
13,04
16,89
4,00
5,73
10,53
6,00
8,83
13,65
7,13
10,91
16,74
9,16
14,42
18,38
13,85
19,40
23,30
Todos 36 11,12 4,52 20,46 4,00 7,55 10,17 14,01 23,30

Com os dados da Tabela 28 podemos construir a Figura 27 de box plot. Essa
figura d uma boa visualizao e uma boa idia para analisar a associao entre as
variveis, salrio e grau de instruo.

2
6
10
14
18
22
26
Fundamental Mdio Superior

Figura 27: Salrios segundo o grau de instruo dos funcionrios da Companhia MB

Nota-se por meio da figura 27 uma dependncia dos salrios em relao ao
grau de instruo: o salrio aumenta conforme aumenta o nvel de educao do
indivduo. O salrio mdio de um funcionrio 11,12 (salrios mnimos), j para um

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
73
funcionrio com curso superior o salrio mdio passa a ser 16,48, enquanto
funcionrios com ensino fundamental completo recebem, em mdia, 7,84.
Como nos casos anteriores, interessante medir o grau de associao ou de
dependncia entre as duas variveis. Com esse intuito, convm observar que as
varincias podem ser usadas como insumos para determinar essa medida. Sem
usar a informao da varivel categorizada, a varincia calculada para a varivel
quantitativa para todos os dados mede a disperso dos dados globalmente. Se a
varincia dentro de cada categoria for pequena e menor do que a global, significa
que a varivel qualitativa melhora a capacidade de previso da quantitativa e,
portanto, existe uma relao entre as duas variveis.
Observe que, para as variveis: salrio e grau de instruo, as varincias do
salrio dentro das trs categorias so menores do que a global.
Neste caso, deve-se obter a varincia entre as categorias da varivel
qualitativa, bem como a mdia entre elas. A mdia ser ponderada pelo nmero de
observaes em cada categoria, ou seja;

=
=

=
k
1 i
i
k
1 i
2
i i
2
n
. n
= 01 , 12
6 18 12
) 89 , 16 ( 6 ) 04 , 13 ( 18 ) 02 , 8 ( 12
=
+ +
+ +

na qual k o nmero de categorias e
i
, a varincia dos salrios dentro de cada
categoria i, como i = 1, 2, ..., k.
Verifica-se que
2 2
, e o grau de associao entre as duas variveis como
ganho relativo na varincia, obtido pela introduo da varivel qualitativa dado por:

2
2
2
2 2
2
1 R


= % 3 , 41 413 , 0
46 , 20
01 , 12
1
2
= = = R 0 R
2
1

Conclui-se que 41,3% da variao total do salrio explicado pela varivel
grau de instruo.

Vamos analisar agora o comportamento dos salrios dentro de cada categoria
da regio procedente, como apresenta a Tabela 35.


Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
74
Tabela 35: Medidas-resumo para a varivel salrio, segundo a regio de
procedncia, na Companhia MB
SALRIO
Regio de
Procedncia

N

x




2

X
1

Q
1

Q
2

Q
3

X
n
Capital
Interior
Outra
11
12
13
11,46
11,55
10,45
5,22
5,07
3,02
27,27
25,71
9,13
4,56
4,00
5,73
7,49
7,81
8,74
9,77
10,65
9,80
16,63
14,70
13,79
19,40
23,30
16,22
Todos 36 11,12 4,52 20,46 4,00 7,55 10,17 14,01 23,30

Com os dados da Tabela 3 pode-se construir a Figura 28 de box plot para
visualizar e analisar a associao entre as variveis, salrio e regio procedncia.

2
6
10
14
18
22
26
CAPITAL INTERIOR OUTRA
Figura 28: Salrios segundo a regio de procedncia dos funcionrios da
Companhia MB

Na figura 28 temos os resultados da anlise dos salrios em funo da
regio de procedncia, que mostra a inexistncia de uma relao melhor definida
entre as duas variveis. O salrio mdio de um funcionrio 11,12 (salrios

Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
75
mnimos), j os funcionrios da capital recebem, em mdia, 11,46; do interior 11,55 e
de outras localidades recebem, em mdia, 10,45.
Observe que, para as variveis: salrio e regio de procedncia, as
varincias do salrio dentro das trs categorias, ora so maiores (capital e interior)
ora menor (outros) do que a global. Neste caso, vamos calcular a varincia mdia
ser ponderada pelo nmero de observaes em cada categoria, ou seja;

=
=

=
k
1 i
i
k
1 i
2
i i
2
n
. n
= 20 , 20
13 12 11
) 13 , 9 ( 13 ) 71 , 25 ( 12 ) 27 , 27 ( 11
=
+ +
+ +

e, portanto,
2
2
2
1

= R % 3 , 1 013 , 0
46 , 20
20 , 20
1
2
= = = R

Conclui-se que apenas 1,3% da variabilidade dos salrios explicada pela
regio de procedncia.



















Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
76
8.7 LISTA 3 - EXERCCIOS

1) Uma companhia de seguros analisou a frequncia com que 2.000 segurados
(1.000 homens e 1.000 mulheres) usaram o hospital. Os resultados foram:
Homens Mulheres
Usaram o hospital
No usaram o hospital
100
900
150
850

a) Calcule a proporo dos homens entre os indivduos que usaram o hospital.
b) Calcule a proporo dos homens entre os indivduos que no usaram o
hospital.
c) O uso do hospital independe do sexo do segurado?

2) Abaixo esto os dados referentes porcentagem da populao economicamente
ativa empregada no setor primrio e o respectivo ndice de analfabetismo para
algumas regies metropolitanas brasileiras.
Regies metropolitanas Setor primrio (Y) ndice de analfabetismo (X)
So Paulo
Rio de Janeiro
Belm
Belo Horizonte
Salvador
Porto Alegre
Recife
Fortaleza
2,0
2,5
2,9
3,3
4,1
4,3
7,0
13,0
17,5
18,5
19,5
22,2
26,5
16,6
36,6
38,3
Fonte: Indicadores Sociais para reas Urbanas-IBGE-1977

a) Faa o diagrama de disperso.
b) Voc acha que existe uma dependncia linear entre as duas variveis? Se
achar que sim, ento calcule a correlao linear.



Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
77
3) Uma pesquisa sobre a participao em atividades esportivas de adultos
moradores nas proximidades de centros esportivos construdos pelo estado de
So Paulo mostrou os resultados da tabela abaixo. Baseado nesses resultados
voc diria que a participao em atividades esportivas depende da cidade.
Cidade
Participam
So Paulo Campinas Rib. Preto Santos
Sim
No
50
150
65
185
105
195
120
180

4) Uma pesquisa para verificar a tendncia dos alunos a prosseguir os estudos,
segundo a classe social do respondente, mostrou a seguinte tabela:
Classe social Pretende
Continuar Alta Mdia Baixa
Total
Sim
No
200
200
220
280
380
720
800
1.200

Existe uma dependncia entre os dois fatores? Por qu?

5) Completar a Tabela Medidas-resumo para a varivel salrio, segundo a regio de
procedncia, na Companhia MB
SALRIO
Estado
Civil

N

x




2

X
1

Q
1

Q
2

Q
3

X
n
Solteiro
Casado

Todos 36 11,12 4,52 20,46 4,00 7,55 10,17 14,01 23,30

Verifique se existe associao entre as variveis, salrio e estado civil por meio do
box plot.
Calcular quanto a variao total (R
2
) do salrio explicado pela varivel estado
civil.



Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
78
REFERNCIAS BIBLIOGRAFIAS


ANDERSON, David R.; SWEENEY, Dennis J., WILLIAMS, Thomas A. Estatstica
aplicada administrao e economia. Trad. Luiz Srgio de Castro Paiva. 2. ed.
So Paulo: Pioneira, 2002.
BUSSAB, Wilton; MORETTIN, Pedro. A estatstica bsica. 5. ed. So Paulo:
Saraiva, 2002.
MONTGOMERY, Douglas C.; RUNGER, George C., HUBELE, Norma F. Estatstica
Aplicada Engenharia. Traduo Profa. Vernica Calado, D. Sc. 2. ed. Rio de Janeiro:
LTC, 2004.
FREUND, John E.; SIMON, Gary A. Estatstica aplicada: economia, administrao
e contabilidade. Trad. Alfredo Alves de Faria. 9. ed. Porto Alegre: Bookmam, 2000.
MAGALHES, Marcos N.; Lima. Antonio C. P. Noes de probabilidade e
estatstica. 6.ed. So Paulo: USP, 2004.
NEUFELD, John L. Estatstica aplicada administrao usando Excel: Trad.
Jos Luiz Celeste. So Paulo: Prentice Hall 2003.
PEREIRA, Jlio Csar Rodrigues. Anlise de dados qualitativos: estratgias
metodolgicas para as cincias da sade, humanas e sociais. 2.ed. So Paulo: USP,
1999.
PINHEIRO, Ismael, D. P.; CUNHA, Sonia, B. da.; CARVAJAL, Santiago, R; GOMES,
Gasto, C. Estatstica bsica arte de trabalhar com dados. Rio de Janeiro:
Elsevier, 2009.
SMAILES, Joanne; McGRANE, ngela. Estatstica aplicada administrao com
excel. So Paulo: Atlas, 2002.
SOARES, Jos F.; SIQUEIRA, Arminda, L. Introduo estatstica mdica. Belo
Horizonte: UFMG,1999.

Você também pode gostar