Você está na página 1de 30

Captulo 1

Anlise Exploratria de Dados


Introduo

A finalidade da Anlise Exploratria de Dados (AED)


examinar os dados previamente aplicao de qualquer
tcnica estatstica. Desta forma o analista consegue um
entendimento bsico de seus dados e das relaes existentes
entre as variveis analisadas.

Aps a coleta e a digitao de dados em um banco de dados


apropriado, o prximo passo a anlise descritiva. Esta etapa
fundamental, pois uma anlise descritiva detalhada permite
ao pesquisador familiarizar-se com os dados, organiz-los e
sintetiz-los de forma a obter as informaes necessrias do
conjunto de dados para responder as questes que esto
sendo estudadas.
Etapas da AED
Para realizar uma AED recomenda-se seguir as seguintes
etapas:
preparar os dados para serem acessveis a qualquer
tcnica estatstica;
realizar um exame grfico da natureza das variveis
individuais a analizar e uma anlise descritiva que permita
quantificar alguns aspectos grficos dos dados;
realizar um exame grfico das relaes entre as variveis
analisadas e uma anlise descritiva que quantifique o grau
de inter-relao entre elas;
identificar os possveis casos atpicos (outliers);
avaliar, se for necesrio, a presena de dados ausentes
(missing);
avaliar, se for necesrio, algumas suposies bsicas,
como normalidade, lineariedade e homocedasticidade.
Etapas da AED

A AED extrai informaes de um conjunto de dados sem o


peso das suposies de um modelo probabilstico. As tcnicas
grficas desempenham um importante papel nesta forma de
abordagem.

Para que a AED possa ser compreendida, a seguir mostramos


a estratgia de anlise da Estatstica Clssica, Estatstica
Bayesiana e estas duas so confrontadas com a Anlise
Exploratria de Dados.
Etapas da AED

Abordagem Estratgia

Estatstica Clssica Problema Dados Modelo Anlise


Estatstica Bayesiana Problema Dados Modelo Priori Anlise
EDA Problema Dados Anlise Modelo

De acordo com o quadro acima, diferentemente do que feito


na Estatstica Clssica e Estatstica Bayesiana, na Anlise
Exploratria de Dados no h a imposio de um modelo aos
dados, mas sim um trabalho de minerao nos dados que
pode eventualmente indicar qual o melhor modelo.

A AED vai alm do uso descritivo da estatstica, procura olhar


de forma mais profunda os dados, sem resumir muito a
quantidade de informaes.
Tcnicas Grficas e Resumos Numricos

Os grficos constituem uma das formas mais eficientes de


apresentao de dados. Um grfico , essencialmente, uma
figura constituda a partir de uma tabela, pois quase sempre
possvel localizar um dado tabulado num grfico.

Enquanto as tabelas fornecem uma idia mais precisa e


possibilitam um tratamento mais rigoroso aos dados, os
grficos so mais indicados em situaes cujo objetivo dar
uma viso mais rpida e fcil das variveis s quais se referem
os dados.

Portanto, a qualidade na representao grfica deve ser


pautada na clareza, simplicidade e autoexplicao. As
tcnicas grficas desempenham um papel fundamental na
AED.
Escalas de Mensurao

As tcnicas a serem utilizadas dependem da natureza de


mensurao das variveis de interesse:

Nominal: as variveis so medidas em classes discretas,


mas no possvel estabelecer ordem.
Ordinal: as variveis so medidas em classes discretas
entre as quais possvel definir uma ordem, segundo uma
relao descritvel mas no quantificvel.
Intervalar: as variveis assumem valores quantitativos,
no possuem zero absoluto, i.e. no possuem uma
medida de ausncia de atributo.
Razo: as variveis assumem valores quantitativos, cuja
relao exata entre estes possvel definir porque esta
escala possui um zero absoluto.
Escalas de Mensurao

O tipo da anlise que pode ser realizado depende da escala de


medida da varivel analizada. Na tabela a seguir se sugerem
as representaes grficas e resumos descritivos numricos
mais recomendveis para realizar essa anlise.

Escala de Representaes Medidas de Medidas de


medida Grficas tendncia central disperso

Diagrama de barras
Nominal Diagrama de linhas Moda
Diagrama de pizza

Ordinal Boxplot Mediana Intervalo Interquartlico

Histogramas
Intervalo Polgono de frequncias Mdia Desvio padro

Razo Mdia Geomtrica Coeficiente de Variao


Tipos de variveis

Varivel:
Qualquer caracterstica associada a uma populao

Classificao:
Qualitativa: so aquelas que apresentam como possveis
realizaes uma qualidade ou atributo do indivduo
pesquisado
Nominal: sexo, cor dos olhos
Ordinal: classe social, grau de instruo
Quantitativa: so aquelas que apresentam como
possveis realizaes nmeros resultantes de uma
contagem ou mensurao
Contnua: peso, altura
Discreta: nmero de filhos, nmero de carros
Variveis Quantitativas
Medidas de posio: valor ao redor do qual os dados esto
distribudos.
Mximo (max): a maior observao
Mnimo (min): a menor observao
Moda (Mo): o valor (ou atributo) que ocorre com maior
frequncia.
): soma de todos os valores da varivel dividida
Mdia (X
pelo nmero de observaes.
Mediana (Me): valor que deixa 50% das observaes
sua esquerda
Quartis: divide um conjunto de valores dispostos em forma
crescente em quatro partes.
Primeiro Quartil (Q1): valor que deixa 25% das
observaes sua esquerda.
Terceiro Quartil (Q3): valor que deixa 75% das
observaes sua esquerda.
Variveis Quantitativas
Medidas de Disperso: A finalidade encontrar um valor que
resuma a variabilidade de um conjunto de dados
Amplitude: diferena entre o valor mximo e o valor
mnimo
Intervalo-Interquartil: a diferena entre o terceiro quartil
e o primeiro quartil, ou seja, Q3 - Q1
Varincia: mdia dos quadrados dos desvios em relao
mdia aritmtica
Desvio Padro: mede a variabilidade independente do
nemro de observaes e com a mesma unidade de
medida da mdia
Coeficiente de Variao: mede a variabilidade numaescala
percentual independente da unidade de medida ou da
ordem de grandeza da varivel
s
CV = 100%
X
Exame Grfico dos Dados

Distribuio:
Histograma, ramo-e-folhas

Relao entre as variveis:


Diagrama de disperso

Diferenas entre grupos:


Box-plot (observaes atpicas podem aparecer somente aps
agrupamento)
Descrio dos dados

importante conhecer e saber construir os principais tipos de


tabelas, grficos e medidas resumo para realizar uma boa
anlise descritiva dos dados. Cada ferramenta fornece um tipo
de informao e o seu uso depende, em geral, do tipo de
varivel que est sendo investigada.

varivel qualitativa* varivel quantitativa

tabela de frequncias medidas de posio: mdia, mediana, moda


grfico de barras medidas de disperso: varincia, desvio-padro,
diagrama circular (pizza) amplitude, coeficiente de variao
tabela de frequncias
histograma
boxplot
grfico de linha ou sequncia
polgono de frequncias

*Esta abordagem tambm pode ser interessante para as variveis quantitativas


discretas.
Tabela de frequncias

Como o nome indica, conter os valores da varivel e suas


respectivas contagens, as quais so denominadas frequncias
absolutas ou simplesmente, frequncias.

No caso de variveis qualitativas ou quantitativas discretas, a


tabela de frequncia consiste em listar os valores possveis da
varivel, numricos ou no, e fazer a contagem na tabela de
dados brutos do nmero de suas ocorrncias.

A frequncia do valor i ser representada por ni , a frequncia


total por n e a frequncia relativa por hi = hi /n.
Tabela de frequncias

Para variveis cujos valores possuem ordenao natural


(qualitativas ordinais e quantitativas em geral), faz sentido
incluirmos tambm uma coluna contendo as frequncias
acumuladas Ni e Hi , obtidas pela soma das frequncias de
todos os valores da varivel, menores ou iguais ao valor
considerado.

No caso das variveis quantitativas contnuas, que podem


assumir infinitos valores diferentes, a tabela de frequncia
precissa de classes ou faixas de valores e contamos o nmero
de ocorrncias em cada faixa.

Apesar de no adotarmos nenhuma regra formal para


estabelecer as faixas, utilizaremos em geral, de 5 a 8 faixas
com mesma amplitude. Eventualmente, faixas de tamanho
desigual podem ser convenientes para representar valores nas
extremidades da tabela.
Tabela de frequncias

Frequncia Frequncia Frequncia Frequncia


Classes Intervalos absoluta relativa absoluta relativa
acumulada acumulada

C (LIi LSi ) ni hi Ni Hi

n1 N
c1 (LI1 LS1 ) n1 h1 = n
N1 = n1 H1 = n1 = h1
... ... ... ... ... ...
nj N
cj (LIj LSj ) nj hj = n
Nj = n1 + n2 + . . . + nj Hj = nj = h1 + h2 + . . . + hj
... ... ... ... ... ...
nk
ck (LIk LSk ) nk hk = n
Nk = n Hk = 1
Medidas de posio no caso de dados agrupados

Mdia: Sejam y1 , y2 , . . . , yk os pontos mdios de cada


intevalo de classe de uma distribuio de frequncia de k
classes Pk
ny
= j=1 i i
Y
n
Mediana:
(n/2) Nj1
Me = LIj = c( )
nj
Moda:
nj nj1
Mo = LIj + c( )
(nj nj1 ) + (nj nj+1 )
Exemplo

Adaptado do dataset Household Expenditures (Aitchison, 1986):


Gastos domiciliares de 38 domiclios (HK$) em quatro grupos de despesas:
1 Moradia, gs, luz, etc
2 Alimentao, incluindo bebidas e tabaco
3 Outros bens, incluindo vesturio e bens durveis
4 Servicos, incluindo transporte e veculos
Dataset:
sex: sexo do chefe da famlia (male/female)
children: nmero de filhos (adaptado por Marcelo Lauretto)
housing, foodstuffs, othergoods, services: gastos mensais em cada grupo de
despesas
Grfico de barras

Para construir um grfico de barras, representamos os valores


da varivel no eixo das abscissas e suas frequncias ou
porcentagens no eixo das ordenadas. Para cada valor da
varivel desenhamos uma barra com altura correspondendo
sua frequncia ou porcentagem.

Este tipo de grfico interessante para as variveis qualitativas


ordinais ou quantitativas discretas, pois permite investigar a
presena de tendncia nos dados.
Grfico de Barras

Figura: Nmero de filhos por sexo do chefe de familia


Diagrama Circular

Para construir um diagrama circular ou grfico de pizza,


repartimos um disco em setores circulares correspondentes s
porcentagens de cada valor (calculadas multiplicando-se a
frequncia relativa por 100). Este tipo de grfico adapta-se
muito bem para as variveis qualitativas nominais.
Diagrama Circular

Figura: Esq: Percentual de domiclios por sexo do chefe de familia;


Dir: Percentual de domiclios por nmero de filhos
Diagrama Circular

Figura: Percentuais de domiclios por nmero de filhos


(segmentao por sexo)
Histograma

O histograma consiste em retngulos contguos com base nas


faixas de valores da varivel e com rea igual frequncia
relativa da respectiva faixa. Desta forma, a altura de cada
retngulo denominada densidade de frequncia ou
simplesmente densidade definida pelo quociente da rea pela
amplitude da faixa.

Alguns autores utilizam a frequncia absoluta ou a


porcentagem na construo do histograma, o que pode
ocasionar distores (e, consequentemente, ms
interpretaes) quando amplitudes diferentes so utilizadas
nas faixas.
Histograma
Boxplot

Para constru-lo, desenhamos uma caixa com o nvel superior


dado pelo terceiro quartil (Q3) e o nvel inferior pelo primeiro
quartil (Q1). A mediana (Q2) representada por um trao no
interior da caixa e segmentos de reta so colocados da caixa
at os valores mximo e mnimo, que no sejam observaes
discrepantes.

O critrio para decidir se uma observao discrepante pode


variar; chamaremos de discrepante os valores maiores do que
Q3 + 1, 5 (Q3 Q1) ou menores do que
Q1 1, 5 (Q3 Q1).

O Boxplot fornece informaes sobre posio, disperso,


assimetria, caudas e valores discrepantes.
Boxplot

Figura: Consumos domiciliares por grupo de despesa, em escala


natural (esq) e logartmica (dir)
Grfico de linha ou sequncia

Adequados para apresentar observaes medidas ao longo do


tempo, enfatizando sua tendncia ou periodicidade.
Polgono de frequncias

Semelhante ao histograma, mas construdo a partir dos pontos


mdios das classes.
Diagrama de disperso

Adequado para descrever o comportamento conjunto de duas


variveis quantitativas. Cada ponto do grfico representa um
par de valores observados.

Você também pode gostar