Você está na página 1de 30

Captulo 1

Anlise Exploratria de Dados

Introduo

A finalidade da Anlise Exploratria de Dados (AED)


examinar os dados previamente aplicao de qualquer
tcnica estatstica. Desta forma o analista consegue um
entendimento bsico de seus dados e das relaes existentes
entre as variveis analisadas.
Aps a coleta e a digitao de dados em um banco de dados
apropriado, o prximo passo a anlise descritiva. Esta etapa
fundamental, pois uma anlise descritiva detalhada permite
ao pesquisador familiarizar-se com os dados, organiz-los e
sintetiz-los de forma a obter as informaes necessrias do
conjunto de dados para responder as questes que esto
sendo estudadas.

Etapas da AED
Para realizar uma AED recomenda-se seguir as seguintes
etapas:
preparar os dados para serem acessveis a qualquer
tcnica estatstica;
realizar um exame grfico da natureza das variveis
individuais a analizar e uma anlise descritiva que permita
quantificar alguns aspectos grficos dos dados;
realizar um exame grfico das relaes entre as variveis
analisadas e uma anlise descritiva que quantifique o grau
de inter-relao entre elas;
identificar os possveis casos atpicos (outliers);
avaliar, se for necesrio, a presena de dados ausentes
(missing);
avaliar, se for necesrio, algumas suposies bsicas,
como normalidade, lineariedade e homocedasticidade.

Etapas da AED

A AED extrai informaes de um conjunto de dados sem o


peso das suposies de um modelo probabilstico. As tcnicas
grficas desempenham um importante papel nesta forma de
abordagem.
Para que a AED possa ser compreendida, a seguir mostramos
a estratgia de anlise da Estatstica Clssica, Estatstica
Bayesiana e estas duas so confrontadas com a Anlise
Exploratria de Dados.

Etapas da AED

Abordagem

Estratgia

Estatstica Clssica
Estatstica Bayesiana
EDA

Problema Dados Modelo Anlise


Problema Dados Modelo Priori Anlise
Problema Dados Anlise Modelo

De acordo com o quadro acima, diferentemente do que feito


na Estatstica Clssica e Estatstica Bayesiana, na Anlise
Exploratria de Dados no h a imposio de um modelo aos
dados, mas sim um trabalho de minerao nos dados que
pode eventualmente indicar qual o melhor modelo.
A AED vai alm do uso descritivo da estatstica, procura olhar
de forma mais profunda os dados, sem resumir muito a
quantidade de informaes.

Tcnicas Grficas e Resumos Numricos


Os grficos constituem uma das formas mais eficientes de
apresentao de dados. Um grfico , essencialmente, uma
figura constituda a partir de uma tabela, pois quase sempre
possvel localizar um dado tabulado num grfico.
Enquanto as tabelas fornecem uma idia mais precisa e
possibilitam um tratamento mais rigoroso aos dados, os
grficos so mais indicados em situaes cujo objetivo dar
uma viso mais rpida e fcil das variveis s quais se referem
os dados.
Portanto, a qualidade na representao grfica deve ser
pautada na clareza, simplicidade e autoexplicao. As
tcnicas grficas desempenham um papel fundamental na
AED.

Escalas de Mensurao
As tcnicas a serem utilizadas dependem da natureza de
mensurao das variveis de interesse:
Nominal: as variveis so medidas em classes discretas,
mas no possvel estabelecer ordem.
Ordinal: as variveis so medidas em classes discretas
entre as quais possvel definir uma ordem, segundo uma
relao descritvel mas no quantificvel.
Intervalar: as variveis assumem valores quantitativos,
no possuem zero absoluto, i.e. no possuem uma
medida de ausncia de atributo.
Razo: as variveis assumem valores quantitativos, cuja
relao exata entre estes possvel definir porque esta
escala possui um zero absoluto.

Escalas de Mensurao
O tipo da anlise que pode ser realizado depende da escala de
medida da varivel analizada. Na tabela a seguir se sugerem
as representaes grficas e resumos descritivos numricos
mais recomendveis para realizar essa anlise.

Escala de
medida

Representaes
Grficas

Medidas de
tendncia central

Nominal

Diagrama de barras
Diagrama de linhas
Diagrama de pizza

Moda

Ordinal

Boxplot

Mediana

Intervalo Interquartlico

Intervalo

Histogramas
Polgono de frequncias

Mdia

Desvio padro

Mdia Geomtrica

Coeficiente de Variao

Razo

Medidas de
disperso

Tipos de variveis
Varivel:
Qualquer caracterstica associada a uma populao
Classificao:
Qualitativa: so aquelas que apresentam como possveis
realizaes uma qualidade ou atributo do indivduo
pesquisado
Nominal: sexo, cor dos olhos
Ordinal: classe social, grau de instruo

Quantitativa: so aquelas que apresentam como


possveis realizaes nmeros resultantes de uma
contagem ou mensurao
Contnua: peso, altura
Discreta: nmero de filhos, nmero de carros

Variveis Quantitativas
Medidas de posio: valor ao redor do qual os dados esto
distribudos.
Mximo (max): a maior observao
Mnimo (min): a menor observao
Moda (Mo): o valor (ou atributo) que ocorre com maior
frequncia.
): soma de todos os valores da varivel dividida
Mdia (X
pelo nmero de observaes.
Mediana (Me): valor que deixa 50% das observaes
sua esquerda
Quartis: divide um conjunto de valores dispostos em forma
crescente em quatro partes.
Primeiro Quartil (Q1): valor que deixa 25% das
observaes sua esquerda.
Terceiro Quartil (Q3): valor que deixa 75% das
observaes sua esquerda.

Variveis Quantitativas
Medidas de Disperso: A finalidade encontrar um valor que
resuma a variabilidade de um conjunto de dados
Amplitude: diferena entre o valor mximo e o valor
mnimo
Intervalo-Interquartil: a diferena entre o terceiro quartil
e o primeiro quartil, ou seja, Q3 - Q1
Varincia: mdia dos quadrados dos desvios em relao
mdia aritmtica
Desvio Padro: mede a variabilidade independente do
nemro de observaes e com a mesma unidade de
medida da mdia
Coeficiente de Variao: mede a variabilidade numaescala
percentual independente da unidade de medida ou da
ordem de grandeza da varivel
s
CV = 100%
X

Exame Grfico dos Dados

Distribuio:
Histograma, ramo-e-folhas
Relao entre as variveis:
Diagrama de disperso
Diferenas entre grupos:
Box-plot (observaes atpicas podem aparecer somente aps
agrupamento)

Descrio dos dados


importante conhecer e saber construir os principais tipos de
tabelas, grficos e medidas resumo para realizar uma boa
anlise descritiva dos dados. Cada ferramenta fornece um tipo
de informao e o seu uso depende, em geral, do tipo de
varivel que est sendo investigada.

varivel qualitativa*

varivel quantitativa

tabela de frequncias
grfico de barras
diagrama circular (pizza)

medidas de posio: mdia, mediana, moda


medidas de disperso: varincia, desvio-padro,
amplitude, coeficiente de variao
tabela de frequncias
histograma
boxplot
grfico de linha ou sequncia
polgono de frequncias

*Esta abordagem tambm pode ser interessante para as variveis quantitativas


discretas.

Tabela de frequncias

Como o nome indica, conter os valores da varivel e suas


respectivas contagens, as quais so denominadas frequncias
absolutas ou simplesmente, frequncias.
No caso de variveis qualitativas ou quantitativas discretas, a
tabela de frequncia consiste em listar os valores possveis da
varivel, numricos ou no, e fazer a contagem na tabela de
dados brutos do nmero de suas ocorrncias.
A frequncia do valor i ser representada por ni , a frequncia
total por n e a frequncia relativa por hi = hi /n.

Tabela de frequncias
Para variveis cujos valores possuem ordenao natural
(qualitativas ordinais e quantitativas em geral), faz sentido
incluirmos tambm uma coluna contendo as frequncias
acumuladas Ni e Hi , obtidas pela soma das frequncias de
todos os valores da varivel, menores ou iguais ao valor
considerado.
No caso das variveis quantitativas contnuas, que podem
assumir infinitos valores diferentes, a tabela de frequncia
precissa de classes ou faixas de valores e contamos o nmero
de ocorrncias em cada faixa.
Apesar de no adotarmos nenhuma regra formal para
estabelecer as faixas, utilizaremos em geral, de 5 a 8 faixas
com mesma amplitude. Eventualmente, faixas de tamanho
desigual podem ser convenientes para representar valores nas
extremidades da tabela.

Tabela de frequncias

Classes

Intervalos

Frequncia
absoluta

Frequncia
relativa

Frequncia
absoluta
acumulada

Frequncia
relativa
acumulada

(LIi LSi )

ni

hi

Ni

Hi

N1 = n1
...

H1 = n1 = h1
...

Nj = n1 + n2 + . . . + nj
...
Nk = n

N
Hj = nj = h1 + h2 + . . . + hj
...
Hk = 1

c1
...

(LI1 LS1 )
...

n1
...

h1 =
...

cj
...
ck

(LIj LSj )
...
(LIk LSk )

nj
...
nk

hj =
...
hk =

n1
n
nj
n
nk
n

Medidas de posio no caso de dados agrupados

Mdia: Sejam y1 , y2 , . . . , yk os pontos mdios de cada


intevalo de classe de uma distribuio de frequncia de k
classes
Pk
ny
= j=1 i i
Y
n
Mediana:
(n/2) Nj1
)
Me = LIj = c(
nj
Moda:
Mo = LIj + c(

nj nj1
)
(nj nj1 ) + (nj nj+1 )

Exemplo

Adaptado do dataset Household Expenditures (Aitchison, 1986):


Gastos domiciliares de 38 domiclios (HK$) em quatro grupos de despesas:
1

Moradia, gs, luz, etc

Alimentao, incluindo bebidas e tabaco

Outros bens, incluindo vesturio e bens durveis

Servicos, incluindo transporte e veculos

Dataset:
sex: sexo do chefe da famlia (male/female)
children: nmero de filhos (adaptado por Marcelo Lauretto)
housing, foodstuffs, othergoods, services: gastos mensais em cada grupo de
despesas

Grfico de barras

Para construir um grfico de barras, representamos os valores


da varivel no eixo das abscissas e suas frequncias ou
porcentagens no eixo das ordenadas. Para cada valor da
varivel desenhamos uma barra com altura correspondendo
sua frequncia ou porcentagem.
Este tipo de grfico interessante para as variveis qualitativas
ordinais ou quantitativas discretas, pois permite investigar a
presena de tendncia nos dados.

Grfico de Barras

Figura: Nmero de filhos por sexo do chefe de familia

Diagrama Circular

Para construir um diagrama circular ou grfico de pizza,


repartimos um disco em setores circulares correspondentes s
porcentagens de cada valor (calculadas multiplicando-se a
frequncia relativa por 100). Este tipo de grfico adapta-se
muito bem para as variveis qualitativas nominais.

Diagrama Circular

Figura: Esq: Percentual de domiclios por sexo do chefe de familia;


Dir: Percentual de domiclios por nmero de filhos

Diagrama Circular

Figura: Percentuais de domiclios por nmero de filhos


(segmentao por sexo)

Histograma

O histograma consiste em retngulos contguos com base nas


faixas de valores da varivel e com rea igual frequncia
relativa da respectiva faixa. Desta forma, a altura de cada
retngulo denominada densidade de frequncia ou
simplesmente densidade definida pelo quociente da rea pela
amplitude da faixa.
Alguns autores utilizam a frequncia absoluta ou a
porcentagem na construo do histograma, o que pode
ocasionar distores (e, consequentemente, ms
interpretaes) quando amplitudes diferentes so utilizadas
nas faixas.

Histograma

Boxplot
Para constru-lo, desenhamos uma caixa com o nvel superior
dado pelo terceiro quartil (Q3) e o nvel inferior pelo primeiro
quartil (Q1). A mediana (Q2) representada por um trao no
interior da caixa e segmentos de reta so colocados da caixa
at os valores mximo e mnimo, que no sejam observaes
discrepantes.
O critrio para decidir se uma observao discrepante pode
variar; chamaremos de discrepante os valores maiores do que
Q3 + 1, 5 (Q3 Q1) ou menores do que
Q1 1, 5 (Q3 Q1).
O Boxplot fornece informaes sobre posio, disperso,
assimetria, caudas e valores discrepantes.

Boxplot

Figura: Consumos domiciliares por grupo de despesa, em escala


natural (esq) e logartmica (dir)

Grfico de linha ou sequncia


Adequados para apresentar observaes medidas ao longo do
tempo, enfatizando sua tendncia ou periodicidade.

Polgono de frequncias
Semelhante ao histograma, mas construdo a partir dos pontos
mdios das classes.

Diagrama de disperso
Adequado para descrever o comportamento conjunto de duas
variveis quantitativas. Cada ponto do grfico representa um
par de valores observados.

Você também pode gostar