Escolar Documentos
Profissional Documentos
Cultura Documentos
Introduo
Etapas da AED
Para realizar uma AED recomenda-se seguir as seguintes
etapas:
preparar os dados para serem acessveis a qualquer
tcnica estatstica;
realizar um exame grfico da natureza das variveis
individuais a analizar e uma anlise descritiva que permita
quantificar alguns aspectos grficos dos dados;
realizar um exame grfico das relaes entre as variveis
analisadas e uma anlise descritiva que quantifique o grau
de inter-relao entre elas;
identificar os possveis casos atpicos (outliers);
avaliar, se for necesrio, a presena de dados ausentes
(missing);
avaliar, se for necesrio, algumas suposies bsicas,
como normalidade, lineariedade e homocedasticidade.
Etapas da AED
Etapas da AED
Abordagem
Estratgia
Estatstica Clssica
Estatstica Bayesiana
EDA
Escalas de Mensurao
As tcnicas a serem utilizadas dependem da natureza de
mensurao das variveis de interesse:
Nominal: as variveis so medidas em classes discretas,
mas no possvel estabelecer ordem.
Ordinal: as variveis so medidas em classes discretas
entre as quais possvel definir uma ordem, segundo uma
relao descritvel mas no quantificvel.
Intervalar: as variveis assumem valores quantitativos,
no possuem zero absoluto, i.e. no possuem uma
medida de ausncia de atributo.
Razo: as variveis assumem valores quantitativos, cuja
relao exata entre estes possvel definir porque esta
escala possui um zero absoluto.
Escalas de Mensurao
O tipo da anlise que pode ser realizado depende da escala de
medida da varivel analizada. Na tabela a seguir se sugerem
as representaes grficas e resumos descritivos numricos
mais recomendveis para realizar essa anlise.
Escala de
medida
Representaes
Grficas
Medidas de
tendncia central
Nominal
Diagrama de barras
Diagrama de linhas
Diagrama de pizza
Moda
Ordinal
Boxplot
Mediana
Intervalo Interquartlico
Intervalo
Histogramas
Polgono de frequncias
Mdia
Desvio padro
Mdia Geomtrica
Coeficiente de Variao
Razo
Medidas de
disperso
Tipos de variveis
Varivel:
Qualquer caracterstica associada a uma populao
Classificao:
Qualitativa: so aquelas que apresentam como possveis
realizaes uma qualidade ou atributo do indivduo
pesquisado
Nominal: sexo, cor dos olhos
Ordinal: classe social, grau de instruo
Variveis Quantitativas
Medidas de posio: valor ao redor do qual os dados esto
distribudos.
Mximo (max): a maior observao
Mnimo (min): a menor observao
Moda (Mo): o valor (ou atributo) que ocorre com maior
frequncia.
): soma de todos os valores da varivel dividida
Mdia (X
pelo nmero de observaes.
Mediana (Me): valor que deixa 50% das observaes
sua esquerda
Quartis: divide um conjunto de valores dispostos em forma
crescente em quatro partes.
Primeiro Quartil (Q1): valor que deixa 25% das
observaes sua esquerda.
Terceiro Quartil (Q3): valor que deixa 75% das
observaes sua esquerda.
Variveis Quantitativas
Medidas de Disperso: A finalidade encontrar um valor que
resuma a variabilidade de um conjunto de dados
Amplitude: diferena entre o valor mximo e o valor
mnimo
Intervalo-Interquartil: a diferena entre o terceiro quartil
e o primeiro quartil, ou seja, Q3 - Q1
Varincia: mdia dos quadrados dos desvios em relao
mdia aritmtica
Desvio Padro: mede a variabilidade independente do
nemro de observaes e com a mesma unidade de
medida da mdia
Coeficiente de Variao: mede a variabilidade numaescala
percentual independente da unidade de medida ou da
ordem de grandeza da varivel
s
CV = 100%
X
Distribuio:
Histograma, ramo-e-folhas
Relao entre as variveis:
Diagrama de disperso
Diferenas entre grupos:
Box-plot (observaes atpicas podem aparecer somente aps
agrupamento)
varivel qualitativa*
varivel quantitativa
tabela de frequncias
grfico de barras
diagrama circular (pizza)
Tabela de frequncias
Tabela de frequncias
Para variveis cujos valores possuem ordenao natural
(qualitativas ordinais e quantitativas em geral), faz sentido
incluirmos tambm uma coluna contendo as frequncias
acumuladas Ni e Hi , obtidas pela soma das frequncias de
todos os valores da varivel, menores ou iguais ao valor
considerado.
No caso das variveis quantitativas contnuas, que podem
assumir infinitos valores diferentes, a tabela de frequncia
precissa de classes ou faixas de valores e contamos o nmero
de ocorrncias em cada faixa.
Apesar de no adotarmos nenhuma regra formal para
estabelecer as faixas, utilizaremos em geral, de 5 a 8 faixas
com mesma amplitude. Eventualmente, faixas de tamanho
desigual podem ser convenientes para representar valores nas
extremidades da tabela.
Tabela de frequncias
Classes
Intervalos
Frequncia
absoluta
Frequncia
relativa
Frequncia
absoluta
acumulada
Frequncia
relativa
acumulada
(LIi LSi )
ni
hi
Ni
Hi
N1 = n1
...
H1 = n1 = h1
...
Nj = n1 + n2 + . . . + nj
...
Nk = n
N
Hj = nj = h1 + h2 + . . . + hj
...
Hk = 1
c1
...
(LI1 LS1 )
...
n1
...
h1 =
...
cj
...
ck
(LIj LSj )
...
(LIk LSk )
nj
...
nk
hj =
...
hk =
n1
n
nj
n
nk
n
nj nj1
)
(nj nj1 ) + (nj nj+1 )
Exemplo
Dataset:
sex: sexo do chefe da famlia (male/female)
children: nmero de filhos (adaptado por Marcelo Lauretto)
housing, foodstuffs, othergoods, services: gastos mensais em cada grupo de
despesas
Grfico de barras
Grfico de Barras
Diagrama Circular
Diagrama Circular
Diagrama Circular
Histograma
Histograma
Boxplot
Para constru-lo, desenhamos uma caixa com o nvel superior
dado pelo terceiro quartil (Q3) e o nvel inferior pelo primeiro
quartil (Q1). A mediana (Q2) representada por um trao no
interior da caixa e segmentos de reta so colocados da caixa
at os valores mximo e mnimo, que no sejam observaes
discrepantes.
O critrio para decidir se uma observao discrepante pode
variar; chamaremos de discrepante os valores maiores do que
Q3 + 1, 5 (Q3 Q1) ou menores do que
Q1 1, 5 (Q3 Q1).
O Boxplot fornece informaes sobre posio, disperso,
assimetria, caudas e valores discrepantes.
Boxplot
Polgono de frequncias
Semelhante ao histograma, mas construdo a partir dos pontos
mdios das classes.
Diagrama de disperso
Adequado para descrever o comportamento conjunto de duas
variveis quantitativas. Cada ponto do grfico representa um
par de valores observados.