Você está na página 1de 50

Anlise Preliminar dos Dados

Aula 02
Prof. Christopher Freire Souza
Centro de Tecnologia
Universidade Federal de Alagoas
www.ctec.ufal.br/professor/cfs

2
Anlise Preliminar dos
Dados

Objetivo
Compreenso e descrio dos dados a partir da
organizao, resumo e elaborao de grficos e
estimao de estatsticas.

3
Anlise Preliminar dos
Dados

Caractersticas importantes dos dados


Centro: indica o meio do conjunto de dados
Variao: indica quanto os dados variam em relao ao
centro
Distribuio: indica a forma
Outliers ou valores discrepantes: indica valores
amostrais que se localizam muito longe da grande
maioria
Tempo: variao dos valores com o tempo

4
Anlise Preliminar dos
Dados

Anlise Preliminar dos Dados


Resumos e Grficos
Estatsticas
Anlise Exploratria de Dados

5
Anlise Preliminar dos
Dados

Resumos e Grficos

Distribuio de freqncia
Histogramas
Histogramas polares
Polgono de freqncia
Ogiva
Grfico de Pareto
Diagramas de disperso
Grficos de sries temporais
Criao de grficos estatsticos (Curva de permanncia e
grfico polar)

6
Anlise Preliminar dos
Dados

Resumos e Grficos (Distribuio de


freqncia)
Para n>20, agrupa-se os dados em
classes, sendo a freqncia o nmero de
valores em cada classe.
Definies:
Limites inferiores de classe: menores
nmeros que podem pertencer a cada
classe. Ex. ...,21; 31; 41;...
Limites superiores de classe: maiores
nmeros que podem pertencer a cada
classe. Ex. ...,30; 40; 50;...
Fronteiras de classe: nmeros usados
para separar as classes. Ex. ...,30,5; 40,5;
50,5;...
Ponto mdio de classe: mdia aritmtica
dos limites de cada classe. Ex. ...,35,5;
45,5; 55,5;...
Amplitude de classe: diferena entre
limites inferiores de classe consecutivos.
Ex. 31-21=10.

Idade

Freqncia

21-30

28

31-40

30

41-50

12

51-60

61-70

71-80

7
Anlise Preliminar dos
Dados

Resumos e Grficos (Distribuio de


freqncia)
Procedimento para elaborao de
tabelas de distribuio de freqncia:
Definir nmeros de classe,
recomendando-se um nmero entre 5
e 20, definido por convenincia. Ex.
para dados cujos valores variam entre
20 e 100, aplicar 8 classes.
Calcular a amplitude dos dados e
arredondar o nmero de classes para
cima.
Definir ponto inicial (limite inferior da
1 classe): valor mnimo ou inferior.
Definir outros limites inferiores.
Definir limites superiores
(possibilidade de intervalos abertos).
Calcular freqncias (realizar
contagem)

Idade

Freqncia

21-30

28

31-40

30

41-50

12

51-60

61-70

71-80

2
Mesmo procedimento para
freqncia relativa ou
acumulada

8
Anlise Preliminar dos
Dados

Resumos e Grficos (Histogramas)


Verso grfica da tabela
de freqncias.
MATLAB: hist

Vazes mdias anuais no rio Paran na


UHE Itaip

9
Anlise Preliminar dos
Dados

Resumos e Grficos (Histogramas


polares)
Histogramas em eixos
polares, onde as classes
so apresentadas no eixo
angular e as freqncias
no eixo radial.
MATLAB: rose

90

120

60

3
2

150

30

1
180

210

330

240

300
270

10
Anlise Preliminar dos
Dados

Resumos e Grficos (Polgono de


freqncia)
Segmentos de retas
que conectam
pontos mdios da
parte superior de
barras de freqncia
de classe,
estendidos
esquerda e direita
para alcanar o eixo
horizontal.

11
Anlise Preliminar dos
Dados

Resumos e Grficos (Ogiva)


Grficos de linhas que
representam
freqncia acumulada
de no-excedncia. O
grfico intercepta
valores das fronteiras
de classes, iniciando
da fronteira inferior
da primeira classe e
terminando na
fronteira superior da
ltima classe.

12
Anlise Preliminar dos
Dados

Resumos e Grficos (Grfico de


Pareto)
Grfico de barras para
dados qualitativos, sendo
as barras ordenadas em
funo dos valores de
freqncia de maneira
decrescente.
Recomenda-se a aplicao
de grficos de Pareto em
vez de grficos de setores
(i.e. pizza).
MATLAB: pareto

Prioridade de adequao
250

97%

200

78%

150

58%

100

39%

50

19%

Ct.Est. Sl.AulaCopias C.A.

Monit. Lb.Cmpt.W.C. Capac. Pesq. Lb.Ens.

0%

13
Anlise Preliminar dos
Dados

Resumos e Grficos (Diagramas de


disperso)
Grfico de pares de dados, til
anlise de relao/associao
entre variveis.
MATLAB: scatter

14
Anlise Preliminar dos
Dados

Resumos e Grficos (Grficos de


sries temporais)
Hidrograma do posto XINGO
18000
16000

dados no-usados
dados em uso

14000
12000
Q(m/s)

Grfico onde as
informaes de uma
varivel so
representadas no eixo
das ordenadas com seus
pares equivalentes ao
momento/tempo de
ocorrncia no eixo das
abcissas.
MATLAB: plot

10000
8000
6000
4000
2000
0
31 34 37 40 43 4649 52 55 58 61 64 6770 73 76 79 82 8588 91 94 97 00 03 06
Ano

15
Anlise Preliminar dos
Dados

Resumos e Grficos (Criao de


grficos estatsticos)
Oportunidade para apresentar dados importantes e
interessantes de maneira eficaz
Princpios para criao de grficos (Tufte apud Triola pg
50)
P/ pequena quantidade de dados, use tabela
Foco nos dados. Ilustrao no deve distrair o leitor. Gaste a
tinta de impresso nos dados.
No distorcer os dados. No use reas e volumes para
informao unidimensional.
No usar linhas inclinadas, pontos ou quadriculados
(hachuras), pois criam desconfortvel iluso de movimento.

16
Anlise Preliminar dos
Dados

Resumos e Grficos (Criao de


grficos estatsticos)
Curva de Permanncia do posto XINGO
18000
16000
14000
12000
Q(m/s)

Curva de permanncia
Freqncia acumulada de
excedncia de valores
Procedimento:
Ordena dados de forma
decrescente
Calcula a % de excedncia
pela razo da ordem de
cada registro pela
quantidade de dados
Grfico das vazes
ordenadas contra a % de
excedncia

10000
8000
6000
4000
2000
0

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95100
Frao do tempo (%)

17
Anlise Preliminar dos
Dados

Resumos e Grficos (Criao de


grficos estatsticos)
Grfico polar
Apresenta dados em
coordenadas polares,
onde o eixo radial a
magnitude e o angular a
direo ou a data.
MATLAB: polar

66231000(ss) and 66160000(bs) stations 82-90(pre) and


02-05(post) annual maximum specific flows (l.s -1.km-2)
A
M

press
postss
prebs
postbs

J
100
A

200
S

300
O

18
Anlise Preliminar dos
Dados

Estatsticas

Medidas de centro
Medidas de variao
Medidas de forma (posio relativa)
Medidas de associao entre variveis

19
Anlise Preliminar dos
Dados

Estatsticas
Quantis: dividem a amostra ordenada de dados
em grupos com aproximadamente o mesmo
nmero de dados
99 percentis - diviso em 100 partes
3 quartis diviso em 4 partes

20
Anlise Preliminar dos
Dados

Estatsticas (Medidas de forma /


posio relativa)
Percentil
Percentis dividem os valores ordenados em 100 partes iguais.
Assim, existem 99 percentis.
Para calcular o percentil a que um valor xi corresponde, aplica-se:

onde n o tamanho da amostra.

21
Anlise Preliminar dos
Dados

Estatsticas (Medidas de forma /


posio relativa)
Percentil
Para calcular o valor x para um percentil especfico, aplica-se aos
dados ordenados:
onde L o percentil que se deseja estimar. Caso i no seja exato, o valor
de x referente ao percentil em anlise ser o da posio maior inteiro
mais prximo de i. Caso i seja exato, estima-se o percentil a partir da
mdia entre os valores de xi e xi+1

MATLAB: prctile
Como em curvas de permanncia a ordem dos dados decrescente,
PL=Q(100-L). Ex. P10=Q90

22
Anlise Preliminar dos
Dados

Estatsticas (Medidas de forma /


posio relativa)
Quartil
Percentil que divide os dados em quartos.
Q1=P25; Q2=P50 ; Q3=P75

23
Anlise Preliminar dos
Dados

Estatsticas (Medidas de centro)

Ponto Mdio
Mediana
Moda
Mdia
Mdia aparada

24
Anlise Preliminar dos
Dados

Estatsticas (Medidas de centro)


Ponto Mdio = (min+max)/2

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Ponto mdio = (1+36)/2 = 18,5

25
Anlise Preliminar dos
Dados

Estatsticas (Medidas de centro)


Mediana
Valor do meio da amostra, para dados ordenados em
funo de seus valores

MATLAB: median
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Mediana = 12,5

26
Anlise Preliminar dos
Dados

Estatsticas (Medidas de centro)


Mdia

onde n o nmero de dados, i.e., o tamanho da amostra, fi a


freqncia (nmero de observaes) de ocorrncia do valor xi.

MATLAB: mean

Por exemplo, para a amostra [1, 3, 6, 15, 15, 21, 28, 36]
Mdia = (1+3+6+21+28+36).1/8+15.2/8 = 15,625

27
Anlise Preliminar dos
Dados

Estatsticas (Medidas de centro)


Mdia aparada
Clculo da mdia da parcela central (100-x)% da amostra
ordenada em funo de seus valores.
MATLAB: trimmean
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Mdia aparada em 0% = 15
Mdia aparada em 25% = 13,83
Mdia aparada em 50% = 13

28
Anlise Preliminar dos
Dados

Estatsticas (Medidas de centro)


Moda
Valor que ocorre mais freqentemente
MATLAB: mode
Simetria da distribuio dos dados:
mdia=moda=mediana

29
Anlise Preliminar dos
Dados

Estatsticas (Medidas de variao)

Amplitude
Desvio mdio absoluto
Desvio padro
Varincia
Coeficiente de variao
Intervalo interquartil
Intervalo percentlico

30
Anlise Preliminar dos
Dados

Estatsticas (Medidas de variao)


Amplitude = max-min
MATLAB: range
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Amplitude = (36-1) = 35

31
Anlise Preliminar dos
Dados

Estatsticas (Medidas de variao)


Intervalo interquartil = Q3-Q1
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Intervalo interquartil = 24,5 - 4,5 = 20

32
Anlise Preliminar dos
Dados

Estatsticas (Medidas de variao)


Intervalo percentlico = P90-P10
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Intervalo percentlico = 36 - 1 = 35

33
Anlise Preliminar dos
Dados

Estatsticas (Medidas de variao)


Desvio mdio absoluto

MATLAB: mad
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36], mdia=15
Desvios
|xi-media|=[14,12,9,5, 0, 6, 13, 21]
Desvio mdio absoluto = 10

34
Anlise Preliminar dos
Dados

Estatsticas (Medidas de variao)


Varincia
Estimador da disperso em relao mdia a partir dos quadrados
dos valores observados

MATLAB: var
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
var = 156

35
Anlise Preliminar dos
Dados

Estatsticas (Medidas de variao)


Graus de liberdade: nmero de valores
escolhidos livremente antes que os demais sejam
determinados.
Por exemplo, para a amostra [10, 13, 15, 18]
Conhecida a mdia (14) e outros n-1 dados,
chega-se ao n-simo. Logo, nmero de graus de
liberdade = n-1

36
Anlise Preliminar dos
Dados

Estatsticas (Medidas de variao)


Desvio padro
Desvio mdio dos valores em relao mdia

MATLAB: std

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Desvios
(xi-media)=[-14,-12,-9,-5, 0, 6, 13, 21]
Quadrados (xi-media)=[196,144,81,25,0,36,169,441]
Soma dos Quadrados = 1092
Desvio padro =12,49

37

Graus de Liberdade

Christopher Souza:
Anlise Preliminar de
Dados

Amostra

Mdia

Mediana

Amp.

Var.(n1)

Std(n-1)

Var.(n)

std(n)

1,1

1,0

1,0

0,0

0,0

1,2

1,5

1,5

0,5

0,707

0,25

0,5

1,5

3,0

3,0

8,0

2,828

2,1

1,5

1,5

0,5

0,707

0,25

0,5

2,2

2,0

2,0

0,0

0,0

2,5

3,5

3,5

4,5

2,121

2,25

1,5

5,1

3,0

3,0

8,0

2,828

5,2

3,5

3,5

4,5

2,121

2,25

1,5

5,5

5,0

5,0

0,0

0,0

Mdia amostral

8/3

8/3

16/9

26/9

1,3

1,44

0,89

Parmetro

8/3

26/9

1,7

2,89

1,7

Populao: 1, 2, 5

38
Anlise Preliminar dos
Dados

Estatsticas (Medidas de variao)


Desvio padro
Disperso tpica (Regra emprica da amplitude)
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Desvio padro (36 1)/4 = 8,75

39
Anlise Preliminar dos
Dados

Estatsticas (Medidas de variao)


Coeficiente de variao
Estimador adimensionalizado da disperso de valores em relao
mdia de maneira a permitir comparaes entre populaes.

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Cv=83,27%

40
Anlise Preliminar dos
Dados

Estatsticas (Medidas de forma /


posio relativa)

Escore z
Quartil
Percentil
Simetria/Assimetria
Curtose

41
Anlise Preliminar dos
Dados

Estatsticas (Medidas de forma /


posio relativa)
Escore z
Nmero de desvios padro a que se situa o valor i da amostra,
acima ou abaixo da mdia.

Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]

Escores z=[-1,12;-0,96;-0,72;-0,4; 0; 0,48; 1,04; 1,68]

42
Anlise Preliminar dos
Dados

Estatsticas (Medidas de forma /


posio relativa)
Simetria/Assimetria
Coeficiente que descreve quanto a maior parte dos dados se
encontra afastada da mdia.
O coeficiente analisa o desvio em relao mdia na 3 a potncia.

MATLAB: skewness
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
assimetria=0,5

43
Anlise Preliminar dos
Dados

Estatsticas (Medidas de forma /


posio relativa)
Curtose
Coeficiente que descreve quanto os valores mais extremos se afastam
da mdia.
O coeficiente descreve o desvio em relao mdia na 4 a potncia.

MATLAB: kurtosis
Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36]
Curtose = 1,95

44
Anlise Preliminar dos
Dados

Estatsticas (Medidas de associao


entre variveis)
Coeficiente de correlao linear de Pearson
Mede a intensidade da relao linear entre os valores quantitativos
emparelhados de amostras de duas variveis (x e y)

MATLAB: corrcoef

45
Anlise Preliminar dos
Dados

Estatsticas (Medidas de associao


entre variveis)
Coeficiente de correlao linear de Pearson = 0,7036
0.5
0.45
0.4

Q(mm/dia)

0.35
0.3
0.25
0.2
0.15
0.1
0.05
0

1.5

2.5
P(mm/dia)

3.5

Bacia do rio Acara-CE (semi-rido; 1560 km)

46
Christopher Souza: Teste
de hipteses

Postos
Nmero atribudo a um item
da amostra de acordo com sua
posio na lista ordenada.
Em caso de empates, aplica-se
a mdia dos postos como valor
de posto de cada item com
igual valor

Ex:
x: [12 10 5 5 4 5 11 12]
xo: [4 5 5 5 10 11 12 12]
io: [1 3 3 3 5 6 7,5 7,5]
i: [7,5 5 3 3 1 3 6 7,5]

47
Anlise Preliminar dos
Dados

Estatsticas (Medidas de associao


entre variveis)
Coeficiente de correlao de postos de Spearman
Mede a associao das magnitudes de duas variveis a partir das
posies dos valores ordenados por amostra (x e y)

rposto 1

6d 2

n (n 2 1)

onde d a diferena entre as posies dos correspondentes x e y.

MATLAB: corr
Spearman = 0,7143

48
Anlise Preliminar dos
Dados

Anlise Exploratria de Dados


Outliers
Diagrama de caixa

49
Anlise Preliminar dos
Dados

Anlise Exploratria de Dados


(Outliers)
Outlier - dado cujo valor se localiza muito afastado de quase todos
os demais valores da amostra.
Outliers podem ser valores atpicos reais ou um dado
errado/inexistente.
Outliers podem afetar significativamente os valores de estatsticas
como a mdia e outras dela dependentes (e.g. desvio padro, c.v.),
bem como, na definio de classes em estudos de freqncia e em
grficos.
Se um outlier for um dado real, deve-se estudar a srie com e sem o
outlier.
Uma tcnica usual para deteco de outliers comparar valores com
1,5x(Q3-Q1) abaixo de Q1 e acima de Q3.

50
Anlise Preliminar dos
Dados

Anlise Exploratria de Dados


(Diagrama de caixa)
Representao
grfica do resumo
dos cinco nmeros
(mnima, Q1,
mediana, Q3 e
mxima).
timo para
comparao de duas
ou mais amostras.
Outliers podem ser
representados.

MATLAB: boxplot