Você está na página 1de 42

Estatstica para Cursos de

Engenharia e Informtica
Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia
So Paulo: Atlas, 2004

Cap. 3 Anlise exploratria de


dados

APOIO:
Fundao de Apoio Pesquisa Cientfica e Tecnolgica do Estado de Santa Catarina
(FAPESC)
Departamento de Informtica e Estatstica UFSC (INE/CTC/UFSC)

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Dados e variveis

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Dados e variveis

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Dados e variveis

quantitativa dados quantitativos

varivel
qualitativa ou dados qualitativos
categrica ou categorizados

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Distribuio de freqncias

A distribuio de freqncias consiste na


organizao dos dados de acordo com as
ocorrncias dos diferentes resultados observados.

Pode ser apresentada em tabela ou grfico.

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Dados
Provedor usado por cada usurio
indivduo provedor indivduo provedor indivduo provedor indivduo provedor

1 C 11 C 21 B 31 A
2 A 12 A 22 A 32 A
3 B 13 B 23 A 33 B
4 B 14 D 24 B 34 C
5 C 15 A 25 A 35 B
6 B 16 B 26 A 36 D
7 D 17 B 27 B 37 B
8 B 18 C 28 D 38 B
9 B 19 D 29 D 39 B
10 A 20 B 30 C 40 C

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Distribuio de freqncias para variveis qualitativas

Tabela. Distribuio de freqncias do


provedor usado pelo visitante do site.
Provedor Freqncia Percentagem
A 10 25,0
B 17 42,5
C 7 17,5
D 6 15,0
Total 40 100,0

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Distribuio de freqncias para variveis qualitativas

50%
40%
30%
20%
10%
0%
A B C D
provedor

Grfico de colunas para a apresentao da distribuio


de freqncias do provedor usado pelo visitante do site.

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Distribuio de freqncias para variveis qualitativas

15%
25%

A
18% B
C
D

42%

Grfico de setores para a apresentao da distribuio


de freqncias do provedor usado pelo visitante do site.

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Distribuio de freqncias para variveis
quantitativas discretas

% de itens
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7

Nmero de defeitos

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Variveis contnuas
Construo da distribuio de freqncias

5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1


5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2
8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7
8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6
5,7 6,2 4,9 5,1 6,0 4,7 14,1 5,3
4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9
6,5 5,9

amplitude dos dados

4,7 14,1

4 5 6 7 8 9 10 11 12 13 14 15
11 classes de amplitude unitria

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Tabela de freqncias: varivel contnua

Classes de Ponto Nmero de Percentagem de Percentagem


tempo mdio observaes observaes acumulada
nj 100fj 100Fj
4 | 5 4,5 7 14 14
5 | 6 5,5 18 36 50
6 | 7 6,5 13 26 76
7 | 8 7,5 4 8 84
8 | 9 8,5 5 10 94
9 | 10 9,5 2 4 98
10 | 11 10,5 0 0 98
11 | 12 11,5 0 0 98
12 | 13 12,5 0 0 98
13 | 14 13,5 0 0 98
14 | 15 14,5 1 2 100

Total - 50 100 -

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Histograma

20

18

16
nmero de observaes

14

12

10

0
3 4 5 6 7 8 9 10 11 12 13 14 15
tempo (em segundos) para carga de um aplicativo

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Formas de uma distribuio de freqncias

Distribuies diferentes em termos da posio


central

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Formas de uma distribuio de freqncias

Distribuies diferentes quanto disperso

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Formas de uma distribuio de freqncias

Distribuies diferentes quanto assimetria

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Formas de uma distribuio de freqncias

Distribuies diferentes quanto curtose

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Medidas descritivas
A mdia aritmtica: uma medida de posio
central.

x1 + x 2 + ... + x n 1 n
x= = xi
n n i =1

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo

Tempo (minutos)

Temperatura (0C) 20 25 30
60 29,7 28,7 30,2 31,0 30,6 32,8 32,9 32,7 34,8
31,3 31,2 31,7 31,9 31,2 31,2 34,9 33,8 34,9
70 36,6 35,7 35,3 35,7 40,4 41,7 34,8 36,8 37,4
35,1 30,2 37,2 36,9 34,5 40,0 38,9 38,7 42,5
80 40,2 33,6 33,4 37,0 34,4 29,8 36,0 31,3 36,6
35,2 38,1 33,0 33,9 43,2 35,5 32,5 39,2 35,9

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo

Mdias aritmticas do rendimento, para diferentes nveis de


temperatura e tempo de reao, num processo qumico.

Tempera- Tempo (minutos)

tura (0C) 20 25 30
60 30,5 31,4 34,0
70 35,0 38,2 38,2
80 35,6 35,6 35,3

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo
Rendimento mdio em funo
do tempo e temperatura
39

38

37

36
Rendimento (%)

35

34

33

32

31

30
60 graus
29 70 graus
20 25 30
80 graus
Tempo (minutos)

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo: notas dos alunos de trs turmas

Turma Notas dos alunos Mdia da turma


A 4 5 5 6 6 7 7 8 6,00
B 1 2 4 6 6 9 10 10 6,00
C 0 6 7 7 7 7,5 7,5 6,00

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo: notas dos alunos de trs turmas

Turma A

Turma B

Turma C

0 2 4 6 8 10 12
notas

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Como medir a disperso?

Exemplo: Turma A (4 5 5 6 6 7 7 8)

4 5 6 7 8

distncia (desvio) em relao mdia

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Como medir a disperso?
Descrio notao resultados numricos
Valores (notas dos alunos) xi 4 5 5 6 6 7 7 8

Mdia x 6

Desvios em relao mdia xi x -2 -1 -1 0 0 1 1 2


Desvios quadrticos
( x i x )2 4 1 1 0 0 1 1 4

n
Varincia (da amostra): s =
2 1
(x i x ) 2

n 1 i =1

4 +1 +1 + 0 + 0 +1 +1 + 4
s2 = = 1,71
8 1

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Como medir a disperso?
Descrio notao resultados numricos
Valores (notas dos alunos) xi 4 5 5 6 6 7 7 8

Mdia x 6

Desvios em relao mdia xi x -2 -1 -1 0 0 1 1 2


Desvios quadrticos
( x i x )2 4 1 1 0 0 1 1 4

1 n
Desvio padro (da amostra): s= i ( x x ) 2

n 1 i =1

4 +1 +1 +0 +0 +1 +1 +4
s= = 1,71= 1,31
8 1

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Medidas descritivas das notas finais dos
alunos de trs turmas.

Turma Nmero de Mdia Desvio


alunos padro
A 8 6,00 1,31
B 8 6,00 3,51
C 7 6,00 2,69

Interprete.

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Ex: Rendimento de um processo qumico

Rendimento mdio em funo


do tempo e temperatura Desvio padro do rendimento em
39 funo do tempo e temperatura
38 5,0

37 4,5

Desvio padro do rendimento


36 4,0
Rendimento (%)

35 3,5

34 3,0

33 2,5

32 2,0

31 1,5

30 1,0
60 graus
29 70 graus 0,5
20 25 30 60 graus
80 graus 0,0
Tempo (minutos) 70 graus
20 25 30
80 graus
Tempo

Interprete.

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Outra forma de calcular o desvio padro

1 n 2 2
s= x i nx
n1 i =1

Valores xi : 4 5 5 6 6 7 7 8
Valores ao quadrado xi2 : 16 25 25 36 36 49 49 64
n n
x
i =1
i = 48 x =6 i = 300
x 2

i =1

300 8.(6 )2 300 288 12


s= = = = 1,31
7 7 7

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Medidas baseadas na ordenao dos dados

25% 25%
25%

25%
qi md qs

Quartil
inferior mediana
Quartil
superior

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Medidas baseadas na ordenao dos dados

Dados ordenados:
n +1
posio de qi :
4
n +1
25% 25%
25% posio de md :
25%
2
qi md qs 3(n + 1)
posio de q s :
4
Se fracionrio interpolao linear

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Exemplo
Observaes: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12.
Ordenando:
3 5 5 6 7 8 9 11 12 15 18
n = 11

n +1
posio de qi : =3 qi = 5
4
n +1 md = 8
posio de md : =6
2
3(n + 1) q s = 12
posio de q s : =9
4

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Comparao entre mdia e mediana

A mdia mais influenciada por valores


discrepantes.

50% dos valores 50% dos valores

0 10 20 30 40 50 60 70

md = 22,5 x = 24,7

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Comparao entre mdia e mediana

(a) distribuio
simtrica
50% 50%

mdia = mediana (b) distribuio


assimtrica
50%
50%

mediana mdia

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Diagrama em caixas

max
qs + 1,5dq

qs
dq = qs - qi
md
qi

min

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Diagrama em caixas e forma da distribuio

25%
25% 25% 25%
25%
25% 25% 25%

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Interprete o grfico

28
Renda
23
familiar
(sal. mn.) 18
13

Monte Encosta
Verde do Morro

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Observaes ao longo do tempo

EXEMPLO: todos os dias retirada uma amostra


de dez sacos de leite de um laticnio, durante 23
dias.

Quer-se acompanhar o nvel e a variabilidade do


peso.

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Observaes ao longo do tempo
Grfico das mdias amostrais
1037
1036,2
1036

1035

1034
peso (g)

1033 1033,0

1032

1031

1030 1029,8
1029
1 5 10 15 20

amostra

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Observaes ao longo do tempo
Grfico dos desvios padro amostrais
7

6
5,68
5

4
peso (g)

3,30
3

1 0,92

0
1 5 10 15 20

amostra

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Orientao geral para anlise exploratria de
dados no temporais
Tabela
Distribuio de
freqncias
Varivel Grfico de
qualitativa barras, colunas
ou setores
Percentagens
Anlise
univariada
Histograma
Distribuio de
freqncias
Varivel
Ramo-e-folhas
quantitativa
Medidas descritivas (mdia,
desvio padro, mediana, etc.)

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004
Orientao geral para anlise exploratria de
dados no temporais

Medidas descritivas da
varivel quantitativa em cada
Uma varivel quantitativa categoria da qualitativa
e outra qualitativa
Diagrama em caixas mltiplo
Anlise Duas variveis
biivariada qualitativas Tabela de contingncia (Cap. 10)

Diagrama de disperso (Cap. 11)


Duas variveis
quantitativas
Coeficiente de correlao (Cap. 11)

BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e Informtica. Atlas, 2004

Você também pode gostar