Escolar Documentos
Profissional Documentos
Cultura Documentos
Cap 3 - Anаlise exploratoria de dados PDF
Cap 3 - Anаlise exploratoria de dados PDF
Engenharia e Informática
Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia
São Paulo: Atlas, 2004
APOIO:
Fundação de Apoio à Pesquisa Científica e Tecnológica do Estado de Santa Catarina
(FAPESC)
Departamento de Informática e Estatística – UFSC (INE/CTC/UFSC)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Dados e variáveis
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Dados e variáveis
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Dados e variáveis
variável
qualitativa ou dados qualitativos
categórica ou categorizados
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Dados
Provedor usado por cada usuário
indivíduo provedor indivíduo provedor indivíduo provedor indivíduo provedor
1 C 11 C 21 B 31 A
2 A 12 A 22 A 32 A
3 B 13 B 23 A 33 B
4 B 14 D 24 B 34 C
5 C 15 A 25 A 35 B
6 B 16 B 26 A 36 D
7 D 17 B 27 B 37 B
8 B 18 C 28 D 38 B
9 B 19 D 29 D 39 B
10 A 20 B 30 C 40 C
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências para variáveis qualitativas
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências para variáveis qualitativas
50%
40%
30%
20%
10%
0%
A B C D
provedor
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências para variáveis qualitativas
15%
25%
A
18% B
C
D
42%
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências para variáveis quantitativas
discretas
% de itens
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7
Número de defeitos
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Variáveis contínuas
Construção da distribuição de freqüências
4,7 14,1
4 5 6 7 8 9 10 11 12 13 14 15
11 classes de amplitude unitária
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Tabela de freqüências: variável contínua
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Histograma
20
18
16
número de observações
14
12
10
0
3 4 5 6 7 8 9 10 11 12 13 14 15
tempo (em segundos) para carga de um aplicativo
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüências
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüências
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüências
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüências
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas descritivas
• A média aritmética: uma medida de posição central.
x 1 x 2.. . x n 1 n
x = = ∑ xi
n n i=1
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplo
Tempo (minutos)
Temperatura (0C) 20 25 30
60 29,7 28,7 30,2 31,0 30,6 32,8 32,9 32,7 34,8
31,3 31,2 31,7 31,9 31,2 31,2 34,9 33,8 34,9
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplo
tura (0C) 20 25 30
60 30,5 31,4 34,0
70 35,0 38,2 38,2
80 35,6 35,6 35,3
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplo
Rendimento médio em função
do tempo e temperatura
39
38
37
Rendimento (%)
36
35
34
33
32
31
30
60 graus
29 70 graus
20 25 30
80 graus
Tempo (minutos)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplo: notas dos alunos de três turmas
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplo: notas dos alunos de três turmas
Turma A
Turma B
Turma C
0 2 4 6 8 10 12
notas
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Como medir a dispersão?
Exemplo: Turma A (4 5 5 6 6 7 7 8)
4 5 6 7 8
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Como medir a dispersão?
Descrição notação resultados numéricos
Valores (notas dos alunos) 4 5 5 6 6 7 7 8
xi
Média x 6
4 1 1 0 0 1 1 4
s2 = = 1,71
8− 1
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Como medir a dispersão?
Descrição notação resultados numéricos
Valores (notas dos alunos) 4 5 5 6 6 7 7 8
xi
Média x 6
n
1 2
Desvio padrão (da amostra): s= ∑
n−1 i=1
x i−x
s=
4 1 1 0 0 1 1 4
8− 1
= 1,71 =1,31
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas descritivas das notas finais dos
alunos de três turmas.
Interprete.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Ex: Rendimento de um processo químico
37 4,5
35 3,5
34 3,0
33 2,5
32 2,0
31 1,5
30 1,0
60 graus
29 70 graus 0,5
20 25 30 60 graus
80 graus 0,0
Tempo (minutos) 70 graus
20 25 30
80 graus
Tempo
Interprete.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Outra forma de calcular o desvio padrão
n
1
s=
n−1
∑ x 2i − n x2
i=1
Valores xi : 4 5 5 6 6 7 7 8
Valores ao quadrado xi2 : 16 25 25 36 36 49 49 64
n n
∑ x i =48
i=1
x =6 ∑ x 2i =300
i=1
2
s=
300 − 8.6
7
=
300 − 288
7
=
12
7
= 1,31
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas baseadas na ordenação dos dados
25% 25%
25%
25%
qi md qs
Quartil
inferior mediana
Quartil
superior
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas baseadas na ordenação dos dados
Dados ordenados:
n1
posição de qi :
4
n1
25% 25%
25% posição de md :
25%
2
qi md qs 3n1
posição de q s :
4
Se fracionário interpolação linear
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplo
Observações: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12.
Ordenando:
3 5 5 6 7 8 9 11 12 15 18
n = 11
n1
posição de q i :
4
=3 q i =5
n1 md =8
posição de md : =6
2
3 n1 q s=12
posição de q s : =9
4
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Comparação entre média e mediana
0 10 20 30 40 50 60 70
md = 22,5 x =24 ,7
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Comparação entre média e mediana
(a) distribuição
simétrica
50% 50%
mediana média
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Diagrama em caixas
max
qs + 1,5dq
qs
dq = qs - qi
md
qi
min
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Diagrama em caixas e forma da distribuição
25%
25% 25% 25%
25%
25% 25% 25%
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Interprete o gráfico
28
Renda
23
familiar
(sal. mín.) 18
13
Monte Encosta
Verde do Morro
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Observações ao longo do tempo
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Observações ao longo do tempo
Gráfico das médias amostrais
1037
1036,2
1036
1035
1034
peso (g)
1033 1033,0
1032
1031
1030 1029,8
1029
1 5 10 15 20
amostra
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Observações ao longo do tempo
Gráfico dos desvios padrão amostrais
7
6
5,68
5
4
peso (g)
3,30
3
1 0,92
0
1 5 10 15 20
amostra
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Orientação geral para análise exploratória de
dados não temporais
Tabela
Distribuição de
freqüências
Variável Gráfico de
qualitativa barras, colunas
ou setores
Percentagens
Análise
univariada
Histograma
Distribuição de
freqüências
Variável
Ramo-e-folhas
quantitativa
Medidas descritivas (média,
desvio padrão, mediana, etc.)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Orientação geral para análise exploratória de
dados não temporais
Medidas descritivas da
variável quantitativa em cada
Uma variável quantitativa categoria da qualitativa
e outra qualitativa
Diagrama em caixas múltiplo
Análise Duas variáveis
biivariada qualitativas Tabela de contingência (Cap. 10)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004