Você está na página 1de 30

ANLISE EXPLORATRIA DE

DADOS 1 PARTE

Conceito
Dados
Necessrio resumi-los!
Necessrio organiz-los!

Interpretao e tomada
de decises.
2

Objetivo

Estudar comportamento INDIVIDUAL das variveis.

Estudar RELACIONAMENTO entre as variveis.

Escolha das tcnicas de AED

Nvel de mensurao das variveis.


Objetivo da anlise:
Comportamento individual da varivel.
Comportamento da varivel em funo de uma ou mais
variveis (ferramentas mltiplas).
Nmero de variveis envolvidas.
Tamanho do conjunto de dados.
Tempo disponvel para a apresentao dos resultados.
Grau de conhecimento estatstico do pblico alvo.
4

Nvel de mensurao
Tabelas de freqncia ou percentuais
Qualitativas

Grficos (barras, setores, linhas)

Quantitativas

Tabelas de freqncia ou percentuais


Grficos (diagrama de pontos, histograma,
diagrama em caixas, linhas)
Medidas de sntese: mdia, mediana,
desvio padro
5

Nvel de mensurao
Variveis

QUANTITATIVAS:

Discretas

- Os resultados possveis formam uma lista


finita (geralmente, nmeros inteiros).
Exemplo: quantidade de mquinas ligadas.
Contnuas - Teoricamente, existem infinitos resultados
possveis (um intervalo dos nmeros reais).
Exemplo: tempo de resposta (em segundos).

Mensurao de variveis
Como

medir satisfao com o trabalho?

classificar: satisfeito /

no satisfeito
grau de satisfao: escala de 0 a 10
grau de satisfao: escala de 1 a 5 associada a
adjetivos
grau de satisfao: escala construda com vrios
itens de um questionrio

Nvel de mensurao
Qual o nvel de
mensurao de cada
varivel no conjunto
ao lado?

Distribuio de freqncias

Resumo e organizao dos dados relacionando os diferentes


valores que a varivel ou variveis podem assumir aos
nmeros de ocorrncias de cada resultado.

Pode ser apresentada atravs de tabelas ou grficos (estes


possibilitam maior rapidez).

Utilizando freqncias absolutas ou relativas (estas mais


teis para comparar conjuntos de dados de tamanhos
diferentes).

Diferenas para variveis qualitativas e quantitativas.


9

Distribuio de freqncias variveis qualitativas


Marca dos produtos vendidos em 2500 transaes
Marca
Gradiente
Panasonic
Phillips
Samsung
Toshiba
Total

Freq
215
774
401
754
356
2500

%
8.6
30.96
16.04
30.16
14.24
100

Fonte: hipottica
10

Grfico de barras
Vendas das marcas
850

Freqncia

750
650
550
450
350
250
150
Gradiente

Panasonic

Phillips

Samsung

Toshiba

Marcas

11

Grfico de barras

Freqncia

Vendas das marcas


900
800
700
600
500
400
300
200
100
0
Gradiente

Panasonic

Phillips

Samsung

Toshiba

Marcas

12

Grfico em setores (circular ou


pizza)
Vendas das marcas
14%

9%

Gradiente
Panasonic
31%

Phillips
Samsung

30%

Toshiba

16%

13

Distribuio de freqncia
mltipla

Tambm chamada de dupla classificao, tabulao cruzada


ou tabela de contingncias.
Consiste em fazer o cruzamento entre duas variveis
qualitativas, registrando as ocorrncias que atendem aos
valores de ambas:
Quantas vendas da Marca Philips na regio Norte.
Quantos homens so fumantes.
Quantos domiclios tem internet banda larga.
Possibilita avaliar o comportamento de uma varivel em
funo da outra: anlise bivariada.
14

Tabela de contingncias
Marca
Centro
Extr.Sul
Leste
Norte
Sudeste
Total

Gradiente
25
42
48
24
76
215

Regio
Panasonic Philips Samsung Toshiba
146
52
82
60
79
65
218
52
183
91
142
72
148
34
43
53
218
159
269
119
774
401
754
356

Total
365
456
536
302
841
2500

Podem ser calculados percentuais em relao aos totais das linhas,


das colunas, ou ao total geral.

15

Tabela de contingncias
Marca
Gradiente Panasonic Phillips Samsung Toshiba
6.85
40.00
14.25
22.47
16.44
9.21
17.32
14.25
47.81
11.40
8.96
34.14
16.98
26.49
13.43
7.95
49.01
11.26
14.24
17.55
9.04
25.92
18.91
31.99
14.15

Regio

Perfil linha

Regio
Centro
Extr.Sul
Leste
Norte
Sudeste
Total

Centro
Extr.Sul
Leste
Norte
Sudeste

Marca
Gradiente Panasonic Phillips Samsung Toshiba
11.63
18.86
12.97
10.88
16.85
19.53
10.21
16.21
28.91
14.61
22.33
23.64
22.69
18.83
20.22
11.16
19.12
8.48
5.70
14.89
35.35
28.17
39.65
35.68
33.43
100.00
100.00
100.00 100.00 100.00

Regio
Centro
Extr.Sul
Leste
Norte
Sudeste

Total
100.00
100.00
100.00
100.00
100.00

Perfil coluna

Marca
Gradiente Panasonic Phillips Samsung Toshiba
1.00
5.84
2.08
3.28
2.40
1.68
3.16
2.60
8.72
2.08
1.92
7.32
3.64
5.68
2.88
0.96
5.92
1.36
1.72
2.12
3.04
8.72
6.36
10.76
4.76

16

Apresentao grfica
Vendas das marcas por regio
300

Freqncias

250

Centro

200

Extr.Sul

150

Leste

100

Norte
Sudeste

50
0
Gradiente Panasonic

Phillips

Samsung

Toshiba

Marcas
17

Apresentao grfica

18

Distribuio de freqncias - variveis


quantitativas
Nvel

de mensurao da varivel quantitativa:


DISCRETA: semelhante s variveis qualitativas.
Tabela de freqncias e histograma para dados
no agrupados.
CONTNUA: necessrio agrupar os dados para
possibilitar o resumo do conjunto e melhor
visualizao.
Tabelas de freqncia e histograma para dados
agrupados, diagramas em caixa.
19

Tabela de freqncias - dados no


agrupados

Semelhante s variveis qualitativas: registrar os valores


possveis e contar o nmero de ocorrncias de cada um.
Numa rede de computadores, a quantidade de mquinas que
costumam estar ligadas, por dia
20 26 21 21 20 21 23 22 24 22
22 22 23 23 23 22 23 22 24 21

20

Distribuio de Freqncias
Mquinas Freqncia
em uso
(absoluta)
20
2
21
4
22
6
23
5
24
2
25
0
26
1
Total
20

Proporo
0,10 (10%)
0,20 (20%)
0,30 (30%)
0,25 (25%)
0,10 (10%)
0
0,05 ( 5%)
1 (100%)
21

Histograma
0,30
0,25
0,20
0,10

0,10
0,05

20

21

22

23

24

25

26

Mquinas em uso
22

Tabela de freqncias para dados


agrupados

Recomendvel para grande conjuntos de variveis


QUANTITATIVAS.
Na realidade trata-se de uma recodificao: os valores das
variveis so registrados agora em classes mutuamente
exclusivas: ao invs de registrar renda igual a 4,35 salrios
mnimos, registra-se renda na faixa entre 3 e 5 salrios
mnimos.
PERDE-SE informao sobre o conjunto original para obter
sua compactao.

23

Tabela de freqncias para dados


agrupados

Passos para construo:


Determinar o intervalo do conjunto.
Dividir o intervalo em um nmero conveniente de classes.
Contar freqncia dentro das classes.
Tempo (em segundos) para carga de um aplicativo
num
sistema compartilhado (50 observaes):
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7
6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7
8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1
6,0 4,7 18,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9
24
6,5 5,9

5,2 6,4
5,5 6,2
8,9 7,3
8,2 7,1
5,7 6,2
4,9 5,0
6,5 5,9

5,7
4,9
5,4
4,9
4,9
5,7

4,7
4

5 6

8,3
5,7
4,8
5,0
5,1
6,3

7,0
6,3
5,6
8,2
6,0
6,0

5,4 4,8
5,1 8,4
6,8 5,0
9,9 5,4
4,7 18,1
6,8 7,3

9,1
6,2
6,7
5,6
5,3
6,9
18,1

7 ...

19
25

Tabela de freqncias

26

Histograma do tempo (em segundos) para


carga de um aplicativo num sistema
compartilhado (50 observaes).
Hi stogram : Fal has
20
18
16
14

No. of obs.

12
10
8
6
4
2
0
4

10

11

12

13

X < Category Boundary

14

15

16

17

18

19

27

Diagrama de pontos
Distribution for variable: Falhas
4,5
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
4

10

12

14

16

18

20

Falhas

28

Grfico de linhas

Nmero de passageiros

Companhia area
700

700

600

600

500

500

400

400

300

300

200

200

100

100

0
0

10

20

30

40

50

60

70

80

90

0
100 110 120 130 140 150

Meses

29

Diagrama de Disperso
180

y = 0,7485x + 135,03

Salrio anual

170
160
150
140
130
120
110

y = -0,0435x2 + 1,8279x + 129,66

100
0

10

20

30

Experincia (anos)
30

Você também pode gostar