Você está na página 1de 24

Cap.

3 – Análise exploratória de
dados

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas,


2004
Dados e variáveis
Dados e variáveis
Dados e variáveis
quantitativa dados quantitativos

variável
qualitativa ou dados qualitativos
categórica ou categorizados
Distribuição de freqüências
• A distribuição de freqüências consiste na
organização dos dados de acordo com as ocorrências
dos diferentes resultados observados.

• Pode ser apresentada em tabela ou gráfico.


Dados
Provedor usado por cada usuário

indivíduo provedor indivíduo provedor indivíduo provedor indivíduo provedor

1 C 11 C 21 B 31 A
2 A 12 A 22 A 32 A
3 B 13 B 23 A 33 B
4 B 14 D 24 B 34 C
5 C 15 A 25 A 35 B
6 B 16 B 26 A 36 D
7 D 17 B 27 B 37 B
8 B 18 C 28 D 38 B
9 B 19 D 29 D 39 B
10 A 20 B 30 C 40 C
Distribuição de freqüências para variáveis qualitativas
Provedor Freqüência Percentagem
A 10 25,0
B 17 42,5 Tabela de frequências
C 7 17,5
D 6 15,0
Total 40 100,0

50%
40%
30%
Gráfico de frequências 20%
10%
0% A B C D
Distribuição de freqüências para variáveis qualitativas

15%
25%

A
18% B
C
D

42%

Gráfico de frequências em setores (pizza)


Distribuição de freqüências para variáveis
quantitativas discretas
Variáveis contínuas
Construção da distribuição de freqüências
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1
5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2
8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7
8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6
5,7 6,2 4,9 5,1 6,0 4,7 14,1 5,3
4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9
6,5 5,9

amplitude dos dados

4,7 14,1

4 5 6 7 8 9 10 11 12 13 14 15
11 classes de amplitude unitária
Histogram
a
Formas de uma distribuição de freqüências

• Distribuições diferentes em termos da posição


central
Formas de uma distribuição de freqüências

• Distribuições diferentes quanto à dispersão


Formas de uma distribuição de freqüências

• Distribuições diferentes quanto à assimetria


Exercício: notas dos alunos de três turmas

A 0, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 7, 7.5, 8, 10

B 4, 4, 4.5, 5, 5.5, 5.6, 7, 7, 7, 8, 8, 8.5, 8.5, 9, 9, 10

C 0, 2, 2, 2, 3, 4, 4, 4, 4, 5, 8, 9, 9, 9.5, 9.5, 10

Faça um histograma das turmas B e C. Indique no gráfico a posição da média. Calcule


a média e a variância de cada distribuição de notas. Para entregar! (0.5 na P1)
Medidas baseadas na ordenação dos dados

25% 25%
25%

25%
qi md qs

Quartil
inferior mediana
Quartil
superior
Medidas baseadas na ordenação dos dados

Dados ordenados:
n +1
posição de q i :
4
n +1
25% 25%
25% posição de md :
25% 2
qi md qs 3(n + 1)
posição de q s :
4
Se fracionário 🡺 interpolação linear (média)
Comparação entre média e mediana

• A média é mais influenciada por valores discrepantes.

50% dos valores 50% dos valores

0 10 20 30 40 50 60 70

md = 22,5 x = 24,7
Comparação entre média e mediana

(a) distribuição
simétrica
50% 50%

média = mediana (b) distribuição


assimétrica
50%
50%
mediana média
Diagrama em caixas (Box Plot)

max
qs + 1,5dq outlier

qs
dq = qs - qi
md
qi

min
Diagrama em caixas e forma da distribuição

25%
25% 25% 25%
25%
25% 25% 25%


Interprete o gráfico

28
Renda
23
familiar
(sal. mín.) 18
13

Monte Encosta
Verde do Morro
Exercícios

Faça um BoxPlot completo das notas das três turmas a seguir:

A = (0.0, 2.0, 2.0, 2.5, 3.0, 3.0, 3.5, 4.0, 4.0, 4.0, 4.0, 5.0, 5.0, 7.0, 7.0, 7.0, 10.0)

B = (0.0, 4.0, 4.5, 5.0, 5.5, 5.6, 7.0, 7.0, 7.0, 8.0, 8.0, 8.5, 8.5, 9.0, 9.0, 10.0)

C = (1.0, 2.0, 2.0, 2.0, 3.0, 3.0, 3.0, 4.0, 4.0, 4.5, 4.5, 5.5, 5.5, 6.0, 6.0, 9.5)

Você também pode gostar