Você está na página 1de 115

ANLISE

EXPLORATRIA DE
DADOS

Populao
o conjunto de elementos sobre
os quais se desejam informaes.
Finitas

Infinitas

Amostra
Todo subconjunto de elementos
retirados de uma populao, para
obter
informaes
sobre
essa
populao.
Parmetro: Caracterstica Numrica da Populao.
Estatstica: Caracterstica numrica da amostra.

Censos
Recenseamento:
Quando so coletados dados sobre todos
os elementos da populao.

Censo:
Conjunto
de
recenseamento.

dados

obtidos

pelo

Amostragem
Probabilstica:
Todos os elementos da populao
apresentam probabilidade conhecida, e
diferente de zero, de pertencer a amostra.

No probabilstica:
So realizadas pela simplicidade ou por
impossibilidade de se obter amostras
probabilsticas.

Amostragem Probabilstica
Amostragem Casual simples:
o equivalente a um sorteio lotrico. Todos os
elementos da populao tm igual probabilidade
de pertencer a amostra.

Amostragem Sistemtica:
Quando os elementos da populao se
apresentam ordenados e a retirada dos
elementos da amostra feita periodicamente.

Amostragem Probabilstica
Amostragem por Conglomerado:
Quando a populao apresenta subdiviso em
pequenos grupos, conglomerados, as unidades
de amostragem sero os conglomerados.

Amostragem Estratificada:
Quando a populao se subdivide em
subpopulaes ou estratos, a varivel de
interesse apresenta comportamento homogneo
entre os estratos e Heterogneo entre os estratos.

Amostragem No-Probabilstica
Inacessibilidade a toda a populao:
Populao-objeto:
A que temos em mente ao realizar o trabalho
estatstico.

Populao amostrada:
Parte da populao acessvel para se retirar a
amostra.

Amostragem No-Probabilstica
Amostragem a esmo ou sem norma:
Utiliza a aleatoriedade sem realizar o sorteio

Populao formada por material


contnuo (lquido, gasoso ou slido):
feita a homogeneizao do material e retirada a amostra
a esmo.

Amostragem No-Probabilstica
Amostragem Intencionais:
feito um pr julgamento e escolhido determinados
elementos considerados bem representativos da
populao.

Amostragem por Voluntrios


No tem como se escolher os elementos que faro parte
da amostra.

ANLISE
EXPLORATRIA DE
DADOS

Organizando os Dados

Organizando os Dados
Dados Brutos:
Material obtido na coleta de dados, geralmente
difceis de serem entendidos.

Dados Elaborados:
So obtidos aps a organizao do dos dados
brutos, o material pronto para anlise.

Organizando os Dados
Apurao dos Dados:
Varivel Nominal ou Ordinal (contagem por
categoria).

Varivel Quantitativa (devem ser anotados todos os


valores observados)

Organizao das Distribuies


de Frequncias
Dados Nominais:
Desempenho Frequncia
Inferior
9
Mdio
14
Superior
4
Total
27

Frequncias
Frequncias Relativas:
Desempenho Frequncia Freqncia Relativa

Inferior

33,3 %

Mdio

14

51,9 %

Superior

14,8 %

Total

27

100,0 %

Frequncias
Frequncias Acumuladas:
Escore Frequncia Frequncia Acumulada
0

1
2
3
4
5

0
0
2
12
26

0
0
2
14
40

Frequncias
Frequncias Relativas Acumuladas:
Escore

Frequncia

Frequncia
Relativa

Frequncia
Acumulada

Frequncia Relativa
Acumulada

0%

0%

0%

0%

0%

0%

5%

5%

12

30 %

14

35 %

26

65 %

40

100 %

Total

40

100 %

40

100 %

Organizao dos dados


Contnuos em Classes
7

18 111 25 101 85

95 98 108 100 94

34

81 75 100
99 84 90

95 102 96 105 100 107 117 96 17

7 25 81 90 95 98 100 102 108


17 34 84 94 96 99 100 105 111

18 75 85 95 96 100 101 107 117

Organizao dos dados


Contnuos em Classes
i = raiz n

ou

i = 1+ 3,3 log n

hi = AT / i
Classes
7 29
29 51
51 73
73 95
95117

Valor Central
18
40
62
84
106

Frequncia
4
1
0
6
16

ANLISE
EXPLORATRIA DE
DADOS

Estatstica Descritiva
Medidas de Posio
Medidas de Disperso

Estatstica Descritiva
Tem por objetivo sintetizar a informao contida em
um conjunto de dados
Utilizamos de determinadas medidas numricas
descritivas que procuram sumariar o conjunto de
dados em um nico nmero

Medidas de Posio e Medidas de Disperso

Medidas de Posio ou de Tendncia Central


Grandeza numrica que descreve um conjunto de
dados, pela indicao da posio do conjunto na
escala de valores possveis que a varivel pode
assumir
Valores tpicos que tendem a se localizar em um
ponto central do conjunto de dados ordenados
Medidas de Posio:
Mdia,
Mediana e
Moda

Mdia
a mais conhecida
definida como:

Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64

Mdia
A mdia altamente influenciada por valores extremos
(outliers)
1,69 1,64 1,62 1,69 1,81 3,61 1,58 1,64

Mediana
o valor que divide o conjunto de dados em dois
subconjuntos de mesmo nmero de elementos
o valor que divide a distribuio ao meio
Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64
Primeiramente devemos ordenar os valores
1,58 1,61 1,62 1,64 1,64 1,69 1,69 1,81

Mediana
S e n par, somo os valores centrais e divido por 2
1,58 1,61 1,62 1,64 1,64 1,69 1,69 1,81

S e n impar, a mediana o valor central


1,58 1,61 1,62 1,64 1,64 1,69 1,69

Mediana
A mediana no afetada por outliers

1,69 1,64 1,62 1,69 1,81 3,61 1,58 1,64


Ordenando:
1,58 1,62 1,64 1,64 1,69 1,69 1,81 3,61

Mediana para dados agrupados

1.

2.
3.

calcula-se a F;
dividir n/2;
a F que se igualar ou exceder n/2, ser a classe
mediana.

Mediana para dados agrupados com intervalos de


classe

F1
.h
Med li 2
fc

li - limite inferior da classe mediana;


N - nmero de observaes;
F-1 - freq. acum. anterior classe mediana;
fc - freq abs. Simples da classe mediana;
h - amplitude de classe.

Moda
o valor que ocorre com mais frequncia em um
conjunto de dados

Moda para dados simples


Exemplo 1:
1,69 1,64 1,62 1,69 1,81 1,61 1,58
Primeiramente devemos ordenar os valores
1,58 1,61 1,62 1,69 1,69 1,81

Moda para dados simples


Exemplo 2:
1,58 1,61 1,62 1,62 1,69 1,69 1,81

Exemplo 3:
1,58 1,61 1,62 1,69 1,81

Amodal

A moda no influenciada por outliers

Moda para dados agrupados


Quando as classes tm amplitudes iguais, a classe
modal a que tem a maior freq. absoluta simples.
Salrio

12
14
16
18
20
22
Total

7
20
33
25
11
4
100

Mo= 16

Moda para dados agrupados com intervalo de


classe

d1
Moda li
.h
d1 d 2

li - limite inferior da classe modal;


d1 - diferena entre a freqncia simples da classe
modal e a anterior;
d2 - diferena entre a freqncia simples da classe
modal e a posterior;
h - amplitude de classe.

Moda para dados agrupados com intervalo de


classe
Salrio
140 - 160

f
7

160 - 180

20

180 - 200
200 - 220
220 - 240
240 - 260
Total

33
25
11
4

Mo=?

d1
Moda li
.h
d1 d 2
Mo=192,38

Relao entre a Mdia, Mediana e Moda


Quando uma distribuio simtrica, as trs
medidas coincidem

Relao entre a Mdia, Mediana e Moda


Quando os valores so diferentes a distribuio
assimtrica
Assimtrica direita

Assimtrica esquerda

Medidas de Disperso
As medidas de posio no informam sobre a
variabilidade dos dados e so insuficientes para
sintetizar as informaes de um conjunto de dados
Exemplo:
100 100 100 100 100 100 100

80 90 100 100 100 110 120


10 50 100 100 100 150 190

Medidas de Disperso
uma grandeza numrica que descreve um
conjunto de dados pela quantificao da
variabilidade ou heterogeneidade neles presente

Medidas de disperso: Amplitude total, varincia,


desvio padro, coeficiente de variao

Amplitude Total
a diferena entre o maior e o menor valor
observado

Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64
Primeiramente devemos ordenar os valores
1,58 1,61 1,62 1,64 1,64 1,69 1,69 1,81

Amplitude Total
altamente influenciado por outliers

1,58 1,62 1,64 1,64 1,69 1,69 1,81 3,61

Varincia
Baseia-se nos desvios em relao a mdia

Varincia

Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64

Varincia para dados agrupados


k

Var ( X ) xi x f i xi2 f i x 2
2

i 1

i 1

xi f i
2

S2

( xi f i ) 2

n 1

2
(
x
f

...

x
f
)
2
2
n n
x1 f1 ... xn f n 1 1
n
S2
n 1

Varincia para dados agrupados

(xi)
1,58
1,61
1,62
1,64
1,69
1,81
Total

fi
1
1
1
2
2
1
8

2
(
x
f

...

x
f
)
2
2
n n
x1 f1 ... xn f n 1 1
n
S2
n 1

(1,58(1) ... 1,81(1)) 2


(1,58) 1 ... (1,81) 1
n
S2
n 1
2

S 2 0,0051

Varincia para dados agrupados com intervalos


de classe

i
1
2
3
4
5
6

valores
150-154
154-158
158-162
162-166
166-170
170-174

xi
152
156
160
164
168
172

fi
4
9
11
8
5
3
40

(152(4) ... 172(3)) 2


(152) 4 ... (172) 1
2
n
S
n 1
2

S 2 31,79

Desvio Padro
Sendo a varincia calculada a partir dos quadrados
dos desvios, ela um nmero em unidade
quadrada
O desvio padro tem utilidade e interpretao
prtica

Exemplo:

Coeficiente de Variao
A varincia e o desvio padro podem no
quantificar em algumas situaes a variabilidade
presente em um conjunto de dados
Exemplo:
50 70 60 80

x 65
S 12,90

470 490 460 480

x 475
S 12,90

3.2.3. Coeficiente de Variao


O CV uma medida que caracteriza a disperso
dos dados em termos relativos a seu valor mdio

Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64

Erro padro da mdia


uma medida que d a preciso com que a mdia
populacional est sendo estimada.

S
SX
n
Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64

S( x )

0,0713

0,08606
8

Coeficiente de Preciso
uma medida mede o grau de preciso do erro padro da
mdia.

CP

S( x )
x

.100%

Exemplo:
1,69 1,64 1,62 1,69 1,81 1,61 1,58 1,64

0,08606
CP
.100% 5,18%
1,66

Interpretao Prtica
O erro padro representou apenas 5,18%
do valor mdio, conclu-se que a mdia
populacional foi estimada com alta
preciso, pois o erro relativo (CP) foi muito
pequeno.

10

10

30

40

Mdia x

22,50

Mediana (med)

20

Moda (mo)

10

varincia amostral (s2)

225

varincia populacional (2)

168,75

desvio padro amostral (s)

15

desvio padro populacional ()

12,99

coeficiente de variao (CV%)

66,67

10

10

30

40

20

20

40

50

+ 10

Mdia

32,50

Mediana (med)

30

Moda (mo)

20

varincia amostral (s2)

225

varincia populacional (2)

168,75

desvio padro amostral (s)

15

desvio padro populacional ()

12,99

coeficiente de variao (CV%)

46,15

10

10

30

40

20

20

60

80

x2

Mdia

45

Mediana (med)

40

Moda (mo)

20

varincia amostral (s2)

900

varincia populacional (2)

675

desvio padro amostral (s)

30

desvio padro populacional ()

25,98

coeficiente de variao (CV%)

66,67

10

10

30

40

15

20

/2

Mdia

11,25

Mediana (med)

10

Moda (mo)

varincia amostral (s2)

56,25

varincia populacional (2)

42,18

desvio padro amostral (s)

7,5

desvio padro populacional ()

6,49

coeficiente de variao (CV%)

66,67

10

10

30

40

+ 10

Mdia

22,50

Mediana (med)

Moda (mo)

20

20

40

50

Mdia

32,50

20

Mediana (med)

30

10

Moda (mo)

20

varincia amostral (s2)

225

varincia amostral (s2)

225

varincia populacional (2)

168,75

varincia populacional (2)

168,75

desvio padro amostral (s)

15

desvio padro amostral (s)

15

desvio padro populacional ()

12,99

desvio padro populacional ()

12,99

coeficiente de variao (CV%)

66,67

coeficiente de variao (CV%)

46,15

x2

20

20

60

80

/2

15

20

Mdia

45

Mdia

11,25

Mediana (med)

40

Mediana (med)

10

Moda (mo)

20

Moda (mo)

varincia amostral (s2)

900

varincia amostral (s2)

56,25

varincia populacional (2)

675

varincia populacional (2)

42,18

desvio padro amostral (s)

30

desvio padro amostral (s)

7,5

desvio padro populacional ()

25,98

desvio padro populacional ()

6,49

coeficiente de variao (CV%)

66,67

coeficiente de variao (CV%)

66,67

Separatrizes

QUARTIL : Qi

0%

25%

Q1

50%

Q2=md

Q1: Primeiro Quartil

Q2: Segundo Quartil = Mediana


Q3: Terceiro Quartil

75%

Q3

100%

QUARTIL : Qi
Distribuio de freqncias em classes :

Q k i l Q ki

kn

F Q ki

hi
f Qk
i

Q ki

onde:
lQi : limite inferior da classe que contm o i-simo Quartil
n:

tamanho da Amostra

F<Qki: frequncia acumulada das classes anteriores


classe que contm o i-simo Quartil;
fQki : freqncia da classe que contm o i-simo Quartil;
h i: amplitude das classes

Decil (Di)
Divide o conjunto de dados em 10 partes iguais
0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

D1

D2

D3

D4

D5

D6

D7

D8

D9

100%

D5= mediana

D k i l D ki

k .n

F D k

i
10

D ki
f Dk
i

onde:
lDki: limite inferior da classe que contm o i-simo Decil
n: nmero de elementos do conjunto de dados;
F-Dki: frequncia acumulada das classes anteriores classe que contm o i-simo
Decil;
fDki: freqncia da classe que contm o i-simo Decil;
hDki: amplitude da classe que contm o i-simo Decil.

Percentil (Pi)
Divide o conjunto de dados em 100 partes iguais
0%

1%

2%

P1

P2

3%

P3

Pk i L Pki

50%

97%

P50=md

98%

99%

P97 P98

100%

P99

kn

Pk
i
100

Pk i
f Pk
i

onde:
LPki: limite inferior da classe que contm o i-simo Percentil
n: nmero de elementos do conjunto de dados;
F-Pki: frequncia acumulada das classes anteriores classe que contm o i-simo
Percentil
fPki: freqncia da classe que contm o i-simo Percentil
hPki: amplitude da classe que contm o i-simo Percentil

Medidas de forma
Medidas de assimetria:
Denomina-se assimetria o grau de desvio ou
afastamento da simetria de uma distribuio.
Uma distribuio de freqncia pode
simtrica,
assimtrica
positiva
ou
assimtrica negativa.

Medidas de forma
Medidas de assimetria:
Uma distribuio simtrica apresenta a igualdade entre as
trs medidas de posio, mdia aritmtica, mediana e
modo, ou:
~

Mo x x

Em uma distribuio assimtrica positiva, ou assimtrica


direita, tem-se que:

Mo ~
xx

Em uma distribuio assimtrica negativa, ou assimtrica


esquerda, tem-se que:

x~
x Mo

Medidas de forma
Medidas de assimetria:
Existem vrias frmulas para o clculo do coeficiente de
assimetria, dentre elas duas so bastante utilizadas:
- 1 Coeficiente de Pearson: AS x M o

ou

AS

- 2 Coeficiente de Pearson:AS Q1 Q3 2 x
Q 3 Q1

Se AS = 0, a distribuio simtrica
AS > 0, a distribuio assimtrica positiva
AS < 0. a distribuio assimtrica negativa.

x Mo
s

Medidas de forma
Medidas de assimetria:
Exemplo: Identificar o grau de assimetria da
distribuio:

Salrios
($1.000,00)

30 50

50 100

100 150

Empregados

80

50

30

Medidas de forma
Medidas de assimetria:
Exemplo:
Classes

xi

fi

x ifi

xi2fi

Fi

[30,50[
[50,100[
[100,150[

40
75
125

80
50
30

3200
3750
3750

128000
281250
468750

80
130
160

10.700

878000

160

Medidas de forma
Medidas de assimetria:
Exemplo:
10.700
66 ,875
160
1
( 10.700 ) 2
s2
878
.
000

1021 ,62
159
160
x

M o 30
s2

4
20 41 ,429
43

1
( 10.700 ) 2
878
.
000

1021 ,62
159
160

s 31 ,96

Q1 30
Q 3 50

( 40 0 )
20 40
80

( 120 80 )
50 90
50

( 80 0 )
~
x 30
20 50
80
x M o 66 ,85 41 ,429
AS

0 ,796
s
31 ,96
Q Q3 2 ~
x 40 90 2
AS 1

0 ,6
Q 3 Q1
90 40

- Como AS > 0, ento a distribuio assimtrica


positiva. 11/09/2013
08:52

Medidas de forma
Medidas de curtose:
Denomina-se curtose o grau de achatamento
de uma distribuio.

Uma distribuio de freqncia pode ser:


- Mesocrtica: quando sua forma nem
achatada e nem delgada;
- Leptocrtica: quando apresenta a forma
delgada;
- Platicrdica: quando apresenta a forma
achatada.

Medidas de forma
Medidas de curtose:

Medidas de forma
Medidas de curtose:
Para medir o o grau de curtose utiliza-se o coeficiente:

Q 3 Q1
K
2( P90 P10 )
onde Q3 = 3 quartil; P90 = 90 percentil;
Q1 = 1 quartil; P10 = 10 percentil.
Se K = 0,263 a curva correspondente distribuio
mesocrtica;
K > 0,263 a curva platicrdica;
K < 0,263 a curva leptocrdica.

Medidas de forma
Medidas de curtose:
Exemplo: Para a mesma distribuio do exemplo da
assimetria, calcula-se ainda P10 e P90; logo:
( 16 0 )
20 34
80
( 144 130 )
P90 100
50 104 ,375
160
Q 3 Q1
90 40
K

0 ,355
2( P90 P10 ) 2( 104 ,375 34 )
P10 30

- Como K > 0,263, ento a distribuio do tipo


platicrtica.

TABELAS
TABELA ou SRIES:

um quadro que resume um conjunto de observaes.


Exemplo:
CABEALHO

PRODUO DE CAF
BRASIL 1991-1995

TTULO
CABEALHO

COLUNA
INDICADORA
CORPO

RODAP

ANOS
1991
1992
1993
1994
1995
FONTE: IBGE.

PRODUO
(1.000 t)

2.535
2.666
2.122
3.750
2.007

COLUNA
NUMRICA
CASA OU CLULA

LINHAS

PRINCIPAIS TIPOS
DE
TABELAS ou SRIES

TABELAS OU SRIES HISTRICAS,


CRONOLGICAS OU TEMPORAIS.
Descrevem os valores da varivel, em determinado local,
discriminados segundo intervalos de tempo variveis.

Exemplo:

SRIES GEOGRFICAS, ESPACIAIS,


TERRITORIAIS.
Descrevem os valores da varivel, em determinado instante,
discriminados segundo regies.

Exemplo:

SRIES ESPECFICAS
Descrevem os valores da varivel, em determinado tempo e
local, discriminados segundo especificaes ou categorias.
Exemplo:

SRIES CONJUGADAS OU TABELA DE DUPLA


ENTRADA
Muitas vezes temos necessidade de apresentar, em uma
nica tabela, a variao de valores de mais uma varivel, isto
, fazer uma conjugao de duas ou mais tabelas.

Exemplo:

DISTRIBUIO DE FREQUNCIA
Para variveis qualitativas: Sua distribuio usa diviso de
categorias para melhorar a visualizao da distribuio de dados.

Para variveis quantitativas: Sua


construo usa faixa de dados em
intervalos de classe que aumentam
a informao visual na distribuio
de freqncias.
Exemplo:

GRFICOS

GRFICO EM LINHA
100
90
80
70
60
50
40
30
20
10
0
1 Trim

2 Trim

3 Trim

4 Trim

GRFICO EM COLUNAS OU EM BARRAS SIMPLES


90
80
70
60
50
40
30
20
10
0
1 Trim

2 Trim

3 Trim

4 Trim

GRFICO EM COLUNAS OU EM BARRAS MLTIPLAS


90
80
70
60
50

Leste
Oeste
Norte

40
30
20
10
0
1 Trim

2 Trim

3 Trim

4 Trim

GRFICO EM SETORES

Leste
Oeste
Norte

CARTOGRAMA

PICTOGRAMA

HISTOGRAMA:
formado por um conjunto de retngulos justapostos, cujas
bases se localizam sobre o eixo horizontal, de tal modo que
seus pontos mdios coincidam com os pontos mdios dos
intervalos de classe.

POLGONO DE FREQNCIA:
um grfico em linhas, sendo as freqncias marcadas sobre
perpendiculares ao eixo horizontal, levantadas pelos pontos
mdios dos intervalos de classe.

POLGONO DE FREQNCIA ACUMULADA:


traado marcando-se as freqncias acumuladas sobre
perpendiculares ao eixo horizontal, levantadas nos pontos
correspondentes aos limites superiores dos intervalos de
classe.

Outras Apresentaes Grficas de Dados


Diagrama de pontos
Um diagrama de pontos um grfico estatstico que consiste
em grupos de pontos de dados traados em uma escala
simples.

So utilizados para dados contnuos, quantitativos e


univariados, e so muito teis para exibir um pequeno
conjunto de dados.
Esse tipo de grfico permite uma fcil visualizao de duas
caractersticas dos dados: a posio (meio) e a disperso
(espalhamento ou variabilidade)

Outras Apresentaes Grficas de Dados


Diagrama de pontos
Exemplo 01 (Montgomery, 2004, p.2-3): Um engenheiro est
projetando um conector de nilon para ser usado em aplicao
automotiva. Ele considera estabelecer como especificao do
projeto uma espessura de 3/32 pol., mas est inseguro. Oito
unidades do prottipo so produzidas e suas foras de remoo
so medidas, resultando nos seguintes dados (em libras): 12,6;
12,9; 13,4; 12,3; 13,6; 13,5; 12,6 e 13,1. Construa um
diagrama de pontos para esses dados.

Outras Apresentaes Grficas de Dados


Diagrama de caixa (box plot)
Uma outra forma grfica de apresentar os dados o chamado
diagrama de caixa (box plot) ou diagrama de caixa e linhas
(box and whiskers), que permite descrever simultaneamente
vrios fatores importantes de uma srie de dados, tais como a
tendncia central (mdia ou mediana), a disperso (desviopadro), a possibilidade de detectar outliers (pontos bastante
diferentes do conjunto de dados) e o desvio da simetria.
Um diagrama de caixa apresenta trs quartis, em uma caixa
retangular, alinhados tanto horizontal como verticalmente;
opcionalmente, pode apresentar a mdia.

Diagrama de caixa (box plot)


A caixa inclui a amplitude interquartil, com o canto esquerdo
(ou inferior) no primeiro quartil, Q1, e o canto direito (ou
superior) no terceiro quartil, Q3. Portanto, o comprimento da
caixa igual a amplitude interquartil , DQ = Q3 - Q1.
Uma linha desenhada atravs da caixa, no segundo quartil
(que o percentil 50 ou a mediana), Q2. A mdia, como j
dito, opcional.

Uma linha (whisker) estende-se de cada extremidade da caixa.


A linha inferior (ou esquerda) comea no primeiro quartil indo
at o menor valor do conjunto de pontos dentro das amplitudes
interquartis de 1,5, a partir do primeiro quartil.

Outras Apresentaes Grficas de Dados


Diagrama de caixa (box plot)
A linha superior (ou direita) comea no terceiro quartil indo
at o maior do conjunto de pontos dentro das amplitudes
interquartis de 1,5, a partir do terceiro quartil.
Dados mais afastados dos que as linhas so plotados como
pontos individuais. Um ponto alm da linha, porm a menos
de 3 amplitudes interquartis a partir da extremidade da caixa,
chamado de dispersos (outliers).
Um ponto a mais de 3 amplitudes interquartis a partir da
extremidade da caixa chamado de um outlier extremo.
Ocasionalmente, smbolos diferentes (crculos abertos e
fechados, por exemplo) so usados para identificar os dois
tipos de outlier.

Outras Apresentaes Grficas de Dados


Diagrama de caixa (box plot)

Outras Apresentaes Grficas de Dados


Diagrama de caixa (box plot)
Exerccio: Represente o diagrama de caixa para os dados da
resistncia compresso do alumnio mostrados no exerccio
anterior.
N = 80
Min = 76
Max = 245
Mdia = 162,7
Mediana = 161,5
Q1 = 143,50
Q3 = 181,00

Anlise Bidimensional

Anlise Bidimensional
Freqentemente estamos interessados em analisar duas
variveis conjuntamente.
Quando consideramos duas variveis, podemos ter 3
situaes e as tcnicas de anlise so diferentes.
a) as duas qualitativas (tabela de contingncia)
b) as duas quantitativas (grficos de disperso)

c) uma qualitativa e outra quantitativa (tabela de


contingncia)
possvel quantificar a relao entre as variveis em
estudo

Variveis Qualitativas
Analisamos o comportamento conjunto de:
X: grau de instruo e
Y: regio de procedncia.
Tabela de dupla entrada

Tabela 1- Tabela de freqncias absolutas das variveis X e Y


Y\X

Ensino
Fundamental Ensino Mdio

Superior

Total

Capital

11

Interior

12

Outra

13

Total

12

18

36

Podemos construir tabelas de freqncias relativas.

Existe vrias possibilidades de construo e depende do objetivo do


problema.

Relativa ao total geral


Tabela 1 - Tabela de freqncias relativas ao total geral das variveis
XeY
Ensino
Fundamental Ensino Mdio Superior Total
Capital
11%
14%
6% 31%
Interior
8%
19%
6% 33%
Outra
14%
17%
6% 36%
Total
33%
50%
17% 100%
Y\X

11% dos empregados vm da capital e tem ensino fundamental.


31% dos indivduos vm da capital, 33% do interior e 36% de outras
regies.
33% tem ensino fundamental.

Relativa ao total de colunas


Tabela 1:Tabela de freqncias relativas ao total de coluna das
variveis X e Y
Ensino
Fundamental Ensino Mdio Superior Total
Capital
33%
28%
33% 31%
Interior
25%
39%
33% 33%
Outra
42%
33%
33% 36%
Total
100%
100%
100% 100%
Y\X

Entre os empregados com instruo at o ensino fundamental, 33%


vm da capital.
Entre os empregados com ensino mdio, 28% vm da capital.
Comparamos a distribuio da procedncia conforme o grau de
instruo.
De modo anlogo, podemos construir a distribuio do grau de
instruo conforme a procedncia.!!!

Grfico 1- Distribuio da regio de procedncia por grau de


instruo
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%

Outra
Interior
Capital

Ensino
Fundamental

Ensino Mdio

Superior

Total

Associao entre variveis qualitativas

Exemplo: Queremos verificar se existe ou no associao entre o sexo


(X) e a carreira escolhida (Y) por 200 alunos de agronomia e zootecnia.
Tabela 4:Tabela de freqncias absolutas (relativas) dos alunos segundo o
sexo (X) e curso escolhido (Y)
Y\X
Agronomia
Zootecnia
Total

Masculino
85 (61%)
55 (39%)
140 (100%)

Feminino
35 (58%)
25 (42%)
60 (100%)

Total
120 (60%)
80 (40%)
200 (100%)

Independente do sexo 60% preferem agronomia e 40% preferem


zootecnia.
No sexo masculino essas propores so 61% e 39% e no feminino 58
e 42%, as quais so prximas de 60 e 40 (marginais)
Forte indcio de no haver dependncia entre as variveis sexo e curso
(no associadas)

Exemplo: Queremos verificar se existe ou no associao entre o sexo (X) e


a carreira escolhida (Y) por 200 alunos de Agronomia e Zootecnia.

Tabela 5:Tabela de freqncias absolutas (relativas) dos alunos segundo o


sexo (X) e curso escolhido (Y)
Y\X
Agronomia
Zootecnia
Total

Masculino
100 (71%)
40 (29%)
140 (100%)

Feminino
20 (33%)
40 (67%)
60 (100%)

Total
120 (60%)
80 (40%)
200 (100%)

Independente do sexo 60% preferem Agronomia e 40% preferem


Zootecnia.
No sexo masculino essas propores so 71% e 29% e no feminino 33
e 67%. Disparidade bem acentuada nas propores
Forte indcio de haver dependncia entre as variveis sexo e curso
(associadas)

Exemplo: Queremos verificar se a criao de determinado tipo de


cooperativa est associada com algum fator regional.
- Valor observado:
Tabela Valores observados do total de Cooperativas autorizadas a
funcional por tipo e estado pesquisado.
Estado
So Paulo
Paran
Rio G. do Sul
Total

Consumidor
214 (33%)
51(17%)
111 (18%)
376(24%)

Tipo de Cooperativa
Produtor
Escola
237(37%)
78 (12%)
102(34%)
126(42%)
304(51%)
139(23%)
643 (42%)
343 (22%)

Outras
119 (18%)
22 (7%)
48(8%)
189 (12%)

Notamos que existe certa associao entre as variveis.

Total
648(100%)
301(100%)
602(100%)
1551(100%)

Sem associao:
Por exemplo: caso no houvesse associao, e, fosse esperado que
cada estado tivesse 24% de escolas e 12% de outros tipos.
Assim, o nmero esperado de cooperativas de consumidores no
estado de So Paulo seria 648*0.24=156 e no Paran 301*0.24=72....
A tabela com os valores esperados ficaria assim:

Tabela - Valores esperados assumindo independncia entre as


variveis tipo de cooperativa e fator regional.
Estado
So Paulo
Paran
Rio G. do Sul
Total

Consumidor
156 (24%)
72(24%)
144 (24%)
376(24%)

Tipo de Cooperativa
Produtor
Escola
272(42%)
142 (22%)
127(42%)
66(22%)
254(42%)
132(22%)
643 (42%)
343 (22%)

Outras
78 (12%)
36 (12%)
72(12%)
189 (12%)

Total
648(100%)
301(100%)
602(100%)
1551(100%)

Tabela A: Valor observado das Cooperativas autorizadas a funcional


por tipo e estado.
Estado
So Paulo
Paran
Rio G. do Sul
Total

Consumidor
214 (33%)
51(17%)
111 (18%)
376(24%)

Tipo de Cooperativa
Produtor
Escola
237(37%)
78 (12%)
102(34%)
126(42%)
304(51%)
139(23%)
643 (42%)
343 (22%)

Outras
119 (18%)
22 (7%)
48(8%)
189 (12%)

Total
648(100%)
301(100%)
602(100%)
1551(100%)

Tabela B:Valores esperados assumindo independncia entre as


variveis tipo de cooperativa e fator regional
Estado
So Paulo
Paran
Rio G. do Sul
Total

Consumidor
156 (24%)
72(24%)
144 (24%)
376(24%)

Tipo de Cooperativa
Produtor
Escola
272(42%)
142 (22%)
127(42%)
66(22%)
254(42%)
132(22%)
643 (42%)
343 (22%)

Outras
78 (12%)
36 (12%)
72(12%)
189 (12%)

Total
648(100%)
301(100%)
602(100%)
1551(100%)

Notamos fortes discrepncias entre os valores observados (O), e


esperados (E) assumindo que as variveis no fossem associadas.

Estado
Consumidor
So Paulo
214 (33%)
Paran
51(17%)
Rio G. do Sul
111 (18%)
Total
376(24%)

Tipo de Cooperativa
Produtor
Escola
237(37%)
78 (12%)
102(34%)
126(42%)
304(51%)
139(23%)
643 (42%)
343 (22%)

Consumidor
Outras
156 (24%)
119 (18%)
72(24%)
22 (7%)
144 (24%)
48(8%)
376(24%)
189 (12%)

Tipo de Cooperativa
Produtor
Escola
272(42%)
142 (22%)
127(42%)
66(22%)
254(42%)
132(22%)
643 (42%)
343 (22%)

Outras
78 (12%)
36 (12%)
72(12%)
189 (12%)

Uma medida de afastamento global pode ser dada pela soma de todas
essas medidas. (Qui-quadrado de Pearson) 2

ColunasFilas

i 1

2
(
O

E
)
ij ij / Eij
j 1

Um valor grande de
indica associao entre as variveis. No exemplo

acima temos:

(214 156) / 156 ... (48 72) / 72 173,24


2

O nmero de GL em tabelas assim calculado:


GL = (nmero de linhas -1) x (nmero de colunas -1).
C 2

Portanto:
GL = (3 - 1) x (4 - 1) = 6
Depois, consulta-se a tabela de Qui quadrado e verifica-se que
C 2

= 20,51.

Como o valor de obtido maior conclui-se que os desvios so


significativos. Portanto, os quatro tipos de cooperativas sofrem
influncia dos diferentes estados. Assim sendo, a proporo de
cooperativas por grupo depende dos estados onde elas se
encontram.

Associao entre variveis quantitativas


Quando as duas variveis so quantitativas podemos usar o mesmo
tipo de anlise para variveis qualitativas. (transformando as variveis)
Uma ferramenta bastante til o grfico de disperso.
Exemplo:

Tabela 8: Nmero de anos de servio (X) por nmero de clientes (Y)


de agentes de uma companhia de seguros
Anos de Servio (X) Nmero de Clientes
1
2
3
4
5
6
7
8
9
10

(Y)
48
50
56
52
43
60
62
58
64
72

Notamos que medida que aumenta o tempo de servio, aumenta o


nmero de clientes, logo parece haver uma associao entre essas
variveis

Grfico 2: Grfico de disperso para as variveis X: anos de


servio e Y: nmero de clientes
80

Nmero de Cleintes

70
60
50
40
30
20
10
0
0

10

12

Anos de Servio

Grfico 3: Tipos de associaes entre duas variveis


25
20
15
10
5
0
0

10

12

10
8
6
4
2
0
-2 0
-4
-6
-8
-10
-12

10

12

Coeficiente de correlao
Em um conjunto de dados com n pares de valores para as variveis
X e Y o coeficiente de correlao (r) que mede a dependncia
linear entre elas calculado como:
n

( xi xi )( yi yi )

Propriedades
i 1
rXY
n

[ ( xi xi ) ][ ( yi yi ) ]
2

i 1

i 1

( x y nx y )
i 1

[ xi nxi ][ ( y
i 1

i 1

2
i

nyi ]

Simplificando:

Os valores de r variam de 1 a +1

Se r = +1 correlao perfeita e positiva


Se r = -1 correlao perfeita e negativa
Se r = 0 no h correlao linear

Se r + 0,9 correlao alta e positiva


Se r + 0,5 correlao mdia e positiva
Se r + 0,1 correlao baixa e positiva
Se r - 0,1 correlao baixa e negativa

Se r - 0,5 correlao mdia e negativa


Se r - 0,9 correlao alta e negativa

Anos de Servio (X) Nmero de Clientes


1
2
3
4
5
6
7
8
9
10

(Y)
48
50
56
52
43
60
62
58
64
72