Escolar Documentos
Profissional Documentos
Cultura Documentos
ANLISE EXPLORATRIA E
1. ANLISE EXPLORATRIA E
ESTATSTICA DESCRITIVA
ESTATSTICA DESCRITIVA
2010
2010
2
Estatstica Descritiva e Anlise Exploratria
Etapas iniciais. Utilizadas para descrever e resumir
os dados.
A disponibilidade de uma grande uantidade de
dados e de m!todos computacionais muito e"icientes
revigorou estas reas da Estatstica.
#robabilidade
#ermite estudar os "en$menos aleatrios% ou se&a%
aueles em ue est presente a incerteza sobre os seus
resultados.
'
Estatstica
(
Estatstica
)
O que Estatstica ?
Paa !uit"s# Estatstica $%" &assa 'e c"$(u$t"s 'e
ta)e*as 'e 'a'"s $u!ic"s. Os estatstic"s s%"
&ess"as que c"*eta! esses 'a'"s.
A Estatstica originou*se com a coleta de dados e a
constru+,o de tabelas para os governos.
A situa+,o evoluiu e esta coleta de dados representa
somente um dos aspectos da Estatstica.
-
De+i$i,%" 'e Estatstica
A Estatstica ! uma ci.ncia baseada na Te"ia 'a
P")a)i*i'a'e% cu&o ob&etivo principal ! nos auxiliar a
tomar decis/es ou tirar conclus/es em situa+/es de
incerteza% a partir de dados.
#opula+,o0 con&unto de todas as unidades ue s,o de
interesse em um certo estudo.
Amostra0 ualuer subcon&unto da popula+,o
selecionado de acordo com certas regras.
1enso0 estudo ue inclui todos os elementos da
popula+,o.
2
C"*eta
Experimento plane&ado
E"eito de um ou mais "atores sobre outro3s4.
5nter"er.ncia do pesuisador.
1ontrole sobre "atores externos.
6evantamento observacional
Dados s,o coletados 7como est,o8.
9,o : inter"er.ncia do pesuisador.
6evantamento amostral 3survey4
#opula+,o bem de"inida.
#rotocolo de coleta.
;
A!"sta-e!
Uma rea importante em muitas aplica+/es estatsticas ! a da Tec$"*"-ia 'e
A!"sta-e!.
E.e!&*"s0
#esuisa de mercado
#esuisa de inten+,o de voto 3pesuisa eleitoral4
Avalia+,o do impacto de uma obra &unto < popula+,o
=
> ue "azer com os dados coletados?
1
a
etapa0 Estatstica Descritiva e
Anlise Exploratria
@edidas resumo% tabelas e gr"icos.
>bs. Ae x representa uma varivel% uma amostra com valores
x
1
%x
2
%...%x
n
! c:amada de con&unto de dados.
n ! o taman:o da amostra.
10
Barivel
Cualuer caracterstica de interesse associada aos elementos
de uma popula+,o.
1lassi"ica+,o de variveis
Cuantitativa
{
{
Cualitativa
9ominal
1or% tipo de muina
>rdinal 1lasse social% grau de desgaste
1ontnua
Discreta
#eso% viscosidade% press,o
9Dmero de acidentes% nDmero de
de"eitos em um item
11
>bserva+,o Espessura Eipo de cola Fesist.ncia
1 1' 1 (-%)
2 1( 1 ()%=
' 12 1 (=%;
( 12 1 (-%1
) 1( 1 ((%'
- 12 2 (;%2
2 10 2 (=%0
; 11 2 )0%1
= 12 2 (;%)
10 1( 2 ()%2
11 1) ' (-%'
12 1( ' (2%1
1' 11 ' (;%=
1( 11 ' (;%2
1) 10 ' )0%'
1- 1- ( ((%2
12 1) ( ('%0
1; 10 ( )1%0
1= 12 ( (;%1
20 11 ( (;%-
Exemplo. Estudo de resist.ncia.
Gonte0 @ontgomerH% D. 1. 3200)4% Design and AnalHsis o" Experiments% -t: Edition% IileH0 9eJ KorL
12
@edidas resumo
@edidas de posi+,o0 moda% m!dia% mediana% percentis% uartis.
3medidas de tend.ncia central0 tr.s primeiras4
@edidas de dispers,o0 amplitude% intervalo interuartil% variMncia%
desvio padr,o% coe"iciente de varia+,o.
1'
@edidas de posi+,o
@oda 3@o40 N o valor 3ou atributo4 ue ocorre com maior
"reu.ncia.
Ex. Dados0 (%)%(%-%)%;%(%(
mo O (
@!dia0
n
x
=
n
x + + x + x + x
= x
n
= i
i
n 3 2
1 1
...
Ex. Dados0 2%)%'%2%11
O 32P)P'P2P114Q) O )%- x
>bs. 1. 9em sempre a moda existe.
2. #ode :aver mais de uma moda.
1(
@ediana 3@d4
A mediana ! o valor ue ocupa a posi+,o central de um
con&unto de n valores ordenados.
#osi+,o da mediana0 pm O 3nP14Q2
Ex. Dados0 2% 2-% '% 2% ; 3n O )4
Dados ordenados0 2%'%2%;% 2- OR pm O 3)P14Q2O'
OR @d O 2
Ex. Dados0 2% 1)% 2% 1% ;% ) 3n O -4
Dados ordenados0 1% 2% 2% )% ;% 1) OR pm O 3-P14Q2O'%)
OR @d O 32P)4 Q 2 O '%) 3m!dia dos elementos nas
posi+/es ' e (4.
1)
Cuantis 3quantiles4
> uantil de ordem p 30 S p S 14% em um con&unto de dados
com n observa+/es% ! o valor ue ocupa a posi+,o p x 3nP14
nos dados ordenados.
> uantil de ordem p deixa px100T das observa+/es
abaixo dele na amostra ordenada.
1asos particulares0
Cuantil 0%) O mediana ou segundo uartil 3md4
Cuantil 0%2) O primeiro uartil 3C14
Cuantil 0%2) O terceiro uartil 3C'4
1-
E.e!&*"s
E.. 1. 1%= 2%0 2%1 2%) '%0 '%1 '%' '%2 -%1 2%2
3n O 104
#osi+,o da @d0 0%)3nP14O0%)x11OR @d O3'P'%14Q2 O '%0)
#osi+,o de C10 0%2) 11O2%2) OR C1 O 32P2%14Q2 O 2%0)
#osi+,o de C'0 0%2) 11O;%2) OR C' O 3'%2P-%14Q2 O (%=
E.. /. 0%= 1%0 1%2 2%= '%1 )%' )%) 12%2 12%= 1(%0 ''%-
3n O 114
@d O )%'
C1 O 1%2
C' O 12%=
12
0"'a# !e'ia$a e !'ia 3mode, median and mean4
A moda n,o ! muito utilizada com variveis uantitativas.
Ae a varivel "or ualitativa nominal% a moda ! a Dnica medida de posi+,o.
A mediana ! mais resistente do ue a m!dia. N menos a"etada pela presen+a
de valores extremos.
) 10 1) 20 2) '0
0'ia 1 2#1
x
) 10 1) 20 2) '0
0'ia 1 3#4
x
>bs. >s uantis tamb!m s,o c:amados de separatrizes.
1;
1onsidere as notas de uma prova aplicada a tr.s grupos de alunos0
Urupo 10 '% (% )% -% 2V Urupo 20 1% '% )% 2%=V e Urupo '0 )%)%)%)%).
Urupo 1
0 10
0
10
0 10
5
Urupo 2
Urupo '
5 5;
3 3 1
= Md = Md = Md = x = x = x
3 3 1
1=
0e'i'as 'e 'is&es%"
Ginalidade0 encontrar um valor ue resuma a variabilidade
de um con&unto de dados.
Amplitude 3A40 A O @AW * min
#ara os grupos anteriores 3lMmina 1;4% temos
Urupo 10 A O (
Urupo 20 A O ;
Urupo '0 A O 0
20
I$te5a*" "u a!&*itu'e i$tequati* 6'
q
7 3interquartile range4
N a di"eren+a entre o terceiro uartil e o primeiro uartil0
d
O C
'
X C
1
.
E.. 1%= 2%0 2%1 2%) '%0 '%1 '%' '%2 -%1 2%2
C
1
O 2%0) e C
'
O (%=.
d
O C
'
X C
1
O (%= X 2%0) O 2%;).
>bs. d
n
x x
=
n
) x (x + + ) x (x + ) x (x
= S
n
= i
i
n
Des5i" &a'%" 6s7 3standard deviation4
s
=
2
s
>bs. > desvio padr,o tem a mesma unidade da
varivel x.
22
1lculo da variMncia para o grupo 1 3lMmina 1;40
Urupo 10 '% (% )% -% 20 Bimos ue
2,5
4
10
1 5
5 7 5 6 5 5 5 4 5 3
2 2 2 2 2
2
= =
) ( + ) ( + ) ( + ) ( + ) (
= S
5 = x
Desvio padr,o0
0 0 3 Grupo
3,16 10 2 Grupo
1,58 2,5 1 Grupo
2
2
2
= s = s :
= s = s :
s = s :
=
2'
#ropriedades0
. varincia e mdia com amostra uma , ,
2
1 x n
s x x x
Erans"orma+,o 3posi+,o e escala40 H
i
O a P b x
i
% i O 1%...%n.
. e
,
2 2 2
x y x y
s b s s b s
x b a y
= =
+ =
2(
1oe"iciente de varia+,o 31B4
N uma medida de dispers,o relativa.
Exprime a variabilidade em rela+,o < m!dia.
, 100
| |
x
S
= CV
. 0 x
see
2)
E.e!&*". Altura e peso de 1) pe+as metlicas cilndricas
1onclus,o. > peso das pe+as m!talicas apresenta
variabilidade relativa aproximadamente duas vezes
maior do ue a altura.
Mdia Desvio padro Coeficiente de
variao
Altura 1,143 m 0,063 m 5,5
!eso 50 "# 6 "# 1$
2-
Exemplo com gr"ico de pontos 3n O =04
;0 ;) =0 =)
Fendimento 3T4
. 0 !
" e #ropriedad
1
=
=
x x
n
i
i
1ada observa+,o !
representada por um
ponto.
Yavendo repeti+/es% os
pontos s,o empil:ados.
22
>rganiza+,o e representa+,o dos dados
Eabela de "reu.ncias. Eabela com os di"erentes valores de
uma varivel 3ou intervalos de valores4 e suas respectivas
"reuencias.
1. Bariveis ualitativas. Eabela de "reu.ncias dos
di"erentes valores da varivel.
Fepresenta+,o gr"ica0 gr"ico de barras% de #areto e
gr"ico de setores 37de pizza84.
Uma das "ormas de organizar e resumir a in"orma+,o
contida em dados observados ! por meio de tabelas de
"reu.ncias e gr"icos.
A "reuencia de um valor da varivel ! o nDmero de
vezes ue este valor ocorre no con&unto de dados.
2;
Exemplo. Barivel 7Eipo de cimento utilizado8 3ualitativa nominal4
Eipo de
cimento
11
12
1'
Eotal
1ontagem
12
1;
-
n O '-
0%''''
0%)000
0%1--2
: "reu.ncia absoluta do valor i 3nDmero de observa+/es
com tipo de cimento O i4% i Z11% 12% 1'[.
f
r
i
=
f
i
n
: "reu.ncia relativa do valor i.
1%0000
f
i
f
r
i
f
i
2=
Gigura 1. Descri+,o do gr"ico.
Elementos de um gr"ico
'0
''%''T
)0%00T
1-%20T
0%00T
10%00T
20%00T
'0%00T
(0%00T
)0%00T
-0%00T
\aixo @oderado Elevado
Fepresenta+,o gr"ica de variveis ualitativas
Grau de deteriorao
Ur"ico de barras0 retMngulos verticais 3ou :orizontais4 espa+ados
com alturas 3ou bases4 iguais <s "reuencias dos valores da
varivel.
A
E
9
E
A
1
>
9
#ercentagem
F
e
g
i
,
o
d
e
o
r
i
g
e
m
0 10 20 '0 (0
(1.2)
'1.2)
1-.2)
2.)
'.2)
Obs. Os valores no eixo horizontal
esto ordenados.
'1
Ur"ico de barras com os valores da varivel em ordem decrescente
de "reuencias e com as "reuencias relativas acumuladas no segundo
eixo vertical.
Ur"ico de #areto
A
E
9
EA
1
>9
Fegi,o de origem
G
r
e
u
e
n
c
i
a
0
2
0
(
0
-
0
;
0
0
T
2
)
T
)
0
T
2
)
T
1
0
0
T
1
u
m
u
l
a
t
i
v
e
#
e
r
c
e
n
t
a
g
e
Greu.ncia relativa
acumulada do valor x
i
0
i
j=
rj
ri r2 r1 ri
f =
f + + f + f = F
1
.
'2
Ur"icos de setores 37de pizza84
Ur"ico circular utilizado para destacar a composi+,o das partes de um
todo.
> Mngulo central de cada setor ! proporcional < "reuencia representada
3usualmente em T4.
9au 'e 'etei"a,%"
')%'
()%0
1=%2
\aixo
@oderado
Elevado
9au 'e 'etei"a,%"
\aixo
')%'T
Elevado
1=%2T
@oderado
()%0T
''
2. >rganiza+,o e representa+,o de variveis uantitativas
2.1 Discretas. >rganizam*se mediante tabelas de "reu.ncias e a
representa+,o gr"ica ! mediante gr"ico de pontos% de barras ou de
lin:a.
Exemplo. 9Dmero de de"eitos em lotes de produtos.
Distribui+,o de "reu.ncias do nDmero de de"eitos por lote.
i
j=
j i 2 1 i
f = f + + f + f = F
1
n
f ) x (x
=
n
f ) x (x + + f ) x (x + f ) x (x
= s
k
= i
i i
k k
0,85$
1$
16,3125
1$
1,65 5 1,65 3 3 1,65 2 7 1,65 1 5 1,65 0 4
2 2 2 2 2
2
=
) ( + ) ( + ) ( + ) ( + ) (
= s
=
Exemplo.
Desvio padr,o0
0,$27
2
= s = s
1oe"iciente de varia+,o0
% 8 , 55 % 100
65 , 1
$2 , 0
% 100
| |
= = =
x
s
CV
'2
/./ C"$stu,%" 'e ta)e*as 'e +equ:$cias &aa 5ai;5eis c"$t$uas
Escol:a o nDmero de intervalos de classe 3L4
5denti"iue o menor valor 3min4 e o valor mximo 3@AW4 dos dados.
1alcule a amplitude 3A40 A O @AW X min.
1alcule a amplitude de classe 3:40 : O A Q L.
>bten:a os limites in"erior 3654 e superior 36A4 de cada classe.
h + LI =
=
1 1
1
o
&' " superior &imite
min &( " in)erior &imite
" interva*o 1
h + LI =
LS =
h + LI =
LS =
i i
1 i i
2
1
&' " superior &imite
&( " in)erior &imite
" interva*o simo + i
...
&' " superior &imite
&( " in)erior &imite
" interva*o 2
2
2
o
i
j=
j i 2 1 i
f = f + + f + f = F
. ou
1
n
F
= F f = f + + f + f = F
i
i
r
i
j=
j
r
i
r
2
r
1
r
i
r
1
,
,
2
,
1
,
1
15,4.
40
616
40
3 5 , 17 6 16,5 1$ 15,5 8 5 , 14 4 13,5
= =
+ + + +
x
n
x x f
s
k
= i
i i
BariMncia0
( )
padr3o. !desvio 1,033
1,067.
3$
41,6
1 40
5
1
2
,
2
= s
= =
x x f
s
= i
i i
(-
Fepresenta+,o dos dados por meio de um retMngulo construdo
com os uartis. Gornece in"orma+,o sobre a variabilidade 3d
O C
'
X
C
1
4 e valores extremos.
Ur"ico de caixas 3box plot4
(2
1
_
uartil 3C14 O 1(%22).
@ediana 3@d ou C24 O 1)%(.
'
_
uartil 3C'4 O 1)%=.
d
O 12%-.
Exemplo. Barivel viscosidade.
(;
Exemplo. Barivel viscosidade medida em duas temperaturas.
Eemperatura 1 3lMmina '=4.
13.9 14.9 15.9 15.8 14.8 15.1 15.8 15.0 15.1 14.6 14.7 16.6 13.6 15.9 13.1
15.2 14.7 16.0 15.6 17.4 15.3 14.2 15.9 15.1 15.9 16.1 16.2 13.8 14.6 16.0
15.8 15.5 16.5 17.1 15.3 15.5 17.8 15.4 15.4 14.6
Eemperatura 2 3n O (04.
13.3 14.5 15.3 15.3 14.3 14.8 15.2 14.5 14.6 14.1 14.3 16.1 13.1 15.5 12.6
14.6 14.3 15.4 15.2 16.8 14.9 13.7 15.2 14.5 15.3 15.6 15.8 13.3 14.1 15.4
15.2 15.2 15.9 16.5 14.8 15.1 17.0 14.9 14.8 14.0
(=
Anlise exploratria. Fedu+,o de volume versus tipo de aditivo. Bariabilidade.
Aimetria. Balores extremos.
`
`
`
Eipo de aditivo
F
e
d
u
+
,
o
d
e
v
o
l
u
m
e
3
m
l
4
0
2
0
(
0
-
0
;
0
1
0
0
1
2
0
\ E D U Y G A 1
)0
Ur"ico de lin:a
Fepresenta+,o de s!ries temporais 3ou s!ries :istricas4.
-)
20
2)
;0
;)
=0
0
1
0
0
0
'
0
0
0
)
0
0
0
2
0
0
0
=
0
0
1
1
0
0
1
'
0
0
1
)
0
0
1
2
0
0
1
=
0
0
2
1
0
0
2
'
0
0
Yora 6ocal
U
F
3
T
4
@AFa> 9>BE@\F>
Bisualiza+,o dos
componentes
tend.ncia e
sazonalidade.
1uidado com a
escala do gr"ico.
)1
Associa+,o entre variveis uantitativas
3x
1
%H
1
4% ...% 3x
n
%H
n
40 amostra bivariada.
Fepresenta+,o gr"ica0 gr"ico de dispers,o 3scatter plot4
@edida de associa+,o0 coe"iciente de correla+,o linear
de #earson.
y x
n
i
i i
s s
y y x x
n
r
=
=
1
! !
1
1
#ropriedades0 314 X1 r 1 e
324 brb O 1 se% e somente se% a rela+,o entre x e H "or
linear 3H O a P bx% b 0 e o sinal de r ! o sinal de b4.
9umerador0 covariMncia entre x e H.
)2
Associa+,o entre variveis uantitativas
)'
Associa+,o entre variveis uantitativas
)(
Associa+,o entre variveis uantitativas
))
Associa+,o entre variveis uantitativas
( - ; 10 12 1(
(
)
-
2
;
=
1
0
1
1
E.e!&*" 1
W
K
( - ; 10 12 1(
'
(
)
-
2
;
=
E.e!&*" /
W
K
( - ; 10 12 1(
-
;
1
0
1
2
E.e!&*" =
W
K
; 10 12 1( 1- 1;
-
;
1
0
1
2
E.e!&*" >
W
K
1orrela+/es0
Exemplo 10 0%;1-(
Exemplo 20 0%;1-2
Exemplo '0 0%;1-'
Exemplo (0 0%;1-)
)-
Exemplo. @atriz de gr"icos de dispers,o.
>z$nio
3ppb4
0 )0 1)0 2)0 1) 20 2) '0 ')
0
)
0
1
0
0
1
)
0
0
)
0
1
)
0
2
)
0
0.'(;
Fadia+,o solar
36angleHs4
*0.-02 *0.0)2
Beloc. m!dia
do vento 3LmQ:4
)
1
0
2
0
'
0
0 )0 100 1)0
1
)
2
0
2
)
'
0
'
)
0.-=; 0.22-
) 10 20 '0
*0.();
Eemparatura
mxima 31elsius4
>z$nio
3ppb4
0 )0 1)0 2)0 1) 20 2) '0 ')
0
)
0
1
0
0
1
)
0
0
)
0
1
)
0
2
)
0
0.'(;
Fadia+,o solar
36angleHs4
*0.-02 *0.0)2
Beloc. m!dia
do vento 3LmQ:4
)
1
0
2
0
'
0
0 )0 100 1)0
1
)
2
0
2
)
'
0
'
)
0.-=; 0.22-
) 10 20 '0
*0.();
Eemparatura
mxima 31elsius4
Dados dirios de uatro variveis coletadas em um certo lugar durante um certo
perodo de tempo.
9a interse+,o de uma lin:a e uma coluna encontramos o gr"ico de dispers,o
3banda superior4 e o coe"iciente de correla+,o 3banda in"erior4.