Você está na página 1de 71

Jos Francisco Moreira Pessanha

professorjfmp@hotmail.com

Anlise de
Componentes
Principais

Anlise de componentes principais - ACP


Introduzida por Karl Pearson em 1901.
On lines and planes of closest fit to systems of point in
space, Philosophical Magazine, Series 6, vol. 2, no. 11,
pp. 559-572.
Karl Pearson
1857 - 1936

Conue pour la premire fois


par Karl Pearson en 1901,
intgre la statistique
mathmatique par Harold
Hotelling en 1933, lanalyse en
composantes principales nest
vraiment utilise que depuis
lavnement et la diffusion des
moyens de calculs actuels.
Lebart, Morineau et Piron
Statistique Exploratoire
Multidimensionnelle, 3e
dition, Dunod, Paris, 2000.

Componentes principais
Descrevem a estrutura de varincia e covarincia de variveis
correlacionadas x1,x2,...,xp em termos de um conjunto de novas variveis
y1, y2, ..., yp no correlacionadas.
Cada yi uma combinao linear das variveis x1,x2,...,xp

yi ai1 x1 ai 2 x2 aip x p
Novas variveis yi ordenadas em ordem decrescente de importncia:
y1 (1 componente principal) concentra a maior parte da variao dos
dados originais entre todas as combinaes lineares de x1,x2,...,xp.
y2 (2 componente principal) no correlacionada com y1 e concentra a
maior parte da variao restante
y3 (3 componente principal) no correlacionada com y1 e y2 e concentra
uma parcela ainda menor da variao
e assim sucessivamente.

Finalidades da ACP
Reduo da dimensionalidade dos dados
Descrio e visualizao de dados
Transformar
as
descorrelacionadas.

variveis

em

novas

variveis

Extrao de sinal contido nos dados (Eliminar ou reduzir o


rudo presente nos dados)

Ordenao dos objetos


Construo de nmeros ndices

Alguns exemplos de aplicao da ACP


As componentes principais proporcionam a reduo de dimensionaldade
As primeiras k (k<p) componentes principais concentram uma proporo
substancial da variao das variveis originais e conseqentemente podem ser
usadas para prover uma representao dos dados em um espao de dimenso
k, menor que o espao original de p dimenses.
Construo de nmeros ndices
Na anlise das variaes dos preos ao longo do tempo, os preos de alguma
commodities so considerados mais importantes que outras e os preos
devem ser ponderados de acordo com estas variaes. Neste caso, uma forma
de ponderao consiste em adotar a primeira componente principal.
Obteno de variveis explicativas no correlacionadas para um modelo
de regresso linear
Correlaes elevadas entre as variveis explicativas podem implicar no
problema de multicolinearidade imperfeita, para evit-lo pode-se aplicar a
anlise de componentes principais aos dados das variveis explicativas para
obter combinaes lineares no correlacionadas destas variveis e que
definem novas variveis independentes para o modelo de regresso linear.

Definies
Considere um vetor aleatrio XT=(x1,x2,...,xp) com matriz de
covarincia (matriz pxp).
A matriz de covarincia tem p autovalores (i, i=1,p) e p
autovetores ( ei = (ei1,ei2,...,eip) i=1,p), ordenados na ordem
decrescente dos autovalores.
Os coeficientes da i-sima
componente so definidos pelo
A i-sima componente principal :
autovetor do i-simo maior
yi ei1 x1 ei 2 x2 eip x p autovalor

E yi ei11 ei 2 2 eip p

V yi i

A varincia da componente o respectivo autovalor

cov yi , y j 0

As componentes principais so no correlacionadas

Notas em microeconomia
Notas em macroeconomia

Aluno 1

Motivao
n =30 alunos
p =2 variveis (notas)
Matriz de
Dados X

Cada aluno i um vetor

X i1

X i
X i2
i = 1 at 30
Aluno 30

Nota em macroeconomia X2

Diagrama de disperso
Cada ponto representa um aluno

Nota em microeconomia X1

alunos

Distribuies de freqncia das notas


Mdia = 5,8339
Varincia = 1,0446
Desvio-padro = 1,0221

alunos

Nota em microeconomia X1
Mdia = 6,9149
Varincia = 0,9579
Desvio-padro = 0,9787

Nota em macroeconomia X2

Nota em macroeconomia X2

Diagrama de disperso

Covarincia = 0,8155
Correlao = 0,8153

Relao direta entre as notas de


microeconomia e macroeconomia
Nota em microeconomia X1

Vetor mdia amostral

5 ,8339
X

6 ,9149
Matriz de covarincia amostral
Var(X1)

1,0446 0 ,8155
S

0 ,8155 0 ,9579
Cov(X1,X2)

Var(X2)

1,0446 0 ,8155
Matriz de covarincias = S

0
,
8155
0
,
9579

Varincia
total

Var X1 Var X 2 1,0446 0,9579 2,0024


Trao de S

matriz de covarincias 2x2 2 autovetores

Autovetores de S

Autovalores de S

Direes de maior
variabilidade dos dados
(componentes principais)

Parcela da variabilidade dos


dados concentrada em
cada componente principal

0 ,7256

e1
0 ,6881

Varincia das
projees

Direo de maior variabilidade

0 ,6881

e2
0 ,7256

1 1,8179

Da lgebra Linear sabe-se que


Trao de (S)
=
Soma dos autovalores de S
Logo

Var(y1) = 1,8179

2 0 ,1846
Var(y2) = 0,1846

Var x1 Var x2

Var y1 Var y2 2,0024

Nota em macroeconomia X2

Autovetores
da matriz S
Y2

0 ,7256

e1
0 ,6881
0 ,6881

e2
0 ,7256

Y1

Direes dos
autovetores

e1

Mdia das notas de


2 macroeconomia

e2

Mdia

5 ,84
X

6
,
91

Mdia das notas de


1 microeconomia

0
Nota em microeconomia X1

Nota em macroeconomia X2

Projeo na direo de maior variabilidade,


ou seja, escore do i-simo aluno na primeira
componente principal
A projeo o produto interno Xie1 :

0 ,7256 X i1 0 ,6881 X i 2

Projeo do vetor do i-simo


aluno na direo do
autovetor e1

i-simo aluno

X i1

X i
X i2

Direo da 1
componente principal

e1
0

0 ,7256

e1
0 ,6881
Nota em microeconomia X1

Nota em macroeconomia X2

Projees na direo de maior variabilidade


das notas, ou seja, escores dos alunos na
primeira componente principal

0 ,7256 X i1 0 ,6881 X i 2

Nota em microeconomia X1

X i1
Aluno 1

X i2

0 ,7256 X i1 0 ,6881 X i 2
0 ,7256 6 ,0247 0 ,6881 7 ,0914 9 ,2512

0 ,7256 5,3404 0 ,6881 6 ,5713 8 ,3968

0 ,7256 6 ,9374 0 ,6881 8 ,1074 10 ,6126

Aluno 30

0 ,7256 5,7759 0 ,6881 6 ,4534 8 ,6316

Projees na
direo de
maior
variabilidade
das notas ou
escores dos
alunos na
primeira
componente
principal

Distribuio de freqncia dos escores na primeira componente principal


Mdia = 8,99
Varincia = 1,8179

Nota em macroeconomia X2
Nota em microeconomia X1

Nota em macroeconomia X2

Projees na direo da segunda


componente principal

0,6881 X i1 0,7256 X i 2

Observe que a disperso dos


pontos na direo da
segunda componente
menor que a disperso na
direo da primeira
componente
Var(1 componente) maior
que Var(2 componente)

Nota em microeconomia X1

X i1
Aluno 1

X i2

0,6881 X i1 0,7256 X i 2
0,6881 6,0247 0,7256 7,0914 0,9999

0,6881 5,3404 0,7256 6,5713 1,0934

0,6881 6,9374 0,7256 8,1074 1,1091

Aluno 30

0,6881 5,7759 0,7256 6,4534 0,7082

Projees na
direo da
segunda
componente
principal

As componentes principais so combinaes lineares das variveis, cujos


coeficientes so definidos pelos autovetores da matriz e covarincia:

Autovetores

0 ,7256

e1
0 ,6881
0 ,6881

e2
0 ,7256

1 componente
define as projees dos alunos na direo de
maior variabilidade

Yi1 0 ,7256 X i1 0 ,6881 X i 2


2 componente

Yi 2 0 ,6881 X i1 0 ,7256 X i 2

As componentes principais so variveis aleatrias com varincias iguais


aos autovalores:

Var Yi 1 1 1,8179

Var Yi 2 2 0 ,1846

Nota em macroeconomia X2

Var X 2 0 ,9579

Var Y1 1

Var Y1 1,8179
Var Y2 2

Var Y2 0 ,1846

Y2

Y1

Var X 1 1,0446
0
Nota em microeconomia X

1,0446 0 ,8155
Matriz de covarincias = S

0
,
8155
0
,
9579

Varincia total =

traoS 1,0446 0 ,9579 2,0024

1 componente

Var Y1 1 1,8179

1,8179
100% 90 ,78%
2 ,0024

1 componente principal concentra 91% da variabilidade total dos dados, logo resume
boa parte da informao contida nas duas variveis

2 componente

Var Y2 2 0 ,1846

0 ,1846
100% 9 ,22%
2 ,0024

2 componente principal concentra apenas 9% da variabilidade total dos dados e por


isso pode ser descartada

Resumindo
A anlise de componentes principais substitui um conjunto de variveis
correlacionadas (X) por um conjunto de novas variveis nocorrelacionadas (Y), sendo essas combinaes lineares das variveis
iniciais e colocadas em ordem decrescente por suas varincias.

Var Y1 > Var Y2 > .... > Var Yp


Algebricamente, as componentes principais so combinaes lineares
das p variveis aleatrias X1, X2, ..., Xp;
Geometricamente, as combinaes lineares representam um novo
sistema de coordenadas obtido pela translao e rotao do sistema
original com X1, X2, ..., Xp como eixos;

Os novos eixos representam as direes com as maiores


variabilidades e fornecem uma descrio mais simples e mais
parcimoniosa da estrutura de covarincia, pois as componentes
principais so no correlacionadas;

As componentes principais podem ser obtidas a partir da matriz de


correlao (r) ou da matriz de covarincias () de X1, X2, ..., Xp. O seu
desenvolvimento no necessita da suposio de normalidade.

Resumindo

Roteiro para obteno das componentes principais

X1
X2
X3
...
Xp
Variveis
originais

Matriz

ou
r

Y1
Calcular
Calcular
Selecionar
Y2
os
os
as

Y3
autovalores
autovetores
componentes
...

e
principais
Yp
Componentes
principais

Teorema da decomposio espectral


Seja a matriz de covarincia do vetor aleatrio X.
O vetor aleatrio X tem p variveis aleatrias
A matriz tem p autovetores e1, e2,...,ep e p autovalores 1>2>...> p
Pelo teorema da decomposio espectral tem-se que:

1e1e1T 2e2e2T p e p eTp


e11
e p1


e
12
ep2
1 e11 e12 e1 p p e p1 e p 2 e pp



e
e
1p
pp

Organizando a soma na forma matricial


e11
e
12

e1 p

e21 e p1 1
e11 e12
e
e22 e p 2
2
21 e22

e2 p e pp
p e p1 e p 2

e1 p
e2 p

e pp

Matriz P, cada colunaMatriz diagonal formada Matriz PT. cada


pelos autovalores em
linha um
um autovetor
ordem decrescente
autovetor

X PPT

Matriz de covarincia das componentes principais


Componentes principais y1 e11 e12 e1 p x1

x
y
e
e

e
2 21 22
2 p 2





y e
p p1 e p 2 e pp x p

Y PT X

Matriz de covarincia das componentes principais

Y PT X P
Pela decomposio espectral tem-se que

Logo

X PPT

Y PT PPT P

Como os autovetores so
ortonormais PTP=I ou PPT=I

1
Matriz diagonal formada

pelos autovalores em

Y
ordem decrescente

As componentes principais
p so no correlacionadas

Conservao da varincia total


Relao entre as matriz de covarincia das variveis originais e das
componentes principais

Y PT X P
Varincia total o trao da matriz de covarincia

TraoY Trao PT X P

A permutao dos elementos de um produto no muda o trao


T

Trao Y Trao X PP

Como os autovetores so ortonormais PTP=I ou PPT=I

TraoY Trao X

11 12 1 p

21
2
22
2p
Trao

Trao

p
p2
pp

p1

Varincia total das p componentes


principais igual a varincia total
das p variveis

1 2 p 11 22 pp

1>2>...> p

Conservao da varincia total


Varincia total das p componentes principais igual a varincia total das
p variveis
X2
Y2
Y1

1 2 11 22

Nuvem de observaes

X1

Como 1>2>...> p

As componentes principais
oferecem uma nova base
vetorial para expressar as
variveis.
Ou seja, mudam apenas o
sistema de referncia e no a
nuvem de pontos.

As primeiras componentes principais concentram a maior parte da


varincia total

Critrios de seleo do nmero de componentes


1) Kaiser ou Mtodo da Raiz Latente: selecionar apenas as
componentes com autovalores maiores que 1
2) Escolha as m (m < p variveis) primeiras componentes
principais que concentrem pelo menos 80% da variabilidade
total das variveis originais. Se m=2, isto significa que o
fenmeno sob estudo pode ser muito simplificado;
m

i 1
p

i 1

100% 80%

3) Scree test grfico dos autovalores.

Scree-plot
1 ou 2 componentes
principais concentram a
maior parte da variao
total

Anlise de componentes principais no R


Comando princomp (EVERITT, 2007)
acp<-princomp(dados,cor=FALSE,score=TRUE)
cor = FALSE aplica a ACP na matriz de covarincia
cor = TRUE aplica a ACP na matriz de correlao
# mostra resultados da acp
summary(acp,loading=TRUE)
# faz grfico screeplot para ajudar na definio do nmero de
componentes principais
screeplot(acp)
# imprime escores dos objetos nas direes das componentes principais
acp$scores

# faz biplot das duas primeiras componentes principais


biplot(acp)

Aplicar a ACP na matriz de covarincia ou na matriz de correlao?


As variveis do vetor aletrio X podem estar expressas em unidades
fsicas diferentes (m, km, g, kg, l, kl, segundo, minuto, hora,...) e ou terem
varincias muito diferentes.
Como a ACP busca maximizar a varincia ela pode ser sensvel s
diferenas de escala entre as variveis. Para evitar este problema os
dados devem ser expresso em unidades comparveis.
Um forma de expressar os dados em unidades comparveis consiste em
aplicar a ACP s variveis padronizadas:

zi

xi X i
Si2

Var zi 1

A matriz de covarincia das variveis padronizadas a matriz de


correlao. Por esta razo, em geral, recomenda-se aplicar a ACP na
matriz de correlao.

Exemplos

EXEMPLO 1
Exemplo (Johnson & Wichern, 2002): Em um estudo sobre o
tamanho e a forma da carapaa de tartarugas, Jolicoeur &
Mosimann mediram o comprimento (mm), a largura (mm) e a altura
(mm) de 24 tartarugas machos (dados em tartarugas.xls ou em
http://life.bio.sunysb.edu/morph/data/JolicoeurMosimannPaintedTur
tles.html).

comprimento
93
94
96
101
102
103
104
106
107
112
113
114
116
117
117
119
120
120
121
125
127
128
131
135

largura
74
78
80
84
85
81
83
83
82
89
88
86
90
90
91
93
89
93
95
93
96
95
95
106

altura
37
35
35
39
38
37
39
39
38
40
40
40
43
41
41
41
40
44
42
45
45
45
46
47

Var(comprimento) = 138,77 mm2


Var(largura) = 50,04 mm2
As expressivas diferenas
Var(altura) = 11,26 mm2
nas varincias e os boxplots
indicam a presena de
heterocedasticidade.

Para a aplicao da ACP


interessante homogeneizar a
varincia.
Para esta finalidade as
variveis podem ser
padronizadas ou pode-se
aplicar uma transformao
logartmica

A transformao
varincias.

logartmica

faz

homogeneizao

ln comprimento ln largura ln altura


4,5326
4,5433
4,5643
4,6151
4,6250
4,6347
4,6444
4,6634
4,6728
4,7185
4,7274
4,7362
4,7536
4,7622
4,7622
4,7791
4,7875
4,7875
4,7958
4,8283
4,8442
4,8520
4,8752
4,9053

4,3041
4,3567
4,3820
4,4308
4,4427
4,3944
4,4188
4,4188
4,4067
4,4886
4,4773
4,4543
4,4998
4,4998
4,5109
4,5326
4,4886
4,5326
4,5539
4,5326
4,5643
4,5539
4,5539
4,6634

3,6109
3,5553
3,5553
3,6636
3,6376
3,6109
3,6636
3,6636
3,6376
3,6889
3,6889
3,6889
3,7612
3,7136
3,7136
3,7136
3,6889
3,7842
3,7377
3,8067
3,8067
3,8067
3,8286
3,8501

Var( ln(comprimento) ) = 0,01107


Var( ln(largura) ) = 0,0064
Var( ln(altura) ) = 0,0068

das

3.95
3.9

Ln altura

3.85
3.8
3.75
3.7
3.65
3.6
3.55
4.7
4.6
4.5
4.4
4.3
4.2

Ln largura

4.5

4.55

4.6

4.65

4.7

4.75

4.8

4.85

4.9

Ln comprimento

4.95

Matriz de covarincias

S=

Primeira componente concentra a


maior parte da varincia total

Autovetores e autovalores de S

e1

e2

e3

autovalores

0,223

0,0006

0,0004

96,04

2,47

1,65

% acumulado

96,04

98,51

100

autovetores

Projeo das observaes na direo de maior variabilidade


Ln _ comprimentoi

e1

X Ln _ l arg urai
Ln _ alturai

projeoi 0 ,6831 Ln _ comprimentoi 0 ,5102 Ln _ l arg urai 0 ,5225 Ln _ alturai

projeoi Ln _ comprimentoi

0 ,6831

Ln _ l arg urai

projeoi Ln _ comprimentoi

0 ,6831

l arg urai

0 ,5102

0 ,5102

Ln _ alturai

alturai

0 ,5225

0 ,5225

Note que os expoentes so da mesma ordem de grandeza


projeoi f volumei
A primeira componente principal relaciona-se com o volume da carapaa
da tartaruga

# localiza diretrio onde est o arquivo de dados


diretorio<-paste('f:/aulas multivariada/')
setwd(diretorio)

Programa R

# leitura da planilha Excel com os dados


PRECISA INSTALAR O PACOTE XLSREADWRITE E EXECUTAR xls.getshlib() UMA VEZ
dados<-read.xls('tartarugas.xls')

# faz boxplot
boxplot(dados)
# aplica transformao logartmica
dados<-log(dados)
# calcula matriz de correlaes
R<-cor(dados)

Se TRUE faz a acp com a matriz de correlao


Se FALSE faz a acp com a matriz de covarincia

# faz ACP
acp<-princomp(dados,cor=FALSE,score=TRUE)
# mostra resultados da acp
summary(acp,loading=TRUE)
# faz grfico screeplot para ajudar na definio do nmero de componentes principais
screeplot(acp)
# scores das tartarugas nas componentes principais
acp$scores

Resultados gerados pelo programa R


Parcela da varincia
concentrada na primeira
componente

Raiz quadrada do auto valor

Autovetor
associado ao
primeiro
autovalor

Parcela da varincia
concentrada na primeira
componente

Resultados gerados pelo programa R

Escore da i-sima tartaruga na


primeira componente principal =
0,6831 * ( xi1 mdiax1 ) +
0,5102 * ( xi2 mdiax2 ) +
0,5225 * ( xi3 mdiax3 )

Pondera os desvios em relao


mdia pelos elementos do
autovetor que define a primeira
componente principal

Seleciona escores na
primeira componente
acp$scores[,1]

Resultados gerados pelo programa R


Biplot nas duas primeiras componentes principais ( 99% da varincia total )

Grfico gerado pelo comando


biplot(acp)
Vetores das variveis apontando
na mesma direo indicam
variveis positivamente
correlacionadas e com
correlaes fortes.
O volume da carapaa da
tartaruga cresce da esquerda
para a direita.
Tartarugas 1, 2 e 3 so as menores
e a tartaruga 24 a maior
Matriz de correlaes

EXEMPLO 2
Oito marcas de coxinha de galinha foram avaliadas por 5 juzes
em relao a 4 atributos: sabor (x1), aroma (x2), qualidade da
massa (x3) e qualidade do recheio (x4).
Cada jurado atribuiu uma nota numa escala ordinal de 1 a 5
sendo que notas maiores indicam melhor qualidade.
(dados em coxinha.xls).
Dados: as notas para cada coxinha
em cada atributo so as mdias dos
cinco avaliadores

Matriz de dados
Matriz de covarincias

Autovetores e autovalores

Primeira componente
concentra a maior parte
da varincia total

1 = 1,737 2 = 0,065 3 = 0,027 4 = 0,022


1 Componente

94%

3,5%

1,5%

1%

Y1 = 0,456 x Sabor + 0,223 x Aroma + 0,477 x Massa + 0,717 x Recheio

Matriz de dados

Escores das coxinhas na 1


componente principal

1 Componente define as ponderaes de um ndice til na


ordenao das coxinhas
Y1 = 0,456 x Sabor + 0,223 x Aroma + 0,477 x Massa + 0,717 x Recheio
Por exemplo, o escore da coxinha M1 igual a:
Y1 = 0,456 x 2,75 + 0,223 x 4,03 + 0,477 x 2,80 + 0,717 x 2,62 = 5,37

EXEMPLO 3
Exemplo (Lattin, Carrol & Green, 2011): Aplicao da anlise de
componentes principais aos valores do produto estadual bruto (GSP
Gross State Product) de cada uma das 13 reas de atividade
econmica em 1996 (arquivos gsp_rwa.xls e gsp_share.xls):
Agricultura, silvicultura e pesca
Minerao
Construo civil
Servios urbanos (Eletricidade, gs e saneamento)
Indstria (bens durveis)
Indstria (bens de consumo)
Transporte
Comunicaes
Comrcio atacadista
Comrcio varejista
Fiducirio, seguros e setor imobilirio
Servios
Governo

Cross-section dos 50 Estados dos EUA em 1996 (valores em milhes de dlares)


Estado Agricultura Minerao Const_ Civil Ind_bens_durveis
Ind_bens_consumo Transporte Comunicaes Serv_Urbanos Com_Atacadista Com_Varejista Fiduciria Servios Governos
AL
2016
1474
4144
10397
11734
2878
2836
3587
6259
9781
12694
15996
15395
AK
355
5424
983
277
884
2921
489
360
710
1576
2584
2871
4728
AZ
1899
1480
6442
12844
3299
3177
2421
3046
6997
11743
21120
22546
14505
AR
2886
570
2240
7242
6656
2470
1332
2361
3469
5729
6453
8344
6664
CA
20564
5776
31656
86522
47657
25133
24501
17501
65857
85443
218439 222748 110900
CO
2053
1936
6219
8939
5286
3796
6595
2565
7355
11274
19815
25161
15231
CT
893
52
4055
13616
7096
2193
2824
2681
8229
9211
35041
27029
11126
DE
290
6
970
1283
4710
462
379
668
1124
1698
10026
4042
2673
FL
6520
787
17031
16523
12763
11193
10933
10170
26417
40362
78695
84406
44696
GA
3801
906
8356
15957
23123
8565
9720
5881
18940
19333
35515
38919
27019
HI
445
28
1753
273
851
1617
1124
992
1446
4192
7768
8077
7752
ID
1744
174
1653
4189
1565
982
439
1021
1689
2774
3431
4548
3691
IL
5052
1282
15476
42026
29418
13905
8677
11447
28507
29877
71023
76832
37257
IN
2735
715
7228
33323
16015
5485
2189
4905
9382
14212
20426
23893
15289
IA
5771
177
3138
10088
8204
2507
1516
2100
5213
6296
10915
11655
8735
KS
2986
983
2838
7095
5356
2633
2417
2290
5311
6540
8608
11360
9597
KY
2438
2448
3752
14244
12589
3678
1453
2801
5565
8472
10733
14293
12944
LA
1488
17973
5086
4475
18514
3995
2276
4419
6451
9502
14709
19054
13201
ME
513
15
1297
2281
3052
676
572
904
1723
3197
5340
5410
3915
MD
1338
100
7216
5830
6486
3038
4123
4146
9046
12514
30573
33229
25552
MA
1212
130
6606
21966
10299
4083
3861
5184
14845
16373
50880
53879
19273
MI
2526
1173
10131
52785
18899
6322
4129
7058
18874
23420
41538
48791
27691
MN
4174
877
6195
15532
11584
5296
2640
2941
11776
12275
25352
27558
15374
MS
1798
507
2192
7313
5895
1813
1334
2857
3150
5630
6474
9032
8410
MO
2621
522
6697
16447
14675
5800
5114
4007
10659
13223
21345
27768
16246
MT
943
903
893
822
608
1008
391
932
1192
1839
2473
3557
2948
NE
4330
114
2097
3315
3347
3193
986
674
3495
3906
7007
8055
6669
NV
406
1969
4495
1687
902
1555
961
1630
2478
5053
9877
17336
5339
NH
252
31
1198
5600
1957
521
582
1486
2113
3098
7566
6617
3088
NJ
1524
128
9675
11954
26031
8889
11285
7366
25132
20221
64187
60211
29773
NM
808
3050
1979
6147
880
1073
708
1480
1823
3800
5937
7468
7545
NY
2780
471
17629
36007
36147
13007
21968
14544
37741
42056
182389 140228
68323
NC
4757
259
8563
20877
34198
5816
4161
6158
13094
18242
29719
31418
26968
ND
1668
482
764
723
461
767
302
626
1377
1427
1989
2741
2374
OH
3331
1134
11753
54395
28273
8809
5703
8994
21535
27984
46511
53989
31941
OK
1531
3879
2332
7431
5156
2702
2017
2570
4421
7267
9064
12634
11762
OR
2590
104
4731
13919
3949
2935
1633
2143
6937
7586
14140
15939
10361
PA
3298
1748
12509
37050
31025
9911
7245
11814
19286
28310
62352
69654
34338
RI
208
19
895
2853
1430
396
642
797
1426
2242
5802
5814
3106
SC
1208
223
4195
9335
14432
2156
1758
3193
5172
9180
11861
13505
13258
SD
2003
251
745
2257
694
637
332
623
1236
1795
4188
3156
2373
TN
1651
399
5527
17466
14777
6816
2798
1461
10396
15368
19450
27633
17005
TX
7327
41278
24138
47434
42291
20283
17481
20672
40239
47953
79020
99282
64431
UT
583
1620
2858
4578
2473
2068
1016
1316
3094
5167
8304
9892
7383
VT
332
46
635
1804
842
325
386
523
890
1416
2607
3043
1762
VA
1952
997
8635
11883
18103
5448
6818
4756
11068
16168
35268
39364
37351
WA
4612
332
7683
13985
6949
5037
5187
2551
11802
15432
29205
33006
23823
WV
240
2980
1720
2680
4036
1244
840
2789
1960
3248
4147
6147
5129
WI
3016
365
5986
22942
15662
4450
2083
3283
8756
12030
22367
23105
15114
WY
361
5323
622
235
731
1083
234
1082
543
1101
1744
1610
2177

diretorio<-paste('f:/aulas multivariada/')
setwd(diretorio)
# leitura da planilha Excel com os dados
PRECISA INSTALAR O PACOTE XLSREADWRITE E EXECUTAR xls.getshlib() UMA VEZ
dados<-read.xls(gsp_raw.xls')

Matriz de correlaes
No R usar o comando cor(dados)

Considervel correlao positiva entre as variveis


Maiores nveis de PIB setorial nos estados maiores e mais desemvolvidos

Menores nveis de PIB setorial nos estados menores e menos


desenvolvidos
Uma boa quantidade de covariao pode ser explicada por um ou dois
componentes principais

Resultados da Anlise de Componentes Principais


No R usar os comandos
acp<-princomp(dados,cor=TRUE,score=TRUE)
summary(acp,loading=TRUE)
1

As duas primeiras
componentes
concentram 92%
da varincia total

Autovetores das duas


primeiras componentes

Como pegar os autovetores das componentes ?


Coeficientes da primeira componente principal

autovetor1<-acp$loadings[,1]

Coeficientes da segunda componente principal

autovetor2<-acp$loadings[,2]

Screeplot
No R usar o comando screeplot(acp)
A primeira componente principal a mais importante
As demais podem ser descartadas

Biplot
No R usar o comando biplot(acp)
Texas

Louisiana

Minerao

A primeira
componente
principal est
associada ao
nvel de
desenvolvimento
econmico do
estado

New York
California

Desenvolvimento econmico

Cross-section dos 50 Estados dos EUA em 1996 (participao dos setores no PIB total)
cada linha soma 100% (o tamanho do estado foi removido)
AL
AK
AZ
AR
CA
CO
CT
DE
FL
GA
HI
ID
IL
IN
IA
KS
KY
LA
ME
MD
MA
MI
MN
MS
MO
MT
NE
NV
NH
NJ
NM
NY
NC
ND
OH
OK
OR
PA
RI
SC
SD
TN
TX
UT
VT
VA
WA
WV
WI
WY

Agricultura Minerao Const_ Civil Ind_bens_durveis Ind_bens_consumo Transporte Comunicaes Serv_Urbanos Com_Atacadista Com_Varejista Fiduciria Servios Governos
2.00
1.50
4.20
10.50
11.80
2.90
2.90
3.60
6.30
9.90
12.80
16.10
15.50
1.50
22.40
4.10
1.10
3.70
12.10
2.00
1.50
2.90
6.50
10.70
11.90
19.60
1.70
1.30
5.80
11.50
3.00
2.80
2.20
2.70
6.30
10.50
18.90
20.20
13.00
5.10
1.00
4.00
12.80
11.80
4.40
2.40
4.20
6.10
10.20
11.40
14.80
11.80
2.10
0.60
3.30
9.00
5.00
2.60
2.50
1.80
6.80
8.90
22.70
23.10
11.50
1.80
1.70
5.40
7.70
4.50
3.30
5.70
2.20
6.30
9.70
17.00
21.60
13.10
0.70
0.00
3.30
11.00
5.70
1.80
2.30
2.20
6.60
7.40
28.20
21.80
9.00
1.00
0.00
3.40
4.50
16.60
1.60
1.30
2.40
4.00
6.00
35.40
14.30
9.40
1.80
0.20
4.70
4.60
3.50
3.10
3.00
2.80
7.30
11.20
21.80
23.40
12.40
1.80
0.40
3.90
7.40
10.70
4.00
4.50
2.70
8.80
8.90
16.40
18.00
12.50
1.20
0.10
4.80
0.80
2.30
4.50
3.10
2.70
4.00
11.50
21.40
22.20
21.30
6.30
0.60
5.90
15.00
5.60
3.50
1.60
3.70
6.10
9.90
12.30
16.30
13.20
1.40
0.30
4.20
11.30
7.90
3.80
2.30
3.10
7.70
8.10
19.20
20.70
10.00
1.80
0.50
4.60
21.40
10.30
3.50
1.40
3.10
6.00
9.10
13.10
15.30
9.80
7.60
0.20
4.10
13.20
10.80
3.30
2.00
2.80
6.80
8.30
14.30
15.30
11.40
4.40
1.40
4.20
10.40
7.90
3.90
3.60
3.40
7.80
9.60
12.70
16.70
14.10
2.60
2.60
3.90
14.90
13.20
3.90
1.50
2.90
5.80
8.90
11.20
15.00
13.60
1.20
14.80
4.20
3.70
15.30
3.30
1.90
3.60
5.30
7.80
12.10
15.70
10.90
1.80
0.10
4.50
7.90
10.60
2.30
2.00
3.10
6.00
11.10
18.50
18.70
13.50
0.90
0.10
5.00
4.10
4.50
2.10
2.90
2.90
6.30
8.70
21.40
23.20
17.80
0.60
0.10
3.20
10.50
4.90
2.00
1.90
2.50
7.10
7.80
24.40
25.80
9.20
1.00
0.40
3.80
20.00
7.20
2.40
1.60
2.70
7.20
8.90
15.80
18.50
10.50
2.90
0.60
4.40
11.00
8.20
3.70
1.90
2.10
8.30
8.70
17.90
19.50
10.90
3.20
0.90
3.90
13.00
10.50
3.20
2.40
5.10
5.60
10.00
11.50
16.00
14.90
1.80
0.40
4.60
11.30
10.10
4.00
3.50
2.80
7.30
9.10
14.70
19.10
11.20
5.10
4.90
4.80
4.40
3.30
5.40
2.10
5.00
6.40
9.90
13.40
19.20
15.90
9.20
0.20
4.40
7.00
7.10
6.80
2.10
1.40
7.40
8.30
14.80
17.10
14.10
0.80
3.70
8.40
3.10
1.70
2.90
1.80
3.00
4.60
9.40
18.40
32.30
9.90
0.70
0.10
3.50
16.40
5.70
1.50
1.70
4.40
6.20
9.10
22.20
19.40
9.10
0.60
0.00
3.50
4.30
9.40
3.20
4.10
2.70
9.10
7.30
23.20
21.80
10.80
1.90
7.10
4.60
14.40
2.10
2.50
1.70
3.50
4.30
8.90
13.90
17.50
17.70
0.50
0.10
2.90
5.90
5.90
2.10
3.60
2.40
6.20
6.90
29.70
22.90
11.10
2.30
0.10
4.20
10.20
16.70
2.80
2.00
3.00
6.40
8.90
14.60
15.40
13.20
10.60
3.10
4.90
4.60
2.90
4.90
1.90
4.00
8.80
9.10
12.70
17.50
15.10
1.10
0.40
3.90
17.90
9.30
2.90
1.90
3.00
7.10
9.20
15.30
17.70
10.50
2.10
5.30
3.20
10.20
7.10
3.70
2.80
3.50
6.10
10.00
12.50
17.40
16.20
3.00
0.10
5.40
16.00
4.50
3.40
1.90
2.50
8.00
8.70
16.30
18.30
11.90
1.00
0.50
3.80
11.30
9.40
3.00
2.20
3.60
5.90
8.60
19.00
21.20
10.50
0.80
0.10
3.50
11.10
5.60
1.50
2.50
3.10
5.60
8.70
22.60
22.70
12.10
1.40
0.20
4.70
10.40
16.10
2.40
2.00
3.60
5.80
10.30
13.30
15.10
14.80
9.90
1.20
3.70
11.10
3.40
3.10
1.60
3.10
6.10
8.80
20.60
15.60
11.70
1.20
0.30
3.90
12.40
10.50
4.80
2.00
1.00
7.40
10.90
13.80
19.60
12.10
1.30
7.50
4.40
8.60
7.70
3.70
3.20
3.70
7.30
8.70
14.30
18.00
11.70
1.20
3.20
5.70
9.10
4.90
4.10
2.00
2.60
6.10
10.30
16.50
19.60
14.70
2.30
0.30
4.30
12.30
5.80
2.20
2.60
3.60
6.10
9.70
17.80
20.80
12.10
1.00
0.50
4.40
6.00
9.20
2.80
3.40
2.40
5.60
8.20
17.80
19.90
18.90
2.90
0.20
4.80
8.80
4.40
3.20
3.20
1.60
7.40
9.70
18.30
20.70
14.90
0.60
8.00
4.60
7.20
10.90
3.30
2.30
7.50
5.30
8.70
11.20
16.50
13.80
2.20
0.30
4.30
16.50
11.30
3.20
1.50
2.40
6.30
8.60
16.10
16.60
10.90
2.10
31.60
3.70
1.40
4.30
6.40
1.40
6.40
3.20
6.50
10.40
9.60
12.90

diretorio<-paste('f:/aulas multivariada/')
setwd(diretorio)
# leitura da planilha Excel com os dados
PRECISA INSTALAR O PACOTE XLSREADWRITE E EXECUTAR xls.getshlib() UMA VEZ
dados<-read.xls(gsp_share.xls')

Matriz de correlaes

No R usar o comando cor(dados)

Poucas correlaes elevadas.


A maioria varia ente 0 e 0,3 sendo algumas negativas.
Um nico componente principal pode no ser suficiente para explicar as
variaes subjacentes.

Resultados da Anlise de Componentes Principais


No R usar os comandos
acp<-princomp(dados,cor=TRUE,score=TRUE)
summary(acp,loading=TRUE)
1

As duas primeiras
componentes
concentram apenas
42% da varincia
total

Autovetores das duas


primeiras componentes

A maior parte da covariao no explicada


por um reduzido nmero de componentes
principais.

Como pegar os autovetores das componentes ?


Coeficientes da primeira componente principal

autovetor1<-acp$loadings[,1]

Coeficientes da segunda componente principal

autovetor2<-acp$loadings[,2]

Screeplot
No R usar o comando screeplot(acp)
A maior parte da covariao no explicada
por um reduzido nmero de componentes
principais.

Biplot
O biplot reflete as
especializaes das
economias
estaduais

Obtendo as coordenadas (escores) dos estados no biplot

score_cp1< acp$scores[,1]

score_cp2< acp$scores[,2]

EXEMPLO 4
Exemplo (Sousa & Oliveira, 2014):Ranking dos atacantes do
Campeonato Brasileiro Srie A 2013
Dados: Cartola FC http://globoesporte.globo.com/cartola-fc

141 atacantes descritos por 8 variveis


Nmero de gols (+)
Passes errados (-)
Assistncias (+)
Finalizaes na trave (+)
Finalizaes defendidas (+)
Finalizaes para fora (+)
Impedimentos (-)
Penalties perdidos (-)

Leitura da matriz de dados


# diretrio de trabalho
setwd("c:/curso_R_2014")
dados=read.csv("jogadores.csv",sep=";",header=T)
p=dim(dados)[2]
# Matriz de dados X
X=dados[,2:p]
rownames(X)=dados[,1]
# dimenses da matriz X
dim(X)
# variveis na matriz X
names(X)

# primeiras seis linhas da matriz de dados


head(X)

cor(X)

Matriz de correlaes

Execuo da ACP

# faz a ACP
resultado=princomp(X,cor=T,score=T)
summary(resultado)

# scree plot
plot(resultado)

As duas primeiras componentes


principais concentram 75% da
varincia total

Resultados

names(resultado)

# coeficientes das componentes principais (autovetores)


resultado$loadings

A primeira componente est associada ao desempenho de um atacante


A segunda componente est associada com penalties perdidos

Resultados
# grfico dos coeficientes das duas primeiras componentes
plot(resultado$loadings)
text(resultado$loadings,names(X))
Mehor desempenho

Mais
penalties
perdidos

Resultados
# scores dos jogadores nas componentes principais
resultado$scores

Resultados
# jogadores nas duas primeiras componentes principais
plot(resultado$scores)
text(resultado$scores,rownames(X))
William (Ponte Preta)

Comp.2

Fred (Fluminense)

Dinei (Vitoria)

Paolo Guerrero (Corintihians)


Marcelo Moreno (Flamengo)
Marcel (Criciuma)

Rafael Sobis (Fluminense)

Andr? (Vasco)
Elias
(Botafogo)
Borges
(Cruzeiro)
Alexandre
Pato
(Corintihians)
Rafael
Moura (Internacional)
Gilberto
(Portuguesa)
Alosio
(Sao
Paulo)
Alecsandro
(Atletico
MG)
Welliton
(Sao
Paulo)
Luis
Fabiano
(Sao
Paulo)
Bruno
Mendes
(Botafogo)
Wellington
Paulista
(Criciuma)
Bruno
Moraes
(Portuguesa)
Bill
(Coritiba)
Denilson
Romao
Bruno
Pedro
Lopes
(Fluminense)
Keirrison
Oldoni
(Criciuma)
Anselmo
(Vitoria)
(Coritiba)
Ramon
Carlos
(Cruzeiro)
Tenorio
(Vasco)
Flecha
Michel
Arraya
Maiquinho
Robinho
Rafael
(Portuguesa)
(Portuguesa)
Ratao
(Coritiba)
(Vasco)
(Ponte
Preta)
Marcelinho
Andr?
Yuri
Paulinho
Mamute
Lima
(Fluminense)
(Vitoria)
(Gremio)
(Gremio)
Araujo
(Goias)
Fernandao (Bahia)
Elder
Victor
Carlos
Zizao
Nelson
Weldon
Mike
Saullo
Santana
Ciro
Romulo
Andrade
(Corintihians)
(Internacional)
(Atletico
(Atletico
Reginaldo
(Portuguesa)
(Nautico)
(Criciuma)
(Atletico
(Vitoria)
(Santos)
Henrique
PR)
MG)
(Vasco)
MG)
(Botafogo)
Willian
Jos?
(Sao
Paulo)
Paulo
Lucas
Sass
Victor
Coelho
Alex
(Botafogo)
(Corintihians)
Thalles
(Botafogo)
Leonardo
(Vasco)
(Ponte
Preta)
Scocco
(Internacional)
Vincius
Araujo
(Cruzeiro)
Silvinho
Douglas
Cassiano
(Sao
(Criciuma)
Joao
Bergson
Paulo)
Paulo
(Criciuma)
(Portuguesa)
(Nautico)
Samuel
Willie
(Fluminense)
(Vasco)
Olivera
(Nautico)
Edmlson
(Vasco)
Negueba
Bruninho
Erik
Paulo
(Flamengo)
(Goias)
(Flamengo)
(Goias)
Neilton
(Santos)
Maxi
Biancucchi
(Vitoria)
Douglas
(Atletico
Adailton
PR)
(Ponte
William
Preta)
Henrique
(Vitoria)
Obina
(Bahia)
Welinton
Junior
Giva
(Goias)
(Santos)
Henrique
(Portuguesa)
Caio
(Internacional)
Forlan
(Internacional)
L?o
Neto
Bonatini
Berola
(Goias)
(Atletico
MG)
Luan
Deivid
(Cruzeiro)
(Coritiba)
Vargas
(Gremio)
Maikon
Leite
(Nautico)
Marcos
(Fluminense)
Rhayner
(Fluminense)
Hugo
(Nautico)
Hernane (Flamengo)
Everton
Fabinho
Costa
(Goias)
(Santos)
Junior
Vicosa
(Goias)
Jones Carioca
(Nautico)
Alemao
(Vitoria)
Geraldo
(Coritiba)
Lucca
Kenedy
(Cruzeiro)
(Fluminense)
Rog?rio
(Nautico)
Biro
(Fluminense)
Lins (Criciuma)
Roger
(Atletico
Osvaldo
PR)
(Sao
Paulo)
Hyuri
(Botafogo)
Jo
(Atletico
MG)
Nixon
(Flamengo)
MartinuccioSouza
(Cruzeiro)
WiliamMG)
Barbio
(Bahia)
Guilherme
(Atletico
Julio Cesar
(Coritiba)
Rildo
(Ponte
Preta)
Thiago
Ribeiro
(Santos)
Jorge(Flamengo)
Henrique
(Internacional)
Barcos (Gremio)
Rafinha
(Bahia)
Ademilson
(Sao
Paulo)
Damiao
(Internacional)
Diego
Tardelli
(Atletico
MG)
Emerson
(Corintihians)
Dellatorre
(Atletico
PR)
Kleber
(Gremio)Leandro
Romarinho
(Corintihians)
Fernandinho
Marquinhos
(Atletico
Gabriel
MG)
(Bahia)
Diogo
(Portuguesa)
Dagoberto (Cruzeiro) PaulinhoChiquinho
(Ponte
Preta) PR)
Marcelo
(Atletico
(Flamengo)
Wallyson (Bahia) Luan
(Atletico
MG)
Marquinhos (Vitoria)
Willian
(Cruzeiro)

-2

4
Comp.1

Ederson (Atletico PR)

Walter (Goias)
Rafael Marques (Botafogo)
6

Resultados
# 10 melhores atacantes no ranking por ACP
sort(resultado$scores[,1],decreasing=T)[1:10]

# 10 piores atacantes no ranking por ACP


sort(resultado$scores[,1],decreasing=F)[1:10]

Comparao com o Trofu Armando Nogueira


Artilheiro do campeonato com 21 gols

Sousa & Oliveira (2014)


Vice artilheiro com 16 gols

Referncias bibliogrficas
EVERITT, B. An R and S-Plus companion to multivariate analysis, Springer-Verlag,
London, 2007.
FVERO, L.P.; BELFIORE, P.; SILVA, F.L.; CHAN, B.L. Anlise de dados: modelagem
multivariada para tomada de decises, Campus, Rio de Janeiro, 2009.
JOHNSON, R.A. & WICHERN, D.W. Applied Multivariate Statistical Analysis, 5th edition,
Prentice Hall, New Jersey, 2002.
LATTIN, J.; CARROLL, J.D.; GREEN, P.E. Anlise de dados multivariados,
Cengage learning, So Paulo, 2011.
LEBART, L.; MORINEAU, A.; PIRON, M. Statistique Exploratoire Multidimensionelle , 3e
dition, Dunod, Paris, 2000.
MINGOTI, S.A. Anlise de dados atravs de mtodos de estatstica multivariada: uma
abordagem aplicada, Editora UFMG, Belo Horizonte, 2005.
SOUSA, V.D.; OLIVEIRA, V.N. Anlise do desempenho dos atacantes do campeonato
brasileiro 2013 por meio da anlise de componentes principais, Projeto Final, UERJ, 2014.

Você também pode gostar