Análise de Componentes Principais

Análise de
José Francisco Moreira Pessanha

Componentes
professorjfmp@hotmail.com
Principais
Análise de componentes principais - ACP
Introduzida por Karl Pearson em 1901.
On lines and planes of closest fit to systems of point in

space, Philosophical Magazine, Series 6, vol. 2, no. 11,
pp. 559-572.
Karl Pearson
1857 - 1936
“Conçue pour la première fois
par Karl Pearson en 1901,
intégrée à la statistique
mathématique par Harold
Hotelling en 1933, l’analyse en
composantes principales n’est
vraiment utilisée que depuis
l’avènement et la diffusion des
moyens de calculs actuels.”
Lebart, Morineau et Piron

Statistique Exploratoire
Multidimensionnelle, 3e
édition, Dunod, Paris, 2000.
Componentes principais
Descrevem a estrutura de variância e covariância de variáveis
correlacionadas x1,x2,...,xp em termos de um conjunto de novas variáveis
y1, y2, ..., yp não correlacionadas.
Cada yi é uma combinação linear das variáveis x1,x2,...,xp
yi  ai1 x1  ai 2 x2    aip x p
Novas variáveis yi ordenadas em ordem decrescente de importância:
y1 (1ª componente principal) concentra a maior parte da variação dos
dados originais entre todas as combinações lineares de x1,x2,...,xp.
y2 (2ª componente principal) é não correlacionada com y1 e concentra a

maior parte da variação restante
y3 (3ª componente principal) é não correlacionada com y1 e y2 e concentra

uma parcela ainda menor da variação
e assim sucessivamente.
Finalidades da ACP
 Redução da dimensionalidade dos dados
 Descrição e visualização de dados
 Transformar as variáveis em novas variáveis

descorrelacionadas.
 Extração de sinal contido nos dados (Eliminar ou reduzir o

ruído presente nos dados)
 Ordenação dos objetos
 Construção de números índices

Alguns exemplos de aplicação da ACP
As componentes principais proporcionam a redução de dimensionaldade
As primeiras k (k<p) componentes principais concentram uma proporção
substancial da variação das variáveis originais e conseqüentemente podem ser
usadas para prover uma representação dos dados em um espaço de dimensão
k, menor que o espaço original de p dimensões.
Construção de números índices

Na análise das variações dos preços ao longo do tempo, os preços de alguma
commodities são considerados mais importantes que outras e os preços
devem ser ponderados de acordo com estas variações. Neste caso, uma forma
de ponderação consiste em adotar a primeira componente principal.
Obtenção de variáveis explicativas não correlacionadas para um modelo

de regressão linear
Correlações elevadas entre as variáveis explicativas podem implicar no
problema de multicolinearidade imperfeita, para evitá-lo pode-se aplicar a
análise de componentes principais aos dados das variáveis explicativas para
obter combinações lineares não correlacionadas destas variáveis e que
definem novas variáveis independentes para o modelo de regressão linear.
Definições
Considere um vetor aleatório XT=(x1,x2,...,xp) com matriz de
covariância ∑ (matriz pxp).
A matriz de covariância tem p autovalores (i, i=1,p) e p

autovetores ( ei = (ei1,ei2,...,eip) i=1,p), ordenados na ordem
decrescente dos autovalores.
Os coeficientes da i-ésima
A i-ésima componente principal é: componente são definidos pelo
autovetor do i-ésimo maior
yi  ei1 x1  ei 2 x2    eip x p autovalor
E  yi   ei11  ei 2 2    eip  p
V  yi   i A variância da componente é o respectivo autovalor
cov  yi , y j   0 As componentes principais são não correlacionadas

Notas em microeconomia
Notas em macroeconomia
Aluno 1
Motivação
n =30 alunos
p =2 variáveis (notas)
Matriz de
Cada aluno i é um vetor
Dados X
 X i1 
X i   
 X i2 
i = 1 até 30
Aluno 30
Nota em macroeconomia X2
Diagrama de dispersão
Cada ponto representa um aluno
0
Nota em microeconomia X1
Distribuições de freqüência das notas
alunos
Média = 5,8339
Variância = 1,0446
Desvio-padrão = 1,0221
alunos
Média = 6,9149
Variância = 0,9579
Desvio-padrão = 0,9787
Diagrama de dispersão
Covariância = 0,8155
Correlação = 0,8153
Relação direta entre as notas de

microeconomia e macroeconomia
Vetor média amostral
5 ,8339 
X  
6 ,9149 
Matriz de covariância amostral
Var(X1)
1,0446 0 ,8155 
S 
0 ,8155 0 ,9579 
Cov(X1,X2) Var(X2)
1,0446 0 ,8155 
Matriz de covariâncias = S   
0 ,8155 0 ,9579 
Variância  Var  X1   Var  X 2   1,0446  0,9579  2,0024
total
Traço de S
matriz de covariâncias 2x2  2 autovetores
Autovetores de S Autovalores de S
Direções de maior Parcela da variabilidade dos
variabilidade dos dados dados concentrada em Da Álgebra Linear sabe-se que
(componentes principais) cada componente principal
Variância das Traço de (S)
 0 ,7256  projeções =
e1    1  1,8179 Soma dos autovalores de S
 0 ,6881  Logo
Var(y1) = 1,8179
Var  x1   Var  x2  
Direção de maior variabilidade
 0 ,6881 
e2     2  0 ,1846 Var  y1   Var  y2   2,0024
  0 ,7256  Var(y2) = 0,1846
 0 ,7256 
e1    Y1
Autovetores  0 ,6881 
da matriz S  0 ,6881 
e2   
  0 ,7256 
Direções dos
autovetores
Y2
e1
Média das notas de
X 2 macroeconomia
Média
e2
5 ,84 
X  
6 ,91 
Média das notas de

X 1 microeconomia
0
Projeção na direção de maior variabilidade,
ou seja, escore do i-ésimo aluno na primeira
componente principal
A projeção é o produto interno Xie1 :
0 ,7256  X i1  0 ,6881  X i 2 i-ésimo aluno
 X i1 
X i   
Projeção do vetor do i-ésimo  X i2 
aluno na direção do
autovetor e1
Direção da 1ª
 0 ,7256 
e1 e1   
 0 ,6881 
0
Projeções na direção de maior variabilidade
das notas, ou seja, escores dos alunos na
primeira componente principal
0 ,7256  X i1  0 ,6881  X i 2
0
X i1 X i2 0 ,7256  X i1  0 ,6881  X i 2
Aluno 1 0 ,7256  6 ,0247  0 ,6881 7 ,0914  9 ,2512
0 ,7256  5,3404  0 ,6881  6 ,5713  8 ,3968
Projeções na
direção de
maior
0 ,7256  6 ,9374  0 ,6881  8 ,1074  10 ,6126 variabilidade
das notas ou
escores dos
alunos na
primeira
componente
principal
Aluno 30 0 ,7256  5,7759  0 ,6881  6 ,4534  8 ,6316

Distribuição de freqüência dos escores na primeira componente principal
Média = 8,99
Variância = 1,8179
Projeções na direção da segunda
0,6881 X i1  0,7256  X i 2
Observe que a dispersão dos

pontos na direção da
segunda componente é
menor que a dispersão na
direção da primeira
componente
Var(1ª componente) é maior

que Var(2ª componente)
0
X i1 X i2 0,6881 X i1  0,7256  X i 2
Aluno 1 0,6881 6,0247  0,7256  7,0914  0,9999
0,6881 5,3404  0,7256  6,5713  1,0934
0,6881 6,9374  0,7256  8,1074  1,1091 Projeções na

direção da
segunda
componente
principal
Aluno 30 0,6881 5,7759  0,7256  6,4534  0,7082

As componentes principais são combinações lineares das variáveis, cujos
coeficientes são definidos pelos autovetores da matriz e covariância:
Autovetores 1ª componente
define as projeções dos alunos na direção de
maior variabilidade
 0 ,7256 
e1    Yi1  0 ,7256  X i1  0 ,6881  X i 2
 0 ,6881 
2ª componente
 0 ,6881 
e2    Yi 2  0 ,6881  X i1  0 ,7256  X i 2
  0 ,7256 
As componentes principais são variáveis aleatórias com variâncias iguais
aos autovalores:
Var Yi 1   1  1,8179
Var Yi 2    2  0 ,1846
Var  X 2   0 ,9579
Nota em macroeconomia X2 Var Y1    1
Var Y1   1,8179
Var Y2    2
Var Y2   0 ,1846
Y1
Y2
Var  X 1   1,0446
0
Nota em microeconomia X
1,0446 0 ,8155 
Matriz de covariâncias = S   
0 ,8155 0 ,9579 
Variância total = traçoS   1,0446  0 ,9579  2,0024
1ª componente
Var Y1   1  1,8179
1,8179
 100%  90 ,78%
2 ,0024
1ª componente principal concentra 91% da variabilidade total dos dados, logo resume
boa parte da informação contida nas duas variáveis
2ª componente
0 ,1846
Var Y2    2  0 ,1846  100%  9 ,22%
2 ,0024
2ª componente principal concentra apenas 9% da variabilidade total dos dados e por
isso pode ser descartada
Resumindo
A análise de componentes principais substitui um conjunto de variáveis
correlacionadas (X) por um conjunto de novas variáveis não-
correlacionadas (Y), sendo essas combinações lineares das variáveis
iniciais e colocadas em ordem decrescente por suas variâncias.
Var Y1 > Var Y2 > .... > Var Yp

• Algebricamente, as componentes principais são combinações lineares
das “p” variáveis aleatórias X1, X2, ..., Xp;
• Geometricamente, as combinações lineares representam um novo

sistema de coordenadas obtido pela translação e rotação do sistema
original com X1, X2, ..., Xp como eixos;
• Os novos eixos representam as direções com as maiores

variabilidades e fornecem uma descrição mais simples e mais
parcimoniosa da estrutura de covariância, pois as componentes
principais são não correlacionadas;
• As componentes principais podem ser obtidas a partir da matriz de

correlação (r) ou da matriz de covariâncias () de X1, X2, ..., Xp. O seu
desenvolvimento não necessita da suposição de normalidade.
Resumindo
Roteiro para obtenção das componentes principais
X1   Y1
Matriz Calcular Calcular Selecionar
X2   Y2
 os os as
X3      Y3
ou autovalores autovetores componentes
... ...
r  e principais
Xp   Yp
Variáveis Componentes
originais principais
Teorema da decomposição espectral
Seja  a matriz de covariância do vetor aleatório X.
O vetor aleatório X tem p variáveis aleatórias
A matriz  tem p autovetores e1, e2,...,ep e p autovalores 1>2>...> p
Pelo teorema da decomposição espectral tem-se que:

  1e1e1T  2e2e2T     p e p eTp
 e11   e p1 
   
 12   ep2 
  1  e11 e12  e1 p      p  e p1 e p 2  e pp 
e
 
   
e  e 
 1p   pp 
Organizando a soma na forma matricial
 e11 e21  e p1  1   e11 e12  e1 p 
e e22  e p 2   2  e  e2 p 

12   21 e22
 

  

  

  

 X  PPT
e1 p e2 p  e pp    p  e p1 e p 2  e pp 
Matriz P, cada colunaMatriz diagonal  formada Matriz PT. cada

é um autovetor pelos autovalores em linha é um
ordem decrescente autovetor
Matriz de covariância das componentes principais
Componentes principais  y1   e11 e12  e1 p  x1 
    x 
 2   21 22  2 p  2 
Y  PT X
y e e e

         
    
 y  e
 p   p1 e p 2  e pp  x p 
Matriz de covariância das componentes principais
Y  PT  X P
Pela decomposição espectral tem-se que  X  PPT
Logo Y  PT PPT P
Como os autovetores são
ortonormais PTP=I ou PPT=I
Y  
1  Matriz diagonal  formada
   pelos autovalores em
Y   2  ordem decrescente
  
  As componentes principais
  p  são não correlacionadas
Conservação da variância total
Relação entre as matriz de covariância das variáveis originais e das
componentes principais
Y  PT  X P
Variância total é o traço da matriz de covariância
TraçoY   Traço PT  X P  
A permutação dos elementos de um produto não muda o traço
Traço Y  Traço  X PP 
   T
Como os autovetores são ortonormais PTP=I ou PPT=I
TraçoY   Traço X  Variância total das p componentes

principais é igual a variância total
 1    11  12   1 p  das p variáveis
   
   
 21   2p  1  2     p   11   22     pp

2 22
Traço  Traço 
   
    1>2>...> p
       
 p  p1 p2 pp 
Conservação da variância total
Variância total das p componentes principais é igual a variância total das
p variáveis
X2
Y2 Y1
1  2   11   22 Nuvem de observações
X1
As componentes principais
oferecem uma nova base
vetorial para expressar as
variáveis.
Ou seja, mudam apenas o
sistema de referência e não a
nuvem de pontos.
Como 1>2>...> p
As primeiras componentes principais concentram a maior parte da

variância total
Critérios de seleção do número de componentes
1) Kaiser ou Método da Raiz Latente: selecionar apenas as

componentes com autovalores maiores que 1
2) Escolha as m (m < p variáveis) primeiras componentes

principais que concentrem pelo menos 80% da variabilidade
total das variáveis originais. Se m=2, isto significa que o
fenômeno sob estudo pode ser muito simplificado;
m
 i
Scree-plot
i 1
p
100%  80%
1 ou 2 componentes

i 1
i principais concentram a
maior parte da variação
total
3) Scree test – gráfico dos autovalores.
Análise de componentes principais no R
Comando princomp (EVERITT, 2007)
acp<-princomp(dados,cor=FALSE,score=TRUE)
cor = FALSE aplica a ACP na matriz de covariância

cor = TRUE aplica a ACP na matriz de correlação
# mostra resultados da acp

summary(acp,loading=TRUE)
# faz gráfico screeplot para ajudar na definição do número de

screeplot(acp)
# imprime escores dos objetos nas direções das componentes principais

acp$scores
# faz biplot das duas primeiras componentes principais

biplot(acp)
Aplicar a ACP na matriz de covariância ou na matriz de correlação?
As variáveis do vetor aletório X podem estar expressas em unidades

físicas diferentes (m, km, g, kg, l, kl, segundo, minuto, hora,...) e ou terem
variâncias muito diferentes.
Como a ACP busca maximizar a variância ela pode ser sensível às

diferenças de escala entre as variáveis. Para evitar este problema os
dados devem ser expresso em unidades comparáveis.
Um forma de expressar os dados em unidades comparáveis consiste em

aplicar a ACP às variáveis padronizadas:
xi  X i
zi  Var zi   1
Si2
A matriz de covariância das variáveis padronizadas é a matriz de
correlação. Por esta razão, em geral, recomenda-se aplicar a ACP na
matriz de correlação.
Exemplos
EXEMPLO 1
Exemplo (Johnson & Wichern, 2002): Em um estudo sobre o
tamanho e a forma da carapaça de tartarugas, Jolicoeur &
Mosimann mediram o comprimento (mm), a largura (mm) e a altura
(mm) de 24 tartarugas machos (dados em tartarugas.xls ou em
http://life.bio.sunysb.edu/morph/data/JolicoeurMosimannPaintedTur
tles.html).
comprimento largura altura
93 74 37 Var(comprimento) = 138,77 mm2
94 78 35
96 80 35
Var(largura) = 50,04 mm2 As expressivas diferenças
101 84 39 Var(altura) = 11,26 mm2 nas variâncias e os boxplots
102 85 38 indicam a presença de
103 81 37 heterocedasticidade.
104 83 39
106 83 39 Para a aplicação da ACP é
107 82 38 interessante homogeneizar a
112 89 40 variância.
113 88 40
114 86 40 Para esta finalidade as
116 90 43 variáveis podem ser
117 90 41 padronizadas ou pode-se
117 91 41 aplicar uma transformação
119 93 41 logarítmica
120 89 40
120 93 44
121 95 42
125 93 45
127 96 45
128 95 45
131 95 46
135 106 47
A transformação logarítmica faz a homogeneização das
variâncias.
ln comprimento ln largura ln altura
4,5326 4,3041 3,6109
4,5433 4,3567 3,5553
Var( ln(comprimento) ) = 0,01107
4,5643 4,3820 3,5553
4,6151 4,4308 3,6636 Var( ln(largura) ) = 0,0064
4,6250 4,4427 3,6376 Var( ln(altura) ) = 0,0068
4,6347 4,3944 3,6109
4,6444 4,4188 3,6636
4,6634 4,4188 3,6636
4,6728 4,4067 3,6376
4,7185 4,4886 3,6889
4,7274 4,4773 3,6889
4,7362 4,4543 3,6889
4,7536 4,4998 3,7612
4,7622 4,4998 3,7136
4,7622 4,5109 3,7136
4,7791 4,5326 3,7136
4,7875 4,4886 3,6889
4,7875 4,5326 3,7842
4,7958 4,5539 3,7377
4,8283 4,5326 3,8067
4,8442 4,5643 3,8067
4,8520 4,5539 3,8067
4,8752 4,5539 3,8286
4,9053 4,6634 3,8501
3.95
3.9
3.85
Ln altura
3.8
3.75
3.7
3.65
3.6
3.55
4.7
4.6
5
4.95
4.5 4.9
4.85
4.4 4.8
4.75
4.7
4.3 4.65
4.6
4.55
4.2 4.5
Ln largura Ln comprimento
Matriz de covariâncias
S=
Primeira componente concentra a

Autovetores e autovalores de S maior parte da variância total
e1 e2 e3
autovetores
autovalores 0,223 0,0006 0,0004
% 96,04 2,47 1,65
% acumulado 96,04 98,51 100

Projeção das observações na direção de maior variabilidade
Ln _ comprimentoi
e1 X Ln _ l arg urai
Ln _ alturai
projeçãoi  0 ,6831  Ln _ comprimentoi  0 ,5102  Ln _ l arg urai  0 ,5225  Ln _ alturai
projeçãoi  Ln _ comprimentoi  Ln _ l arg urai  Ln _ alturai

0 ,6831 0 ,5102 0 ,5225
projeçãoi  Ln _ comprimentoi  l arg urai  alturai

0 ,6831 0 ,5102 0 ,5225
Note que os expoentes são da mesma ordem de grandeza

projeçãoi  f volumei 
A primeira componente principal relaciona-se com o volume da carapaça

da tartaruga
# localiza diretório onde está o arquivo de dados
diretorio<-paste('f:/aulas multivariada/') Programa R
setwd(diretorio)
# leitura da planilha Excel com os dados

PRECISA INSTALAR O PACOTE XLSREADWRITE E EXECUTAR xls.getshlib() UMA VEZ
dados<-read.xls('tartarugas.xls')
# faz boxplot
boxplot(dados)
# aplica transformação logarítmica

dados<-log(dados)
# calcula matriz de correlações Se TRUE faz a acp com a matriz de correlação

R<-cor(dados) Se FALSE faz a acp com a matriz de covariância
# faz ACP
acp<-princomp(dados,cor=FALSE,score=TRUE)
# mostra resultados da acp

# faz gráfico screeplot para ajudar na definição do número de componentes principais

screeplot(acp)
# scores das tartarugas nas componentes principais

acp$scores
Resultados gerados pelo programa R
Parcela da variância
concentrada na primeira Raiz quadrada do auto valor
componente
Autovetor Parcela da variância

associado ao concentrada na primeira
primeiro componente
autovalor
Escore da i-ésima tartaruga na

primeira componente principal =
0,6831 * ( xi1 – médiax1 ) +

0,5102 * ( xi2 – médiax2 ) +
0,5225 * ( xi3 – médiax3 )
Pondera os desvios em relação à

média pelos elementos do
autovetor que define a primeira
Seleciona escores na
primeira componente
acp$scores[,1]
Biplot nas duas primeiras componentes principais ( 99% da variância total )
Gráfico gerado pelo comando
biplot(acp)
Vetores das variáveis apontando

na mesma direção indicam
variáveis positivamente
correlacionadas e com
correlações fortes.
O volume da carapaça da
tartaruga cresce da esquerda
para a direita.
Tartarugas 1, 2 e 3 são as menores

e a tartaruga 24 é a maior
Matriz de correlações
EXEMPLO 2
Oito marcas de coxinha de galinha foram avaliadas por 5 juízes
em relação a 4 atributos: sabor (x1), aroma (x2), qualidade da
massa (x3) e qualidade do recheio (x4).
Cada jurado atribuiu uma nota numa escala ordinal de 1 a 5

sendo que notas maiores indicam melhor qualidade.
(dados em coxinha.xls).
Dados: as notas para cada coxinha

em cada atributo são as médias dos
cinco avaliadores
Matriz de dados
Matriz de covariâncias
Primeira componente Autovetores e autovalores

concentra a maior parte
da variância total
1 = 1,737 2 = 0,065 3 = 0,027 4 = 0,022

1ª Componente 94% 3,5% 1,5% 1%
Y1 = 0,456 x Sabor + 0,223 x Aroma + 0,477 x Massa + 0,717 x Recheio
Escores das coxinhas na 1ª
Matriz de dados componente principal
1ª Componente define as ponderações de um índice útil na

ordenação das coxinhas
Y1 = 0,456 x Sabor + 0,223 x Aroma + 0,477 x Massa + 0,717 x Recheio
Por exemplo, o escore da coxinha M1 é igual a:

Y1 = 0,456 x 2,75 + 0,223 x 4,03 + 0,477 x 2,80 + 0,717 x 2,62 = 5,37
EXEMPLO 3
Exemplo (Lattin, Carrol & Green, 2011): Aplicação da análise de
componentes principais aos valores do produto estadual bruto (GSP
– Gross State Product) de cada uma das 13 áreas de atividade
econômica em 1996 (arquivos gsp_rwa.xls e gsp_share.xls):
•Agricultura, silvicultura e pesca

•Mineração
•Construção civil
•Serviços urbanos (Eletricidade, gás e saneamento)
•Indústria (bens duráveis)
•Indústria (bens de consumo)
•Transporte
•Comunicações
•Comércio atacadista
•Comércio varejista
•Fiduciário, seguros e setor imobiliário
•Serviços
•Governo
Cross-section dos 50 Estados dos EUA em 1996 (valores em milhões de dólares)
Estado Agricultura Mineração Const_ Civil Ind_bens_duráveis
Ind_bens_consumo Transporte Comunicações Serv_Urbanos Com_Atacadista Com_Varejista Fiduciária Serviços Governos
AL 2016 1474 4144 10397 11734 2878 2836 3587 6259 9781 12694 15996 15395
AK 355 5424 983 277 884 2921 489 360 710 1576 2584 2871 4728
AZ 1899 1480 6442 12844 3299 3177 2421 3046 6997 11743 21120 22546 14505
AR 2886 570 2240 7242 6656 2470 1332 2361 3469 5729 6453 8344 6664
CA 20564 5776 31656 86522 47657 25133 24501 17501 65857 85443 218439 222748 110900
CO 2053 1936 6219 8939 5286 3796 6595 2565 7355 11274 19815 25161 15231
CT 893 52 4055 13616 7096 2193 2824 2681 8229 9211 35041 27029 11126
DE 290 6 970 1283 4710 462 379 668 1124 1698 10026 4042 2673
FL 6520 787 17031 16523 12763 11193 10933 10170 26417 40362 78695 84406 44696
GA 3801 906 8356 15957 23123 8565 9720 5881 18940 19333 35515 38919 27019
HI 445 28 1753 273 851 1617 1124 992 1446 4192 7768 8077 7752
ID 1744 174 1653 4189 1565 982 439 1021 1689 2774 3431 4548 3691
IL 5052 1282 15476 42026 29418 13905 8677 11447 28507 29877 71023 76832 37257
IN 2735 715 7228 33323 16015 5485 2189 4905 9382 14212 20426 23893 15289
IA 5771 177 3138 10088 8204 2507 1516 2100 5213 6296 10915 11655 8735
KS 2986 983 2838 7095 5356 2633 2417 2290 5311 6540 8608 11360 9597
KY 2438 2448 3752 14244 12589 3678 1453 2801 5565 8472 10733 14293 12944
LA 1488 17973 5086 4475 18514 3995 2276 4419 6451 9502 14709 19054 13201
ME 513 15 1297 2281 3052 676 572 904 1723 3197 5340 5410 3915
MD 1338 100 7216 5830 6486 3038 4123 4146 9046 12514 30573 33229 25552
MA 1212 130 6606 21966 10299 4083 3861 5184 14845 16373 50880 53879 19273
MI 2526 1173 10131 52785 18899 6322 4129 7058 18874 23420 41538 48791 27691
MN 4174 877 6195 15532 11584 5296 2640 2941 11776 12275 25352 27558 15374
MS 1798 507 2192 7313 5895 1813 1334 2857 3150 5630 6474 9032 8410
MO 2621 522 6697 16447 14675 5800 5114 4007 10659 13223 21345 27768 16246
MT 943 903 893 822 608 1008 391 932 1192 1839 2473 3557 2948
NE 4330 114 2097 3315 3347 3193 986 674 3495 3906 7007 8055 6669
NV 406 1969 4495 1687 902 1555 961 1630 2478 5053 9877 17336 5339
NH 252 31 1198 5600 1957 521 582 1486 2113 3098 7566 6617 3088
NJ 1524 128 9675 11954 26031 8889 11285 7366 25132 20221 64187 60211 29773
NM 808 3050 1979 6147 880 1073 708 1480 1823 3800 5937 7468 7545
NY 2780 471 17629 36007 36147 13007 21968 14544 37741 42056 182389 140228 68323
NC 4757 259 8563 20877 34198 5816 4161 6158 13094 18242 29719 31418 26968
ND 1668 482 764 723 461 767 302 626 1377 1427 1989 2741 2374
OH 3331 1134 11753 54395 28273 8809 5703 8994 21535 27984 46511 53989 31941
OK 1531 3879 2332 7431 5156 2702 2017 2570 4421 7267 9064 12634 11762
OR 2590 104 4731 13919 3949 2935 1633 2143 6937 7586 14140 15939 10361
PA 3298 1748 12509 37050 31025 9911 7245 11814 19286 28310 62352 69654 34338
RI 208 19 895 2853 1430 396 642 797 1426 2242 5802 5814 3106
SC 1208 223 4195 9335 14432 2156 1758 3193 5172 9180 11861 13505 13258
SD 2003 251 745 2257 694 637 332 623 1236 1795 4188 3156 2373
TN 1651 399 5527 17466 14777 6816 2798 1461 10396 15368 19450 27633 17005
TX 7327 41278 24138 47434 42291 20283 17481 20672 40239 47953 79020 99282 64431
UT 583 1620 2858 diretorio<-paste('f:/aulas multivariada/')
4578 2473 2068 1016 1316 3094 5167 8304 9892 7383
VT
VA
332
1952
46
997
635
8635
setwd(diretorio)
1804
11883
842
18103
325
5448
386
6818
523
4756
890
11068
1416
16168
2607
35268
3043
39364
1762
37351
WA
WV
4612
240
332
2980
7683
1720
# leitura da planilha Excel com os dados
13985
2680
6949
4036
5037
1244
5187
840
2551
2789
11802
1960
15432
3248
29205
4147
33006
6147
23823
5129
WI 3016 365 5986 PRECISA INSTALAR O PACOTE XLSREADWRITE E EXECUTAR xls.getshlib() UMA VEZ
22942 15662 4450 2083 3283 8756 12030 22367 23105 15114
WY 361 5323 622 235 731 1083 234 1082 543 1101 1744 1610 2177
dados<-read.xls(‘gsp_raw.xls')
No R usar o comando cor(dados)
Considerável correlação positiva entre as variáveis
Maiores níveis de PIB setorial nos estados maiores e mais desemvolvidos
Menores níveis de PIB setorial nos estados menores e menos

desenvolvidos
Uma boa quantidade de covariação pode ser explicada por um ou dois

Resultados da Análise de Componentes Principais
No R usar os comandos
acp<-princomp(dados,cor=TRUE,score=TRUE)
1
As duas primeiras
componentes
concentram 92%
da variância total
Autovetores das duas

primeiras componentes
Como pegar os autovetores das componentes ?
Coeficientes da primeira componente principal

autovetor1<-acp$loadings[,1]
Coeficientes da segunda componente principal
Screeplot
No R usar o comando screeplot(acp)
A primeira componente principal é a mais importante
As demais podem ser descartadas

Biplot
No R usar o comando biplot(acp)
Texas
Louisiana
Mineração
New York
A primeira
California
componente
principal está
associada ao Desenvolvimento econômico
nível de
desenvolvimento
econômico do
estado
Cross-section dos 50 Estados dos EUA em 1996 (participação dos setores no PIB total)
cada linha soma 100% (o tamanho do estado foi removido)
Agricultura Mineração Const_ Civil Ind_bens_duráveis Ind_bens_consumo Transporte Comunicações Serv_Urbanos Com_Atacadista Com_Varejista Fiduciária Serviços Governos
AL 2.00 1.50 4.20 10.50 11.80 2.90 2.90 3.60 6.30 9.90 12.80 16.10 15.50
AK 1.50 22.40 4.10 1.10 3.70 12.10 2.00 1.50 2.90 6.50 10.70 11.90 19.60
AZ 1.70 1.30 5.80 11.50 3.00 2.80 2.20 2.70 6.30 10.50 18.90 20.20 13.00
AR 5.10 1.00 4.00 12.80 11.80 4.40 2.40 4.20 6.10 10.20 11.40 14.80 11.80
CA 2.10 0.60 3.30 9.00 5.00 2.60 2.50 1.80 6.80 8.90 22.70 23.10 11.50
CO 1.80 1.70 5.40 7.70 4.50 3.30 5.70 2.20 6.30 9.70 17.00 21.60 13.10
CT 0.70 0.00 3.30 11.00 5.70 1.80 2.30 2.20 6.60 7.40 28.20 21.80 9.00
DE 1.00 0.00 3.40 4.50 16.60 1.60 1.30 2.40 4.00 6.00 35.40 14.30 9.40
FL 1.80 0.20 4.70 4.60 3.50 3.10 3.00 2.80 7.30 11.20 21.80 23.40 12.40
GA 1.80 0.40 3.90 7.40 10.70 4.00 4.50 2.70 8.80 8.90 16.40 18.00 12.50
HI 1.20 0.10 4.80 0.80 2.30 4.50 3.10 2.70 4.00 11.50 21.40 22.20 21.30
ID 6.30 0.60 5.90 15.00 5.60 3.50 1.60 3.70 6.10 9.90 12.30 16.30 13.20
IL 1.40 0.30 4.20 11.30 7.90 3.80 2.30 3.10 7.70 8.10 19.20 20.70 10.00
IN 1.80 0.50 4.60 21.40 10.30 3.50 1.40 3.10 6.00 9.10 13.10 15.30 9.80
IA 7.60 0.20 4.10 13.20 10.80 3.30 2.00 2.80 6.80 8.30 14.30 15.30 11.40
KS 4.40 1.40 4.20 10.40 7.90 3.90 3.60 3.40 7.80 9.60 12.70 16.70 14.10
KY 2.60 2.60 3.90 14.90 13.20 3.90 1.50 2.90 5.80 8.90 11.20 15.00 13.60
LA 1.20 14.80 4.20 3.70 15.30 3.30 1.90 3.60 5.30 7.80 12.10 15.70 10.90
ME 1.80 0.10 4.50 7.90 10.60 2.30 2.00 3.10 6.00 11.10 18.50 18.70 13.50
MD 0.90 0.10 5.00 4.10 4.50 2.10 2.90 2.90 6.30 8.70 21.40 23.20 17.80
MA 0.60 0.10 3.20 10.50 4.90 2.00 1.90 2.50 7.10 7.80 24.40 25.80 9.20
MI 1.00 0.40 3.80 20.00 7.20 2.40 1.60 2.70 7.20 8.90 15.80 18.50 10.50
MN 2.90 0.60 4.40 11.00 8.20 3.70 1.90 2.10 8.30 8.70 17.90 19.50 10.90
MS 3.20 0.90 3.90 13.00 10.50 3.20 2.40 5.10 5.60 10.00 11.50 16.00 14.90
MO 1.80 0.40 4.60 11.30 10.10 4.00 3.50 2.80 7.30 9.10 14.70 19.10 11.20
MT 5.10 4.90 4.80 4.40 3.30 5.40 2.10 5.00 6.40 9.90 13.40 19.20 15.90
NE 9.20 0.20 4.40 7.00 7.10 6.80 2.10 1.40 7.40 8.30 14.80 17.10 14.10
NV 0.80 3.70 8.40 3.10 1.70 2.90 1.80 3.00 4.60 9.40 18.40 32.30 9.90
NH 0.70 0.10 3.50 16.40 5.70 1.50 1.70 4.40 6.20 9.10 22.20 19.40 9.10
NJ 0.60 0.00 3.50 4.30 9.40 3.20 4.10 2.70 9.10 7.30 23.20 21.80 10.80
NM 1.90 7.10 4.60 14.40 2.10 2.50 1.70 3.50 4.30 8.90 13.90 17.50 17.70
NY 0.50 0.10 2.90 5.90 5.90 2.10 3.60 2.40 6.20 6.90 29.70 22.90 11.10
NC 2.30 0.10 4.20 10.20 16.70 2.80 2.00 3.00 6.40 8.90 14.60 15.40 13.20
ND 10.60 3.10 4.90 4.60 2.90 4.90 1.90 4.00 8.80 9.10 12.70 17.50 15.10
OH 1.10 0.40 3.90 17.90 9.30 2.90 1.90 3.00 7.10 9.20 15.30 17.70 10.50
OK 2.10 5.30 3.20 10.20 7.10 3.70 2.80 3.50 6.10 10.00 12.50 17.40 16.20
OR 3.00 0.10 5.40 16.00 4.50 3.40 1.90 2.50 8.00 8.70 16.30 18.30 11.90
PA 1.00 0.50 3.80 11.30 9.40 3.00 2.20 3.60 5.90 8.60 19.00 21.20 10.50
RI 0.80 0.10 3.50 11.10 5.60 1.50 2.50 3.10 5.60 8.70 22.60 22.70 12.10
SC 1.40 0.20 4.70 10.40 16.10 2.40 2.00 3.60 5.80 10.30 13.30 15.10 14.80
SD 9.90 1.20 3.70 11.10 3.40 3.10 1.60 3.10 6.10 8.80 20.60 15.60 11.70
TN 1.20 0.30 3.90 12.40 10.50 4.80 2.00 1.00 7.40 10.90 13.80 19.60 12.10
TX 1.30 7.50 4.40 8.60 7.70 3.70 3.20 3.70 7.30 8.70 14.30 18.00 11.70
UT 1.20 3.20 5.70 9.10 4.90 4.10 2.00 2.60 6.10 10.30 16.50 19.60 14.70
VT 2.30 0.30 4.30 diretorio<-paste('f:/aulas multivariada/')
12.30 5.80 2.20 2.60 3.60 6.10 9.70 17.80 20.80 12.10
VA 1.00 0.50 4.40 6.00 9.20 2.80 3.40 2.40 5.60 8.20 17.80 19.90 18.90
WA 2.90 0.20 4.80 setwd(diretorio)
8.80 4.40 3.20 3.20 1.60 7.40 9.70 18.30 20.70 14.90
WV 0.60 8.00 4.60 7.20 10.90 3.30 2.30 7.50 5.30 8.70 11.20 16.50 13.80
WI 2.20 0.30 4.30 # leitura da planilha Excel com os dados
16.50 11.30 3.20 1.50 2.40 6.30 8.60 16.10 16.60 10.90
WY 2.10 31.60 3.70
PRECISA INSTALAR O PACOTE XLSREADWRITE E EXECUTAR xls.getshlib() UMA VEZ
1.40 4.30 6.40 1.40 6.40 3.20 6.50 10.40 9.60 12.90
dados<-read.xls(‘gsp_share.xls')
No R usar o comando cor(dados)
Poucas correlações elevadas.
A maioria varia ente 0 e 0,3 sendo algumas negativas.
Um único componente principal pode não ser suficiente para explicar as

variações subjacentes.
Resultados da Análise de Componentes Principais
No R usar os comandos
acp<-princomp(dados,cor=TRUE,score=TRUE)
1
As duas primeiras
componentes A maior parte da covariação não é explicada
concentram apenas por um reduzido número de componentes
42% da variância principais.
total
Autovetores das duas

primeiras componentes
Como pegar os autovetores das componentes ?
Coeficientes da primeira componente principal

Coeficientes da segunda componente principal
Screeplot
No R usar o comando screeplot(acp)
A maior parte da covariação não é explicada

por um reduzido número de componentes
principais.
Biplot
O biplot reflete as
especializações das
economias
estaduais
Obtendo as coordenadas (escores) dos estados no biplot
score_cp1< acp$scores[,1]
score_cp2< acp$scores[,2]
EXEMPLO 4
Exemplo (Sousa & Oliveira, 2014):Ranking dos atacantes do
Campeonato Brasileiro Série A 2013
Dados: Cartola FC http://globoesporte.globo.com/cartola-fc
141 atacantes descritos por 8 variáveis
• Número de gols (+)

• Passes errados (-)
• Assistências (+)
• Finalizações na trave (+)
• Finalizações defendidas (+)
• Finalizações para fora (+)
• Impedimentos (-)
• Penalties perdidos (-)
Leitura da matriz de dados
# diretório de trabalho
setwd("c:/curso_R_2014")
dados=read.csv("jogadores.csv",sep=";",header=T)
p=dim(dados)[2]
# Matriz de dados X
X=dados[,2:p]
rownames(X)=dados[,1]
# dimensões da matriz X
dim(X)
# variáveis na matriz X
names(X)
# primeiras seis linhas da matriz de dados

head(X)
cor(X)
Execução da ACP
# faz a ACP
resultado=princomp(X,cor=T,score=T)
summary(resultado)
# scree plot
plot(resultado)
As duas primeiras componentes
principais concentram 75% da
variância total
Resultados
names(resultado)
# coeficientes das componentes principais (autovetores)

resultado$loadings
A primeira componente está associada ao desempenho de um atacante

A segunda componente está associada com penalties perdidos
Resultados
# gráfico dos coeficientes das duas primeiras componentes
plot(resultado$loadings)
text(resultado$loadings,names(X))
Mehor desempenho
Mais
penalties
perdidos
Resultados
# scores dos jogadores nas componentes principais

resultado$scores
Resultados
# jogadores nas duas primeiras componentes principais

plot(resultado$scores)
text(resultado$scores,rownames(X))
William (Ponte Preta)
Fred (Fluminense)
6
4
Dinei (Vitoria)
Comp.2
Paolo Guerrero (Corintihians)

Marcelo Moreno (Flamengo)
Marcel (Criciuma)
2
Rafael Sobis (Fluminense)
Andr? (Vasco)
Elias (Botafogo)
Borges (Cruzeiro)
Alexandre
Bruno
Bruno Welliton
Mendes
Moraes
Rafael
(Sao
(Botafogo)
(Portuguesa)
Bill
Moura (Internacional)
Paulo)
(Coritiba) Alecsandro
Wellington (Atletico
Luis MG)
Fabiano
Paulista (Sao
(Criciuma) Alosio
Paulo) Pato
(Sao (Corintihians)
Paulo)
Gilberto (Portuguesa)
Denilson
Elder Romao
Bruno
Pedro
Nelson
Flecha Michel
VictorArraya
Carlos
Zizao
Weldon
Mike
PauloSaullo
Santana
Ciro
LucasRomulo Lopes
Andrade(Fluminense)
Keirrison
Oldoni
(Portuguesa)
Maiquinho
SassÿRobinho
Marcelinho
Andr?
Yuri Rafael
Paulinho
Mamute
(Corintihians)
(Internacional)
(Atletico
(Atletico
Reginaldo
Victor(Nautico)
(Criciuma)
Coelho
Alex (Criciuma)
(AtleticoAnselmo
(Portuguesa)
Lima (Vitoria)(Vitoria)
(Portuguesa)
Ratao
(Botafogo)
(Santos)(Coritiba)
(Coritiba)
(Vasco)
(Fluminense)
(Vitoria)
(Gremio)
(Gremio)
Henrique
PR)
MG) (Ponte
(Vasco)
(Corintihians)
Thalles
(Botafogo) MG)
Leonardo
(Vasco) Ramon
Araujo Carlos
Preta) (Cruzeiro)
(Goias)
(Botafogo)
(Ponte Tenorio
Preta)
Scocco (Vasco) Vincius
Edmlson
Willian Jos?
(Internacional) Araujo
(Vasco)
(Sao (Cruzeiro)
Paulo) Fernandao (Bahia)
0
Silvinho
Douglas
Negueba
BruninhoCassiano
Erik
Douglas (Sao
(Criciuma)
Joao
Paulo
Welinton
L?o Bergson
Paulo)
(Flamengo)
(Goias)
Marcos Paulo
(Flamengo)(Criciuma)
(Goias)
(Atletico
Adailton
Junior
Neto
Bonatini PR)(Portuguesa)
Giva(Nautico)
(PonteSamuel
William
Obina
(Goias)
Caio
Berola Willie
Preta)
(Santos)
(Goias) (Fluminense)
(Vasco)
Henrique
(Bahia)
Henrique
(Internacional)
(Atletico
(Fluminense)
Rhayner Olivera
MG) Neilton
Luan
(Fluminense)
Hugo (Nautico)
(Santos)
(Vitoria)
(Portuguesa)
Deivid Maxi
Forlan
(Cruzeiro)
(Nautico) (Coritiba)
Vargas Biancucchi
(Internacional)
(Gremio) (Vitoria) Maikon Leite (Nautico) Hernane (Flamengo)
Junior
LuccaVicosa
Kenedy Everton
Fabinho
(Goias)
Alemao
(Cruzeiro)
(Fluminense) Costa
Jones Carioca(Goias)
(Vitoria)(Santos)
(Nautico)
Geraldo (Coritiba) Rog?rio (Nautico) Ederson (Atletico PR)

MartinuccioSouza Roger
(Cruzeiro) (Atletico
Nixon
Guilherme Osvaldo
HyuriPR)
(Flamengo) Biro
(Sao
(Botafogo)
WiliamMG)
(Atletico (Fluminense)
Paulo)
Barbio Jo (Atletico
(Bahia) MG)
Julio Cesar (Coritiba) Lins (Criciuma)
Jorge(Flamengo)
Rafinha
(Bahia) Henrique Rildo
(Internacional) (Ponte
Ademilson Preta)
(Sao Paulo) Thiago Ribeiro (Santos)
Barcos (Gremio)
Dellatorre (Atletico
Diogo PR)
Romarinho
Fernandinho
Marquinhos Kleber (Gremio)Leandro
Emerson
(Corintihians)
(Atletico
Gabriel
(Portuguesa) MG)
(Bahia) Diego Damiao
Tardelli
(Corintihians) (Internacional)
(Atletico MG)
Dagoberto (Cruzeiro) PaulinhoChiquinho (Ponte
Marcelo
(Flamengo) Preta) PR)
(Atletico Walter (Goias)
Wallyson (Bahia) Luan (Atletico
Willian MG)
(Cruzeiro) Marquinhos (Vitoria)
Rafael Marques (Botafogo)
-2 0 2 4 6 8
Comp.1
Resultados
# 10 melhores atacantes no ranking por ACP

sort(resultado$scores[,1],decreasing=T)[1:10]
# 10 piores atacantes no ranking por ACP

sort(resultado$scores[,1],decreasing=F)[1:10]
Comparação com o Troféu Armando Nogueira
Artilheiro do campeonato com 21 gols
Sousa & Oliveira (2014)

Vice artilheiro com 16 gols
Referências bibliográficas
EVERITT, B. An R and S-Plus companion to multivariate analysis, Springer-Verlag,
London, 2007.
FÁVERO, L.P.; BELFIORE, P.; SILVA, F.L.; CHAN, B.L. Análise de dados: modelagem
multivariada para tomada de decisões, Campus, Rio de Janeiro, 2009.
JOHNSON, R.A. & WICHERN, D.W. Applied Multivariate Statistical Analysis, 5th edition,
Prentice Hall, New Jersey, 2002.
LATTIN, J.; CARROLL, J.D.; GREEN, P.E. Análise de dados multivariados,

Cengage learning, São Paulo, 2011.
LEBART, L.; MORINEAU, A.; PIRON, M. Statistique Exploratoire Multidimensionelle , 3e

édition, Dunod, Paris, 2000.
MINGOTI, S.A. Análise de dados através de métodos de estatística multivariada: uma

abordagem aplicada, Editora UFMG, Belo Horizonte, 2005.
SOUSA, V.D.; OLIVEIRA, V.N. Análise do desempenho dos atacantes do campeonato

brasileiro 2013 por meio da análise de componentes principais, Projeto Final, UERJ, 2014.

Análise de Componentes Principais

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Componentes Principais

Enviado por

Direitos autorais:

Formatos disponíveis

Análise de

José Francisco Moreira Pessanha

Introduzida por Karl Pearson em 1901.

On lines and planes of closest fit to systems of point in

Lebart, Morineau et Piron

Cada yi é uma combinação linear das variáveis x1,x2,...,xp

y2 (2ª componente principal) é não correlacionada com y1 e concentra a

y3 (3ª componente principal) é não correlacionada com y1 e y2 e concentra

 Redução da dimensionalidade dos dados

 Descrição e visualização de dados

 Transformar as variáveis em novas variáveis

 Extração de sinal contido nos dados (Eliminar ou reduzir o

 Ordenação dos objetos

 Construção de números índices

Construção de números índices

Obtenção de variáveis explicativas não correlacionadas para um modelo

A matriz de covariância tem p autovalores (i, i=1,p) e p

cov  yi , y j   0 As componentes principais são não correlacionadas

Cada ponto representa um aluno

Relação direta entre as notas de

Média das notas de

A projeção é o produto interno Xie1 :

0 ,7256  X i1  0 ,6881  X i 2 i-ésimo aluno

0 ,7256  5,3404  0 ,6881  6 ,5713  8 ,3968

Aluno 30 0 ,7256  5,7759  0 ,6881  6 ,4534  8 ,6316

Observe que a dispersão dos

Var(1ª componente) é maior

0,6881 5,3404  0,7256  6,5713  1,0934

0,6881 6,9374  0,7256  8,1074  1,1091 Projeções na

Aluno 30 0,6881 5,7759  0,7256  6,4534  0,7082

Var Y1 > Var Y2 > .... > Var Yp

• Geometricamente, as combinações lineares representam um novo

• Os novos eixos representam as direções com as maiores

• As componentes principais podem ser obtidas a partir da matriz de

Roteiro para obtenção das componentes principais

Pelo teorema da decomposição espectral tem-se que:

Matriz P, cada colunaMatriz diagonal  formada Matriz PT. cada

Como os autovetores são ortonormais PTP=I ou PPT=I

TraçoY   Traço X  Variância total das p componentes

As primeiras componentes principais concentram a maior parte da

1) Kaiser ou Método da Raiz Latente: selecionar apenas as

2) Escolha as m (m < p variáveis) primeiras componentes

cor = FALSE aplica a ACP na matriz de covariância

# mostra resultados da acp

# faz gráfico screeplot para ajudar na definição do número de

# imprime escores dos objetos nas direções das componentes principais

# faz biplot das duas primeiras componentes principais

As variáveis do vetor aletório X podem estar expressas em unidades

Como a ACP busca maximizar a variância ela pode ser sensível às

Um forma de expressar os dados em unidades comparáveis consiste em

Primeira componente concentra a

autovalores 0,223 0,0006 0,0004

% 96,04 2,47 1,65

% acumulado 96,04 98,51 100

projeçãoi  0 ,6831  Ln _ comprimentoi  0 ,5102  Ln _ l arg urai  0 ,5225  Ln _ alturai

projeçãoi  Ln _ comprimentoi  Ln _ l arg urai  Ln _ alturai

projeçãoi  Ln _ comprimentoi  l arg urai  alturai

Note que os expoentes são da mesma ordem de grandeza

A primeira componente principal relaciona-se com o volume da carapaça

# leitura da planilha Excel com os dados

# aplica transformação logarítmica

# calcula matriz de correlações Se TRUE faz a acp com a matriz de correlação