Escolar Documentos
Profissional Documentos
Cultura Documentos
Karl Pearson
1857 - 1936
“Conçue pour la première fois
par Karl Pearson en 1901,
intégrée à la statistique
mathématique par Harold
Hotelling en 1933, l’analyse en
composantes principales n’est
vraiment utilisée que depuis
l’avènement et la diffusion des
moyens de calculs actuels.”
yi ai1 x1 ai 2 x2 aip x p
Novas variáveis yi ordenadas em ordem decrescente de importância:
y1 (1ª componente principal) concentra a maior parte da variação dos
dados originais entre todas as combinações lineares de x1,x2,...,xp.
e assim sucessivamente.
Finalidades da ACP
Motivação
n =30 alunos
p =2 variáveis (notas)
Matriz de
Cada aluno i é um vetor
Dados X
X i1
X i
X i2
i = 1 até 30
Aluno 30
Nota em macroeconomia X2
Diagrama de dispersão
0
Nota em microeconomia X1
Distribuições de freqüência das notas
alunos
Média = 5,8339
Variância = 1,0446
Desvio-padrão = 1,0221
Nota em microeconomia X1
alunos
Média = 6,9149
Variância = 0,9579
Desvio-padrão = 0,9787
Nota em macroeconomia X2
Nota em macroeconomia X2
Diagrama de dispersão
Covariância = 0,8155
Correlação = 0,8153
Nota em microeconomia X1
Vetor média amostral
5 ,8339
X
6 ,9149
Matriz de covariância amostral
Var(X1)
1,0446 0 ,8155
S
0 ,8155 0 ,9579
Cov(X1,X2) Var(X2)
1,0446 0 ,8155
Matriz de covariâncias = S
0 ,8155 0 ,9579
Variância Var X1 Var X 2 1,0446 0,9579 2,0024
total
Traço de S
matriz de covariâncias 2x2 2 autovetores
Autovetores de S Autovalores de S
Direções de maior Parcela da variabilidade dos
variabilidade dos dados dados concentrada em Da Álgebra Linear sabe-se que
(componentes principais) cada componente principal
Variância das Traço de (S)
0 ,7256 projeções =
e1 1 1,8179 Soma dos autovalores de S
0 ,6881 Logo
Var(y1) = 1,8179
Var x1 Var x2
Direção de maior variabilidade
0 ,6881
e2 2 0 ,1846 Var y1 Var y2 2,0024
0 ,7256 Var(y2) = 0,1846
Nota em macroeconomia X2
0 ,7256
e1 Y1
Autovetores 0 ,6881
da matriz S 0 ,6881
e2
0 ,7256
Direções dos
autovetores
Y2
e1
Média das notas de
X 2 macroeconomia
Média
e2
5 ,84
X
6 ,91
X i1
X i
Projeção do vetor do i-ésimo X i2
aluno na direção do
autovetor e1
Direção da 1ª
componente principal
0 ,7256
e1 e1
0 ,6881
0
Nota em microeconomia X1
Nota em macroeconomia X2
Projeções na direção de maior variabilidade
das notas, ou seja, escores dos alunos na
primeira componente principal
0 ,7256 X i1 0 ,6881 X i 2
0
Nota em microeconomia X1
X i1 X i2 0 ,7256 X i1 0 ,6881 X i 2
Aluno 1 0 ,7256 6 ,0247 0 ,6881 7 ,0914 9 ,2512
Projeções na
direção de
maior
0 ,7256 6 ,9374 0 ,6881 8 ,1074 10 ,6126 variabilidade
das notas ou
escores dos
alunos na
primeira
componente
principal
Média = 8,99
Variância = 1,8179
Nota em macroeconomia X2
Nota em microeconomia X1
Nota em macroeconomia X2
Projeções na direção da segunda
componente principal
0,6881 X i1 0,7256 X i 2
0
Nota em microeconomia X1
X i1 X i2 0,6881 X i1 0,7256 X i 2
Aluno 1 0,6881 6,0247 0,7256 7,0914 0,9999
Autovetores 1ª componente
define as projeções dos alunos na direção de
maior variabilidade
0 ,7256
e1 Yi1 0 ,7256 X i1 0 ,6881 X i 2
0 ,6881
2ª componente
0 ,6881
e2 Yi 2 0 ,6881 X i1 0 ,7256 X i 2
0 ,7256
As componentes principais são variáveis aleatórias com variâncias iguais
aos autovalores:
Var Yi 1 1 1,8179
Var Yi 2 2 0 ,1846
Var X 2 0 ,9579
Nota em macroeconomia X2 Var Y1 1
Var Y1 1,8179
Var Y2 2
Var Y2 0 ,1846
Y1
Y2
Var X 1 1,0446
0
Nota em microeconomia X
1,0446 0 ,8155
Matriz de covariâncias = S
0 ,8155 0 ,9579
Variância total = traçoS 1,0446 0 ,9579 2,0024
1ª componente
Var Y1 1 1,8179
1,8179
100% 90 ,78%
2 ,0024
1ª componente principal concentra 91% da variabilidade total dos dados, logo resume
boa parte da informação contida nas duas variáveis
2ª componente
0 ,1846
Var Y2 2 0 ,1846 100% 9 ,22%
2 ,0024
2ª componente principal concentra apenas 9% da variabilidade total dos dados e por
isso pode ser descartada
Resumindo
A análise de componentes principais substitui um conjunto de variáveis
correlacionadas (X) por um conjunto de novas variáveis não-
correlacionadas (Y), sendo essas combinações lineares das variáveis
iniciais e colocadas em ordem decrescente por suas variâncias.
X1 Y1
Matriz Calcular Calcular Selecionar
X2 Y2
os os as
X3 Y3
ou autovalores autovetores componentes
... ...
r e principais
Xp Yp
Variáveis Componentes
originais principais
Teorema da decomposição espectral
Seja a matriz de covariância do vetor aleatório X.
O vetor aleatório X tem p variáveis aleatórias
A matriz tem p autovetores e1, e2,...,ep e p autovalores 1>2>...> p
TraçoY Traço PT X P
A permutação dos elementos de um produto não muda o traço
Traço Y Traço X PP
T
1 2 11 22 Nuvem de observações
X1
As componentes principais
oferecem uma nova base
vetorial para expressar as
variáveis.
Ou seja, mudam apenas o
sistema de referência e não a
nuvem de pontos.
Como 1>2>...> p
i
Scree-plot
i 1
p
100% 80%
1 ou 2 componentes
i 1
i principais concentram a
maior parte da variação
total
3) Scree test – gráfico dos autovalores.
Análise de componentes principais no R
Comando princomp (EVERITT, 2007)
acp<-princomp(dados,cor=FALSE,score=TRUE)
xi X i
zi Var zi 1
Si2
A matriz de covariância das variáveis padronizadas é a matriz de
correlação. Por esta razão, em geral, recomenda-se aplicar a ACP na
matriz de correlação.
Exemplos
EXEMPLO 1
Exemplo (Johnson & Wichern, 2002): Em um estudo sobre o
tamanho e a forma da carapaça de tartarugas, Jolicoeur &
Mosimann mediram o comprimento (mm), a largura (mm) e a altura
(mm) de 24 tartarugas machos (dados em tartarugas.xls ou em
http://life.bio.sunysb.edu/morph/data/JolicoeurMosimannPaintedTur
tles.html).
comprimento largura altura
93 74 37 Var(comprimento) = 138,77 mm2
94 78 35
96 80 35
Var(largura) = 50,04 mm2 As expressivas diferenças
101 84 39 Var(altura) = 11,26 mm2 nas variâncias e os boxplots
102 85 38 indicam a presença de
103 81 37 heterocedasticidade.
104 83 39
106 83 39 Para a aplicação da ACP é
107 82 38 interessante homogeneizar a
112 89 40 variância.
113 88 40
114 86 40 Para esta finalidade as
116 90 43 variáveis podem ser
117 90 41 padronizadas ou pode-se
117 91 41 aplicar uma transformação
119 93 41 logarítmica
120 89 40
120 93 44
121 95 42
125 93 45
127 96 45
128 95 45
131 95 46
135 106 47
A transformação logarítmica faz a homogeneização das
variâncias.
ln comprimento ln largura ln altura
4,5326 4,3041 3,6109
4,5433 4,3567 3,5553
Var( ln(comprimento) ) = 0,01107
4,5643 4,3820 3,5553
4,6151 4,4308 3,6636 Var( ln(largura) ) = 0,0064
4,6250 4,4427 3,6376 Var( ln(altura) ) = 0,0068
4,6347 4,3944 3,6109
4,6444 4,4188 3,6636
4,6634 4,4188 3,6636
4,6728 4,4067 3,6376
4,7185 4,4886 3,6889
4,7274 4,4773 3,6889
4,7362 4,4543 3,6889
4,7536 4,4998 3,7612
4,7622 4,4998 3,7136
4,7622 4,5109 3,7136
4,7791 4,5326 3,7136
4,7875 4,4886 3,6889
4,7875 4,5326 3,7842
4,7958 4,5539 3,7377
4,8283 4,5326 3,8067
4,8442 4,5643 3,8067
4,8520 4,5539 3,8067
4,8752 4,5539 3,8286
4,9053 4,6634 3,8501
3.95
3.9
3.85
Ln altura
3.8
3.75
3.7
3.65
3.6
3.55
4.7
4.6
5
4.95
4.5 4.9
4.85
4.4 4.8
4.75
4.7
4.3 4.65
4.6
4.55
4.2 4.5
Ln largura Ln comprimento
Matriz de covariâncias
S=
e1 e2 e3
autovetores
Ln _ comprimentoi
e1 X Ln _ l arg urai
Ln _ alturai
# faz boxplot
boxplot(dados)
# faz ACP
acp<-princomp(dados,cor=FALSE,score=TRUE)
Parcela da variância
concentrada na primeira Raiz quadrada do auto valor
componente
Seleciona escores na
primeira componente
acp$scores[,1]
Resultados gerados pelo programa R
Biplot nas duas primeiras componentes principais ( 99% da variância total )
Gráfico gerado pelo comando
biplot(acp)
O volume da carapaça da
tartaruga cresce da esquerda
para a direita.
Matriz de correlações
EXEMPLO 2
Oito marcas de coxinha de galinha foram avaliadas por 5 juízes
em relação a 4 atributos: sabor (x1), aroma (x2), qualidade da
massa (x3) e qualidade do recheio (x4).
Matriz de covariâncias
As duas primeiras
componentes
concentram 92%
da variância total
autovetor2<-acp$loadings[,2]
Screeplot
No R usar o comando screeplot(acp)
Texas
Louisiana
Mineração
New York
A primeira
California
componente
principal está
associada ao Desenvolvimento econômico
nível de
desenvolvimento
econômico do
estado
Cross-section dos 50 Estados dos EUA em 1996 (participação dos setores no PIB total)
cada linha soma 100% (o tamanho do estado foi removido)
Agricultura Mineração Const_ Civil Ind_bens_duráveis Ind_bens_consumo Transporte Comunicações Serv_Urbanos Com_Atacadista Com_Varejista Fiduciária Serviços Governos
AL 2.00 1.50 4.20 10.50 11.80 2.90 2.90 3.60 6.30 9.90 12.80 16.10 15.50
AK 1.50 22.40 4.10 1.10 3.70 12.10 2.00 1.50 2.90 6.50 10.70 11.90 19.60
AZ 1.70 1.30 5.80 11.50 3.00 2.80 2.20 2.70 6.30 10.50 18.90 20.20 13.00
AR 5.10 1.00 4.00 12.80 11.80 4.40 2.40 4.20 6.10 10.20 11.40 14.80 11.80
CA 2.10 0.60 3.30 9.00 5.00 2.60 2.50 1.80 6.80 8.90 22.70 23.10 11.50
CO 1.80 1.70 5.40 7.70 4.50 3.30 5.70 2.20 6.30 9.70 17.00 21.60 13.10
CT 0.70 0.00 3.30 11.00 5.70 1.80 2.30 2.20 6.60 7.40 28.20 21.80 9.00
DE 1.00 0.00 3.40 4.50 16.60 1.60 1.30 2.40 4.00 6.00 35.40 14.30 9.40
FL 1.80 0.20 4.70 4.60 3.50 3.10 3.00 2.80 7.30 11.20 21.80 23.40 12.40
GA 1.80 0.40 3.90 7.40 10.70 4.00 4.50 2.70 8.80 8.90 16.40 18.00 12.50
HI 1.20 0.10 4.80 0.80 2.30 4.50 3.10 2.70 4.00 11.50 21.40 22.20 21.30
ID 6.30 0.60 5.90 15.00 5.60 3.50 1.60 3.70 6.10 9.90 12.30 16.30 13.20
IL 1.40 0.30 4.20 11.30 7.90 3.80 2.30 3.10 7.70 8.10 19.20 20.70 10.00
IN 1.80 0.50 4.60 21.40 10.30 3.50 1.40 3.10 6.00 9.10 13.10 15.30 9.80
IA 7.60 0.20 4.10 13.20 10.80 3.30 2.00 2.80 6.80 8.30 14.30 15.30 11.40
KS 4.40 1.40 4.20 10.40 7.90 3.90 3.60 3.40 7.80 9.60 12.70 16.70 14.10
KY 2.60 2.60 3.90 14.90 13.20 3.90 1.50 2.90 5.80 8.90 11.20 15.00 13.60
LA 1.20 14.80 4.20 3.70 15.30 3.30 1.90 3.60 5.30 7.80 12.10 15.70 10.90
ME 1.80 0.10 4.50 7.90 10.60 2.30 2.00 3.10 6.00 11.10 18.50 18.70 13.50
MD 0.90 0.10 5.00 4.10 4.50 2.10 2.90 2.90 6.30 8.70 21.40 23.20 17.80
MA 0.60 0.10 3.20 10.50 4.90 2.00 1.90 2.50 7.10 7.80 24.40 25.80 9.20
MI 1.00 0.40 3.80 20.00 7.20 2.40 1.60 2.70 7.20 8.90 15.80 18.50 10.50
MN 2.90 0.60 4.40 11.00 8.20 3.70 1.90 2.10 8.30 8.70 17.90 19.50 10.90
MS 3.20 0.90 3.90 13.00 10.50 3.20 2.40 5.10 5.60 10.00 11.50 16.00 14.90
MO 1.80 0.40 4.60 11.30 10.10 4.00 3.50 2.80 7.30 9.10 14.70 19.10 11.20
MT 5.10 4.90 4.80 4.40 3.30 5.40 2.10 5.00 6.40 9.90 13.40 19.20 15.90
NE 9.20 0.20 4.40 7.00 7.10 6.80 2.10 1.40 7.40 8.30 14.80 17.10 14.10
NV 0.80 3.70 8.40 3.10 1.70 2.90 1.80 3.00 4.60 9.40 18.40 32.30 9.90
NH 0.70 0.10 3.50 16.40 5.70 1.50 1.70 4.40 6.20 9.10 22.20 19.40 9.10
NJ 0.60 0.00 3.50 4.30 9.40 3.20 4.10 2.70 9.10 7.30 23.20 21.80 10.80
NM 1.90 7.10 4.60 14.40 2.10 2.50 1.70 3.50 4.30 8.90 13.90 17.50 17.70
NY 0.50 0.10 2.90 5.90 5.90 2.10 3.60 2.40 6.20 6.90 29.70 22.90 11.10
NC 2.30 0.10 4.20 10.20 16.70 2.80 2.00 3.00 6.40 8.90 14.60 15.40 13.20
ND 10.60 3.10 4.90 4.60 2.90 4.90 1.90 4.00 8.80 9.10 12.70 17.50 15.10
OH 1.10 0.40 3.90 17.90 9.30 2.90 1.90 3.00 7.10 9.20 15.30 17.70 10.50
OK 2.10 5.30 3.20 10.20 7.10 3.70 2.80 3.50 6.10 10.00 12.50 17.40 16.20
OR 3.00 0.10 5.40 16.00 4.50 3.40 1.90 2.50 8.00 8.70 16.30 18.30 11.90
PA 1.00 0.50 3.80 11.30 9.40 3.00 2.20 3.60 5.90 8.60 19.00 21.20 10.50
RI 0.80 0.10 3.50 11.10 5.60 1.50 2.50 3.10 5.60 8.70 22.60 22.70 12.10
SC 1.40 0.20 4.70 10.40 16.10 2.40 2.00 3.60 5.80 10.30 13.30 15.10 14.80
SD 9.90 1.20 3.70 11.10 3.40 3.10 1.60 3.10 6.10 8.80 20.60 15.60 11.70
TN 1.20 0.30 3.90 12.40 10.50 4.80 2.00 1.00 7.40 10.90 13.80 19.60 12.10
TX 1.30 7.50 4.40 8.60 7.70 3.70 3.20 3.70 7.30 8.70 14.30 18.00 11.70
UT 1.20 3.20 5.70 9.10 4.90 4.10 2.00 2.60 6.10 10.30 16.50 19.60 14.70
VT 2.30 0.30 4.30 diretorio<-paste('f:/aulas multivariada/')
12.30 5.80 2.20 2.60 3.60 6.10 9.70 17.80 20.80 12.10
VA 1.00 0.50 4.40 6.00 9.20 2.80 3.40 2.40 5.60 8.20 17.80 19.90 18.90
WA 2.90 0.20 4.80 setwd(diretorio)
8.80 4.40 3.20 3.20 1.60 7.40 9.70 18.30 20.70 14.90
WV 0.60 8.00 4.60 7.20 10.90 3.30 2.30 7.50 5.30 8.70 11.20 16.50 13.80
WI 2.20 0.30 4.30 # leitura da planilha Excel com os dados
16.50 11.30 3.20 1.50 2.40 6.30 8.60 16.10 16.60 10.90
WY 2.10 31.60 3.70
PRECISA INSTALAR O PACOTE XLSREADWRITE E EXECUTAR xls.getshlib() UMA VEZ
1.40 4.30 6.40 1.40 6.40 3.20 6.50 10.40 9.60 12.90
dados<-read.xls(‘gsp_share.xls')
Matriz de correlações
As duas primeiras
componentes A maior parte da covariação não é explicada
concentram apenas por um reduzido número de componentes
42% da variância principais.
total
autovetor2<-acp$loadings[,2]
Screeplot
No R usar o comando screeplot(acp)
O biplot reflete as
especializações das
economias
estaduais
Obtendo as coordenadas (escores) dos estados no biplot
score_cp1< acp$scores[,1]
score_cp2< acp$scores[,2]
EXEMPLO 4
Exemplo (Sousa & Oliveira, 2014):Ranking dos atacantes do
Campeonato Brasileiro Série A 2013
# Matriz de dados X
X=dados[,2:p]
rownames(X)=dados[,1]
# dimensões da matriz X
dim(X)
# variáveis na matriz X
names(X)
Execução da ACP
# faz a ACP
resultado=princomp(X,cor=T,score=T)
summary(resultado)
# scree plot
plot(resultado)
As duas primeiras componentes
principais concentram 75% da
variância total
Resultados
names(resultado)
Mehor desempenho
Mais
penalties
perdidos
Resultados
Fred (Fluminense)
6
4
Dinei (Vitoria)
Comp.2
Andr? (Vasco)
Elias (Botafogo)
Borges (Cruzeiro)
Alexandre
Bruno
Bruno Welliton
Mendes
Moraes
Rafael
(Sao
(Botafogo)
(Portuguesa)
Bill
Moura (Internacional)
Paulo)
(Coritiba) Alecsandro
Wellington (Atletico
Luis MG)
Fabiano
Paulista (Sao
(Criciuma) Alosio
Paulo) Pato
(Sao (Corintihians)
Paulo)
Gilberto (Portuguesa)
Denilson
Elder Romao
Bruno
Pedro
Nelson
Flecha Michel
VictorArraya
Carlos
Zizao
Weldon
Mike
PauloSaullo
Santana
Ciro
LucasRomulo Lopes
Andrade(Fluminense)
Keirrison
Oldoni
(Portuguesa)
Maiquinho
SassÿRobinho
Marcelinho
Andr?
Yuri Rafael
Paulinho
Mamute
(Corintihians)
(Internacional)
(Atletico
(Atletico
Reginaldo
Victor(Nautico)
(Criciuma)
Coelho
Alex (Criciuma)
(AtleticoAnselmo
(Portuguesa)
Lima (Vitoria)(Vitoria)
(Portuguesa)
Ratao
(Botafogo)
(Santos)(Coritiba)
(Coritiba)
(Vasco)
(Fluminense)
(Vitoria)
(Gremio)
(Gremio)
Henrique
PR)
MG) (Ponte
(Vasco)
(Corintihians)
Thalles
(Botafogo) MG)
Leonardo
(Vasco) Ramon
Araujo Carlos
Preta) (Cruzeiro)
(Goias)
(Botafogo)
(Ponte Tenorio
Preta)
Scocco (Vasco) Vincius
Edmlson
Willian Jos?
(Internacional) Araujo
(Vasco)
(Sao (Cruzeiro)
Paulo) Fernandao (Bahia)
0
Silvinho
Douglas
Negueba
BruninhoCassiano
Erik
Douglas (Sao
(Criciuma)
Joao
Paulo
Welinton
L?o Bergson
Paulo)
(Flamengo)
(Goias)
Marcos Paulo
(Flamengo)(Criciuma)
(Goias)
(Atletico
Adailton
Junior
Neto
Bonatini PR)(Portuguesa)
Giva(Nautico)
(PonteSamuel
William
Obina
(Goias)
Caio
Berola Willie
Preta)
(Santos)
(Goias) (Fluminense)
(Vasco)
Henrique
(Bahia)
Henrique
(Internacional)
(Atletico
(Fluminense)
Rhayner Olivera
MG) Neilton
Luan
(Fluminense)
Hugo (Nautico)
(Santos)
(Vitoria)
(Portuguesa)
Deivid Maxi
Forlan
(Cruzeiro)
(Nautico) (Coritiba)
Vargas Biancucchi
(Internacional)
(Gremio) (Vitoria) Maikon Leite (Nautico) Hernane (Flamengo)
Junior
LuccaVicosa
Kenedy Everton
Fabinho
(Goias)
Alemao
(Cruzeiro)
(Fluminense) Costa
Jones Carioca(Goias)
(Vitoria)(Santos)
(Nautico)
Geraldo (Coritiba) Rog?rio (Nautico) Ederson (Atletico PR)
MartinuccioSouza Roger
(Cruzeiro) (Atletico
Nixon
Guilherme Osvaldo
HyuriPR)
(Flamengo) Biro
(Sao
(Botafogo)
WiliamMG)
(Atletico (Fluminense)
Paulo)
Barbio Jo (Atletico
(Bahia) MG)
Julio Cesar (Coritiba) Lins (Criciuma)
Jorge(Flamengo)
Rafinha
(Bahia) Henrique Rildo
(Internacional) (Ponte
Ademilson Preta)
(Sao Paulo) Thiago Ribeiro (Santos)
Barcos (Gremio)
Dellatorre (Atletico
Diogo PR)
Romarinho
Fernandinho
Marquinhos Kleber (Gremio)Leandro
Emerson
(Corintihians)
(Atletico
Gabriel
(Portuguesa) MG)
(Bahia) Diego Damiao
Tardelli
(Corintihians) (Internacional)
(Atletico MG)
Dagoberto (Cruzeiro) PaulinhoChiquinho (Ponte
Marcelo
(Flamengo) Preta) PR)
(Atletico Walter (Goias)
Wallyson (Bahia) Luan (Atletico
Willian MG)
(Cruzeiro) Marquinhos (Vitoria)
Rafael Marques (Botafogo)
-2 0 2 4 6 8
Comp.1
Resultados
FÁVERO, L.P.; BELFIORE, P.; SILVA, F.L.; CHAN, B.L. Análise de dados: modelagem
multivariada para tomada de decisões, Campus, Rio de Janeiro, 2009.
JOHNSON, R.A. & WICHERN, D.W. Applied Multivariate Statistical Analysis, 5th edition,
Prentice Hall, New Jersey, 2002.