Você está na página 1de 5

Procedimento para a determinao de novas variveis

(componentes) que expliquem a maior variabilidade


possvel existente em uma matriz de dados
multidimensionais.

Transformao linear de p" variveis originais em p"


novas variveis, de tal modo que a primeira nova
varivel computada seja responsvel pela maior
ANLISE DE COMPONENTES variao possvel existente no conjunto de dados.

PRINCIPAIS/PCA ou ACP Anlise de componentes


principais: maximizar a
varincia de uma
combinao linear
de variveis.
1 2

Objetivo: variveis originais X1, X2, X3, ..., Xp,


correlacionadas, so transformadas em variveis
Y1, Y2, Y3, ..., Yp, no correlacionadas e com
varincias ordenadas, para que seja possvel
Imagem formada por um quadrado com 2 vetores.
comparar os indivduos usando apenas as
variveis Yi que apresentam maior varincia. Essa imagem sofre uma ampliao (transformao) apenas
na horizontal, resultando um retngulo.
Variveis medidas na mesma escala e em escalas
Nessa condio, o vetor v2 passou a v2*, que no tem a
diferentes mesma direo do original v2. O vetor v2* no pode, portanto,
Soluo: Clculo dos autovalores e ser representado por v2 multiplicado por um escalar.
correspondentes autovetores de uma matriz de Mas o vetor v1* tem a mesma direo de v1 e, por isso, pode
varincias-covarincias [S] ou de correlaes [R] ser representado por v1 multiplicado por um escalar.
entre variveis. Diz-se ento que v1 um autovetor da transformao e que
esse escalar um autovalor associado.
3 4

Autovetores representam as componentes


principais e so o resultado do carregamento
das variaveis originais em cada um deles. Matriz de carregamentos de cada variavel nas
componentes principais, ao ser multiplicada
Taiscarregamentos podem ser considerados pela matriz original de dados, fornece a matriz
como uma medida da relativa importncia de de contagens (scores) de cada caso em relao
cada varivel em relao s componentes s componentes principais.
principais e os respectivos sinais, se positivos ou
negativos, indicam relaes direta ou
Esses valores dispostos num diagrama de
inversamente proporcionais.
disperso, em que os eixos ortogonais so as
duas componentes mais importantes, mostram
O primeiro autovalor a ser determinado o relacionamento entre os casos condicionados
correspondera maior porcentagem da
variabilidade total presente e, assim, pelas variveis medidas.
sucessivamente com os demais.
5 6

1
AUTOVALORES (EINGENVALUES)
AUTOVETORES (EIGENVECTORS)
Clculo dasraizes da equao (autovalores)
As componentes principais so determinadas para uma matriz 3 x 3:
resolvendo-se a equao caracterstica da matriz S ou
R:
(a11 l)x1 + a12x2 + a13x3 = 0
det [R - I] = 0 ou |R - I = 0 a21x1 + (a22 l)x2 + a23x3 = 0
a31x1 + a 32x2 + (a33 l)x3 = 0

7 8

1,000 0,820 0,980


[A] [I] 0,820 1,000 0,913 0
0,980 0,913 1,000

matriz de dados: (1,000 - )(1,000 - )(1,000 - ) + (0,820)


(- 0,913)(- 0,980) + (- 0,980)(0,820)(- 0,913)
(- 0,980)(1,000 - )(- 0,980) - (1,000 - )
(- 0,913)(- 0,913) - (0,820)(0,820)(1,000 - ) =
1,000 0,820 0,980
matriz de coeficientes
[ A ] 0,820 1,000 0,913 ( - 2,810)( - 0,188)( - 0,002)
de correlao [A]
0,980 0,913 1,000
autovalores: 1 = 2,810 (2,810/3*100 = 93,66%)
(varincia total no sistema: 1 + 1 + 1 = 3) 2 = 0,188 (0,188/3*100 = 6,27%)
9 3 = 0,002 (0,002/3*100 = 0,07%) 10
(soma = 3)

Padronizao do autovetor V1 para o


Clculo dos autovetores: tamanhao unitrio
Componentes do autovetor V1: Q = -12 + (-0,974)2 + (1,032)2 = 3,012
Q= 1,735
(1,00 - 2,810)X1 + 0,820X2 - 0,980X3 = 0

0,820 - (1,00 - 2,810)X2 - 0,913X3 = 0 V1 = -1/1,735 = -0,58

-0,980X1 - 0,913X2 - (1,00 - 2,810)X3 = 0 V1 = - 0,974/1,735 = - 0,56

V1 = 1,032/1,734 = 0,59

X1 = -1,000; X2 = -0,974; X3 = 1,032


Autovetores
V1 = -1,000
F1 F2 F3
-0,974 Var1 -0.58 -0.60 0.56
1,032 Var2 -0.56 0.79 0.26
11 Var3 0.59 0.16 0.79 12

2
Factor loadings (carregamento das variveis nas
componentes principais)
1 2 4 0,58 0,60 0,56
4 2 3 0,56 0,79 0,26
(autovetor padronizad o autovalor correspondente)
7 3 2
*
0,59 0,16 0,79
= factor scores

ACP: variveis
8 5 1
F1 F2 F3
1
Var1 -0.97 -0.26 0.03
Var2 -0.94 0.34 0.01
0.75
Var3 1.00 0.07 0.04
0.5 F1 F2 F3
V2
O bs1 2 .1 0 0 .4 5 0 .0 3
Componente II (6.27 %)

0.25

0
V3
O bs2 0 .9 3 - 0 .3 5 - 0 .0 7
-0.25
O bs3 - 0 .6 9 - 0 .5 1 0 .0 6
V1
O bs4 - 2 .3 4 0 .4 1 - 0 .0 2
-0.5

-0.75
13 14
-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1

Componente I (93.66 %)

ACP: observaes

0.5
O4 O1
Componente II (6.27 %)

O2

-0.5 O3

-1
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Componente I (93.66 %) 15 16

A escolha do nmero de componentes


Tradicionalmente, o coeficiente de correlao usado, em vez principais
do de covarincia, para a matriz inicial de similaridades. Manter componentes suficientes para explicar uma
determinada percentagem do total da varincia, por
Isso porque o coeficiente de correlao elimina o efeito de exemplo 80%.
escala: uma varivel que oscile entre 0 e 1 no pesa mais na
carga fatorial do que uma varivel variando entre 0 e 1000.
Manter componentes cujos auto-valores so maiores
do que a mdia dos autovalores i/p; para uma
No entanto quando as variveis foram obtidas em escalas matriz de correlaes, essa mdia 1.
idnticas ou quando se quer ressaltar a varincia das variveis, Usar o grfico de declive/scree graph, e observar a
que influenciam nas cargas fatoriais, a covarincia utilizada. mudana de inclinao de altos autovalores para
baixos autovalores.
Testar a significncia das maiores componentes, ou
17 seja, aquelas correspondentes aos maiores 18

autovalores.

3
grfico de declive/scree graph Exemplo
r=-0.11

CP
19 20

valores ordenados; r= 0,98

Anlise de agrupamentos e anlise das


componentes principais:
fornecem os mesmos resultados
mais informaes em ACP

21 22

xidos em rochas magmticas

Rochas SiO2 Al2O3 Fe2O3 FeO MgO CaO Na2O K2O


01Sienito 61.7 15.1 2 2.3 3.7 4.6 4.4 4.5
02Sienito 58.3 17.9 3.2 1.7 1.5 3.7 5.9 5.3
03Sienito 51.2 17.6 3.5 4.3 3.2 4.5 5.7 4.4
04Monzonito 54.4 14.3 3.3 4.1 6.1 7.7 3.4 4.2
05Diorito 58 15.7 0.7 2.8 5 10.9 3 3.2
06Diorito 46.9 15.9 2.9 10 7 9.6 2.7 0.7
07Diorito 58 17.3 2.2 3.8 2.2 4.3 4.3 4.1
08QDiorito 55.5 16.5 1.7 4.6 6.7 6.7 3.2 2.5
09Gabro 55.4 15.3 2.7 5.5 5.8 9.9 2.9 1.5
10Gabro 55.9 13.5 2.7 5.9 6.5 8.9 2.4 1.7
11Norito 47.2 14.5 1.6 13.8 5.2 8.1 3.1 1.2
12Norito 48.2 18.3 1.3 6.1 10.8 9.4 1.3 0.7
13HipGabro 44.8 18.8 2.2 4.7 11.3 14.6 0.9 0.1
14HipGabro 47 14.1 0.8 15 16 2.3 0.4 1.7
15Sienito 59.8 17.3 3.6 1.6 1.2 3.8 5 5.1
16QSienito 66.2 16.2 2 0.2 0.8 1.3 6.5 5.8
17SienitoAlt 50 9.9 3.5 5 11.9 8.3 2.4 5
18Monzonito 57.4 18.5 3.7 2.1 1.7 6.8 4.5 3.7
19Monzonito 59.8 15.8 3.8 3.3 2.2 3.9 3 4.4
23 24
20Diabasio 52.2 18.2 3.3 4.4 4.7 6.5 4.6 1.9

4
Porcentgens de empregados em nove
grupos industriais em 30 pases na
Europa:
AGR: agricultura, florestal e pesca
MIN: minerao e explorao de pedreiras
FAB: fabricao
FEA: fornecimento de energia e gua
CON: construo
SER: servios
FIN: finanas
25 SSP: servios sociais e pessoais 26
TC: transporte e comunicaes

27 28

29

Você também pode gostar