Você está na página 1de 8

Anlise Multivariada Aplicada Pesquisa Jair Mendes Marques

4. ANLISE DE COMPONENTES PRINCIPAIS



4.1 INTRODUO

Para investigar as relaes entre um conjunto de p variveis correlacionadas
pode ser til transformar o conjunto de variveis originais em um novo
conjunto de variveis no-correlacionadas chamadas componentes
principais, tendo propriedades especiais em termos de varincias.

As novas variveis: componente principais, so combinaes lineares das
variveis originais e so derivadas em ordem decrescente de importncia tal
que, por exemplo, a 1 componente principal a combinao linear
normalizada com varincia mxima.

Resumindo:


Variveis originais Componentes principais




Tranformao linear

e ortogonal








A reproduo da variabilidade total do sistema requer as p variveis, porm,
freqentemente a maior parte dessa variabilidade pode ser explicada por um
nmero pequeno k < p, de componentes principais.

Neste caso existe praticamente a mesma quantidade de informaes nas k
componente principais que nas p variveis originais.

As k componente principais podem ento substituir as p variveis originais.

X
1
, X
2
, ... , X
p

Y
1
, Y
2
, ... , Y
p


Anlise Multivariada Aplicada Pesquisa Jair Mendes Marques
2
Principais objetivos da ACP:

(1) Reduzir o nmero de variveis.

(2) Analisar quais as variveis ou, quais os conjuntos de variveis explicam a
maior parte da variabilidade total, revelando que tipo de relacionamento
existe entre eles.


Observaes:

(1) A ACP no depende da suposio inicial de normalidade.

(2) A ACP muito til como mtodo auxiliar em Regresso, Anlise Fatorial e
Anlise de Agrupamentos (Cluster).


4.2 COMPONENTES PRINCIPAIS POPULACIONAIS

Algebricamente: so combinaes lineares de p variveis originais: X
1
, X
2
,
... , X
p
.

Geometricamente: as combinaes lineares representam a seleo de um
novo sistema de coordenadas, obtido por rotao do sistema original com X
1
,
X
2
, ... , X
p
como eixos. Os novos eixos Y
1
, Y
2
, ... , Y
p
, representam as
direes com variabilidade mxima (permite uma interpretao mais simples
da estrutura da matriz de covarincia).

Por exemplo, para p = 2:
Y
2

X
2
Y
1



X
1








Anlise Multivariada Aplicada Pesquisa Jair Mendes Marques
3
Considere X = [X
1
, X
2
, ... , X
p
] um vetor aleatrio p-dimensional com vetor de
mdias , matriz de covarincia e autovalores:
1

2
, ... ,
p
.

Considere as combinaes lineares:

p
X
1 p
c ...
2
X
21
c
1
X
11
c
1
Y + + + = = X
'
1
c

p
X
2 p
c ...
2
X
22
c
1
X
12
c
2
Y + + + = = X
'
2
c
..................................................................

p
X
pj
c
2
X
j 2
c
1
X
j 1
c
j
Y + + + = = ... X
'
j
c

.................................................................

p
X
pp
c ...
2
X
p 2
c
1
X
p 1
c
p
Y + + + = = X
'
p
c
ou

X Y
'
C =

onde:


(
(
(
(
(
(

=
p
Y
2
Y
1
Y

Y e
(
(
(
(
(
(

=
pp
c
2 p
c
1 p
c
p 2
c
22
c
21
c
p 1
c
12
c
11
c
C



com

'
j
c X
'
j
c X
'
j
c = = = ) .E( ) E( )
j
E(Y

j
c
'
j
c
j
c X
'
j
c X
'
j
c = = = ). .V( ) ( V )
j
V(Y


Anlise Multivariada Aplicada Pesquisa Jair Mendes Marques
4
j
c
'
i
c X
'
j
c X
'
i
c = = ) , ( V )
j
Y ,
i
Cov(Y

i j = 1, 2, ... , p.
Soluo normalizada: 1
p
1 i
2
ij
c
pj
c
j 2
c
j 1
c
pj
c
j 2
c
j 1
c =

=
= =
(
(
(
(
(
(

j
c .
'
j
c

Pode-se definir ento:

A 1 componente principal: como a combinao linear X
'
1
c que maximiza
) ( V X
'
1
c sujeita restrio 1 =
1
c .
'
1
c .
A 2 componente principal: como a combinao linear X
'
2
c que maximiza
) ( V X
'
2
c sujeita s restries 1 =
2
c .
'
2
c e 0 ) ( Cov = X
'
2
c , X
'
1
c .
.
.
.
A j-sima componente principal como a combinao linear X
'
j
c que
maximiza ) ( V X
'
j
c sujeita s restries 1 =
j
c .
'
j
c e 0 ) ( Cov = X
'
i
c , X
'
j
c para
todo i < j.

Propriedades:

(1) Seja o vetor aleatrio ] X ,..., X , X [
p 2 1
=
'
X com matriz covarincia e pares
de autovalores-autovetores (
1
,e
1
), (
2
,e
2
), ... ,(
p
,e
p
), onde
1

2
...
p

0. A j-sima componente principal dada por:

p
X
pj
e ...
2
X
j 2
e
1
X
j 1
e
j
Y + + + = = X
'
j
e , j = 1, 2, ... , p

onde:
j
. . )
j
V(Y = =
j
e
'
j
e e 0 . . )
j
Y ,
i
Cov(Y = =
j
e
'
i
e , i j

(2) Varincia total:

Anlise Multivariada Aplicada Pesquisa Jair Mendes Marques
5

=
=
+ + + = + + + =

=
= + + +
p
1 j
)
j
Y ( V
p
...
2 1
2
p
...
2
2
2
1
p
1 i
)
i
X ( V )
p
X ( V ... )
2
X ( V )
1
X ( V


(3) Se X
'
1
e =
1
Y , X
'
2
e =
2
Y , ... , X
'
p
e =
p
Y so as componentes principais
de ento

i

ij
e
i
X
j
Y
= , i, j = 1, 2, ... , p

so os coeficientes de correlao entre as componentes principais Y
j
e as
variveis X
i
, onde (
1
,e
1
), (
2
,e
2
), ... ,(
p
,e
p
), so os pares de autovalores-
autovetores de .

(4) A proporo da varincia total devida j-sima componente principal

p
...
2 1
j
+ + +

, j = 1, 2, ... , p

OBS.: Cada autovetor ]
pj
e , ... ,
2j
e ,
1j
[e =
'
j
e pode auxiliar na interpretao da
componente principal Y
j
. A magnitude de e
ij
mede a importncia da i-sima
varivel X
i
para a j-sima componente principal Y
j
. Na realidade, e
ij
,
proporcional ao coeficiente de correlao entre Y
j
e X
i
.


4.3 COMPONENTES PRINCIPAIS DE VARIVEIS PADRONIZADAS

A j-sima componente principal das variveis padronizadas:

(
(


= =
p

p
X
, ,
2

2
X
,
1

1
X
]
p
z ,...,
2
z ,
1
[z
'
z

ou, em notao matricial:

Anlise Multivariada Aplicada Pesquisa Jair Mendes Marques
6
) (
1
1/2
V X z

=
|

\
|



onde:
(
(
(
(
(
(

=
p
0 0
0
2
0
0 0
1

1/2
V

,
(
(
(
(
(
(

=
p

,
(
(
(
(
(
(

=
p
X
2
X
1
X

X


com Cov(z) = dada por:


) X
'
j
e z .
'
j
e

= = (
1
)
1/2
(V
j
y , j = 1, 2, ... , p

Propriedades:

(1) p
p
1 i
)
i
z ( V
p
1 j
)
j
y ( V =

=
=

=



(2)
j

ij
e
i
z
j
y
= , i, j = 1, 2, ... , p, onde: (
1
,e
1
), (
2
,e
2
), ... ,(
p
,e
p
) so os
pares de autovalores-autovetores de com
1

2
...
p
0.



(3) A proporo da varincia total explicada pela j-sima componente principal
de z dada por
p
j





EXEMPLO:



Anlise Multivariada Aplicada Pesquisa Jair Mendes Marques
7
4.4 COMPONENTES PRINCIPAIS AMOSTRAIS

Na prtica, os parmetros e so desconhecidos e devem ser estimados.
Suponha que x
1
, x
2
, ... , x
n
, com n > p, so vetores p1 de observaes
independentes de X.

As estimativas de e so, respectivamente,

=
= =
n
1 i
i
x
n
1
x e
'
) x
i
x )( x
n
1 i
i
x (
1 n
1
S

=

A j-sima componente amostral dada por:

p
X
pj
e ...
2
X
j 2
e
1
X
j 1
e
j
Y

+ + + = = X
'
j
e , j = 1, 2, ... , p

onde: ) ,
p

( ),..., ,
2

( ), ,
1

(
p
e
2
e
1
e so os autovalores-autovetores de S com
0
p

...
2

.

Tem-se que:

(1)
j

)
j
Y

( V = , j = 1, 2, , ... , p.

(2) 0 )
j
Y

,
i
Y

( Cov = , i j.

(3)

=
+ + + = =

=
+ + + =
p
1 j
p

...
2

p
1 i
2
p
s ...
2
2
s
2
1
s
2
i
s .

(4) A proporo da varincia total devido a j-sima componente principal
estimada
p

...
2

+ + +

, j = 1, 2, ..., p.
(5) A correlao amostral entre
j
Y

e X
i

i
s
j

ij
e
i
X
j
Y

= , i, j = 1, 2, ... , p.

Anlise Multivariada Aplicada Pesquisa Jair Mendes Marques
8
Para um vetor de observaes padronizadas: ]
p
z ,...,
2
z ,
1
z [ = z a matriz
covarincia ser:

(
(
(
(
(
(




= =
1
2 p 1 p

p 2
1
21

p 1

12
1
R
z
S




A j-sima componente principal ser

p
z
pj
e ...
2
z
j 2
e
1
z
j 1
e
j
y + + + = = z
'
j
e , j = 1, 2, ... , p

onde: )
j
,
j

( e o j-simo par autovalor-autovetor de R com


0
p

...
2

.


Para
j
y tem-se que:

(1)
j

)
j
y ( V = , j = 1, 2, ... , p.

(2) 0 )
j
y ,
i
y ( Cov = , i j.
(3) Varincia total amostral = tr(R) = p

=
+ + + = =
p
1 j
p

...
2

.
(4)
j

ij
e
i
z
j
y
r = , j = 1, 2, ... , p

(5) A proporo da varincia total amostral explicada pela j-sima componente
ser dada por
p
j

, j = 1, 2, ... , p.

EXEMPLOS:

Você também pode gostar