Você está na página 1de 10

ANLISE DE DADOS APLICADA AGRONOMIA

PS-GRADUAO
AGRONOMIA CINCIA DO SOLO

ANLISE DE COMPONENTES PRINCIPAIS


Carlos Alberto Alves Varella1

Introduo
A anlise de componentes principais uma tcnica de anlise multivariada que consiste
em transformar um conjunto de variveis em outro conjunto, os componentes principais, de
mesma dimenso, porm com propriedades importantes: cada componente principal uma
combinao linear de todas as variveis originais, so independentes entre si e estimados com
o propsito de reter, em ordem de estimao, o mximo de informao, em termos da variao
total contida nos dados.
A anlise de componentes principais associada idia de reduo de massa de dados,
com menor perda possvel da informao. Procura-se redistribuir a variao observada nos
eixos originais de forma a se obter um conjunto de eixos ortogonais no correlacionados. Esta
tcnica tambm pode ser utilizada para o agrupamento de indivduos similares, mediante
exame visual em grficos de disperso no espao bi ou tridimensional. A anlise agrupa os
indivduos de acordo com sua variao, isto , os indivduos so agrupados segundo suas
varincias, ou seja, segundo seu comportamento dentro da populao, representado pela
variao do conjunto de caractersticas que define o indivduo, ou seja, a tcnica agrupa os
indivduos de uma populao segundo a variao de suas caractersticas.
Segundo REGAZZI (2000), apesar das tcnicas de anlise multivariada terem sido
desenvolvidas para resolver problemas especficos, principalmente de Biologia e Psicologia,
podem ser tambm utilizadas para resolver outros tipos de problemas em diversas reas do
conhecimento. A anlise de componentes principais a tcnica mais conhecida, contudo
importante ter uma viso conjunta de todas ou quase todas as tcnicas para resolver a maioria
dos problema prticos.
1
Professor. Universidade Federal Rural do Rio de Janeiro, IT-Departamento de Engenharia, BR 465 km 7 - CEP 23890-000 Seropdica
RJ. E-mail: varella@ufrrj.br.

Matriz de dados
Considere a situao em que observamos p caractersticas de n indivduos de uma
populao . As caractersticas observadas so representadas pelas variveis x1, x2, x3, ..., xp.
A matriz de dados de ordem n x p e normalmente denominada de matriz X.

x 11

x 21
X = x 31

x n1

x 12
x 22
x 32
M
x n2

x 13 L x 1p

x 23 L x 2 p
x 33 L x 3p

M
O M

x n 3 L x np

A estrutura de interdependncia entre as caractersticas da matriz de dados representada


pela matriz de covarincia S ou pela matriz de correlao R. O entendimento dessa
estrutura atravs das variveis x1, x2, x3, ..., xp, pode ser na prtica uma coisa complicada.
Assim, o objetivo da anlise de componentes principais transformar essa estrutura
complicada, representada pelas variveis x1, x2, x3, ..., xp, em uma outra estrutura representada
pelas variveis y1, y2, y3, ..., yp no correlacionadas e com varincias ordenadas, para que seja
possvel comparar os indivduos usando apenas as variveis yis que apresentam maior
varincia. A soluo dada a partir da matriz de covarincia S ou da matriz de correlao R.
Matriz de covarincia S
A partir da matriz X de dados de ordem n x p podemos fazer uma estimativa da matriz
de covarincia da populao que representaremos por S. A matriz S simtrica e de ordem
p x p.

ar ( x )
V
1

ov( x x )
C
2 1

S = Cov( x 3 x 1 )

Cov( x p x 1 )

ov( x x ) C
ov( x x ) L C
ov( x x )
C
1 2
1 3
1 p

ov( x x ) L C
ov( x x )
ar ( x )
V
C
2
2 3
2 p

Cov( x x ) V

ar ( x )

C
ov
(
x
x
)
L
3 2
3
3 p

M
M
O
M

Cov( x x ) C
ov( x x ) L V
ar ( x )
p 2
p 3
p

Normalmente as caractersticas so obervadas em unidades de medidas diferentes entre si,


e neste caso, segundo REGAZZI (2000) conveniente padronizar as variveis Xj (i=1, 2, 3,

..., p). A padronizao pode ser feita com mdia zero e varincia 1, ou com varincia 1 e
mdia qualquer.
Padronizao com mdia zero e varincia 1
x ij x j
z ij =
, i = 1, 2, L , n e
s( x j )
Padronizao com varincia 1e mdia qualquer
x ij
z ij =
, i = 1, 2, L , n e
s( x j )

j = 1, 2, L , p

j = 1, 2, L , p

em que, X j e S( x j ) so, respectivamente, a estimativa da mdia e o desvio padro da


caracterstica j:
n

xj =

i =1

ij

ar ( x )
s( x j ) = V
j

(x
i =1

ij

xj)

n 1

j = 1, 2, L p

x ij
n
x ij2 i =1

n
ar ( x ) = i =1
V
j
n 1

ar ( x ) =
V
j

ou

Aps a padronizao obtemos uma nova matriz de dados Z:

z11 z12 z13

z 21 z 22 z 23
Z = z 31 z 32 z 33

M
M
M

z n1 z n 2 z n 3

L z1p

L z 2p
L z 3p

O M

L z np

A matriz Z das variveis padronizadas zj igual a matriz de correlao da matriz de dados


X. Para determinar os componentes principais normalmente partimos da matriz de correlao
R. importante observar que o resultado encontrado para a anlise a partir da matriz S pode
ser diferente do resultado encontrado a partir da matriz R. A recomendao que a

padronizao s dever ser feita quando as unidades de medidas das caractersticas observadas
no forem as mesmas.

Determinao dos componentes principais


Os componentes principais so determinados resolvendo-se a equao caracterstica da
matriz S ou R, isto :

det[R I] = 0 ou

R I = 0

Se a matriz R for de posto completo igual a p, isto , no apresentar nenhuma coluna


que seja combinao linear de outra, a equao R I = 0 ter p razes chamadas de
autovalores ou razes caractersticas da matriz R. Na montagem da matriz de dados X
importante observar que o valor de n (indivduos, tratamentos, gentipos, etc.) dever ser pelo
menos igual a p+1, isto , se queremos montar um experimento para analisar o
comportamento de p caractersticas de indivduos de uma populao recomendado que o
delineamento estatstico apresente pelo menos p+1 tratamentos.
Sejam 1, 2, 3, ..., p as razes da equao caracterstica da matriz R ou S, ento:
1 > 2 > 3 L, p .

Para cada autovalor i existe um autovetor ~


ai :
a i1
a
i2
~
ai =
M

a ip

Os autovetores ~
a i so normalizados, isto , a soma dos quadrados dos coeficientes igual
a 1, e ainda so ortogonais entre si. Devido a isso apresentam as seguintes propriedades:
p

a
j =1

a
j =1

ij

2
ij

a kj = 0

(~a ~a = 1)

=1

'
i

(~a ~a
'
i

= 0 para i k

a i o autovetor correspondente ao autovalor i , ento o i-simo componente


Sendo ~
principal dado por:
Yi = a i1X1 + a i 2 X 2 + L + a ip X p

Os componentes principais apresentam as seguintes propriedades:


1) A varincia do componente principal Yi igual ao valor do autovalor i.
ar (Y ) =
V
i
i

2) O primeiro componente o que apresenta maior varincia e assim por diante:


ar (Y ) > V
ar (Y ) > L > V
ar (Y )
V
1
2
p
3) O total de varincia das variveis originais igual ao somatrio dos autovalores que igual
ao total de varincia dos componentes principais:

Var(X ) = = Var(Y )
i

4) Os componentes principais no so correlacionados entre si:

ov(Y , Y ) = 0
C
i
j
Contribuio de cada componente principal

A contribuio Ci de cada componenete principal Yi expressa em porcentagem.


calculada dividindo-se a varincia de Yi pela varncia total. Representa a proporo de
varincia total explicada pelo componenete principal Yi.

Ci =

ar (Y )
V
i
p

Var(Y )
i =1

100 =

100 =

i =1

i
100
trao(S)

A importncia de um componente principal avaliada por meio de sua contribuio, isto


, pela proporo de varincia total explicada pelo componente. A soma dos primeiros k
autovalores representa a proporo de informao retida na reduo de p para k dimenses.
Com essa informao podemos decidir quantos componente vamos usar na anlise, isto ,
quantos componentes sero utilizados para diferenciar os indivduos. No existe um modelo
estatstico que ajude nesta deciso. Segundo REGAZZI (2000) para aplicaes em diversas
5

reas do conhecimento o nmero de componentes utilizados tem sido aquele que acumula
70% ou mais de proporo da varincia total.
ar (Y ) + L V
ar (Y )
V
1
k
k

Var(Yi )

100 70% onde k < p

i =1

Interpretao de cada componente

Esta anlise feita verificando-se o grau de influncia que cada varivel Xj tem sobre o
componente Yi. O grau de influncia dado pela corelao entre cada Xj e o componente Yi
que est sendo interpretado. Por exemplo a correlao entre Xj e Y1 :

Corr (X j, Y1 ) = rXj Y1 = a 1 j

ar (Y )
V
1

ar (X )
V
j

a1j
)
Var (X j )

Para comparar a influncia de X1, X2, ..., Xp sobre Y1 anlisamos o peso ou loading de
cada varivel sobre o componente Y1. O peso de cada varivel sobre um determinado
componente dado por:

w1 =

a 11
, w2 =
)
Var(X1 )

a 12
,L wp =
)
Var(X 2 )

a 1p
, sendo w1 o peso de X1.
)
Var (X p )

Se o objetivo da anlise for a obteno de ndices, prtica muito comum em Economia, a


anlise termina aqui.
Se o objetivo da anlise comparar ou agrupar indivduos, a anlise continua e
necessrio calcular os escores para cada componente principal que ser utilizado na anlise.

Escores dos componentes principais

Os escores so os valores dos componentes principais. Aps a reduo de p para k


dimenses, os k componentes principais sero os novos ndivduos e toda anlise feita

utilizando-se os escores desses componentes. No Quadro 1 exemplificado a organizao de


um conjunto de dados composto por n tratamentos, p variveis e k componentes principais.
Quadro 1. Organizao de um conjunto de dados com n tratamentos, p variveis e k componentes
Variveis
Escores dos componentes principais
Tratamentos
(Indivduos)

X1

X2

...

Xp

Y1

Y2

...

Yk

X11

X12

X1p

Y11

Y12

...

Y1k

X21

X22

X2p

Y21

Y22

...

Y2k

Xn1

Xn2

...

Xnp

Yn1

Yn2

...

Ynk

Assim temos que os escores do primeiro componente para os n tratamentos so:


Trat

Primeiro conponente principal

Y11 = a 11 X 11 + a 12 X 12 + L + a 1p X 1p

Y21 = a 11 X 21 + a 12 X 22 + L + a 1p X 2 p

M
Yn1 = a 11 X n1 + a 12 X n 2 + L + a 1p X np

Exemplo de aplicao

No Quadro 2 esto os valores originais observados (X1 e X2) e padronizados (Z1 e Z2) de
duas variveis para cinco tratamentos (n=5).
Quadro 2. Valores originais e padronizados de duas variveis para cinco tratamentos
Variveis originais
Variveis padronizadas
Tratamentos
X1
X2
Z1
Z2
1

102

96

24,3827

6,9554

104

87

24,8608

6,3033

101

62

24,1436

4,4920

93

68

22,2313

4,9268

100

77

23,9046

5,5788

Varincia

17,50

190,50

Mdia

100,00

78,00

23,9046

5,6513

Os dados esto padronizados para varincia 1:


Z ij =

X ij

s(X j )

Z12 =

104
17,5

= 24,8608

A matriz de correlao :
1 0,5456
R=

0,5456 1
A equao caracterstica : R I = 0
1 0,5456
0,5456 1

=0

2 2 + 0,7023 = 0
Os autovalores da matriz de correlao R so:
1 = 1,5456 e 2 = 0,4544
A soma de 1 e 2 igual ao trao da matriz R. O trao de uma matriz a soma dos
elementos de sua diagonal principal.
trao(R) = 1+1=2

Obteno dos componentes principais


O autovetor normalizado para o primeiro componente principal :

a
1 1 0,7071
~
a1 = 11 =
=

2 1 0,7070
a 12
e o primeiro componente principal :

Y1 = 0,7071Z1 + 0,7071Z 2
Da mesma forma para o segundo componente principal temos:

a
1 1 0,7071
~
a 21 = 21 =
=

2 1 0,7070
a 22

Y2 = 0,7071Z1 + 0,7071Z 2

Quadro 3. Informaes que podem ser obtidas com a anlise de componentes principais
Componente Varincia Coeficiente de
Correlao
Porcentagem Porcentagem
principal
(Autoval ponderao
entre Zj eYi
da varincia acumulada
or)
total
de varincia
Z1
Z2
Z1
Z2
dos Yi
Y1
1,5456
0,7071
0,7071 0,879
0,879
77,28
77,28
Y2

0,4544

-0,7071

0,7071

-0,476

0,476

22,72

100,00

Quadro 4. Escores dos dois componentes principais para os cinco tratamentos obtidos a partir da
matriz de correlao R.
Escores dos componentes principais
Tratamentos
Y1
Y2
1

22,16

-12,32

22,04

-13,12

20,25

-13,90

19,20

-12,24

20,85

-12,96

Primeiro componente (Y1)

23

22

21

3
20

4
19
-14

-13.5

-13

-12.5

-12

Segundo componente (Y2)

Figura 2. Disperso dos tratamentos em funo dos escores dos componentes principais.

Programa SAS para obteno dos componentes principais

BIBLIOGRAFIA
REGAZZI, A.J. Anlise multivariada, notas de aula INF 766, Departamento de Informtica da
Universidade Federal de Viosa, v.2, 2000.
KHATTREE, R. & NAIK, D.N. Multivariate data reduction and discrimination with SAS
software. Cary, NC, USA: SAS Institute Inc., 2000. 558 p.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 4th ed.
Upper Saddle River, New Jersey: Prentice-Hall, 1999, 815 p.

10

Você também pode gostar