Escolar Documentos
Profissional Documentos
Cultura Documentos
PS-GRADUAO
AGRONOMIA CINCIA DO SOLO
Introduo
A anlise de componentes principais uma tcnica de anlise multivariada que consiste
em transformar um conjunto de variveis em outro conjunto, os componentes principais, de
mesma dimenso, porm com propriedades importantes: cada componente principal uma
combinao linear de todas as variveis originais, so independentes entre si e estimados com
o propsito de reter, em ordem de estimao, o mximo de informao, em termos da variao
total contida nos dados.
A anlise de componentes principais associada idia de reduo de massa de dados,
com menor perda possvel da informao. Procura-se redistribuir a variao observada nos
eixos originais de forma a se obter um conjunto de eixos ortogonais no correlacionados. Esta
tcnica tambm pode ser utilizada para o agrupamento de indivduos similares, mediante
exame visual em grficos de disperso no espao bi ou tridimensional. A anlise agrupa os
indivduos de acordo com sua variao, isto , os indivduos so agrupados segundo suas
varincias, ou seja, segundo seu comportamento dentro da populao, representado pela
variao do conjunto de caractersticas que define o indivduo, ou seja, a tcnica agrupa os
indivduos de uma populao segundo a variao de suas caractersticas.
Segundo REGAZZI (2000), apesar das tcnicas de anlise multivariada terem sido
desenvolvidas para resolver problemas especficos, principalmente de Biologia e Psicologia,
podem ser tambm utilizadas para resolver outros tipos de problemas em diversas reas do
conhecimento. A anlise de componentes principais a tcnica mais conhecida, contudo
importante ter uma viso conjunta de todas ou quase todas as tcnicas para resolver a maioria
dos problema prticos.
1
Professor. Universidade Federal Rural do Rio de Janeiro, IT-Departamento de Engenharia, BR 465 km 7 - CEP 23890-000 Seropdica
RJ. E-mail: varella@ufrrj.br.
Matriz de dados
Considere a situao em que observamos p caractersticas de n indivduos de uma
populao . As caractersticas observadas so representadas pelas variveis x1, x2, x3, ..., xp.
A matriz de dados de ordem n x p e normalmente denominada de matriz X.
x 11
x 21
X = x 31
x n1
x 12
x 22
x 32
M
x n2
x 13 L x 1p
x 23 L x 2 p
x 33 L x 3p
M
O M
x n 3 L x np
ar ( x )
V
1
ov( x x )
C
2 1
S = Cov( x 3 x 1 )
Cov( x p x 1 )
ov( x x ) C
ov( x x ) L C
ov( x x )
C
1 2
1 3
1 p
ov( x x ) L C
ov( x x )
ar ( x )
V
C
2
2 3
2 p
Cov( x x ) V
ar ( x )
C
ov
(
x
x
)
L
3 2
3
3 p
M
M
O
M
Cov( x x ) C
ov( x x ) L V
ar ( x )
p 2
p 3
p
..., p). A padronizao pode ser feita com mdia zero e varincia 1, ou com varincia 1 e
mdia qualquer.
Padronizao com mdia zero e varincia 1
x ij x j
z ij =
, i = 1, 2, L , n e
s( x j )
Padronizao com varincia 1e mdia qualquer
x ij
z ij =
, i = 1, 2, L , n e
s( x j )
j = 1, 2, L , p
j = 1, 2, L , p
xj =
i =1
ij
ar ( x )
s( x j ) = V
j
(x
i =1
ij
xj)
n 1
j = 1, 2, L p
x ij
n
x ij2 i =1
n
ar ( x ) = i =1
V
j
n 1
ar ( x ) =
V
j
ou
z 21 z 22 z 23
Z = z 31 z 32 z 33
M
M
M
z n1 z n 2 z n 3
L z1p
L z 2p
L z 3p
O M
L z np
padronizao s dever ser feita quando as unidades de medidas das caractersticas observadas
no forem as mesmas.
det[R I] = 0 ou
R I = 0
Os autovetores ~
a i so normalizados, isto , a soma dos quadrados dos coeficientes igual
a 1, e ainda so ortogonais entre si. Devido a isso apresentam as seguintes propriedades:
p
a
j =1
a
j =1
ij
2
ij
a kj = 0
(~a ~a = 1)
=1
'
i
(~a ~a
'
i
= 0 para i k
Var(X ) = = Var(Y )
i
ov(Y , Y ) = 0
C
i
j
Contribuio de cada componente principal
Ci =
ar (Y )
V
i
p
Var(Y )
i =1
100 =
100 =
i =1
i
100
trao(S)
reas do conhecimento o nmero de componentes utilizados tem sido aquele que acumula
70% ou mais de proporo da varincia total.
ar (Y ) + L V
ar (Y )
V
1
k
k
Var(Yi )
i =1
Esta anlise feita verificando-se o grau de influncia que cada varivel Xj tem sobre o
componente Yi. O grau de influncia dado pela corelao entre cada Xj e o componente Yi
que est sendo interpretado. Por exemplo a correlao entre Xj e Y1 :
Corr (X j, Y1 ) = rXj Y1 = a 1 j
ar (Y )
V
1
ar (X )
V
j
a1j
)
Var (X j )
Para comparar a influncia de X1, X2, ..., Xp sobre Y1 anlisamos o peso ou loading de
cada varivel sobre o componente Y1. O peso de cada varivel sobre um determinado
componente dado por:
w1 =
a 11
, w2 =
)
Var(X1 )
a 12
,L wp =
)
Var(X 2 )
a 1p
, sendo w1 o peso de X1.
)
Var (X p )
X1
X2
...
Xp
Y1
Y2
...
Yk
X11
X12
X1p
Y11
Y12
...
Y1k
X21
X22
X2p
Y21
Y22
...
Y2k
Xn1
Xn2
...
Xnp
Yn1
Yn2
...
Ynk
Y11 = a 11 X 11 + a 12 X 12 + L + a 1p X 1p
Y21 = a 11 X 21 + a 12 X 22 + L + a 1p X 2 p
M
Yn1 = a 11 X n1 + a 12 X n 2 + L + a 1p X np
Exemplo de aplicao
No Quadro 2 esto os valores originais observados (X1 e X2) e padronizados (Z1 e Z2) de
duas variveis para cinco tratamentos (n=5).
Quadro 2. Valores originais e padronizados de duas variveis para cinco tratamentos
Variveis originais
Variveis padronizadas
Tratamentos
X1
X2
Z1
Z2
1
102
96
24,3827
6,9554
104
87
24,8608
6,3033
101
62
24,1436
4,4920
93
68
22,2313
4,9268
100
77
23,9046
5,5788
Varincia
17,50
190,50
Mdia
100,00
78,00
23,9046
5,6513
X ij
s(X j )
Z12 =
104
17,5
= 24,8608
A matriz de correlao :
1 0,5456
R=
0,5456 1
A equao caracterstica : R I = 0
1 0,5456
0,5456 1
=0
2 2 + 0,7023 = 0
Os autovalores da matriz de correlao R so:
1 = 1,5456 e 2 = 0,4544
A soma de 1 e 2 igual ao trao da matriz R. O trao de uma matriz a soma dos
elementos de sua diagonal principal.
trao(R) = 1+1=2
a
1 1 0,7071
~
a1 = 11 =
=
2 1 0,7070
a 12
e o primeiro componente principal :
Y1 = 0,7071Z1 + 0,7071Z 2
Da mesma forma para o segundo componente principal temos:
a
1 1 0,7071
~
a 21 = 21 =
=
2 1 0,7070
a 22
Y2 = 0,7071Z1 + 0,7071Z 2
Quadro 3. Informaes que podem ser obtidas com a anlise de componentes principais
Componente Varincia Coeficiente de
Correlao
Porcentagem Porcentagem
principal
(Autoval ponderao
entre Zj eYi
da varincia acumulada
or)
total
de varincia
Z1
Z2
Z1
Z2
dos Yi
Y1
1,5456
0,7071
0,7071 0,879
0,879
77,28
77,28
Y2
0,4544
-0,7071
0,7071
-0,476
0,476
22,72
100,00
Quadro 4. Escores dos dois componentes principais para os cinco tratamentos obtidos a partir da
matriz de correlao R.
Escores dos componentes principais
Tratamentos
Y1
Y2
1
22,16
-12,32
22,04
-13,12
20,25
-13,90
19,20
-12,24
20,85
-12,96
23
22
21
3
20
4
19
-14
-13.5
-13
-12.5
-12
Figura 2. Disperso dos tratamentos em funo dos escores dos componentes principais.
BIBLIOGRAFIA
REGAZZI, A.J. Anlise multivariada, notas de aula INF 766, Departamento de Informtica da
Universidade Federal de Viosa, v.2, 2000.
KHATTREE, R. & NAIK, D.N. Multivariate data reduction and discrimination with SAS
software. Cary, NC, USA: SAS Institute Inc., 2000. 558 p.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 4th ed.
Upper Saddle River, New Jersey: Prentice-Hall, 1999, 815 p.
10