Você está na página 1de 29

Universidade Federal Rural do Rio de Janeiro

Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS

Análise de Componentes
Principais
Carlos Alberto Alves Varella
Doutor em Engenharia Agrícola

Novembro 2011
Introdução
É a técnica mais conhecida da estatística multivariada;
Pode ser utilizada para geração de índices e agrupamento
de indivíduos;
Cada componente principal é uma combinação linear de
todas as variáveis originais;
São independentes entre si;
 É importante ter uma visão conjunta de todas ou quase
todas as técnicas da estatística multivariada para resolver
a maioria dos problema práticos.
Construção da matriz de dados
(Matriz X)
Matriz de dados para ‘p’ variáveis e ‘n’ indivíduos;
Características observadas são : X1, X2, X3, ..., Xp;
A matriz é de ordem n x p.

 x11 x12 x13  x1 p 


 
 x21 x22 x23  x2 p 
X   x31 x32 x33  x3 p 
 
    
 
 xn1 x xn 3  xnp 
Matriz de Covariância, S
Obtida a partir da matriz X de dados de ordem ‘n x p’;
É uma estimativa da matriz de covariância Σ da população
π;
A matriz S é simétrica e de ordem ‘p x p’.

Vˆar ( x1 ) Cˆ ov( x1 x2 ) Cˆ ov( x1 x3 )  Cˆ ov ( x1 x p ) 


 
Cˆ ov( x2 x1 ) Vˆar ( x2 ) Cˆ ov( x2 x3 )  Cˆ ov( x2 x p ) 
 
S  Cˆ ov( x3 x1 ) Cˆ ov( x3 x2 ) Vˆar ( x3 )  Cˆ ov( x3 x p ) 
 
      
ˆ 
Cov( x p x1 ) Cˆ ov( x p x2 ) Cˆ ov( x p x3 )  Vˆar ( x p ) 

Padronização dos dados
Média zero e variância 1

x ij  x j
z ij  , i  1, 2,  , n e j  1, 2,  , p
s( x j )

Média qualquer e variância 1


x ij
z ij  , i  1, 2,  , n e j  1, 2, , p
s( x j )
Variáveis Padronizadas
A matriz Z é igual a matriz de correlação R da matriz de
dados X;

 z11 z12 z13  z1 p 


 
 z 21 z 22 z 23  z 2 p 
Z   z 31 z32 z33  z3 p 
 
    
 
 z n1 z n 2 z n 3  z np 
Considerações sobre a
padronização
 Normalmente partimos da matriz padronizada;
 O resultado a partir da matriz S pode ser diferente do
resultado a partir da matriz R.
 A padronização só dever ser feita quando as unidades das
variáveis observadas não são as mesmas.
Determinação dos
Componentes Principais
Os componentes principais são determinados resolvendo-se a
equação característica da matriz S ou R, isto é:

det R  I   0 ou R  I  0
Autovalores da matriz R
 λ1, λ2, λ3, ..., λp são as raízes da equação característica da
matriz R ou S, então:
 λ1, λ2, λ3, ..., λp podem se autovalores da matriz R ou S;

1 r ( x1 x2 ) r ( x1 x3 )  r ( x1 x p ) 
 
r ( x2 x1 ) 1 r ( x2 x3 )  r ( x2 x p ) 
R  r ( x3 x1 ) r ( x3 x2 ) 1  r ( x3 x p ) 
 
     
 
r ( x p x1 ) r ( x p x2 ) r ( x p x3 )  1 
Autovetores
Para cada autovalor λi existe um autovetor:

éai1 ù
ê ú
~ êai2 ú
ai =
êM ú
ê ú
ê
ëaip ú
û
Componente principal Yi
Sendo o autovalor = λi , então o i-ésimo componente
principal é dado por:

Yi = ai1 X1 + ai 2 X2 + L + aip Xp
Propriedades dos Componentes
Principais
A variância do componente principal Yi é igual ao valor do
autovalor λi:
V̂ar(Yi )= li
O primeiro componente é o que apresenta maior
variância e assim por diante:

V̂ar( Y1 ) > V̂ar( Y2 ) > L > V̂ar( Yp )


Propriedades dos Componentes
Principais
Total de variância das variáveis originais = somatório dos
autovalores = total de variância dos componentes
principais:

åV̂ar(X ) = ål = åV̂ar( Y )
i i i

Os componentes principais não são correlacionados entre


si:

Ĉov(Yi , Yj)= 0
Importância de cada componente
principal
Medida pela porcentagem de variância de cada
componente em relação ao total

V̂ar(Yi ) li li
Ci = ×100 = ×100 = ×100
p p
traço()
åV̂ar(Y ) i ål i
S
i =1 i =1
Número de componentes
Não existe um modelo estatístico;
O número de ser aquele que acumula 70% ou mais de
proporção da variância total.

V̂ar(Y 1 )+ L V̂ar(Y k )
k
×100 ³ 70% onde k < p
åV̂ar(Yi )
i =1
Interpretação dos componentes
Verifica-se o Grau de influência que cada variável Xj tem
sobre o componente Yi.

V̂ar(Y1 )
Corr(X j, Y1 )= rXj ×Y 1 = a1 j ×
a1 j
= l1 × )
V̂ar X j) Var(X j)
Interpretação dos componentes
Verifica-se o peso ou loading de cada variável sobre o
componente

a11 a12 a1p


w1 = ) , w2 = ) , L wp = )
Var(X1 ) Var(X 2 ) Var(Xp)
Escores dos componentes
Organização dos dados
Escores dos componentes
Variáveis
Trat principais
(Indiv)
X1 X2 ... Xp Y1 Y2 ... Yk

1 X11 X12 ... X1p Y11 Y12 ... Y1k

2 X21 X22 ... X2p Y21 Y22 ... Y2k

n Xn1 Xn2 Xnp Yn1 Yn2 ... Ynk


Escores do primeiro componente
para ‘n’ tratamentos e ‘p’ variáveis
 O escore é o valor da cominação linear;
Yn1=componente 1 do tratamento n para p variáveis.

Y11  a 11 X 11  a 12 X 12    a 1p X 1p
Y21  a 11 X 21  a 12 X 22    a 1p X 2 p
Yn1  a 11 X n1  a 12 X n 2    a 1p X np
Exemplo de Aplicação
Variáveis originais observadas (X1 e X2) e padronizados
(Z1 e Z2). Duas variáveis para cinco tratamentos (k=5).
Variáveis originais Variáveis padronizadas
Tratamentos
X1 X2 Z1 Z2
1 102 96 24,3827 6,9554
2 104 87 24,8608 6,3033
3 101 62 24,1436 4,4920
4 93 68 22,2313 4,9268
5 100 77 23,9046 5,5788
Variância 17,50 190,50 1 1
Padronização da Variância
Os dados serão padronizados para variância 1:

X ij 104
Z ij   Z12   24,8608
s X j  17,5
Matriz de Correlação
Elementos da diagonal principal igual a 1. Significa a
correlação entre mesmas variáveis;
Elementos fora da diagonal principal igual a 0,5456.
Significa a correlação entre as variáveis (X1,X2).

1 0,5456
R 
0,5456 1
Autovalores da matriz de
correlação
São os elementos fora da diagonal principal da matriz.
Significa a variância de cada componente principal.

λ1 = 1,5456 e λ2 = 0,4544

1 0,5456
R 
0,5456 1
Traço da matriz de correlação
Somatório dos elementos da diagonal da matriz. Significa
o total de variância.

Traço(R) = 1+1=2

1 0,5456
R 
0,5456 1
Primeiro autovetor da matriz
de correlação
São os coeficientes das variáveis padronizadas Z1, Z2.

~ a 11  1 1 0,7071
a1        
a 12  2 1 0,7070
Y1 é a combinação linear de Z1, Z2 que denominamos de
primeiro componente principal

Y1  0,7071Z1  0,7070 Z 2
Resultados da análise
Variância, ponderação, correlação, % de variância e % de
variância acumulada dos componentes principais.

CP Variância Ponderação Correlação % % de


(λ) entre Zj eYi de variância
Z1 Z2 Z1 Z2 variância acumulada
dos Yi

Y1 1,5456 0,707 0,707 0,879 0,879 77,28 77,28


Y2 0,4544 -0,707 0,707 -0,476 0,476 22,72 100,00
Escores dos componentes
principais
Componentes principais
Tratamentos
Y1 Y2

1 22,16 -12,32

2 22,04 -13,12

3 20,25 -13,90

4 19,20 -12,24

5 20,85 -12,96
Gráfico de dispersão
Permite visualizar se os componentes principais (Y is) são
capazes de discriminar indivíduos da população ()
utilizando características (Xi).
23
Primeiro componente (Y1)

22

21

20

19
-14 -13.5 -13 -12.5 -12
Segundo componente (Y2)
Aula prática com o programa
computacional SAS
Material didático:
http://www.ufrrj.br/institutos/it/deng/varella/multivariada.htm

Disciplina: Análise Multivariada Aplicada as Ciências Agrárias.

Aula prática: 14-17 com SAS.

FIM

Você também pode gostar