Microsoft PowerPoint - QuimioPCA

Reconhecimento de Padres
Aprendizagem e Classificao
SIMCA PCA
Supervisionada No-supervisionada
KNN HCA
Anlise por Componentes
Principais
Var 2 CP 2
i CP 1
Pesos (loadings) Cossenos

dos ngulos que as
componentes principais fazem
com os eixos das variveis
Escores Coordenadas dos

objetos no sistema de eixos
definido pelas componentes
principais
Var 1
x2
Loading = cos 2 0.45
2 60o
1 30o
Loading = cos 1 0.65
x1
Varivel 3
PC2 PC1
Varivel 2
Varivel 1
PCA decomposio de uma matriz de dados em
eixos ortogonais de mxima varincia
PC1 eixo de mxima varincia no espao p-dimensional,

escolhido de modo a representar a matriz de dados
deixando resduos mnimos ortogonais a si prprio
PC2 eixo ortogonal a PC1, representando o mximo da

varincia no descrita em PC1
Para que serve PCA?

Reduo da dimensionalidade
Reconhecimento de padres
Deteco de Anomalias
Separao sinal-rudo
Classificao
Seleo de variveis
Variveis: Objetos:
1.OD 24 amostragens
2.pH em pontos de um esturio
3.Salinidade
4.Precipitao Matriz de dados
5.Temperatura
6.Nitrato VARIVEIS
7.Nitrito
8.Fosfato O x1,1 x1,2 ... x1,16
9.Slica B
J x2,1 x2,2 ... x2,16
10.Teor de Pb no sedimento
11.Teor de Cu no sedimento E . . .
12.Teor de Zn no sedimento T . . .
13.Teor de Pb na alga O . . .
14.Teor de Cu na alga S x24,1 x24,2 ... x24,16
15.Teor de Zn na alga
PC1 PC2 PC3
OD -0.052 -0.229 -0.232
Prec -0.04 0.137 0.515
Sa -0.08 -0.111 -0.596
pH 0.06 0.027 0.097
T -0.148 -0.096 -0.475
NO2 -0.08 0.505 -0.177
NO3 -0.137 0.533 -0.106
PO4 -0.106 0.548 -0.091
SiO2 -0.365 -0.020 0.019
SePb 0.376 0.060 -0.101
SeCu 0.354 0.150 -0.102
SeZn 0.376 0.013 -0.050
GPb 0.368 -0.090 -0.074
GCu 0.348 0.198 -0.097
GZn 0.363 -0.031 0.028
% Varincia explicada
PC_00 0.000
PC_01 44.418
PC_02 63.031
PC_03 78.233
PC_04 86.274
PC_05 91.589
PC_06 95.420
PC_07 96.859
5
Urbana/Industrial
4 Pecuria de Corte
Policultura
Agroindustrial
Escores das amostras
3
nas duas primeiras
Escores em PC1 (25%)
2 componentes principais
1
da anlise dos dados do
vero (138 amostras).
0
Estratificao por zona
-1 de atividade.
-2
-3 D. B. O.
0.8
-3 -2 -1 0 1 2 3
Escores em PC1 (48%)

Condutividade
Pesos em PC1 (25%)

0.4 Temperatura Cloreto
pH
0.0
-0.4
O. D.
-0.8
-0.8 -0.4 0.0 0.4 0.8 1.2
Pesos em PC1 (48%)

Como fazer uma PCA
VARIVEIS
O
B x1,1 x1,2 ... x1,NV
J xi,j elemento da matriz
E x2,1 x2,2 ... x2,NV xi vetor linha da matriz
T . . xj vetor coluna da matriz
.
O . . X matriz dos dados (NO x NV)
.
S . . X - matriz transposta (NV x NO)
.
xNO,1 x24,2 ... xNO,NV
Pr-processamentos
Nas amostras
xij= xij Normalizao pela mdia
xi
xij= xij Normalizao pelo valor mximo

Max |xi|
xij= xij
Normalizao pela faixa
Max (xi) - Min (xi)
Pr-processamentos
Nas variveis
1 no
Centrar na mdia x j = xij
no i =1
xij ( c ) = xij x j
Auto escalonar xij x j

xij(as) =
sj
Variveis Centradas na Mdia
0.80
0.20
0.75
0.15
0.70
0.5 0.10
0.65 0.4 0.2
0.05 0.1
0.60 0.3
0.2 0 0.
0.55 0.0 -0.1
-0.05 -0.2
0.50
-0.10
1.0 1.2
1.4 1.6 -0.4 -0.2
1.8 0 0.2
0.4
Sem centrar na mdia Centrando na mdia
Lubrificantes espectros NIR 1a derivada
Savitzky Golay 1a derivada por SG

(janela de 40, 2a ordem)
Gasolina MID Gasolina MID
Normalizado
SG janela 80
SG janela 20
AO = BP = x1p OB = AP = x2p OR = SP = z1p OS = RP = z2p
x2 MR = MN + NR
OM = AO cos = x1p cos
z2
R = AP sen = x2p sen
R = AN sen + NP sen
R =(NA+NP) sen
P
B
z1 z1p = x1p cos + x2p sen
z2p = -x1p sen + x2p cos
M
S N R
x1
O A

11 entre z1 e x1 11 = 22
12 entre z1 e x2
12 = 900 11 ou 11 = 900 12
21 entre z2 e x1
22 entre z2 e x2 21 = 900 + 11 ou 11 = 21 900
x2 r11 = cos = cos 11
z2 r12 = sen 11 = sen (900 - 12) = cos 12
r21 = -sen 11 = sen (21 - 900) = cos 21
r22 = cos 11 = cos 22
22
12
z1
cos 11 cos 12
21
R=
11 cos 21 cos 22
x1
O
X = TPt + E
NV A NV NV
X = T Pt + E
NO NO A NO
X = matriz de dados originais

(NO - linhas - amostras x NV colunas - variveis)
A = nmero de componentes principais
T = Matriz de escores
P = Matriz de loadings E =Matriz erro

Anlise de Componentes Principais interativa
empregando o algoritmo NIPALS
2 1
X= 3 2
4 3
xmk 3 2
sk 1 1
1. Centrando na mdia e normalizando para 1
_ 1 _ 1
-1 -1 2 2
Xc = 0 0 Xcn = 0 0
1 1
-1 -1 2 2
2. Estimativa do vetor loading pt. Usualmente iniciado
com a primeira linha da matriz X
_ 1 _ 1
pt =
2 2
3. Calculando o novo vetor de escores

1 1 _ 1
2 2 2 1
t = Xp = 0 0 _ 1 = 0
1 1 2 -1
2 2
Comparao do novo vetor t com o anterior.
Se o desvio dos elementos dos dois vetores
estiverem dentro de um dado limite de, por
exemplo 10-z, z = 5, continuar na etapa 6,
se no v para etapa 4.
4. Computar novos valores de loadings, pt:
1 1
2 2
2 2
pt = ttX = (1 0 -1) 0 0 = - -
2 2
1 1
2 2
Normalizando o vetor de loadings para comprimento 1
pt 1 1
pt = t = - -
p 2 2
5. Continuar na etapa 3 se o nmero de interaes
no excedeu o nmero limite predefinido, ex. 100,
se excedeu v para a etapa 6.
6. Determinar a matriz de resduos:
1 1
2 2 1 00
1 1
E = X - tpt = 0 0 0 - 2 - 2 = 00
1 1 -1 00
2 2
Se o nmero de PCs for igual ao nmero previamente
fixado ou aquele decidido por validao cruzada, v
para a etapa 8. Se no v para etapa 7.
7. Utilizar a matriz de resduos E como a nova

matriz X e calcular t and e loadings pt componentes
principais adicionais a partir da etapa 1 .
8. Resultado: a matriz X representada pelo modelo
de componentes principais de acordo com:
1
t 1 1
X = TP = 0 - -
2 2
-1
O conjunto de dados bidimensional considerado

descrito por somente um componente principal .
Para dados reais, necessrio um nmero maior

de PCs . Portanto haver mais colunas de scores
na matriz T e mais colunas na matriz Pt (loadings).
Anlise de Agrupamentos
Hierrquicos
Distncias Similaridades s = 1 d ij
ij
d ij (max)
Distncia Euclidiana
i,j amostra i e amostra j NV
2
k - variveis d ij = (
ik jk
x x )
k =1
i 2 2
x2 d ij = iQ + jQ
Q
j d ij = (x j1 x i1 )
2
+ ( x i2 x j2 ) 2
x1 2
2
d ij = (
ik jk
x x )
k =1
Como definir as distncias entre agrupamentos
1.Vizinhos mais prximos (single link)

A (a) A (b)
B B Dendrograma
B
C E C E A
D D
C
E
A (c) A (d)
B B D
C E C E distncia
D D
2.Distncia para a mdia (centrid link)
A (a) A (b)
B B
Dendrograma
C E C E
D D B
A
C
A (c) A (d) E
B B
D
C E C E
D D distncia
6,0 Single link
A B
B
7,0 A
7,6
C
10,4 D
C Centroid link
7,4 B
D A
C
Single link Centroid link
D
1. AB 1. AB
2. CD 2. C e AB
3. AB e CD 3. D e ABC
Tree Diagram for 24 Cases
Single Linkage
Euclidean distances
1
4
7
8
15
17
20
21
22
23
24
18
12
19
13
9
11
16
14
5
6
10
2
3
1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5
Linkage Distance
Scores
4 -Y X
5
3
2 6
4
1 9
8 3
0 12
7 15
1
-1 13 16
11 24 23 2
-2 17 18
21 10
-6 19 22
-4 20 14
-2
0
2
4 4
6 1 2 3
-2 -1 0
8 -3
RESULT1, X-expl: 44%,19%,15%

Microsoft PowerPoint - QuimioPCA

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Microsoft PowerPoint - QuimioPCA

Enviado por

Direitos autorais:

Formatos disponíveis

Reconhecimento de Padres

Pesos (loadings) Cossenos

Escores Coordenadas dos

Loading = cos 1 0.65

PC1 eixo de mxima varincia no espao p-dimensional,

PC2 eixo ortogonal a PC1, representando o mximo da

Para que serve PCA?

Escores em PC1 (48%)

Pesos em PC1 (25%)

Pesos em PC1 (48%)

xij= xij Normalizao pelo valor mximo

Auto escalonar xij x j

Savitzky Golay 1a derivada por SG

X = matriz de dados originais

A = nmero de componentes principais

P = Matriz de loadings E =Matriz erro

3. Calculando o novo vetor de escores

Normalizando o vetor de loadings para comprimento 1

6. Determinar a matriz de resduos:

7. Utilizar a matriz de resduos E como a nova

O conjunto de dados bidimensional considerado

Para dados reais, necessrio um nmero maior

1.Vizinhos mais prximos (single link)

RESULT1, X-expl: 44%,19%,15%

Você também pode gostar