Você está na página 1de 30

Reconhecimento de Padres

Aprendizagem e Classificao

SIMCA PCA
Supervisionada No-supervisionada
KNN HCA
Anlise por Componentes
Principais
Var 2 CP 2
i CP 1

Pesos (loadings) Cossenos


dos ngulos que as
componentes principais fazem
com os eixos das variveis

Escores Coordenadas dos


objetos no sistema de eixos
definido pelas componentes
principais
Var 1
x2
Loading = cos 2 0.45
2 60o

1 30o

Loading = cos 1 0.65

x1
Varivel 3
PC2 PC1

Varivel 2

Varivel 1
PCA decomposio de uma matriz de dados em
eixos ortogonais de mxima varincia

PC1 eixo de mxima varincia no espao p-dimensional,


escolhido de modo a representar a matriz de dados
deixando resduos mnimos ortogonais a si prprio

PC2 eixo ortogonal a PC1, representando o mximo da


varincia no descrita em PC1

Para que serve PCA?


Reduo da dimensionalidade
Reconhecimento de padres
Deteco de Anomalias
Separao sinal-rudo
Classificao
Seleo de variveis
Variveis: Objetos:
1.OD 24 amostragens
2.pH em pontos de um esturio
3.Salinidade
4.Precipitao Matriz de dados
5.Temperatura
6.Nitrato VARIVEIS
7.Nitrito
8.Fosfato O x1,1 x1,2 ... x1,16
9.Slica B
J x2,1 x2,2 ... x2,16
10.Teor de Pb no sedimento
11.Teor de Cu no sedimento E . . .
12.Teor de Zn no sedimento T . . .
13.Teor de Pb na alga O . . .
14.Teor de Cu na alga S x24,1 x24,2 ... x24,16
15.Teor de Zn na alga
PC1 PC2 PC3
OD -0.052 -0.229 -0.232
Prec -0.04 0.137 0.515
Sa -0.08 -0.111 -0.596
pH 0.06 0.027 0.097
T -0.148 -0.096 -0.475
NO2 -0.08 0.505 -0.177
NO3 -0.137 0.533 -0.106
PO4 -0.106 0.548 -0.091
SiO2 -0.365 -0.020 0.019
SePb 0.376 0.060 -0.101
SeCu 0.354 0.150 -0.102
SeZn 0.376 0.013 -0.050
GPb 0.368 -0.090 -0.074
GCu 0.348 0.198 -0.097
GZn 0.363 -0.031 0.028

% Varincia explicada
PC_00 0.000
PC_01 44.418
PC_02 63.031
PC_03 78.233
PC_04 86.274
PC_05 91.589
PC_06 95.420
PC_07 96.859
5
Urbana/Industrial
4 Pecuria de Corte
Policultura
Agroindustrial
Escores das amostras
3
nas duas primeiras
Escores em PC1 (25%)

2 componentes principais
1
da anlise dos dados do
vero (138 amostras).
0
Estratificao por zona
-1 de atividade.
-2

-3 D. B. O.
0.8
-3 -2 -1 0 1 2 3

Escores em PC1 (48%)


Condutividade

Pesos em PC1 (25%)


0.4 Temperatura Cloreto

pH

0.0

-0.4

O. D.

-0.8
-0.8 -0.4 0.0 0.4 0.8 1.2

Pesos em PC1 (48%)


Como fazer uma PCA

VARIVEIS
O
B x1,1 x1,2 ... x1,NV
J xi,j elemento da matriz
E x2,1 x2,2 ... x2,NV xi vetor linha da matriz
T . . xj vetor coluna da matriz
.
O . . X matriz dos dados (NO x NV)
.
S . . X - matriz transposta (NV x NO)
.
xNO,1 x24,2 ... xNO,NV
Pr-processamentos

Nas amostras
xij= xij Normalizao pela mdia
xi

xij= xij Normalizao pelo valor mximo


Max |xi|

xij= xij
Normalizao pela faixa
Max (xi) - Min (xi)
Pr-processamentos

Nas variveis
1 no
Centrar na mdia x j = xij
no i =1

xij ( c ) = xij x j

Auto escalonar xij x j


xij(as) =
sj
Variveis Centradas na Mdia

0.80
0.20
0.75
0.15
0.70
0.5 0.10
0.65 0.4 0.2
0.05 0.1
0.60 0.3
0.2 0 0.
0.55 0.0 -0.1
-0.05 -0.2
0.50
-0.10
1.0 1.2
1.4 1.6 -0.4 -0.2
1.8 0 0.2
0.4
Sem centrar na mdia Centrando na mdia
Lubrificantes espectros NIR 1a derivada

Savitzky Golay 1a derivada por SG


(janela de 40, 2a ordem)
Gasolina MID Gasolina MID
Normalizado

SG janela 80
SG janela 20
AO = BP = x1p OB = AP = x2p OR = SP = z1p OS = RP = z2p

x2 MR = MN + NR
OM = AO cos = x1p cos
z2
R = AP sen = x2p sen
R = AN sen + NP sen
R =(NA+NP) sen
P
B
z1 z1p = x1p cos + x2p sen
z2p = -x1p sen + x2p cos
M
S N R
x1
O A

11 entre z1 e x1 11 = 22
12 entre z1 e x2
12 = 900 11 ou 11 = 900 12
21 entre z2 e x1
22 entre z2 e x2 21 = 900 + 11 ou 11 = 21 900
x2 r11 = cos = cos 11
z2 r12 = sen 11 = sen (900 - 12) = cos 12
r21 = -sen 11 = sen (21 - 900) = cos 21
r22 = cos 11 = cos 22
22
12
z1
cos 11 cos 12
21
R=
11 cos 21 cos 22
x1
O
X = TPt + E
NV A NV NV
X = T Pt + E
NO NO A NO

X = matriz de dados originais


(NO - linhas - amostras x NV colunas - variveis)

A = nmero de componentes principais

T = Matriz de escores

P = Matriz de loadings E =Matriz erro


Anlise de Componentes Principais interativa
empregando o algoritmo NIPALS

2 1
X= 3 2
4 3
xmk 3 2
sk 1 1
1. Centrando na mdia e normalizando para 1
_ 1 _ 1
-1 -1 2 2
Xc = 0 0 Xcn = 0 0
1 1
-1 -1 2 2
2. Estimativa do vetor loading pt. Usualmente iniciado
com a primeira linha da matriz X

_ 1 _ 1
pt =
2 2

3. Calculando o novo vetor de escores


1 1 _ 1
2 2 2 1
t = Xp = 0 0 _ 1 = 0
1 1 2 -1
2 2
Comparao do novo vetor t com o anterior.
Se o desvio dos elementos dos dois vetores
estiverem dentro de um dado limite de, por
exemplo 10-z, z = 5, continuar na etapa 6,
se no v para etapa 4.
4. Computar novos valores de loadings, pt:

1 1
2 2
2 2
pt = ttX = (1 0 -1) 0 0 = - -
2 2
1 1
2 2

Normalizando o vetor de loadings para comprimento 1

pt 1 1
pt = t = - -
p 2 2
5. Continuar na etapa 3 se o nmero de interaes
no excedeu o nmero limite predefinido, ex. 100,
se excedeu v para a etapa 6.

6. Determinar a matriz de resduos:

1 1
2 2 1 00
1 1
E = X - tpt = 0 0 0 - 2 - 2 = 00
1 1 -1 00
2 2
Se o nmero de PCs for igual ao nmero previamente
fixado ou aquele decidido por validao cruzada, v
para a etapa 8. Se no v para etapa 7.

7. Utilizar a matriz de resduos E como a nova


matriz X e calcular t and e loadings pt componentes
principais adicionais a partir da etapa 1 .
8. Resultado: a matriz X representada pelo modelo
de componentes principais de acordo com:

1
t 1 1
X = TP = 0 - -
2 2
-1

O conjunto de dados bidimensional considerado


descrito por somente um componente principal .

Para dados reais, necessrio um nmero maior


de PCs . Portanto haver mais colunas de scores
na matriz T e mais colunas na matriz Pt (loadings).
Anlise de Agrupamentos
Hierrquicos

Distncias Similaridades s = 1 d ij
ij
d ij (max)
Distncia Euclidiana
i,j amostra i e amostra j NV
2
k - variveis d ij = (
ik jk
x x )
k =1

i 2 2
x2 d ij = iQ + jQ
Q

j d ij = (x j1 x i1 )
2
+ ( x i2 x j2 ) 2

x1 2
2
d ij = (
ik jk
x x )
k =1
Como definir as distncias entre agrupamentos

1.Vizinhos mais prximos (single link)


A (a) A (b)
B B Dendrograma
B
C E C E A
D D
C
E
A (c) A (d)
B B D

C E C E distncia
D D
2.Distncia para a mdia (centrid link)

A (a) A (b)
B B
Dendrograma
C E C E
D D B
A
C
A (c) A (d) E
B B
D
C E C E
D D distncia
6,0 Single link
A B
B
7,0 A
7,6
C
10,4 D
C Centroid link

7,4 B
D A
C
Single link Centroid link
D
1. AB 1. AB
2. CD 2. C e AB
3. AB e CD 3. D e ABC
Tree Diagram for 24 Cases
Single Linkage
Euclidean distances

1
4
7
8
15
17
20
21
22
23
24
18
12
19
13
9
11
16
14
5
6
10
2
3
1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5
Linkage Distance

Scores

4 -Y X
5
3

2 6
4
1 9
8 3
0 12
7 15
1
-1 13 16
11 24 23 2
-2 17 18
21 10
-6 19 22
-4 20 14
-2
0
2
4 4
6 1 2 3
-2 -1 0
8 -3

RESULT1, X-expl: 44%,19%,15%

Você também pode gostar