Você está na página 1de 41

Universidade Federal do Esprito Santo UFES

Centro de Cincias Exatas CCE


Programa de Ps-Graduao em Qumica PPGQUI

PQUI-322. Anlise multivariada de dados

Aula 2:
Reconhecimento de Padres

Prof. Dr. Paulo Roberto Filgueiras

2015/1
1
1. Reconhecimento de Padres

2
1. Reconhecimento de Padres

Vincent van Gogh

Tarsila do Amaral 3
1. Reconhecimento de Padres

Como fazer o computador


reconhecer padres? 4
1. Reconhecimento de Padres
1.1. Anlise exploratria

Dados qumicos (espectros) podem ser arranjados na forma de


uma matriz de dados.

Matriz de dados X(n,m)

x11 x1m
Amostras

x12
x x 22 x 2 m
21


x n1 xn 2 x nm
Variveis

5
1. Reconhecimento de Padres
1.1. Anlise exploratria

Anlise exploratria tem por objetivo detectar e avaliar


tendncias intrnsecas de um conjunto de dados.

Isso realizado pela coleo da maior quantidade possvel de


informao sobre o problema e anlise multivariada de dados.

A introduo de computadores pessoais tornou possvel a


avaliao rotineira de conjuntos de dados complexos (muitas
variveis e amostras).

6
1. Reconhecimento de Padres
1.1. Anlise exploratria

O objetivo do reconhecimento de padres extrair informao


til de conjuntos de dados complexos.

Uma maneira de extrair informao til pela deteco e


avaliao de PADRES no seu conjunto de dados.

Existem vrias ferramentas disponveis para fazer isso!!!

7
1. Reconhecimento de Padres
Treinamento no-supervisionado :

Mtodos que no requerem nenhuma suposio inicial sobre a


estrutura dos dados.

Objetivo encontrar agrupamentos naturais.

Exemplos : Anlise de Componentes Principais e Anlise de


Agrupamentos
KNN
8
1. Reconhecimento de Padres
Treinamento supervisionado :

Mtodos que necessitam alguma suposio inicial sobre o


sistema em estudo.

Objetivo desenvolver um modelo baseado nas


informaes contidas nos dados das amostras.

Exemplos: PLSDA, SIMCA e KNN

9
1. Reconhecimento de Padres

Na anlise qumica e de processos, as matrizes de dados obtidas


podem ser muito grandes.

Um espectro de infravermelho medido para 50 amostras produz


uma matriz de dados de dimenses 50 1200 = 60.000 nmeros!
100 variveis de processo medidas a cada minuto durante um dia
produzem uma matriz de dimenses 1440 100 = 144.000
nmeros!!

necessria uma maneira de extrair a informao importante de


matrizes de dados to grandes.

10
1. Mtodos no supervisionados

11
2. Anlise por Componentes Principais - PCA

12
2. Anlise por Componentes Principais - PCA

Reduo da dimenso dos dados


PCA transforma grandes matrizes de dados em matrizes
menores, as quais podem ser mais facilmente examinadas,
graficadas e interpretadas.

A PCA extrai os fatores mais importantes dos dados, preservando a maior


parte da varincia. Esses fatores descrevem as interaes multivariadas
entre as variveis medidas e revelam tendncias subjacentes aos dados.

Estatisticamente, PCA uma tcnica de anlise multivariada relacionada


com:
Anlise de autovetores/autovalores.
Decomposio em valores singulares (SVD).

13
2. Anlise por Componentes Principais - PCA

Na PCA os dados so decompostos nas componentes:

X t 1p1T t 2p T2 ... t Rp RT E
TP T E

Onde:
X (I J) uma matriz de dados,
T (I h) so os escores,
P (J h) so os pesos (loadings) e
E (I J) so os resduos.

h o nmero de CPs usados para descrever X.

14
2. Anlise por Componentes Principais - PCA

As CPs descrevem o mximo de varincia (= informao) e so calculadas


em ordem decrescente de importncia.

CP % Var(X) % Var(Total)
1 23 23
2 18 41
3 15 56
4 8 64
e assim por diante... at 100%

15
2. Anlise por Componentes Principais - PCA

pesos

X = + ... +
escores

componentes principais

= + E
PT

T
16
2. Anlise por Componentes Principais - PCA

Escores
relaes entre objetos
ortogonais, TTT = matriz diagonal

Pesos
relaes entre variveis
ortonormais, PTP = matriz identidade, I.

Similaridades e diferenas entre objetos (ou variveis) podem ser vistas atravs
de grficos em que os escores (ou pesos) so plotados uns contra os outros.

17
2. Anlise por Componentes Principais - PCA
Maximizar a estrutura de varincia da matriz X.

7 3
a 2 b
6

1
5
x2

x2
0
4
-1

3
-2

2 -3
1 2 3 4 5 6 -2 -1 0 1 2
x1 x1

18
2. Anlise por Componentes Principais - PCA
Maximizar a estrutura de varincia da matriz X.
Esta maximizao realizada pela rotao dos eixos.

7 3
a 2 b
6 p2
p2 p1 p1
1
5
x2

x2
0
4
-1

3
-2

2 -3
1 2 3 4 5 6 -2 -1 0 1 2
x1 x1

19
2. Anlise por Componentes Principais - PCA

X . P = T 40

30

20

10

x2
0

-10

-20

X n,m Pm,h Tn,h -30

p1 argmax Var X
-40
-25 -20 -15 -10 -5 0 5 10 15 20 25
x1

40

p p1 1
T
1
30 T : Rm Rm
20

p Ti p j 0 i j 10
t2

-10

VarX p p1
-20
T
1 -30

-40
-25 -20 -15 -10 -5 0 5 10 15 20 25
t1
20
2. Anlise por Componentes Principais - PCA

Utilizando os multiplicadores de Lagrange, temos:


L(p1 , ) p1T p1 p1T p1 1


L(p1 , ) p1T p1 p1T p1 1

2 p1 2 p1 0

p1 p1

Fornecida a matriz , se existir um que permita a soluo para o sistema


linear, esse chamado de autovalor ou valor caracterstica da matriz .

Fornecida a matriz , se existir um vetor soluo p do sistema linear, esse p


chamado de autovetor ou vetor caracterstica associado a .

21
2. Anlise por Componentes Principais - PCA

p1 p1 Var X p1T p1

p1 p1 0 Var X max p1T p1


p 1 0 Var X max p1T p1
det 0 Var X max 1

Para determinar os autovalores , deve-se encontrar as razes do polinmio


caracterstico.

O autovalor corresponde a varincia mxima retida no primeiro componente.

22
2. Anlise por Componentes Principais - PCA
Maximizar a estrutura de varincia da matriz X.

7 3 2 3
a 4 3
2 b
6
X 5 4
1
5 4 5
5 6
x2

x2
0
4
-1

3 x 4,0 4,2
-2

2 -3 11-1 12 0 1,51 1,0 2


1 2 3 4 5 6 -2
x1 21 221
x 1, 0 1, 7

23
2. Anlise por Componentes Principais - PCA
Maximizar a estrutura de varincia da matriz X.

Se a intenso for autoescalar os dados,


no 7lugar da matriz de covarincia pode- 3
a
se utilizar a matriz de correlao.
2 b
6
11 12 1,0 0,6262
5 1
21 22 0,6262 1,0
x2

x2
0
4
-1

3
-2

2 -3
1 2 3 4 5 6 -2 -1 0 1 2
x1 x1

24
2. Anlise por Componentes Principais - PCA
Utilizando a relao para a matriz de covarincia:

6 4

T
X1 X1
4 6,8

Nota: a varincia dos dados: [1,5 1,7] referente a diagonal principal da matriz
original implica em uma varincia total de 3,2. Na matriz proporcional temos:

n 1 1,5 1,7 6 6,8

Resolvendo a equao de autovalores.


det 0
6 4 1 0
det 0

4 6,8 0 1

25
2. Anlise por Componentes Principais - PCA

6 4
det 0
4 6,8

6 6,8 16 0
Polinmio caracterstico
2 12,8 24,8 0
Polinmio de grau 2 (2 variveis), o grau do polinmio caractersticos ser
igual ao nmero de dimenses da matriz X.

1 10,42
2 x1 6,0 46,875%
2 2,38
2 x2 6,8 53,125%
2 p1 10,42 81,41%
2 p2 2,38 18,59

26
2. Anlise por Componentes Principais - PCA

p1 p1

6 4 p11 p11

4 6,8 p
1
21 p 21

6 p11 4 p 21 1 p11
p112 p21
2
1
4 p11 6,8 p 21 1 p 21

10,42 6
p 21 p11 1,1050 p11
4

1,1050 p11 1
2 2
p11
p11 0,6710

p 21 1,1050 p11 0,7414


27
2. Anlise por Componentes Principais - PCA
Fazendo o mesmo procedimento para 2 = 2,38.

6 p12 4 p 22 2 p12

4 p12 6,8 p 22 2 p 22

p122 p22
2
1

2,38 6
p 22 p12 0,9050 p12
4
p122 0,9050 p12 1
2

p12 0,7414

p 22 0,9050 p12 0,6710

28
2. Anlise por Componentes Principais - PCA

XP T
0,6710 0,7414 0,6710 0,7414
P P
0, 7414 0, 6710 0, 7414 0, 6710

2 3 3,5662 0,5302
4 3 4,9082 0,9526
0,6710 0,7414
5 4 6,3206 1,0230
0, 7414 0, 6710
4 5 6,3910 0,3894
5 6 7,8034 0,3190

29
2. Anlise por Componentes Principais - PCA

2 3 3,5662 0,5302
4 3 4,9082 0,9526
0,6710 0,7414
5 4 6,3206 1,0230
0,7414 0,6710
4 5 6,3910 0,3894
5 6 7,8034 0,3190
7 3
a 2 b
6
p2 p1 1
x2 5

x2
0
4
-1

3
-2

2 -3
1 2 3 4 5 6
x1 30
2. Anlise por Componentes Principais - PCA
2,0 1,2 2,2317 0,6776
0,0 1,2 0,8897 0,8052
0,6710 0,7414
1,0 0,2 0,5227 0,8756
0,7414 0,6710
0, 0 0,8 0,5931 0,5368
1,0 1,8 2,0055 0,4464

7 3
3 a 2 b
6 p2
2
p2 p1 p1
1
51 p1
x22

x2 0
x

0
4 p2
-1 -1

3-2
-2
-3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
2 x1 -3
1 2 3 4 5 6 -2 -1 0 1 2
x1 x1 31
2. Anlise por Componentes Principais - PCA

95,54% de varincia 99,81% de varincia 100% de varincia

32
91,06% de varincia

97,93% de varincia

99,50% de varincia

100% de varincia
33
2. Anlise por Componentes Principais - PCA

34
2. Anlise por Componentes Principais - PCA

Espectros de FTIR das


amostras

Espectros de 4 padres de
adulterantes identificados
nas amostras de cocana
apreendidas.

35
2. Anlise por Componentes Principais - PCA

36
2. Anlise por Componentes Principais - PCA

37
2. Anlise por Componentes Principais - PCA

Cromatograma das amostras de cocana


apreendidas nos perodos: 2008 (a), 2009 (b),
2010 (c), 2011 (d) and 2012 (e).

38
2. Anlise por Componentes Principais - PCA

39
2. Anlise por Componentes Principais - PCA

40
2. Anlise por Componentes Principais - PCA

41

Você também pode gostar