Escolar Documentos
Profissional Documentos
Cultura Documentos
Aula - Introdução A Quimiometria PDF
Aula - Introdução A Quimiometria PDF
INTRODUÇÃO À QUIMIOMETRIA:
Como explorar grandes conjuntos de dados químicos
AULA 1
INTRODUÇÃO
QUIMIOMETRIA
3
APLICAÇÃO DE MÉTODOS
DE ESTATÍSTICA
MULTIVARIADA EM
QUÍMICA
5
Objetivos da Quimiometria
An
áli
ão s e
aç Ex
iz plo
tim r at
O ór
ia
Calibração Calibração
Resolução de Curvas
6
1. Psicometria ( Psicologia);
2. Biometria (Biologia);
3. Econometria (Economia)
4. Geologia
5. Arqueometria (Arqueologia)
7
- Estatística Básica
- Álgebra Linear
- Análise Instrumental
PRINCIPAIS QUIMIOMETRISTAS
Steve Brown (Delaware), Karl Booksh (Arizona), Paul Gemperline (East
Carolina), John Kalivas (Idaho), Ron Schaffer (US Naval Research), Phil
Hopke (Clarkson), Barry Lavine (Ohio), Sarah Rutan (Virginia), Neil
Gallaher e Barry Wise (Eigenvector Research).
Peter Wentzel (Dalhousie).
Roma Tauler (Barcelona), Xavier Rius, Joan Ferré e Ricard Boqué (Tarragona).
Richard Brereton (Bristol).
Age Smilde (Amsterdã), Lutgard Buydens (Nijmegen), Klass Faber.
Paul Geladi (Umea), Rolf Sundberg (Estocolmo).
D. Luc Massart (†) e Yven vander Heyden (Bruxelas).
Olaf Kvalheim e Rolf Manne (Bergen).
Rasmus Bro e Claus Andersson (Copenhague) e Kim Esbensen (Aalborg).
Kurt Varmuza (Vienna).
Beata Walczak (Katowice).
Alejandro Olivieri (Rosário).
11
NO BRASIL
SOFTWARES
1) Matlab (Mathworks);
2) PLS_toolbox (Eigenvector);
3) Unscrambler (Camo);
4) Pirouette (Infometric);
5) SIMCA (Umetric);
6) Statistica (Statroft);
7) Octave (Software livre);
8) Scilab (Software livre).
13
JOURNAL OF CHEMOMETRICS
Wiley
1987
14
5) Talanta (Elsevier);
LIVROS DIDÁTICOS
16
INTRODUÇÃO À
ANÁLISE
EXPLORATÓRIA DE
DADOS
17
MÉTODOS DE
RECONHECIMENTO DE
PADRÕES
(Pattern Recognition)
ou
DE CLASSIFICAÇÃO
18
OBJETIVO
M M M M
x n1 xn2 L x np
• Os objetos podem ser: amostras, moléculas, materiais, indivíduos,
etc.
• As variáveis podem ser absorbâncias em diferentes comprimentos
de onda, sinais analíticos em função do potencial elétrico ou do
tempo de retenção, concentração de elementos ou outras
propriedades físicas.
20
MÉTODOS DE CLASSIFICAÇÃO
⇒ MÉTODOS NÃO SUPERVISIONADOS: Não existe
supervisão, já que não se conhece a priori a que classes
pertencem os objetos (ou pelo menos essa informação não é
usada na construção do modelo). É a situação mais comum
em Quimiometria.
Exs: PCA, Análise de Fatores, Análise Hierárquica de
Agrumpamentos (HCA).
MÉTODOS DE CLASSIFICAÇÃO
Os métodos de classificação podem ser baseados:
Análise de Componentes
Principais (PCA)
Correlação
• É comum a presença de correlação em
qualquer tipo de dados!
83
vs. idade de um grupo 82
de crianças pequenas 81
Altura (cm)
• Observa-se uma forte
80
79
relação linear entre 78
altura e idade. 77
76
• Para crianças pequenas, 75
correlacionadas. Moore, D.S. and McCabe G.P., Introduction to the Practice of Statistics (1989).
25
Correlação em espectroscopia
λ230 λ265
0.9
• Exemplo: um 0.8
composto puro é
medido em dois 0.7
comprimentos de 0.6
10 0,332 0,181
0.1
15 0,498 0,270
20 0,664 0,362 0
200 210 220 230 240 250 260 270 280 290 300
25 0,831 0,453 Comprimento de onda (nm)
26
Correlação em espectroscopia
correlacionadas.
0.35
uma. 0.15
0.1
gerando os dados: 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
concentração.
ão Absorbância a 230 nm (unidades)
27
Correlação em processos
químicos
• Em modernas plantas químicas, muitos variáveis do
processo são medidas on-line.
Tcw,in
Tcw,out
Tvc,gas
Qcond
Fcond
Sagitator
Xagitator
Tr,top
Tr,middle
Tr,bottom
Tjacket,in
Tjacket,out
Lr
Fcw
Pr
28
Correlação em processos
químicos
• Tipicamente, 10 a 200
variáveis do processo são 5000
p.ex.: temperaturas,
3000
2500
altamente correlacionadas.
1000
500
fatores importantes
influenciando no processo -
não 200!
29
A matriz de dados
• Dados podem ser representados na forma de uma
matriz: variáveis
• Por exemplo,
– Espectroscopia: amostra × comprimento de onda
– Análises ambientais:
amostras (em função do espaço ou do tempo) × variáveis
30
Matriz de Dados
• Dados químicos multivariados (espectros)
podem ser arranjados na forma de uma tabela
de dados.
Matriz de
Amostras
Dados X
Variáveis
31
PCA: matemática
• A equação básica para a PCA é escrita como
X = t1p1T + t 2p T2 ... + t Rp RT + E
= TP T + E
onde
X (I × J) é uma matriz de dados,
T (I × R) são os escores,
P (J × R) são os pesos (“loadings”) e
E (I × J) são os resíduos.
CP % de X % total de
. explicada X explicada
1 45,6 45,6
2 23,9 69,5
3 18,1 87,6
4 1,3 88,9
PCA: matrizes
pesos
X = + ... +
escores
componente principal
= + E
PT
T
37
83 6
gráfico de escores
82 CP1 4
81
Escores CP 2 (0,23%)
2
CP2 PCA
Altura (cm)
80
0
79
-2
78
-4
77
76 -6
75 -8
18 20 22 24 26 28 30 -8 -6 -4 -2 0 2 4 6 8
Idade (meses) Escores CP 1 (99,77%)
PCA: projeções
• A PCA é uma técnica de projeção.
••••••••••••••• •• •••••••••••••••
••••••••••••••• = •• + •••••••••••••••
T
X = T P + E
••
•
•
41
θ1 t2
x1 4 x1
6 5
p1=cosθ1
-∞ p2=cosθ2
A B
Exemplo 1:
Dados Proteínas
• Estudo do consumo de proteínas em países da Europa.
• 9 variáveis descrevem diferentes fontes de proteína.
• Os 25 objetos são os diferentes países.
• A matriz de dados tem as dimensões 25 × 9.
Autovalores
3 1,13e+000 12,53 75,22 2.5
4 9,55e-001 10,61 85,82
2
5 4,64e-001 5,15 90,98
6 3,25e-001 3,61 94,59 1.5
7 2,72e-001 3,02 97,61
8 1,16e-001 1,29 98,90 1
Albania
Bulgaria
Austria Romania Yugoslavia
1
Netherlands
Ireland Switzerland Hungary
Finland Czechoslovakia
West Germany
Sweden
UK USSR
0
Belgium
Denmark
East Germany Italy
Poland
France Norway
Escores CP 2 (18,17%)
-1 Greece
-2
Spain
-3
PC 2
-4
Portugal
-5
-3 -2 -1 0 1 2 3 4
Escores CP 1 (44,52%)
46
Pesos
0.6
CP1
0.4
CP2
0.2
0
Pesos CP
-0.2
-0.4
-0.6
-0.8
Red meat White meat Eggs Milk Fish Cereals Starch Beans/nuts/oil Fruit & veg
Gráficos Biplots
PERMITEM VISUALIZAR OS
ESCORES E OS PESOS
SIMULTANEAMENTE
48
Albania
Europeus do SE
White meat
Bulgaria
Cereals comem muito
1
Milk
Austria Romania Yugoslavia cereais
Netherlands
Ireland Switzerland Hungary
Finland Czechoslovakia
Red meat West Germany
Eggs Sweden
UK USSR
0
Belgium
Denmark
East Germany Italy
Poland
France Norway
Beans/nuts/oil
-1 Greece
CP 2
-5
-5 -4 -3 -2 -1 0 1 2 3 4 5
CP 1
49
White meat
3
Os holandeses
gostam de batata… 2
Fruit & veg
Hungary
...com Poland
Austria
maionese!? Starch East Germany
Czechoslovakia
1 Eggs
CP 3
West Germany
Netherlands
Spain Cereals
Belgium Yugoslavia
Bulgaria
Italy Romania
0 Ireland France Portugal
Switzerland
Beans/nuts/oil
USSR
Denmark
Greece
-1
Carne vermelha UK
Sweden
e leite estão Red meat
Fish Norway
correlacionados -2
Albania
Milk Finland
Escandinavos
-3 comem muito
-5 -4 -3 -2 -1 0 1 2 3 4 5
peixe!
CP 1
50
Resíduos
• Também é importante examinar os resíduos do
modelo, E.
• Idealmente, os resíduos não deverão conter
nenhuma estrutura - apenas variação aleatória
(ruído).
1.5
1
Variação Residual
0.5
-0.5
-1
1 2 3 4 5 6 7 8 9
Número da variável
51
Resíduos
• Os resíduos (quadrados) do modelo podem ser
somados ao longo da direção dos objetos ou das
variáveis: J
Qi = ∑ eij2
j =1
3.5 País 23 (URSS)
se ajusta ao
Q (soma dos resíduos quadrados)
3 modelo de
maneira pior
2.5
1.5
0.5
0
0 5 10 15 20 25
Número do objeto
52
Exemplo 2:
Efeito do Manejo no Solo
• Agricultura Alternativa (Orgânica) x Convencional
Objetivo:
Através de uma análise integrada usando a
PCA, responder a 2 questões
Mata x cultivadas: MB x Ce
Alt x Conv: MB e Ps x Ce e So
56
Autoescalando os dados
• Dividir cada coluna de X por seu desvio padrão:
• Muitos CP’s:
– Os últimos CP’s descrevem apenas ruído.
– O modelo não é robusto quando aplicado a novos dados.
3.5
3
‘Saliência’ aqui
E igenvalue
2.5
selecionar 4 CP’s
2
1.5
0.5
0
1 2 3 4 5 6 7 8 9
P C Number
18 18
16 16
14 14
Remover
12 12
“outlier”
T (oC)
T (oC)
10 10
8 8
6 6
4 4
1 1.5 2 2.5 3 3.5 4 4.5 1 1.5 2 2.5 3 3.5 4 4.5
pH pH
Experimento
anômalo
63
14
6
12
4
8
0
6
-2
4
-4
2
-6
0
-8 22 24 26 28 30 32 34 36 38 40 42
-8 -6 -4 -2 0 2 4 6 8 Tempo (min)
Escores CP 1
64
250
…mas não é
200
válido p/ a
Altura (cm)
faixa de 30
anos!
150
O modelo
100
linear foi válido
para essa
faixa de
50
idade...
0
0 5 10 15 20 25 30
Idade (anos)
67
Conclusões
• A análise de componentes principais (PCA) reduz
grandes matrizes colineares a umas poucas matrizes
de escores e de pesos:
X = t1p1T + t 2p T2 ... + t Rp RT + E
= TP T + E
Conclusões
• Gráficos de escores e “biplots” podem ser
muito úteis para a exploração e o
entendimento dos dados.
Agradecimentos