Aula - Introdução A Quimiometria PDF

1
INTRODUÇÃO À QUIMIOMETRIA:
Como explorar grandes conjuntos de dados químicos
Prof. Dr. Marcelo M. Sena (DQ-UFMG)

marcsen@ufmg.br
Prof. Dr. Ronei J. Poppi (IQ-UNICAMP)

ronei@iqm.unicamp.br
2
AULA 1
INTRODUÇÃO
QUIMIOMETRIA
3
INTERNATIONAL CHEMOMETRICS SOCIETY

(ICS) 1974
LISTA DE DISCUSSÃO https://listserv.umd.edu/archives/ics-l.html
Quimiometria é a disciplina química que usa

métodos matemáticos e estatísticos para:
→ Planejar ou selecionar condições ótimas de
medidas e experimentos, e
→ Extrair o máximo de informação de dados
químicos.
4
APLICAÇÃO DE MÉTODOS
DE ESTATÍSTICA
MULTIVARIADA EM
QUÍMICA
5
Objetivos da Quimiometria
An
áli
ão s e
aç Ex
iz plo
tim r at
O ór
ia
Calibração Calibração
Resolução de Curvas
6
ESTATÍSTICA MULTIVARIADA EM OUTRAS ÁREAS
1. Psicometria ( Psicologia);
2. Biometria (Biologia);
3. Econometria (Economia)
4. Geologia
5. Arqueometria (Arqueologia)
7
Conhecimentos básicos necessários

- Informática/Programação
- Estatística Básica
- Álgebra Linear
- Análise Instrumental
Principais Áreas de aplicação

- Química Analítica: Espectroscopia Molecular (UV/Vis, IV
próximo e médio, Raman, Fluorescência Molecular,
Técnicas Hifenadas)
- Físico-Química teórica: QSAR (Relação quantitativa
estrutura-atividade)
8
Pioneiros (início dos anos 70)
- Prof. Bruce Kowalski (Univ. Washington/Seatle/EUA)
Prof. Svante Wold (Univ. Umea/Suécia)

9
O uso da Estatística Multivariada em outras áreas

(Psicometria, Biometria, etc.) data da 1ª metade do séc.
XX. Por que a Quimiometria surgiu de forma
relativamente tardia?
A partir dos anos 70, a presença de microprocessadores e

microcomputadores se popularizou nos laboratórios
químicos. Este fato impulsionou as técnicas
instrumentais analíticas, permitindo ao Químico obter
grandes quantidades de dados até então não disponíveis.
Daí, surgiu a necessidade de técnicas de tratamento de
dados mais complexas e, a partir de então, a estatística
multivariada ganhou popularidade e deu origem à
Quimiometria.
10
PRINCIPAIS QUIMIOMETRISTAS
Steve Brown (Delaware), Karl Booksh (Arizona), Paul Gemperline (East
Carolina), John Kalivas (Idaho), Ron Schaffer (US Naval Research), Phil
Hopke (Clarkson), Barry Lavine (Ohio), Sarah Rutan (Virginia), Neil
Gallaher e Barry Wise (Eigenvector Research).
Peter Wentzel (Dalhousie).
Roma Tauler (Barcelona), Xavier Rius, Joan Ferré e Ricard Boqué (Tarragona).
Richard Brereton (Bristol).
Age Smilde (Amsterdã), Lutgard Buydens (Nijmegen), Klass Faber.
Paul Geladi (Umea), Rolf Sundberg (Estocolmo).
D. Luc Massart (†) e Yven vander Heyden (Bruxelas).
Olaf Kvalheim e Rolf Manne (Bergen).
Rasmus Bro e Claus Andersson (Copenhague) e Kim Esbensen (Aalborg).
Kurt Varmuza (Vienna).
Beata Walczak (Katowice).
Alejandro Olivieri (Rosário).
11
NO BRASIL
PIONEIRO: ROY E. BRUNS
- Prof. Ronei Poppi (IQ/UNICAMP)

- Profa. Márcia Ferreira (IQ/UNICAMP)
- Profa. Maria Fernanda Pimentel (UFPE)
- Prof. Mário Ugulino Araújo (UFPB)
- Profa. Ieda Scarminio (UEL/Londrina)
- Prof. Marcelo M. Sena (UFMG)
- Prof. Jez W. B. Braga (UnB)
- Prof. Marco F. Ferrão (UFRGS)
- Prof. Waldomiro Borges Neto (UFU)
12
SOFTWARES
1) Matlab (Mathworks);
2) PLS_toolbox (Eigenvector);
3) Unscrambler (Camo);
4) Pirouette (Infometric);
5) SIMCA (Umetric);
6) Statistica (Statroft);
7) Octave (Software livre);
8) Scilab (Software livre).
13
REVISTAS CIENTÍFICAS ESPECÍFICAS
CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS

Elsevier
1987
JOURNAL OF CHEMOMETRICS
Wiley
1987
14
REVISTAS CIENTÍFICAS de interesse
1) Analytical Chemistry (ACS Publications);
2) The Analyst (RSC Publishing);
3) Analytica Chimica Acta (Elsevier);
4) Analytical and Bioanalytical Chemistry (Springer);
5) Talanta (Elsevier);
6) Applied Spectroscopy (Society for Applied Spectroscopy);
7) Journal of Near Infrared (NIR Publications);

15
LIVROS DIDÁTICOS
16
INTRODUÇÃO À
ANÁLISE
EXPLORATÓRIA DE
DADOS
17
MÉTODOS DE
RECONHECIMENTO DE
PADRÕES
(Pattern Recognition)
ou
DE CLASSIFICAÇÃO
18
OBJETIVO
Avaliar, interpretar e extrair o máximo de

informação de dados analíticos provenientes de
espectros, cromatogramas, eletroferogramas,
voltamogramas (ou sinais de outros métodos
eletroquímicos), perfis de profundidade, e amostras
para as quais as concentrações de diversos
constituintes químicos ou outras propriedades
tenham sido medidas.
19
ARRANJO DOS DADOS
• Os dados são arranjados em uma matriz Xnxp, de n
objetos, arranjados nas linhas e p variáveis, arranjadas
nas colunas.
 x11 x12 L x1 p 
x x 22 L x2 p 
X =  21
 M M M M 
 
 x n1 xn2 L x np 
• Os objetos podem ser: amostras, moléculas, materiais, indivíduos,
etc.
• As variáveis podem ser absorbâncias em diferentes comprimentos
de onda, sinais analíticos em função do potencial elétrico ou do
tempo de retenção, concentração de elementos ou outras
propriedades físicas.
20
MÉTODOS DE CLASSIFICAÇÃO
⇒ MÉTODOS NÃO SUPERVISIONADOS: Não existe
supervisão, já que não se conhece a priori a que classes
pertencem os objetos (ou pelo menos essa informação não é
usada na construção do modelo). É a situação mais comum
em Quimiometria.
Exs: PCA, Análise de Fatores, Análise Hierárquica de
Agrumpamentos (HCA).
⇒ MÉTODOS SUPERVISIONADOS: A informação sobre a

que classes pertencem os objetos está disponível e é usada
na construção do modelo.
Exs: Método do K-ésimo vizinho mais próximo (KNN), SIMCA,
Análise Discriminante Linear (LDA).
21
MÉTODOS DE CLASSIFICAÇÃO
Os métodos de classificação podem ser baseados:
1) No agrupamento dos dados baseados na distância

direta entre os objetos (clustering methods).
Exs: HCA e KNN.
2) Na projeção dos dados em espaços de menor

dimensão.
Exs: PCA, Análise de Fatores e SIMCA.
22
HARD X SOFT MODELLING
Natureza da Modelagem dos Dados:

-Hard Modelling: A modelagem envolve fenômenos que
podem ser descritos por leis físico-químicas conhecidas e
claramente definidas.
Ex: Tratamento de espectros, que obedecem a Lei de Beer.
-Soft Modelling: Modelagem de fenômenos, cujas as leis que
os regem não são claramente descritas e conhecidas.
Ex: Análise de amostras de água de um rio, buscando-se
conhecer os padrões geogênicos e antropogêncios
relacionados à sua composição.
23
Análise de Componentes
Principais (PCA)
• do inglês Principal Component(s) Analysis

24
Correlação
• É comum a presença de correlação em
qualquer tipo de dados!
• Exemplo: altura média

84
83
vs. idade de um grupo 82
de crianças pequenas 81
Altura (cm)
• Observa-se uma forte
80
79
relação linear entre 78
altura e idade. 77
76
• Para crianças pequenas, 75
altura e idade estão 18 20 22 24

Idade (meses)
26 28 30
correlacionadas. Moore, D.S. and McCabe G.P., Introduction to the Practice of Statistics (1989).
25
Correlação em espectroscopia
λ230 λ265
0.9
• Exemplo: um 0.8
composto puro é
medido em dois 0.7
comprimentos de 0.6
onda para várias

Absorbância
0.5
concentrações
0.4
Conc. Intensidade Intensidade 0.3

(MMol) a 230nm a 265nm
5 0,166 0,090 0.2
10 0,332 0,181
0.1
15 0,498 0,270
20 0,664 0,362 0
200 210 220 230 240 250 260 270 280 290 300
25 0,831 0,453 Comprimento de onda (nm)
26
Correlação em espectroscopia
• As intensidades a λ230 e a 0.5
λ265 são altamente 0.45
correlacionadas.
Absorbância a 265 nm (unidades)

0.4
0.35
• Os dados não têm duas 0.3

Aumento da
dimensões, mas apenas
0.25
concentração
0.2
uma. 0.15
0.1
• Existe apenas um fator 0.05
gerando os dados: 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
concentração.
ão Absorbância a 230 nm (unidades)
27
Correlação em processos
químicos
• Em modernas plantas químicas, muitos variáveis do
processo são medidas on-line.
Tcw,in
Tcw,out
Tvc,gas
Qcond
Fcond
Sagitator
Xagitator
Tr,top
Tr,middle
Tr,bottom
Tjacket,in
Tjacket,out
Lr
Fcw
Pr
28
Correlação em processos
químicos
• Tipicamente, 10 a 200
variáveis do processo são 5000
medidas a todo minuto, 4500
p.ex.: temperaturas,
Variáveis do processo (várias)

4000
pressões, fluxos, etc.

3500
3000
2500
• Essas variáveis do 2000
processo costumam ser 1500
altamente correlacionadas.
1000
500
Na maioria dos casos, 0

0 50 100 150 200 250 300
existem apenas 2 ou 3 Tempo
fatores importantes
influenciando no processo -
não 200!
29
A matriz de dados
• Dados podem ser representados na forma de uma
matriz: variáveis
0,12 0,45 0,65 K 0,29

0,14 0,34 0,93 K 0,81
0,13 0,24 0,85 K 0,33
M M M O M
objetos
0,15 0,22 0,78 L 0,65
• Por exemplo,
– Espectroscopia: amostra × comprimento de onda
– Processo contínuo: tempo × T, P, taxa de fluxo etc.
– Análises ambientais:
amostras (em função do espaço ou do tempo) × variáveis
30
Matriz de Dados
• Dados químicos multivariados (espectros)
podem ser arranjados na forma de uma tabela
de dados.
Matriz de
Amostras
Dados X
Variáveis
31
Grandes quantidades de dados

• Na análise química e de processos, as matrizes
de dados obtidas podem ser muito grandes.
– Um espectro de infravermelho medido para 50
amostras pode produzir uma matriz de dados de
dimensões 50 × 800 = 40.000 números!
– 100 variáveis de processo medidas a cada minuto
durante um dia produzem uma matriz de dimensões
1440 × 100 = 144.000 números!!
• É necessária uma maneira de extrair a

informação importante de matrizes de dados tão
grandes.
32
Principal Component Analysis

• Redução dos dados
– A PCA transforma grandes matrizes de dados em matrizes
menores, as quais podem ser mais facilmente examinadas,
plotadas e interpretadas.
• Exploração dos dados

– A PCA extrai os fatores mais importantes (componentes principais
- CPs) dos dados, preservando a maior parte da variância. Esses
fatores descrevem as interações multivariadas entre as variáveis
medidas e revelam tendências subjacentes aos dados.
• Interpretação dos dados

– As CPs podem ser usadas para classificar amostras, identificar
compostos através da obtenção de seus espectros puros,
determinar quais as variáveis fundamentais para um processo,
etc.
33
Diferentes visões da PCA

• Estatisticamente, a PCA é uma técnica de análise
multivariada relacionada com
– Análise de autovetores/autovalores
– Decomposição em valores singulares (SVD)
• Em termos matriciais, a PCA é um método para

decompor X em duas matrizes menores (T e P) mais
uma matriz de resíduos (E):
X = TPT + E
• Geometricamente, a PCA é uma técnica de projeção,

na qual, a matriz X é projetada num sub-espaço de
dimensões reduzidas.
34
PCA: matemática
• A equação básica para a PCA é escrita como
X = t1p1T + t 2p T2 ... + t Rp RT + E
= TP T + E
onde
X (I × J) é uma matriz de dados,
T (I × R) são os escores,
P (J × R) são os pesos (“loadings”) e
E (I × J) são os resíduos.
R é o número de CPs usados para descrever X.

35
Componentes Principais (CPs)

• Uma CP é definida por um par de vetores pesos e
vetores escores: t r ,pr
• As CPs descrevem o máximo de variância (= informação)

e são calculadas em ordem decrescente de importância
CP % de X % total de
. explicada X explicada
1 45,6 45,6
2 23,9 69,5
3 18,1 87,6
4 1,3 88,9
e assim por diante... até 100%

36
PCA: matrizes
pesos
X = + ... +
escores
componente principal
= + E
PT
T
37
Escores & pesos

• Escores
– T = US (SVD)
– relações entre objetos
– ortogonais, TTT = matriz diagonal
• Pesos
– P = V (SVD)
– relações entre variáveis
– ortonormais, PTP = matriz identidade, I
• Similaridades e diferenças entre objetos (ou variáveis)

podem ser vistas através de gráficos em que os
escores (ou pesos) são plotados uns contra os outros.
38
PCA: projeção simples

• Caso mais simples : duas variáveis correlacionadas
84 8
83 6
gráfico de escores
82 CP1 4
81
Escores CP 2 (0,23%)
2
CP2 PCA
Altura (cm)
80
0
79
-2
78
-4
77
76 -6
75 -8
18 20 22 24 26 28 30 -8 -6 -4 -2 0 2 4 6 8
Idade (meses) Escores CP 1 (99,77%)
• A CP1 descreve 99,77% da variação total em X.
• A CP2 descreve a variação residual aleatória (0,23%).

39
PCA: projeções
• A PCA é uma técnica de projeção.
• Cada linha de cada matriz de dados X (I × J) pode

ser considerada como um ponto no espaço J-
dimensional. Esses dados são projetados
ortogonalmente em um sub-espaço de menor
dimensionalidade.
– No exemplo anterior, dados de duas dimensões foram

projetados em um espaço de uma dimensão, ou seja, em
uma linha.
– Agora, nós iremos projetar dados de J dimensões em um

espaço de duas dimensões, ou seja, um plano.
40
••••••••••••••• •• •••••••••••••••
••••••••••••••• = •• + •••••••••••••••
T
X = T P + E
••
•
•

41
CP: reta na direção de maior variação das amostras

x2 x2
1 CP
+∞ t1
θ2 3 2
θ1 t2
x1 4 x1
6 5
p1=cosθ1
-∞ p2=cosθ2
A B
(A) “pesos” são os ângulos do vetor direção

(B) “escores” são as projeções nas amostras na
direção de CP
42
Exemplo 1:
Dados Proteínas
• Estudo do consumo de proteínas em países da Europa.
• 9 variáveis descrevem diferentes fontes de proteína.
• Os 25 objetos são os diferentes países.
• A matriz de dados tem as dimensões 25 × 9.
• Quais países são semelhantes?

• Quais alimentos estão correlacionados com o
consumo de carne vermelha?
Weber, A., Agrarpolitik im Spannungsfeld der internationalen

Ernaehrungspolitik, Institut fuer Agrarpolitik und Marktlehre, Kiel (1973) .
43
44
PCA nos dados de proteínas

• Os dados são centrados na média e cada variável é
autoescalada para variância um. A PCA é então
aplicada.
Variância Percentual Capturada pelo Modelo PCA
Autovalores vs. Número de CPs
Número de Autovalor % Variância % Variância 4.5
Componentes de Capturada Capturada

4
Principais Cov(X) por este CP Total
--------- ---------- ---------- ---------- 3.5
1 4,01e+000 44,52 44,52
3
2 1,63e+000 18,17 62,68
Autovalores
3 1,13e+000 12,53 75,22 2.5
4 9,55e-001 10,61 85,82
2
5 4,64e-001 5,15 90,98
6 3,25e-001 3,61 94,59 1.5
7 2,72e-001 3,02 97,61
8 1,16e-001 1,29 98,90 1
9 9,91e-002 1,10 100,00 0.5

Quantos componentes principais você quer
0
escolher? 1 2 3 4 5 6 7 8 9
Número de CPs
4
45
Escores: CP1 vs CP2

2
Albania
Bulgaria
Austria Romania Yugoslavia
1
Netherlands
Ireland Switzerland Hungary
Finland Czechoslovakia
West Germany
Sweden
UK USSR
0
Belgium
Denmark
East Germany Italy
Poland
France Norway
-1 Greece
-2
Spain
-3
PC 2
-4
Portugal
-5
-3 -2 -1 0 1 2 3 4
46
Pesos
0.6
CP1
0.4
CP2
0.2
0
Pesos CP
-0.2
-0.4
-0.6
-0.8
Red meat White meat Eggs Milk Fish Cereals Starch Beans/nuts/oil Fruit & veg
Gráficos Biplots
PERMITEM VISUALIZAR OS
ESCORES E OS PESOS
SIMULTANEAMENTE
48
Biplot: CP1 vs CP2

2
Albania
Europeus do SE
White meat
Bulgaria
Cereals comem muito
1
Milk
Austria Romania Yugoslavia cereais
Netherlands
Ireland Switzerland Hungary
Finland Czechoslovakia
Red meat West Germany
Eggs Sweden
UK USSR
0
Belgium
Denmark
East Germany Italy
Poland
France Norway
Beans/nuts/oil
-1 Greece
CP 2
CP2 indica que

os espanhóis e
-2 os portugueses
Starch
gostam
Spain
especialmente
-3 de frutas,
Fruit & veg vegetais e
peixes.
-4 Fish
Portugal
-5
-5 -4 -3 -2 -1 0 1 2 3 4 5
CP 1
49
Biplot: CP1 vs CP3

4
White meat
3
Os holandeses
gostam de batata… 2
Fruit & veg
Hungary
...com Poland
Austria
maionese!? Starch East Germany
Czechoslovakia
1 Eggs
CP 3
West Germany
Netherlands
Spain Cereals
Belgium Yugoslavia
Bulgaria
Italy Romania
0 Ireland France Portugal
Switzerland
Beans/nuts/oil
USSR
Denmark
Greece
-1
Carne vermelha UK
Sweden
e leite estão Red meat
Fish Norway
correlacionados -2
Albania
Milk Finland
Escandinavos
-3 comem muito
-5 -4 -3 -2 -1 0 1 2 3 4 5
peixe!
CP 1
50
Resíduos
• Também é importante examinar os resíduos do
modelo, E.
• Idealmente, os resíduos não deverão conter
nenhuma estrutura - apenas variação aleatória
(ruído).
1.5
1
Variação Residual
0.5
-0.5
-1
1 2 3 4 5 6 7 8 9
Número da variável
51
Resíduos
• Os resíduos (quadrados) do modelo podem ser
somados ao longo da direção dos objetos ou das
variáveis: J
Qi = ∑ eij2
j =1
3.5 País 23 (URSS)
se ajusta ao
Q (soma dos resíduos quadrados)
3 modelo de
maneira pior
2.5
1.5
0.5
0
0 5 10 15 20 25
Número do objeto
52
Exemplo 2:
Efeito do Manejo no Solo
• Agricultura Alternativa (Orgânica) x Convencional
• O estudo foi conduzido em 3 fazendas, em Guaíra/SP

• Em cada fazenda foram comparadas 2 faixas
Alternativas, 2 Convencionais e a Mata nativa (5 faixas)
• 8 variáveis: pH, Ac, Ce, So, Dh, Ps, MB e Sba (Ye)
• O manejo iniciou em 1995 e os dados foram coletados

em 1996 e 1997
• A matriz de dados tem as dimensões 5 × 8.

53
Objetivo:
Através de uma análise integrada usando a
PCA, responder a 2 questões
• É possível distinguir o sistema de manejo alternativo

do manejo convencional e da mata nativa, através da
análise de 8 variáveis relevantes?
• Quais dessas variáveis são as mais importantes para

a discriminação?
54
1996 – Fazenda Macaúba
55
1997 – Fazenda Macaúba
Mata x cultivadas: MB x Ce
Alt x Conv: MB e Ps x Ce e So
56
M. M. Sena, R. T. S. Frighetto, P. J. Valarini,

H. Tokeshi, R. J. Poppi
“Discrimination of management effects on soil

parameters by using principal component analysis:
a multivariate analysis case study”
SOIL & TILLAGE RESEARCH 67, 171-181 (2002)

57
Pré-processamento dos dados

• Na maioria das vezes, nós estamos interessados nas
diferenças entre os objetos, não nos seus valores
absolutos.
– Dados de proteínas : diferenças entre países
– Dados de solos : diferenças entre o tipo de faixa do solo
• Se diferentes variáveis são medidas em diferentes

unidades, algum tipo de escalamento (normalização)
é necessário para dar a cada variável a mesma
chance de contribuir para o modelo.
– Dados de solos: pH & Biomassa Microbiana possuem
escalas muito diferentes
58
Centrando os dados na média

• Subtrair a média de cada coluna de X:
 6, 6 37,2 10245   0,075 0, 450 − 595, 2

  − 
 6, 5 35,5 11857  Centrar
na média  0 , 025 − 1 , 250 1016 
 6, 3 36,2 10548  − 0,225 − 0, 550 − 292, 3
   
 6, 7 38,1 10711  0,175 1, 350 − 129,.3
x= x=
6,525 36,75 10840 0,0 0,0 0,0
59
Autoescalando os dados
• Dividir cada coluna de X por seu desvio padrão:
 0, 075 0,450 − 595, 2  0,439 0,395 − 0,845 

−  
Escalamento − 0,

 0 , 025 − 1 , 250 1016   . 146 − 1 , 098 1,
. 443 
− 0, 225 − 0,.550 − 292,3  − 1,318 − 0,483 − 0,415 
   
 0, 175 1,350 − 129,3  1,025 1,.186 − 0,183 
σ = σ =
0,171 1,139 704,8 1,0 1,0 1,0
60
Quantos CP’s usar?

X = TPT + E
variação sistemática resíduo
(ruído)
• Poucos CP’s:
– alguma variação sistemática deixa de ser descrita.
– O modelo não consegue descrever os dados completamente.
• Muitos CP’s:
– Os últimos CP’s descrevem apenas ruído.
– O modelo não é robusto quando aplicado a novos dados.
• Como selecionar o número correto de CP’s?

61
Quantos CP’s usar?

• Gráfico de Autovalores
E igenvalue vs . P C Number
4.5
3.5
3
‘Saliência’ aqui
E igenvalue
2.5
selecionar 4 CP’s
2
1.5
0.5
0
1 2 3 4 5 6 7 8 9
P C Number
• Selecionar os componentes quando % variância

explicada > nível do ruído
• Interpretar os escores e os pesos das CP’s: Eles
fazem sentido?! Os resíduos têm estrutura?
• Validação cruzada
62
Amostras anômalas (“Outliers”)

• “Outliers” são objetos que são muito diferentes do
resto dos dados. Eles podem ter um grande efeito no
modelo (na CP) e devem ser removidos.
18 18
16 16
14 14
Remover
12 12
“outlier”
T (oC)
T (oC)
10 10
8 8
6 6
4 4
1 1.5 2 2.5 3 3.5 4 4.5 1 1.5 2 2.5 3 3.5 4 4.5
pH pH
Experimento
anômalo
63

• “Outliers” também podem ser encontrados no espaço
do modelo ou nos resíduos.
14
6
12
4
Soma-dos-quadrados dos resíduos

10
2
Escores CP 2
8
0
6
-2
4
-4
2
-6
0
-8 22 24 26 28 30 32 34 36 38 40 42
-8 -6 -4 -2 0 2 4 6 8 Tempo (min)
Escores CP 1
64

• Podem ser avaliadas através dos resíduos, Qi, e do
seu peso no modelo (estimado pelo valor de T2 de
Hotelling, Ti2).
• Ti2 é a soma dos escores ao quadrado e é uma
medida da variação (da influência) de cada amostra
dentro do modelo PCA.
Ti2 = tiλ-1tiT
onde ti é o vetor escore da i-ésima amostra e λ-1 é o
autovalor correspondente à CP.
• Intervalos de confiança podem ser estimados para os
valores de Qi e Ti2. Espera-se que as distribuições de
Qi e Ti2 sigam a normalidade (lembre-se do TLC).
• Amostras com altos resíduos (mal modeladas) e
altos valores de T2 (alta influência no modelo) devem
ser consideradas outliers.
65
66
A extrapolação do modelo não é

recomendável
300
250
…mas não é
200
válido p/ a
Altura (cm)
faixa de 30
anos!
150
O modelo
100
linear foi válido
para essa
faixa de
50
idade...
0
0 5 10 15 20 25 30
Idade (anos)
67
Conclusões
• A análise de componentes principais (PCA) reduz
grandes matrizes colineares a umas poucas matrizes
de escores e de pesos:
X = t1p1T + t 2p T2 ... + t Rp RT + E
= TP T + E
• Componentes Principais (CP’s)

– descrevem a variação mais importante nos dados.
– são calculados em ordem de importância.
– são ortogonais.
68
Conclusões
• Gráficos de escores e “biplots” podem ser
muito úteis para a exploração e o
entendimento dos dados.
• Freqüentemente, é necessário centrar na

média e escalar as variáveis antes da
análise.
• A escolha do número correto de CP’s é um

passo importante na construção de um
modelo PCA.
69
Agradecimentos
Prof. Age K. Smilde

UNIVERSITY OF AMSTERDAM
Parte desta aula é uma adaptação do material preparado pelo

Prof. Smilde

Aula - Introdução A Quimiometria PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula - Introdução A Quimiometria PDF

Enviado por

Direitos autorais:

Formatos disponíveis

1

Prof. Dr. Marcelo M. Sena (DQ-UFMG)

Prof. Dr. Ronei J. Poppi (IQ-UNICAMP)

INTERNATIONAL CHEMOMETRICS SOCIETY

Quimiometria é a disciplina química que usa

ESTATÍSTICA MULTIVARIADA EM OUTRAS ÁREAS

Conhecimentos básicos necessários

Principais Áreas de aplicação

Pioneiros (início dos anos 70)

- Prof. Bruce Kowalski (Univ. Washington/Seatle/EUA)

Prof. Svante Wold (Univ. Umea/Suécia)

O uso da Estatística Multivariada em outras áreas

A partir dos anos 70, a presença de microprocessadores e

PIONEIRO: ROY E. BRUNS

- Prof. Ronei Poppi (IQ/UNICAMP)

REVISTAS CIENTÍFICAS ESPECÍFICAS

CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS

REVISTAS CIENTÍFICAS de interesse

1) Analytical Chemistry (ACS Publications);

2) The Analyst (RSC Publishing);

3) Analytica Chimica Acta (Elsevier);

4) Analytical and Bioanalytical Chemistry (Springer);

6) Applied Spectroscopy (Society for Applied Spectroscopy);

7) Journal of Near Infrared (NIR Publications);

Avaliar, interpretar e extrair o máximo de

⇒ MÉTODOS SUPERVISIONADOS: A informação sobre a

1) No agrupamento dos dados baseados na distância

2) Na projeção dos dados em espaços de menor

HARD X SOFT MODELLING

Natureza da Modelagem dos Dados:

• do inglês Principal Component(s) Analysis

• Exemplo: altura média

altura e idade estão 18 20 22 24

onda para várias

Conc. Intensidade Intensidade 0.3

• As intensidades a λ230 e a 0.5

λ265 são altamente 0.45

Absorbância a 265 nm (unidades)

• Os dados não têm duas 0.3

• Existe apenas um fator 0.05

medidas a todo minuto, 4500

Variáveis do processo (várias)

pressões, fluxos, etc.

• Essas variáveis do 2000

processo costumam ser 1500

Na maioria dos casos, 0

existem apenas 2 ou 3 Tempo

0,12 0,45 0,65 K 0,29

– Processo contínuo: tempo × T, P, taxa de fluxo etc.

Grandes quantidades de dados

• É necessária uma maneira de extrair a

Principal Component Analysis

• Exploração dos dados

• Interpretação dos dados

Diferentes visões da PCA

• Em termos matriciais, a PCA é um método para

• Geometricamente, a PCA é uma técnica de projeção,

R é o número de CPs usados para descrever X.

Componentes Principais (CPs)

• As CPs descrevem o máximo de variância (= informação)

e assim por diante... até 100%

Escores & pesos

• Similaridades e diferenças entre objetos (ou variáveis)