Você está na página 1de 69

1

INTRODUÇÃO À QUIMIOMETRIA:
Como explorar grandes conjuntos de dados químicos

Prof. Dr. Marcelo M. Sena (DQ-UFMG)


marcsen@ufmg.br

Prof. Dr. Ronei J. Poppi (IQ-UNICAMP)


ronei@iqm.unicamp.br
2

AULA 1

INTRODUÇÃO

QUIMIOMETRIA
3

INTERNATIONAL CHEMOMETRICS SOCIETY


(ICS) 1974
LISTA DE DISCUSSÃO https://listserv.umd.edu/archives/ics-l.html

Quimiometria é a disciplina química que usa


métodos matemáticos e estatísticos para:
→ Planejar ou selecionar condições ótimas de
medidas e experimentos, e
→ Extrair o máximo de informação de dados
químicos.
4

APLICAÇÃO DE MÉTODOS

DE ESTATÍSTICA

MULTIVARIADA EM

QUÍMICA
5

Objetivos da Quimiometria
An
áli
ão s e
aç Ex
iz plo
tim r at
O ór
ia

Calibração Calibração
Resolução de Curvas
6

ESTATÍSTICA MULTIVARIADA EM OUTRAS ÁREAS

1. Psicometria ( Psicologia);

2. Biometria (Biologia);

3. Econometria (Economia)

4. Geologia

5. Arqueometria (Arqueologia)
7

Conhecimentos básicos necessários


- Informática/Programação

- Estatística Básica
- Álgebra Linear
- Análise Instrumental

Principais Áreas de aplicação


- Química Analítica: Espectroscopia Molecular (UV/Vis, IV
próximo e médio, Raman, Fluorescência Molecular,
Técnicas Hifenadas)
- Físico-Química teórica: QSAR (Relação quantitativa
estrutura-atividade)
8

Pioneiros (início dos anos 70)

- Prof. Bruce Kowalski (Univ. Washington/Seatle/EUA)

Prof. Svante Wold (Univ. Umea/Suécia)


9

O uso da Estatística Multivariada em outras áreas


(Psicometria, Biometria, etc.) data da 1ª metade do séc.
XX. Por que a Quimiometria surgiu de forma
relativamente tardia?

A partir dos anos 70, a presença de microprocessadores e


microcomputadores se popularizou nos laboratórios
químicos. Este fato impulsionou as técnicas
instrumentais analíticas, permitindo ao Químico obter
grandes quantidades de dados até então não disponíveis.
Daí, surgiu a necessidade de técnicas de tratamento de
dados mais complexas e, a partir de então, a estatística
multivariada ganhou popularidade e deu origem à
Quimiometria.
10

PRINCIPAIS QUIMIOMETRISTAS
Steve Brown (Delaware), Karl Booksh (Arizona), Paul Gemperline (East
Carolina), John Kalivas (Idaho), Ron Schaffer (US Naval Research), Phil
Hopke (Clarkson), Barry Lavine (Ohio), Sarah Rutan (Virginia), Neil
Gallaher e Barry Wise (Eigenvector Research).
Peter Wentzel (Dalhousie).
Roma Tauler (Barcelona), Xavier Rius, Joan Ferré e Ricard Boqué (Tarragona).
Richard Brereton (Bristol).
Age Smilde (Amsterdã), Lutgard Buydens (Nijmegen), Klass Faber.
Paul Geladi (Umea), Rolf Sundberg (Estocolmo).
D. Luc Massart (†) e Yven vander Heyden (Bruxelas).
Olaf Kvalheim e Rolf Manne (Bergen).
Rasmus Bro e Claus Andersson (Copenhague) e Kim Esbensen (Aalborg).
Kurt Varmuza (Vienna).
Beata Walczak (Katowice).
Alejandro Olivieri (Rosário).
11

NO BRASIL

PIONEIRO: ROY E. BRUNS

- Prof. Ronei Poppi (IQ/UNICAMP)


- Profa. Márcia Ferreira (IQ/UNICAMP)
- Profa. Maria Fernanda Pimentel (UFPE)
- Prof. Mário Ugulino Araújo (UFPB)
- Profa. Ieda Scarminio (UEL/Londrina)
- Prof. Marcelo M. Sena (UFMG)
- Prof. Jez W. B. Braga (UnB)
- Prof. Marco F. Ferrão (UFRGS)
- Prof. Waldomiro Borges Neto (UFU)
12

SOFTWARES
1) Matlab (Mathworks);
2) PLS_toolbox (Eigenvector);
3) Unscrambler (Camo);
4) Pirouette (Infometric);
5) SIMCA (Umetric);
6) Statistica (Statroft);
7) Octave (Software livre);
8) Scilab (Software livre).
13

REVISTAS CIENTÍFICAS ESPECÍFICAS

CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS


Elsevier
1987

JOURNAL OF CHEMOMETRICS
Wiley
1987
14

REVISTAS CIENTÍFICAS de interesse

1) Analytical Chemistry (ACS Publications);

2) The Analyst (RSC Publishing);

3) Analytica Chimica Acta (Elsevier);

4) Analytical and Bioanalytical Chemistry (Springer);

5) Talanta (Elsevier);

6) Applied Spectroscopy (Society for Applied Spectroscopy);

7) Journal of Near Infrared (NIR Publications);


15

LIVROS DIDÁTICOS
16

INTRODUÇÃO À
ANÁLISE
EXPLORATÓRIA DE
DADOS
17

MÉTODOS DE
RECONHECIMENTO DE
PADRÕES
(Pattern Recognition)
ou
DE CLASSIFICAÇÃO
18

OBJETIVO

Avaliar, interpretar e extrair o máximo de


informação de dados analíticos provenientes de
espectros, cromatogramas, eletroferogramas,
voltamogramas (ou sinais de outros métodos
eletroquímicos), perfis de profundidade, e amostras
para as quais as concentrações de diversos
constituintes químicos ou outras propriedades
tenham sido medidas.
19
ARRANJO DOS DADOS
• Os dados são arranjados em uma matriz Xnxp, de n
objetos, arranjados nas linhas e p variáveis, arranjadas
nas colunas.
 x11 x12 L x1 p 
x x 22 L x2 p 
X =  21

 M M M M 
 
 x n1 xn2 L x np 
• Os objetos podem ser: amostras, moléculas, materiais, indivíduos,
etc.
• As variáveis podem ser absorbâncias em diferentes comprimentos
de onda, sinais analíticos em função do potencial elétrico ou do
tempo de retenção, concentração de elementos ou outras
propriedades físicas.
20

MÉTODOS DE CLASSIFICAÇÃO
⇒ MÉTODOS NÃO SUPERVISIONADOS: Não existe
supervisão, já que não se conhece a priori a que classes
pertencem os objetos (ou pelo menos essa informação não é
usada na construção do modelo). É a situação mais comum
em Quimiometria.
Exs: PCA, Análise de Fatores, Análise Hierárquica de
Agrumpamentos (HCA).

⇒ MÉTODOS SUPERVISIONADOS: A informação sobre a


que classes pertencem os objetos está disponível e é usada
na construção do modelo.
Exs: Método do K-ésimo vizinho mais próximo (KNN), SIMCA,
Análise Discriminante Linear (LDA).
21

MÉTODOS DE CLASSIFICAÇÃO
Os métodos de classificação podem ser baseados:

1) No agrupamento dos dados baseados na distância


direta entre os objetos (clustering methods).
Exs: HCA e KNN.

2) Na projeção dos dados em espaços de menor


dimensão.
Exs: PCA, Análise de Fatores e SIMCA.
22

HARD X SOFT MODELLING

Natureza da Modelagem dos Dados:


-Hard Modelling: A modelagem envolve fenômenos que
podem ser descritos por leis físico-químicas conhecidas e
claramente definidas.
Ex: Tratamento de espectros, que obedecem a Lei de Beer.
-Soft Modelling: Modelagem de fenômenos, cujas as leis que
os regem não são claramente descritas e conhecidas.
Ex: Análise de amostras de água de um rio, buscando-se
conhecer os padrões geogênicos e antropogêncios
relacionados à sua composição.
23

Análise de Componentes
Principais (PCA)

• do inglês Principal Component(s) Analysis


24

Correlação
• É comum a presença de correlação em
qualquer tipo de dados!

• Exemplo: altura média


84

83
vs. idade de um grupo 82

de crianças pequenas 81

Altura (cm)
• Observa-se uma forte
80

79
relação linear entre 78
altura e idade. 77

76
• Para crianças pequenas, 75

altura e idade estão 18 20 22 24


Idade (meses)
26 28 30

correlacionadas. Moore, D.S. and McCabe G.P., Introduction to the Practice of Statistics (1989).
25

Correlação em espectroscopia
λ230 λ265
0.9
• Exemplo: um 0.8
composto puro é
medido em dois 0.7

comprimentos de 0.6

onda para várias


Absorbância
0.5
concentrações
0.4

Conc. Intensidade Intensidade 0.3


(MMol) a 230nm a 265nm
5 0,166 0,090 0.2

10 0,332 0,181
0.1
15 0,498 0,270
20 0,664 0,362 0
200 210 220 230 240 250 260 270 280 290 300
25 0,831 0,453 Comprimento de onda (nm)
26

Correlação em espectroscopia

• As intensidades a λ230 e a 0.5

λ265 são altamente 0.45

correlacionadas.

Absorbância a 265 nm (unidades)


0.4

0.35

• Os dados não têm duas 0.3


Aumento da
dimensões, mas apenas
0.25
concentração
0.2

uma. 0.15

0.1

• Existe apenas um fator 0.05

gerando os dados: 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

concentração.
ão Absorbância a 230 nm (unidades)
27

Correlação em processos
químicos
• Em modernas plantas químicas, muitos variáveis do
processo são medidas on-line.
Tcw,in
Tcw,out
Tvc,gas
Qcond
Fcond
Sagitator
Xagitator
Tr,top
Tr,middle
Tr,bottom
Tjacket,in
Tjacket,out
Lr
Fcw
Pr
28

Correlação em processos
químicos
• Tipicamente, 10 a 200
variáveis do processo são 5000

medidas a todo minuto, 4500

p.ex.: temperaturas,

Variáveis do processo (várias)


4000

pressões, fluxos, etc.


3500

3000

2500

• Essas variáveis do 2000

processo costumam ser 1500

altamente correlacionadas.
1000

500

Na maioria dos casos, 0


0 50 100 150 200 250 300

existem apenas 2 ou 3 Tempo

fatores importantes
influenciando no processo -
não 200!
29

A matriz de dados
• Dados podem ser representados na forma de uma
matriz: variáveis

0,12 0,45 0,65 K 0,29


0,14 0,34 0,93 K 0,81
0,13 0,24 0,85 K 0,33
M M M O M
objetos
0,15 0,22 0,78 L 0,65

• Por exemplo,
– Espectroscopia: amostra × comprimento de onda

– Processo contínuo: tempo × T, P, taxa de fluxo etc.

– Análises ambientais:
amostras (em função do espaço ou do tempo) × variáveis
30

Matriz de Dados
• Dados químicos multivariados (espectros)
podem ser arranjados na forma de uma tabela
de dados.

Matriz de
Amostras

Dados X
Variáveis
31

Grandes quantidades de dados


• Na análise química e de processos, as matrizes
de dados obtidas podem ser muito grandes.
– Um espectro de infravermelho medido para 50
amostras pode produzir uma matriz de dados de
dimensões 50 × 800 = 40.000 números!
– 100 variáveis de processo medidas a cada minuto
durante um dia produzem uma matriz de dimensões
1440 × 100 = 144.000 números!!

• É necessária uma maneira de extrair a


informação importante de matrizes de dados tão
grandes.
32

Principal Component Analysis


• Redução dos dados
– A PCA transforma grandes matrizes de dados em matrizes
menores, as quais podem ser mais facilmente examinadas,
plotadas e interpretadas.

• Exploração dos dados


– A PCA extrai os fatores mais importantes (componentes principais
- CPs) dos dados, preservando a maior parte da variância. Esses
fatores descrevem as interações multivariadas entre as variáveis
medidas e revelam tendências subjacentes aos dados.

• Interpretação dos dados


– As CPs podem ser usadas para classificar amostras, identificar
compostos através da obtenção de seus espectros puros,
determinar quais as variáveis fundamentais para um processo,
etc.
33

Diferentes visões da PCA


• Estatisticamente, a PCA é uma técnica de análise
multivariada relacionada com
– Análise de autovetores/autovalores
– Decomposição em valores singulares (SVD)

• Em termos matriciais, a PCA é um método para


decompor X em duas matrizes menores (T e P) mais
uma matriz de resíduos (E):
X = TPT + E

• Geometricamente, a PCA é uma técnica de projeção,


na qual, a matriz X é projetada num sub-espaço de
dimensões reduzidas.
34

PCA: matemática
• A equação básica para a PCA é escrita como

X = t1p1T + t 2p T2 ... + t Rp RT + E
= TP T + E
onde
X (I × J) é uma matriz de dados,
T (I × R) são os escores,
P (J × R) são os pesos (“loadings”) e
E (I × J) são os resíduos.

R é o número de CPs usados para descrever X.


35

Componentes Principais (CPs)


• Uma CP é definida por um par de vetores pesos e
vetores escores: t r ,pr

• As CPs descrevem o máximo de variância (= informação)


e são calculadas em ordem decrescente de importância

CP % de X % total de
. explicada X explicada
1 45,6 45,6
2 23,9 69,5
3 18,1 87,6
4 1,3 88,9

e assim por diante... até 100%


36

PCA: matrizes
pesos

X = + ... +
escores
componente principal

= + E
PT

T
37

Escores & pesos


• Escores
– T = US (SVD)
– relações entre objetos
– ortogonais, TTT = matriz diagonal
• Pesos
– P = V (SVD)
– relações entre variáveis
– ortonormais, PTP = matriz identidade, I

• Similaridades e diferenças entre objetos (ou variáveis)


podem ser vistas através de gráficos em que os
escores (ou pesos) são plotados uns contra os outros.
38

PCA: projeção simples


• Caso mais simples : duas variáveis correlacionadas
84 8

83 6
gráfico de escores
82 CP1 4

81

Escores CP 2 (0,23%)
2

CP2 PCA
Altura (cm)

80
0
79
-2
78

-4
77

76 -6

75 -8
18 20 22 24 26 28 30 -8 -6 -4 -2 0 2 4 6 8
Idade (meses) Escores CP 1 (99,77%)

• A CP1 descreve 99,77% da variação total em X.

• A CP2 descreve a variação residual aleatória (0,23%).


39

PCA: projeções
• A PCA é uma técnica de projeção.

• Cada linha de cada matriz de dados X (I × J) pode


ser considerada como um ponto no espaço J-
dimensional. Esses dados são projetados
ortogonalmente em um sub-espaço de menor
dimensionalidade.

– No exemplo anterior, dados de duas dimensões foram


projetados em um espaço de uma dimensão, ou seja, em
uma linha.

– Agora, nós iremos projetar dados de J dimensões em um


espaço de duas dimensões, ou seja, um plano.
40

 ••••••••••••••• •• •••••••••••••••
 ••••••••••••••• = •• + •••••••••••••••

T
X = T P + E

••



41

CP: reta na direção de maior variação das amostras


x2 x2
1 CP
+∞ t1
θ2 3 2

θ1 t2
x1 4 x1
6 5
p1=cosθ1
-∞ p2=cosθ2

A B

(A) “pesos” são os ângulos do vetor direção


(B) “escores” são as projeções nas amostras na
direção de CP
42

Exemplo 1:
Dados Proteínas
• Estudo do consumo de proteínas em países da Europa.
• 9 variáveis descrevem diferentes fontes de proteína.
• Os 25 objetos são os diferentes países.
• A matriz de dados tem as dimensões 25 × 9.

• Quais países são semelhantes?


• Quais alimentos estão correlacionados com o
consumo de carne vermelha?

Weber, A., Agrarpolitik im Spannungsfeld der internationalen


Ernaehrungspolitik, Institut fuer Agrarpolitik und Marktlehre, Kiel (1973) .
43
44

PCA nos dados de proteínas


• Os dados são centrados na média e cada variável é
autoescalada para variância um. A PCA é então
aplicada.
Variância Percentual Capturada pelo Modelo PCA
Autovalores vs. Número de CPs
Número de Autovalor % Variância % Variância 4.5

Componentes de Capturada Capturada


4
Principais Cov(X) por este CP Total
--------- ---------- ---------- ---------- 3.5
1 4,01e+000 44,52 44,52
3
2 1,63e+000 18,17 62,68

Autovalores
3 1,13e+000 12,53 75,22 2.5
4 9,55e-001 10,61 85,82
2
5 4,64e-001 5,15 90,98
6 3,25e-001 3,61 94,59 1.5
7 2,72e-001 3,02 97,61
8 1,16e-001 1,29 98,90 1

9 9,91e-002 1,10 100,00 0.5


Quantos componentes principais você quer
0
escolher? 1 2 3 4 5 6 7 8 9
Número de CPs
4
45

Escores: CP1 vs CP2


2

Albania

Bulgaria
Austria Romania Yugoslavia
1
Netherlands
Ireland Switzerland Hungary
Finland Czechoslovakia
West Germany
Sweden
UK USSR
0
Belgium
Denmark
East Germany Italy
Poland
France Norway
Escores CP 2 (18,17%)

-1 Greece

-2

Spain

-3

PC 2
-4
Portugal

-5
-3 -2 -1 0 1 2 3 4
Escores CP 1 (44,52%)
46

Pesos
0.6

CP1
0.4
CP2

0.2

0
Pesos CP

-0.2

-0.4

-0.6

-0.8
Red meat White meat Eggs Milk Fish Cereals Starch Beans/nuts/oil Fruit & veg
Gráficos Biplots

PERMITEM VISUALIZAR OS

ESCORES E OS PESOS

SIMULTANEAMENTE
48

Biplot: CP1 vs CP2


2

Albania
Europeus do SE
White meat
Bulgaria
Cereals comem muito
1
Milk
Austria Romania Yugoslavia cereais
Netherlands
Ireland Switzerland Hungary
Finland Czechoslovakia
Red meat West Germany
Eggs Sweden
UK USSR
0
Belgium
Denmark
East Germany Italy
Poland
France Norway
Beans/nuts/oil
-1 Greece
CP 2

CP2 indica que


os espanhóis e
-2 os portugueses
Starch
gostam
Spain
especialmente
-3 de frutas,
Fruit & veg vegetais e
peixes.
-4 Fish
Portugal

-5
-5 -4 -3 -2 -1 0 1 2 3 4 5

CP 1
49

Biplot: CP1 vs CP3


4

White meat
3

Os holandeses
gostam de batata… 2
Fruit & veg
Hungary

...com Poland
Austria
maionese!? Starch East Germany
Czechoslovakia
1 Eggs
CP 3

West Germany
Netherlands
Spain Cereals
Belgium Yugoslavia
Bulgaria
Italy Romania
0 Ireland France Portugal
Switzerland
Beans/nuts/oil
USSR

Denmark
Greece
-1
Carne vermelha UK
Sweden
e leite estão Red meat
Fish Norway
correlacionados -2
Albania
Milk Finland

Escandinavos
-3 comem muito
-5 -4 -3 -2 -1 0 1 2 3 4 5
peixe!
CP 1
50

Resíduos
• Também é importante examinar os resíduos do
modelo, E.
• Idealmente, os resíduos não deverão conter
nenhuma estrutura - apenas variação aleatória
(ruído).
1.5

1
Variação Residual

0.5

-0.5

-1
1 2 3 4 5 6 7 8 9
Número da variável
51

Resíduos
• Os resíduos (quadrados) do modelo podem ser
somados ao longo da direção dos objetos ou das
variáveis: J
Qi = ∑ eij2
j =1
3.5 País 23 (URSS)
se ajusta ao
Q (soma dos resíduos quadrados)

3 modelo de
maneira pior
2.5

1.5

0.5

0
0 5 10 15 20 25
Número do objeto
52

Exemplo 2:
Efeito do Manejo no Solo
• Agricultura Alternativa (Orgânica) x Convencional

• O estudo foi conduzido em 3 fazendas, em Guaíra/SP


• Em cada fazenda foram comparadas 2 faixas
Alternativas, 2 Convencionais e a Mata nativa (5 faixas)
• 8 variáveis: pH, Ac, Ce, So, Dh, Ps, MB e Sba (Ye)

• O manejo iniciou em 1995 e os dados foram coletados


em 1996 e 1997

• A matriz de dados tem as dimensões 5 × 8.


53

Objetivo:
Através de uma análise integrada usando a
PCA, responder a 2 questões

• É possível distinguir o sistema de manejo alternativo


do manejo convencional e da mata nativa, através da
análise de 8 variáveis relevantes?

• Quais dessas variáveis são as mais importantes para


a discriminação?
54
1996 – Fazenda Macaúba
55
1997 – Fazenda Macaúba

Mata x cultivadas: MB x Ce
Alt x Conv: MB e Ps x Ce e So
56

M. M. Sena, R. T. S. Frighetto, P. J. Valarini,


H. Tokeshi, R. J. Poppi

“Discrimination of management effects on soil


parameters by using principal component analysis:
a multivariate analysis case study”

SOIL & TILLAGE RESEARCH 67, 171-181 (2002)


57

Pré-processamento dos dados


• Na maioria das vezes, nós estamos interessados nas
diferenças entre os objetos, não nos seus valores
absolutos.
– Dados de proteínas : diferenças entre países
– Dados de solos : diferenças entre o tipo de faixa do solo

• Se diferentes variáveis são medidas em diferentes


unidades, algum tipo de escalamento (normalização)
é necessário para dar a cada variável a mesma
chance de contribuir para o modelo.
– Dados de solos: pH & Biomassa Microbiana possuem
escalas muito diferentes
58

Centrando os dados na média


• Subtrair a média de cada coluna de X:

 6, 6 37,2 10245   0,075 0, 450 − 595, 2


  − 
 6, 5 35,5 11857  Centrar
na média  0 , 025 − 1 , 250 1016 
 6, 3 36,2 10548  − 0,225 − 0, 550 − 292, 3
   
 6, 7 38,1 10711  0,175 1, 350 − 129,.3
x= x=
6,525 36,75 10840 0,0 0,0 0,0
59

Autoescalando os dados
• Dividir cada coluna de X por seu desvio padrão:

 0, 075 0,450 − 595, 2  0,439 0,395 − 0,845 


−  
Escalamento − 0,

 0 , 025 − 1 , 250 1016   . 146 − 1 , 098 1,
. 443 
− 0, 225 − 0,.550 − 292,3  − 1,318 − 0,483 − 0,415 
   
 0, 175 1,350 − 129,3  1,025 1,.186 − 0,183 
σ = σ =
0,171 1,139 704,8 1,0 1,0 1,0
60

Quantos CP’s usar?


X = TPT + E
variação sistemática resíduo
(ruído)
• Poucos CP’s:
– alguma variação sistemática deixa de ser descrita.
– O modelo não consegue descrever os dados completamente.

• Muitos CP’s:
– Os últimos CP’s descrevem apenas ruído.
– O modelo não é robusto quando aplicado a novos dados.

• Como selecionar o número correto de CP’s?


61

Quantos CP’s usar?


• Gráfico de Autovalores
E igenvalue vs . P C Number
4.5

3.5

3
‘Saliência’ aqui

E igenvalue
2.5
selecionar 4 CP’s
2

1.5

0.5

0
1 2 3 4 5 6 7 8 9
P C Number

• Selecionar os componentes quando % variância


explicada > nível do ruído
• Interpretar os escores e os pesos das CP’s: Eles
fazem sentido?! Os resíduos têm estrutura?
• Validação cruzada
62

Amostras anômalas (“Outliers”)


• “Outliers” são objetos que são muito diferentes do
resto dos dados. Eles podem ter um grande efeito no
modelo (na CP) e devem ser removidos.

18 18

16 16

14 14

Remover
12 12
“outlier”
T (oC)

T (oC)
10 10

8 8

6 6

4 4
1 1.5 2 2.5 3 3.5 4 4.5 1 1.5 2 2.5 3 3.5 4 4.5
pH pH

Experimento
anômalo
63

Amostras anômalas (“Outliers”)


• “Outliers” também podem ser encontrados no espaço
do modelo ou nos resíduos.

14
6

12
4

Soma-dos-quadrados dos resíduos


10
2
Escores CP 2

8
0

6
-2

4
-4

2
-6

0
-8 22 24 26 28 30 32 34 36 38 40 42
-8 -6 -4 -2 0 2 4 6 8 Tempo (min)
Escores CP 1
64

Amostras anômalas (“Outliers”)


• Podem ser avaliadas através dos resíduos, Qi, e do
seu peso no modelo (estimado pelo valor de T2 de
Hotelling, Ti2).
• Ti2 é a soma dos escores ao quadrado e é uma
medida da variação (da influência) de cada amostra
dentro do modelo PCA.
Ti2 = tiλ-1tiT
onde ti é o vetor escore da i-ésima amostra e λ-1 é o
autovalor correspondente à CP.
• Intervalos de confiança podem ser estimados para os
valores de Qi e Ti2. Espera-se que as distribuições de
Qi e Ti2 sigam a normalidade (lembre-se do TLC).
• Amostras com altos resíduos (mal modeladas) e
altos valores de T2 (alta influência no modelo) devem
ser consideradas outliers.
65
66

A extrapolação do modelo não é


recomendável
300

250

…mas não é
200
válido p/ a
Altura (cm)

faixa de 30
anos!
150

O modelo
100
linear foi válido
para essa
faixa de
50
idade...

0
0 5 10 15 20 25 30
Idade (anos)
67

Conclusões
• A análise de componentes principais (PCA) reduz
grandes matrizes colineares a umas poucas matrizes
de escores e de pesos:

X = t1p1T + t 2p T2 ... + t Rp RT + E
= TP T + E

• Componentes Principais (CP’s)


– descrevem a variação mais importante nos dados.
– são calculados em ordem de importância.
– são ortogonais.
68

Conclusões
• Gráficos de escores e “biplots” podem ser
muito úteis para a exploração e o
entendimento dos dados.

• Freqüentemente, é necessário centrar na


média e escalar as variáveis antes da
análise.

• A escolha do número correto de CP’s é um


passo importante na construção de um
modelo PCA.
69

Agradecimentos

Prof. Age K. Smilde


UNIVERSITY OF AMSTERDAM

Parte desta aula é uma adaptação do material preparado pelo


Prof. Smilde

Você também pode gostar