Você está na página 1de 133

Instrues:

Caros Alunos, estou disponibilizando os slides e


informaes importantes sobre a nossa
disciplina (vejam os slides 8 e 9). No
necessrio imprimir estes slides, entretanto
iremos precisar de computadores (lap tops) em

todos os dias do curso. Desta forma, vcs podem


acompanhar os slides no prprio computador.
Iremos precisar tambm de alguns programas

computacionais que eu irei fornecer e ajudarei


vcs na instalao durante a disciplina.
Abraos a todos e at o dia 02/07, Edenir.
1

Disciplina: Tpicos Especiais -

Quimiometria
Edenir Rodrigues Pereira Filho
Professor Adjunto
DQ-UFSCar

Contatos

02/07/12 a 04/07/12

e-mail: erpf@uol.com.br ou erpf@ufscar.br


Home page: http://www.ufscar.br/dq-gaia

EXPERINCIA PROFISSIONAL
2006... Professor Adjunto (DQ CCET - UFSCar)

So Carlos

Araras

Sorocaba

37 cursos de
graduao

6 cursos de
graduao

14 cursos de
graduao

31 cursos de mestrado acadmico, 2 de


mestrado profissional e 23 de doutorado

EXPERINCIA PROFISSIONAL

(1) Espectroanlise e Preparo de Amostras e


(2) Grupo de Anlise Instrumental Aplicada

Ana Rita de Arajo Nogueira (Embrapa)


Edenir Rodrigues Pereira Filho
Joaquim de Arajo Nbrega

25 alunos: mestrandos, doutorandos e de iniciao cientfica

Home Page: http://www.ufscar.br/dq-gaia


4

Grupo GAIA

Tpicos

Planejamento Fatorial: Completo e

fracionrio.
Proposio de modelos de regresso com
planejamento fatorial (Composto central,
Doehlert, Box-Behnken). Exemplos

Tpicos
Anlise multivariada:

Anlise exploratria de dados (Anlise de


Componentes Principais PCA e Anlise
Hierrquica de Agrupamentos HCA)
Construo de modelos de calibrao
(Regresso por mnimos quadrados parciais

PLS e Regresso por componentes


principais PCR)
Construo de modelos de classificao
7

Programao
Dia

Atividade

02/07
(segunda
feira)

Parte da manh:
Apresentao da disciplina, tpicos que sero abordados, introduo
de alguns conceitos bsicos, Anlise de Componentes Principais
(PCA) e Anlise Hierrquica de Agrupamentos (HCA).
Parte da tarde:
Instalao dos programas computacionais nos computadores dos
alunos e exemplo com o uso do Pirouette.

03/07
Parte da manh:
(tera feira) Reviso das atividades dadas em sala de aula. Instalao do
programa computacional Octave, uso das rotinas computacionais e
apresentao de um exemplo.
Parte da tarde:
Exerccios utilizando o Octave.
04/07
(quarta
feira)

Parte da manh:
Diviso da turma em cerca de 6 grupos onde cada um ter um
conjunto de dados para aplicar as ferramentas vistas em sala de aula.
Parte da tarde:
Apresentao dos resultados de cada grupo, avaliao e balano final
das atividades.

Avaliao

Ser observado o desempenho


dos alunos durante o tratamento

dos dados (atividade do dia


04/07) e apresentao dos
resultados.

Quimiometria
Disciplina que usa mtodos
matemticos e estatsticos
para planejar ou selecionar
procedimentos timos de
medidas e experimentos

Extrair o mximo de
informao de um conjunto de
dados qumicos
10

Bibliografia
1

Martens,
H.,
Naes,
Chichester: John Wiley & Sons, 1989.
2 Sharaf, M., Illman, D. L.,
New York: John Wiley & Sons, 1986.

T.,

Multivariate

Kowalski,

B.

R.,

Calibration,
Chemometrics,

3 Otto, M., Chemometrics, Weinheim: Wiley-VCH, 1999.


4 Massart, D. L., Vandeginste, B. G. M., Deming, S. M., Michotte, Y.,
Kaufman, L., Chemometrics: a textbook, Amsterdam: Elsevier, 1988.
5 Kramer, R., Chemometric techniques for quantitative analysis,
New York: Marcel Dekker, Inc., 1998.
6 Beebe, K. R., Pell, R. J., Seasholtz, M. B., Chemometrics a practical
guide, New York: John Wiley & Sons, 1998.

7 Breretron, R. G., Applied


Chichester: John Wiley & Sons, 2007.

chemometrics

for

scientists,

11

Bibliografia
Sobre PCA - artigos

Geladi, P.; Kowalski, B. R.. Anal. Chim. Acta, 1986, 185,


1.
Wold, S.; Esbensen, K.; Geladi, P.. Chemometr. Intell.
Lab., 1987, 2, 37.
DelValls, T. A.; Forja, J. M.; Gonzles-Mazo, E.; GmezParra, A.; Blasco, J.. Trends Anal. Chem., 1998, 14,
181.
Wise, B. M.; Gallagher, N. B.. Crit. Rev. Anal. Chem.,
1998, 28, 1.

Sobre lgebra Linear - livros

Boldrini, J. L.; Costa, S. I. R.; Figueiredo, V. L.; Wetzler,


H. G.. lgebra Linear. Editora Harbra Ltda: So Paulo,
1986.
Noble, B.; Daniel, J. W.. lgebra Linear Aplicada.
Editora Prentice-Hall do Brasil Ltda: Rio de Janeiro,
1986.

12

Revistas especializadas
Journal of Chemometrics Wiley
InterScience

Chemometrics and Intelligent


Laboratory Systems (Chemolab)
Elsevier
Analytical Chemistry American
Chemical Society (ACS)
Analytica Chimica Acta Elsevier
Applied Spectroscopy Society of
Applied Spectroscopy (SAS)
13

Sites interessantes

http://ull.chemistry.uakron.edu/chemometrics/
http://www.chemometrics.se/
http://laqqa.iqm.unicamp.br/
http://www.models.kvl.dk/

14

Programas computacionais

Octave (Livre)
15

Definies de quimiometria
Quimiometria uma cincia relacionada com a compreenso de
medidas efetuadas em um sistema ou processo qumico com a
utilizao de mtodos matemticos ou estatsticos (International
Chemometrics Society)
Quimiometria todo o processo onde os dados (tabela de
dados) so transformados em informaes que so utilizadas
para a tomada de decises (K. R. Beebe)
Quimiometria uma disciplina qumica que utiliza matemtica,
estatstica e lgica para: (a) desenhar ou selecionar condies
timas de experimentao; (b) fornecer o mximo de
informao relevante pela anlise de dados qumicos; e (c)
obter conhecimento sobre um sistema qumico (D. L. Massart)

Subdisciplinas similares: biometria, psicometria, econometria...


16

Processo analtico
Amostragem

Preparo da amostra

Medida analtica

Anlise do dados

Obteno de informao til


17

Estatstica descritiva
1 Mdia: o valor onde
se concentram os dados de
uma distribuio

2 Mediana: o valor que


est no meio de uma
distribuio

4 Desvio padro: Esta


relacionado com a
disperso dos dados de
uma distribuio

1
x j xij
n i 1
3 Moda: o valor que
mais se repete em uma
distribuio

SD

( xi x )

i 1

N 1
18

4645 W

4700 W

4715 W

4630 W

Interpretao dos dados


experimentais - estudo de caso

2300 S
Cidades

Pontos de amostragem
Classe 3
Jundia Mirim river

8e9
1,
26
e7

Salto
10 13

Classe 2
Classe 4

Itupeva
Rio Jundia

Jundia

2315 S

Rio Tiet

19

Ribeiro
Pira

Rio Jundia

Concentraes biodisponveis de Cd e Pb em sedimentos (n = 3)


Cd (mg/kg)
Pb (mg/kg)
Amostra Local
Mdia
SD
Mdia
SD
1
1,70
0,11
13,6
0,9
2
1,36
0,19
8,67
0,94
3
1,62
0,15
9,06
0,71
4
1,53
0,07
9,04
1,22
5
1,49
0,26
10,1
0,5
6
1,40
0,22
9,06
0,66
7
0,84
0,11
9,28
1,22
8
0,84
0,05
6,93
0,44
9
0,62
0,04
5,99
0,71
10
0,08
0,01
6,54
0,48
11
0,08
0,01
7,17
0,58
12
0,09
0,01
8,68
0,31
13
0,09
0,01
7,68
0,43
20

2,0

[Cd] mg/kg

1,5

1,0

0,5

Rio Jundia
Ribeiro Pira

0,0
0

Amostras

10

12

14

2,0

[Cd] mg/kg

1,5

1,0

0,5

Rio Jundia
Ribeiro Pira
0,0
Jundia

Conjunto de amostras

Pira

15

[Pb] mg/kg

10

Rio Jundia
Ribeiro Pira

0
0

Amostras

10

12

14

16
14
12

[Pb] mg/kg

10
8
6
4
2
0

Rio Jundia
Ribeiro Pira

-2
Jundia

Conjunto de amostras

Pira

4630 W

4645 W

4700 W

4715 W

2300 S

Cidades

Cd
1,27
mg/kg

Pontos de amostragem

Pb
9,08
mg/kg

Classe 3
Jundia Mirim river
Classe 2
Classe 4

Itupeva
Salto

Cd
0,09
mg/kg

Rio Jundia

Jundia

2315 S

Pb
7,52
mg/kg

Rio Tiet

25

lgebra matricial bsica


Matriz (X): Tabela de dados com uma ou mais linhas e
uma ou mais colunas (letras em negrito maisculas: X)

Solo
1
2
3
4
5
6
7
8
9
10
11
12

Cd
1,93
2,16
2,02
1,37
1,46
1,43
1,01
1,12
1,08
0,100
0,200
2,40

Metais (mg/kg)
Cu
Pb
6,95
11,2
6,52
11,6
7,23
10,9
13,7
1,90
3,91
2,68
7,66
2,32
10,8
4,81
13,6
7,29
11,6
5,92
11,2
31,3
10,9
21,4
12,8
36,9

Zn
34,5
32,1
34,2
83,5
73,5
77,5
54,9
52,0
52,5
36,0
36,9
41,9

12:4
12 linhas e
4 colunas

26

Objetos: Amostras, compostos qumicos


Linhas da matriz
Variveis: Caractersticas medidas das amostras
(espectros, cromatogramas, propriedades fsicas,
concentrao de espcies qumicas...)

Colunas da matriz
Solo

Linha
Amostra

1
2
3
4
5
6
7
8
9
10
11
12

Cd
1,93
2,16
2,02
1,37
1,46
1,43
1,01
1,12
1,08
0,100
0,200
2,40

Metais (mg/kg)
Cu
Pb
6,95
11,2
6,52
11,6
7,23
10,9
13,7
1,90
3,91
2,68
7,66
2,32
10,8
4,81
13,6
7,29
11,6
5,92
11,2
31,3
10,9
21,4
12,8
36,9

Zn
34,5
32,1
34,2
83,5
73,5
77,5
54,9
52,0
52,5
36,0
36,9
41,9

Coluna
Varivel

27

Matriz Transposta (X): Troca de linhas por colunas

Metais (mg/kg)
Cd
Cu
Pb
Zn

1
1,93
6,95
11,2
34,5

2
2,16
6,52
11,6
32,1

3
2,02
7,23
10,9
34,2

4
1,37
13,7
1,90
83,5

5
1,46
3,91
2,68
73,5

Solos
6
7
1,43 1,01
7,66 10,8
2,32 4,81
77,5 54,9

8
1,12
13,6
7,29
52,0

9
1,08
11,6
5,92
52,5

10
0,100
11,2
31,3
36,0

11
0,200
10,9
21,4
36,9

12
2,40
12,8
36,9
41,9

4:12
4 linhas e 12 colunas
28

Vetor (x): Matriz com somente uma linha ou coluna

Solos
Metais (mg/kg)
1
2
3
4
5
Cd
1,93 2,16 2,02 1,37 1,46

x 1,93 2,16 2,02 1,37 1,46


1,93
2,16
x' 2,02
1,37
1,46

29

Visualizao dos dados

15

40

12

35

12

30

10

13

Pb (mg/kg)

Cu (mg/kg)

10

1011

25

11
20
15

13 2
5

10

5
0

8
9
4 65

0
0

Cd (mg/kg)

90

Cd (mg/kg)

15

4
8

6
5

75

12
9

Pb (mg/kg)

Zn (mg/kg)

1011
60

98

45

12
1011

13

30

10

13

5
15

0
0

Cd (mg/kg)

Cu (mg/kg)

30

Visualizao dos dados


90

Concentrao (mg/kg)

Cd
Pb

Cu
Zn

60

30

0
1

10

11

12

Solo
31

Visualizao dos dados

Forma de uma matriz


Amostras (n = 6)
C1R1
C1R2
C1R3
C2R1
C2R2
C2R3

0,84
0,002
0,004
0,003
0,002
0,002
0,002

1,02
0,003
0,005
0,004
0,003
0,003
0,003

Variveis - Espectro de XRF (Energia keV) com n = 224


1,2
1,38
...
40,44
40,62
0,003
0,003
...
0,000
0,000
0,006
0,005
...
0,001
0,001
0,004
0,004
...
0,001
0,001
0,002
0,003
...
0,000
0,000
0,002
0,003
...
0,000
0,000
0,003
0,004
...
0,001
0,000

40,8
0,000
0,001
0,001
0,000
0,000
0,000

40,92
0,001
0,001
0,000
0,001
0,000
0,000

Forma de um espectro
0,180

Contagens/segundos

0,150

0,120

0,090

0,060

0,030

0,000
0

12

18

24

Energia (keV)

30

36

42

32

lgebra matricial bsica


Adio de dois vetores de mesmo tamanho:

a1 b1
a b
2 2
.

ab
.

.
an bn
Adio de dois vetores de mesmo tamanho
comutativa e associativa:

ab ba
(a b) c a (b c)
33

Multiplicao por um escalar:

a1 ka1
a ka
2 2
. .

ka k
.
.

. .
an kan
Tamanho de um vetor (ou norma de um vetor):

a a12 a22 ... an2

34

Produto escalar de dois vetores coluna:

aT b a1

a2

b1
b
2
N
.

... an a1b1 a2b2 ... anbn ai bi


i 1
.

.
bn

Matriz: A (dimenso mxn)

a11 a12 ... a1n


a 21 a 22 ... a 2n
.

A
.

.
.

am1 am2 ... amn


35

Multiplicao de Matrizes: A (mxp) e B (pxn), produz


uma matriz C (mxn)

2 1 3
A

5
2
4

A(2 3)

2 3 1 1
B 1 3 2 1
3 2 4 5
B(3 4)

(2 2) (11) (3 3) 14 15 16 18
C

24
29
25
27

C (2 4)

36

Anlise de dados multivariados


Definio do problema

Organizao dos dados


Validao dos dados

Visualizao dos dados originais


Transformao/Pr-processamento
dos dados
Anlise exploratria dos dados
37

Anlise de dados multivariados

Construo de modelos
Calibrao/Classificao
Validao dos modelos
Previses

38

Definio do problema
Qual ou quais informaes devero ser
extradas do problema (sistema) em questo?

Tempo

Tcnicas
experimentais e
mtodos

Definir o
problema a
ser
resolvido

Escolha
correta da
ferramenta
analtica

Coleta de
informaes
Garantia de
que as
informaes
desejadas
foram
coletadas
39

Fatores a serem considerados


Origem do problema:
Como os dados foram gerados;
Que tcnicas analticas foram utilizadas;
O nvel de exatido relacionado a cada
varivel;

Quando os dados foram coletados


J foi efetuada uma anlise anterior;
Existem informaes anteriores que sejam
pertinentes;
...
40

Organizao dos dados

Colocar os
dados em
um nico
arquivo

Os dados so
de um nico
instrumento?

H dados
faltantes?
Qual a
preciso dos
mtodos?

H mais de
um
instrumento
ou tipo?

Complete ou
exclua linhas
ou colunas
com dados
faltantes
41

Quais dados podem ser estudados?


Variveis:
Instrumento multicanal: espectros

Instrumentao de separao:
cromatogramas
Determinaes mltiplas de instrumentos
especficos: testes fsicos, qumicos e
biolgicos.

Resposta de anlise sensorial


...
42

Exemplo 1
Investigao de alguns parmetros clnicos em
funileiros (Matriz: 108 x 11)
Identificao
Nmero
1
2
3
4
5
...
104
105
106
107
108

Ordem
ID
1
GN
2
LMF
3
RCN
4
GAM
5
DM
...
...
53
OPD
55
MS
56
MAS
57
DB
58
HSC

1
Creat.
1,07
1,78
0,95
1,94
1,56
...
1,57
0,82
1,02
1,24
2,27

2
Fof. Alc.
36,51
32,85
57,19
47,91
31,18
...
44,39
34,83
38,06
25,03
54,58

3
Asp.
14,60
24,50
15,00
21,60
11,00
...
21,40
19,40
10,90
9,40
17,40

4
Ala.
18,00
21,20
16,40
10,20
11,70
...
31,60
36,40
15,40
16,90
40,10

5
Bil.
0,68
0,78
0,98
0,53
0,55
...
0,52
0,41
0,56
0,51
0,62

6
Bil2
0,13
0,24
0,40
0,17
0,22
...
0,20
0,16
0,21
0,17
0,19

7
Bil3
0,55
0,54
0,58
0,36
0,33
...
0,32
0,25
0,35
0,34
0,43

8
9
10
Glut. Bilia Hip.
25,30 7,50 2,02
28,70 7,33 0,59
24,00 6,03 0,05
31,90 4,89 1,02
16,00 1,80 0,54
...
...
...
49,20 17,44 0,15
31,70 4,17 0,57
36,80 2,08 0,32
31,40 7,55 0,07
52,30 14,84 1,60

11
Cresol
0,42
0,12
0,05
0,31
0,14
...
0,00
0,00
0,00
0,00
0,00

43

Exemplo 1
Classes: caractersticas dos indivduos
Identificao
Nmero
1
2
3
4
5
...
104
105
106
107
108

Ordem
ID
Idade
1
GN
2
2
LMF
1
3
RCN
0
4
GAM
0
5
DM
1
...
...
...
53
OPD
2
55
MS
3
56
MAS
3
57
DB
0
58
HSC
2

Classes
Funilaria
1
1
1
1
1
...
0
0
0
0
0

EPI
1
1
1
1
0
...
-

Tempo
3
2
0
1
2
...
-

lcool
1
3
0
4
0
...
2
0
0
1
0

Cigarro
0
3
0
3
2
...
0
0
0
0
0

Ac. Bem.
0
0
1
1
0
...
1
1
1
1
0

44

Exemplo 1 - Classes
Idade: 20 a 30 = 0; 31 a 40 = 1; 41 a 50 = 2; > 51 = 3
Funilaria: No = 0; Sim = 1
EPI: No = 0; Sim = 1
Tempo: 1 a 100 meses = 0; 101 a 200 = 1; 201 a 300 = 2;
301 a 400 = 3 e > 400 = 4
lcool: 0 a 30 g/dia = 0; 31 a 60 = 1; 61 a 90 = 2; 91 a 120
= 3 e > 120 = 4
Cigarro:

0 a 5 cigarros/dia = 0; 6 a 10 = 1; 11 a 15 = 2 e >

15 = 3
c. Benzico: No = 0; Sim = 1

45

Exemplo 2

Anlise sensorial de amostras de sucos


(Matriz: 120 x 4)
Provadores
1
2
...
23
24
25
26
...
47
48
49
50
...
71
72
73
74
...
95
96
97
98
...
119
120

Classe

Manga

Tangerina

Pssego

Maracuj

Laranja

D
4
3
...
8
9
0
1
...
8
9
0
0
...
9
10
0
2
...
10
10
0
2
...
8
9

Variveis
S A
0
0
2
0
... ...
3
6
4
6
0
0
0
8
... ...
2
8
2 10
0
0
0
0
... ...
4
8
7 10
0
0
0
0
... ...
2
6
2
7
0
0
0
0
... ...
0
9
3 10

a
0
0
...
9
10
0
7
...
7
8
0
0
...
5
6
0
0
...
0
6
0
0
...
6
7

46

Exemplo 3

Anlise tubos atomizadores metlicos (espectros de


fluorescncia de raios-X XRF): Matriz: 128 x 501
6

Contagens/segundo

Ni (K)
Ti (K)
4

2
Cu (K)
Cr (K)
V (K)
Cr (K)

Fe (K)

0
4

Energia (keV)

9
47

Visualizao dos dados

Corantes alimentcios de amarelo tartrazina e amarelo


crepsculo (matriz: 54 x 1001)
1,200

Absorbncia

0,900

0,600

0,300

0,000
350

400

450

500

550

Comprimento de onda (nm)


48

Correlao entre as variveis

Absorbncia em 360 nm

0,400

y = -0,00111 + 1,406x
r = 0,9991

0,300

0,200

0,100

0,000
0,000

0,050

0,100

0,150

0,200

0,250

0,300

Absorbncia em 350 nm
49

Correlao entre as variveis

Absorbncia em 450 nm

1,200

y = -0,0698 + 1,068x
r = 0,9444

0,900

0,600

0,300

0,000
0,000

0,200

0,400

0,600

Absorbncia em 400 nm

0,800

1,000
50

Visualizao dos dados

Concentrao de alguns metais em chs (matriz: 15 x 6)


Chs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

K
21531
20646
20298
14476
24311
22519
6630,9
29585
9317,7
8431,8
14848
9752,9
11193
19966
13053

Metais (mg/kg)
Mg
Ca Zn Fe
2620 3709 18 78
1818 4357 17 345
2131 4243 19 280
1291 3144 12 197
3117 5599 24 161
2712 7500 25 1000
523,3 3125 9 60
3856 6931 62 540
773,7 1034 7 60
869,9 3069 10 155
3237 7348 23 175
2776 9717 21 207
2250 9692 14 239
1872 3832 17 366
2281 4767 22 293

Mn
127
127
98
72
70
70
72
118
53
111
330
82
101
149
1258

51

Correlao entre as variveis


4000
3500
3000

Mg

2500
2000
1500
1000
500
5000

10000

15000

20000

25000

30000

8000

8000

6000

6000

Ca

Ca

10000

10000

4000

4000

2000

2000

0
5000

10000

15000

20000

25000

30000

500

1000

1500

2000

2500

Mg

3000

3500

4000

52

Correlao entre as variveis


70

60

50

Zn

40

30

20

10

0
5000

10000

15000

20000

25000

30000

K 70
1000

60
800

50

600

Fe

Zn

40

400

30

20
200

10
0

0
5000

10000

15000

20000

25000

30000

500

1000

1500

2000

2500

Mg

3000

3500

4000

53

Correlao entre as variveis


1000

800

Fe

600

400

200

0
500

1000

1500

2000

1400

2500

Mg

1200

60

1000

50

800

3500

4000

40

Zn

Mn

3000
70

600

30

400
20

200
10

0
0

5000

10000

15000

20000

25000

30000

2000

4000

6000

Ca

8000

10000

54

Correlao entre as variveis


1000

800

Fe

600

400

200

0
0

2000

4000

6000

8000

10000

Ca

1400

1400
1200

1200
1000

1000
800
600

Mn

Mn

800
600

400

400
200

200
0

0
0

2000

4000

6000

Ca

8000

10000

500

1000

1500

2000

2500

Mg

3000

3500

4000

55

Correlao entre as variveis


1400
1200
1000

Mn

800
600
400
200
0
0

200

400

600

Fe

800

1000

1400

1000
1200

800

1000
800

Mn

Fe

600

400

600
400

200
200

10

20

30

40

Zn

50

60

70

10

20

30

40

Zn

50

60

70

56

Correlao entre as variveis


0,6995
0,6925
0,7270 0,7920
0,1480

0,4209

0,5370

0,4106

0,3855

0,4893

-0,1166

0,1211

0,0016

0,0767

0,0006

Mg

Ca

Zn

Fe

70

60

50

Zn (mg/kg)

Mg
Ca
Zn
Fe
Mn

40

30

20

10

0
5000

10000

15000

20000

K (mg/kg)

25000

30000

57

Pr-tratamento dos dados


Remoo de fontes de variao indesejveis: utiliza
recursos matemticos

Transformao

Prprocessamento

Aplicado s amostras
(linhas da matriz X)

Aplicado s variveis
(colunas da matriz X)

Transformao dos dados

Sinal Analtico = Sinal Verdadeiro + Rudo aleatrio


58

Transformao dos dados


Aplicao de tcnicas matemticas s amostras visando a
remoo de variaes aleatrias ou sistemticas
indesejveis que podem informaes relevantes.

Variaes aleatrias
(rudo experimental)

Tratadas por meio de


tcnicas de alisamento
(smoothing)

Variaes sistemticas

Reduzidas ou eliminadas
por meio de correes
da linha de base
59

Tcnicas de alisamento
Aumentar a razo sinal-rudo;
Utilizam uma janela;
Todos os pontos da janela so usados para determinar
a resposta no centro da mesma;

Esta janela percorre todo o espectro.


1 Alisamento pela mdia
Utilizado para diminuir o nmero de variveis (J).
Seleciona-se uma janela de abertura = n+1, com n par.
Calcula-se a mdia das respostas, que ser a primeira
varivel do espectro alisado. O comprimento de onda
ser igual ao do centro da janela.
60

1 Alisamento pela mdia


0,120

Absorbncia

Matriz 1 x 3420
0,080

0,040

0,000
0

10

20

30

40

50

60

Tempo (s)

Alisamento com uma janela de abertura


de n + 1 = 11 (onde n = 10)
1
2
3
4
5
6
7
8
9
10
11
0,000 0,017 0,033 0,050 0,067 0,083 0,100 0,117 0,133 0,150 0,167
0,001 -0,001 -0,003 -0,001 0,010 -0,003 0,000 -0,003 0,002 -0,004 -0,001

61

1 Alisamento pela mdia


0,120

0,120

Janela n + 1 = 11

Matriz 1 x 3420

0,080

Absorbncia

Absorbncia

Original

0,040

0,000

Matriz 1 x 311

0,080

0,040

0,000
0

10

20

30

40

50

60

10

20

Tempo (s)

0,120

0,120

Janela n + 1 = 31

40

50

60

Janela n + 1 = 61

Matriz 1 x 110

Matriz 1 x 56

0,080

Absorbncia

Absorbncia

30

Tempo (s)

0,040

0,080

0,040

0,000

0,000
0

10

20

30

Tempo (s)

40

50

60

10

20

30

40

50

60

Tempo (s)

62

2 Alisamento pela mdia mvel


A janela movimentada de elemento em elemento. Os
dados so alisados contm basicamente o mesmo
nmero de variveis que o original.
1
2
3 ...
58
59
60
61
62
63
Tempo 0,000 0,017 0,033 ... 0,950 0,967 0,984 1,000 1,017 1,034
Abs
0,001 -0,001 -0,003 ... 0,001 0,000 -0,001 -0,003 0,003 -0,003
1 a 60
2 a 61
3 a 62
4 a 63

0,120

0,120

Alisado

Matriz 1 x 3420

0,080

Absorbncia

Absorbncia

Original

0,040

Matriz 1 x 3420

0,080

0,040

0,000

0,000
0

10

20

30

Tempo (s)

40

50

60

10

20

30

Tempo (s)

40

50

60

63

Correes da linha de base


Absorbncia

0,680

0,640

Espectro no
infravermelho

0,600

0,560
400

1000

Primeira derivada

0,0008

1600

2200

2800

3400

4000

Nmero de onda (cm)

0,0004

0,0000

Primeira derivada

-0,0004

-0,0008
400

1000

1600

2200

2800

Nmero de onda (cm)

3400

4000

64

Pr-processamento
Classes

Amostras

Linhas

ID

Emb.

M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
M13
M14
M15
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
T11
T12
T13
T14
T15

papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
plastico
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel

Dias antes
do vencimento
21 a 90 dias
> 91 dias
21 a 90 dias
21 a 90 dias
21 a 90 dias
> 91 dias
21 a 90 dias
> 91 dias
21 a 90 dias
> 91 dias
< 20 dias
< 20 dias
> 91 dias
21 a 90 dias
> 91 dias
< 20 dias
< 20 dias
< 20 dias
< 20 dias
< 20 dias
< 20 dias
< 20 dias
21 a 90 dias
< 20 dias
< 20 dias
< 20 dias
< 20 dias
21 a 90 dias
21 a 90 dias
21 a 90 dias

Colunas

Variveis
Ac. Fol.
Fe
(mg/100g) (mg/100g)
298
7,3
258
9,3
339
10,9
272
8,7
307
9,3
340
6,6
289
8,4
488
7,1
306
7,7
322
7,0
285
8,3
325
7,5
313
9,1
317
7,6
398
8,3
183
7,6
176
7,1
206
7,2
75
4,4
118
6,8
207
8,8
189
7,6
223
8,0
180
7,1
174
8,7
107
6,3
97
5,6
152
7,4
141
7,8
140
8,7

Prot.
%
6,86
6,34
6,42
6,43
6,60
6,65
6,70
6,77
6,77
6,60
6,16
6,16
6,78
6,95
6,69
10,35
9,92
10,27
10,27
10,32
10,86
10,25
10,25
10,44
10,39
11,38
10,45
10,53
10,09
10,49

Lip.
%
1,07
1,06
0,97
0,83
0,73
2,50
2,58
3,08
2,81
3,23
2,50
2,58
3,08
2,81
3,23
1,21
1,17
1,29
1,49
1,43
1,21
1,17
1,29
1,18
1,17
1,49
1,48
1,45
1,58
1,15

Um.
%
10,78
11,36
11,16
9,72
11,64
11,69
11,95
11,95
11,87
11,71
11,72
11,71
12,20
11,81
12,16
12,94
12,99
13,22
12,58
13,23
11,05
11,69
12,54
12,46
12,34
12,72
12,66
12,57
11,82
12,65

Cin.
%
0,32
0,37
0,31
0,27
0,29
0,47
0,68
0,75
0,64
0,80
0,53
0,42
0,43
0,41
0,35
0,63
0,61
0,59
0,62
0,62
0,59
0,66
0,43
0,59
0,61
0,55
0,55
0,60
0,64
0,51

Carb.
%
80,96
80,86
81,13
82,74
80,73
78,69
78,08
77,45
77,91
77,65
79,78
80,27
78,63
79,25
82,16
74,28
75,31
74,64
75,04
74,39
76,29
76,22
75,49
75,33
75,49
73,86
74,85
74,85
75,87
75,20

65

Visualizao dos dados

Valores

500

AF
Fe
Prot.
Lip.
Um.
Cin.
Carb.

250

0
M2

M4

M6

M8

M10

M12

M14

T1

T3

T5

T7

T9

T11

T13

T15

Amostras
66

Questes

0,9
0,8

M10
M8

Cinzas

0,7
T7
M9
T14
T5 T2 T1
T9
T3T13

T4

0,6

T12

T11

M7
T10
T6
M11

0,5

T15

M6
T8
M12
M14

0,4

M13
M2

M15
M1

0,3

M4

M3

M5

0,2
4

10

Fe
Como todas as variveis se comportam?

O que mais influencia determinada amostra?

12

O que caracteriza um determinado grupo de amostras?

67

Valores sem pr-processamento

Dados originais
500

> valor
95% dos dados

400
Mdia + SD
Mediana

300

Mdia

200

Mdia - SD
95% dos dados

100
< valor

0
AF

Fe

Prot.

Lip.

Um.

Cin.

Carb.

Variveis
68

Dados centrados na mdia


Valores centrados na mdia

300

200

100

-100

-200
AF

Fe

Prot.

Lip.

Variveis

Um.

Cin.

Carb.
69

Dados autoescalados

Valores autoescalados

3
2
1
0
-1
-2
-3
-4
AF

Fe

Prot.

Lip.

Variveis

Um.

Cin.

Carb.
70

Tipos de pr-processamento
Centrado na mdia aplicado em

espectros

Mdia da varivel j ( x j )

1
x j xij
n i 1
x

Varivel j centrada na mdia ( ij (cm ) )

xij ( cm) xij x j

71

Dados centrados na mdia


Espectros (Vis) de Amarelo Tartrazina (Corante alimentcio)
1,000

0,600

Valores centrados na mdia

Amarelo Tartrazina

0,800

Abs

0,600

0,400

0,200

0,000

0,300

0,000

-0,300

-0,600

350

400

450

500

Comprimento de onda (nm)

Espectros originais

550

350

400

450

500

550

Comprimento de onda (nm)

Espectros centrado na mdia


72

Exemplo centrados na mdia


Dados originais
AmT1
AmT2
AmT3
AmT4
AmT5
Mdia

400
0,139
0,236
0,352
0,481
0,603
0,362

401
0,139
0,237
0,354
0,485
0,608
0,365

402
0,140
0,238
0,357
0,488
0,613
0,367

403
0,141
0,241
0,360
0,493
0,619
0,371

404
0,142
0,243
0,364
0,498
0,625
0,374

405
0,144
0,245
0,367
0,503
0,630
0,378

404
-0,232
-0,131
-0,011
0,124
0,250
0,000

405
-0,234
-0,132
-0,011
0,125
0,252
0,000

Dados centrados na mdia


AmT1
AmT2
AmT3
AmT4
AmT5
Mdia

400
-0,223
-0,126
-0,010
0,119
0,241
0,000

401
-0,225
-0,127
-0,010
0,120
0,243
0,000

402
-0,228
-0,129
-0,011
0,121
0,246
0,000

403
-0,230
-0,130
-0,011
0,123
0,248
0,000

73

Tipos de pr-processamento
Autoescalamento aplicado quando se quer
dar a mesma importncia a todas as variveis
(dados de concentrao)
2
Varincia da varivel j (
)
j

1
2
s
(
x

x
)

ij
j
n 1 i 1
2
j

74

Dados autoescalados
Desvio padro da varivel j (

sj s

sj)

2
j

Varivel j autoescalada ( ij (as) )

xij ( as)

xij x j
sj

75

Exemplo autoescalados
Ac. Fol.
(mg/100g)
Am1
298
Am2
258
Am3
339
Am4
272
Am5
307
Mdia
294
Varincia
1001
Desvio padro
31,6

Am1
Am2
Am3
Am4
Am5
Mdia
Varincia
Desvio padro

Ac. Fol.
0,10
-1,17
1,40
-0,72
0,39
0,00
1,00
1,00

Fe
(mg/100g)
7,3
9,3
10,9
8,7
9,3
9,1
1,7
1,3

Fe
-1,38
0,15
1,41
-0,31
0,12
0,00
1,00
1,00

Dados originais
Prot.
Lip.
%
%
6,86
1,07
6,34
1,06
6,42
0,97
6,43
0,83
6,60
0,73
6,53
0,93
0,04
0,02
0,21
0,15
Dados autoescalados
Prot.
Lip.
1,59
0,93
-0,93
0,86
-0,52
0,26
-0,48
-0,69
0,34
-1,36
0,00
0,00
1,00
1,00
1,00
1,00

Um.
%
10,8
11,4
11,2
9,7
11,6
10,9
0,6
0,7

Cin.
%
0,32
0,37
0,31
0,27
0,29
0,31
0,00
0,04

Carb.
%
81,0
80,9
81,1
82,7
80,7
81,3
0,7
0,8

Um.
-0,20
0,57
0,31
-1,63
0,95
0,00
1,00
1,00

Cin.
0,16
1,56
-0,02
-1,09
-0,60
0,00
1,00
1,00

Carb.
-0,39
-0,51
-0,19
1,76
-0,67
0,00
1,00
1,00
76

Pr-processamento - Detalhes

Escolha do pr-tratamento dos dados: essencial


para o xito de qualquer anlise.

Deteco de amostras anmalas (outliers): Estes


pr-tratamentos permitem a identificao de amostras
outliers.

Modelos de calibrao: Centrar os dados na mdia


Medidas de espectroscopia: Possuem alta correlao
entre as variveis (centradas na mdia).
77

Reflexes

Que tipo de pr-processamento deve ser aplicado


em espectros de massa?

Que tipo de pr-processamento deve ser aplicado


para dados cromatogrficos obtidos com uma arranjo
de diodos?

78

Anlise exploratria dos dados

Permite extrair o mximo de informao de um


conjunto de dados.

Anlise de Componentes Principais


Tcnicas:

(PCA, Principal Component Analysis)


Anlise de Agrupamentos Hierrquicos
(HCA, Hierarchical Cluster Analysis)

79

PCA
A Anlise de Componentes Principais
uma ferramenta quimiomtrica que
reduz as dimenses originais de um
determinado conjunto de dados
numricos.

80

Fundamentao da PCA
Varivel 2
PC2

PC1
PC3

Varivel 1

81

Componentes Principais (PC)


Os novos eixos (PC) so ortogonais
entre si (completamente no
correlacionados)

So construdos em ordem
decrescente da quantidade de
varincia que descrevem (primeiro
fator descreve maior varincia nos
dados que o segundo...)
Determinao da dimensionalidade
intrnseca do conjunto de dados
82

Componentes Principais (PC)


PC: Nmero menor que as
variveis originais (Reduo de
variveis)
Direo que melhor explica os
dados: 1 PC
Base da PCA: Calcular autovalores
e autovetores de uma matriz de
varincia-covarincia
83

Posto de matriz, autovalores e


autovetores
Posto de uma matriz
Nmero de linhas ou colunas linearmente
independentes.

Autovalores e Autovetores
Clculo de sub-sistemas muito menores para
dados que apresentam muitas variveis
(dimenses)

A = x

Autovetor
Autovalor

84

Varincia e Covarincia

6,3
5,6
7,4
7,8
8,7

241
98

8
1

...

107,5
97,0
151,7
141,2
139,9

...

...

Mdia
SD

...

Variveis
Auto.
AF
Fe AF Fe
297,7 7,3 0,6 -0,4
257,5 9,3 0,2 1,3
338,7 10,9 1,0 2,6
271,6 8,7 0,3 0,8
306,7 9,3 0,7 1,2
-1,4 -1,2
-1,5 -1,7
-0,9 -0,3
-1,0 0,0
-1,0 0,8
0
1

0
1

Varincia (s2):
Espalhamento dos dados ao
redor do seu valor mdio
para uma nica varivel

s
2

2
xd

n 1

onde

xd ( xi x )

Covarincia (Cov):
Distribuio dos dados
multivariados e suas
relaes

( x x AF )( x x Fe)

COV
i

n 1

85

Clculos

Varincia (s2)

0
1
1

0
1
1

-1,2
-1,7
-0,3
0,0
0,8
Soma

( xi xAF )( xi xFe)
-0,2
0,2
2,6
0,2
0,8

...

8
1

-1,4
-1,5
-0,9
-1,0
-1,0

...

241
98

-1,4 -1,2
-1,5 -1,7
-0,9 -0,3
-1,0 0,0
-1,0 0,8

...

6,3
5,6
7,4
7,8
8,7

...

107,5
97,0
151,7
141,2
139,9

...

...

Mdia
SD

...

Variveis
Auto.
xi xAF xi xFe
AF
Fe AF Fe
297,7 7,3
0,6 -0,4
0,6
-0,4
257,5 9,3
0,2 1,3
0,2
1,3
338,7 10,9 1,0 2,6
1,0
2,6
271,6 8,7
0,3 0,8
0,3
0,8
306,7 9,3
0,7 1,2
0,7
1,2

1,6
2,5
0,3
-0,1
-0,8
11,8
86

Matriz varincia e covarincia


11,8
COV = 29 = 0,4

COVAFFe

AF
Fe

AF
1,0
0,4

Fe
0,4
1,0
87

S Fe

Matriz varincia e covarincia


2

Graficamente
1,4

Cov

1,2

FeAF

1,0

0,8

0,6

0,4

Cov

0,2

AFFe

0,0
0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

S AF

88

S Fe

Matriz varincia e covarincia


1,4

1,2

1,0

0,8

0,6

0,4

0,2

0,0
0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

S AF

Projeo de uma
elipse
89

S Fe

Autovalores
1,4

1,2

PC1

1,0

0,8

PC2
Autovalor
da PC2

Autovalor
da PC1

0,6

0,4

0,2

0,0
0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

S AF

90

1,2

Autovetores

1,0

PC1

0,92
Sen =

0,8

0,92

= 0,73

1,26

0,6

PC2
0,4

0,2

Sen = 0,68
Cos = -0,73

Cos =

0,86

= 0,68

1,26

0,0
0,0

0,2

0,4

0,6

0,8

1,0

1,2

0,86
91

Varincia explicada
PC2
Varincia PC1 =

1,26

x 100 = 66%

0,65

1,26 + 0,65

Varincia PC2 =

0,65

x 100 = 34%

1,26 + 0,65

PC1

1,26
92

Matriz de Scores

...

PC2 = -0,73AFi + 0,68Fei

...

PC1 = 0,68AFi + 0,73Fei

...

PC2 = Cos AFi + Sen Fei

Scores
PC1
PC2
0,1
-0,7
1,0
0,7
2,6
1,0
0,8
0,3
1,4
0,4

...

PC1 = Cos AFi + Sen Fei

Auto.
AF
Fe
0,6
-0,4
0,2
1,3
1,0
2,6
0,3
0,8
0,7
1,2
-1,4
-1,5
-0,9
-1,0
-1,0

-1,2
-1,7
-0,3
0,0
0,8

-1,8
-2,3
-0,8
-0,7
-0,1

0,2
-0,1
0,5
0,8
1,3
93

Matriz de Loadings (Pesos)

AF
Fe

PC1
0,68
-0,73

PC2
0,73
0,68

Matriz de Scores: 30 linhas


(amostras) e 2 colunas (PC1 e
PC2)

Matriz de Loadings: 2 linhas


(variveis AF e Fe) e 2 colunas
(PC1 e PC2)
94

Visualizao dos dados - Scores


1,5

Scores

T15
T14

0,5

T5

PC2 (34%)

T11

0,0

T1
T7

T8

T2
T9
T3

T12

-0,5

T13

M3

T10
T6

1,0

M2
M4

M5
M13

M11
M7
M9
M1 M14
M12
M10

T4

-1,0

M15

M6

-1,5
-2,0

M8

-2,5
-4

-3

-2

-1

PC1 (66%)
95

Visualizao dos dados - Loadings


0,74

Loadings

AF

0,73

PC2 (34%)

0,72
0,71
0,70
0,69
0,68
0,67
-0,80

Fe
-0,60

-0,40

-0,20

0,00

0,20

0,40

0,60

0,80

PC1 (66%)
96

Scores e Loadings
0,74

Scores

T15
T10
T6
T14

1,0

PC2 (34%)

0,5

M3

-0,5

M9
M1M14
M12
M10

T4

-1,0

0,72

M15

0,71
0,70
0,69

M6

-1,5

AF

M2

T5 T13
T1
T7 T8 M4 M5
M13
T11 T2
T9
M11
M7
T3
T12

0,0

Loadings

0,73

PC2 (34%)

1,5

0,68

-2,0

Fe

M8

-2,5
-4

-3

-2

-1

PC1 (66%)

0,67
-0,80

-0,40

0,00

0,40

0,80

PC1 (66%)

97

ID
M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
M13
M14
M15
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
T11
T12
T13
T14
T15

AF
298
258
339
272
307
340
289
488
306
322
285
325
313
317
398
183
176
206
75
118
207
189
223
180
174
107
97
152
141
140

Fe
7,3
9,3
10,9
8,7
9,3
6,6
8,4
7,1
7,7
7,0
8,3
7,5
9,1
7,6
8,3
7,6
7,1
7,2
4,4
6,8
8,8
7,6
8,0
7,1
8,7
6,3
5,6
7,4
7,8
8,7

1,5
0,74

> AF

Scores
Loadings

< AF

T15
T10
T6
T14

1,0
0,73

0,0
0,71
-0,5
0,70
-1,0

-2,5
0,67
-4
-0,80

M2

T5 T13
T1
T7 T8 M4 M5
M13
T11 T2
T9
M11
M7
T3
T12
M9
M1M14
M12
M10

T4

M15

M6

0,69
-1,5
0,68
-2,0

M3

AF

0,5
0,72

(34%)
PC2(34%)
PC2

Amostras

Dados originais

Fe
-3 -0,40
-2

M8

-10,00 0

1
0,40

2 0,80
3

PC1(66%)
(66%)
PC1
98

Representao
p1

= t1

p2

t2

+ ...

N
t = scores
p = loadings

X TP E
99

Clculo dos scores e loadings via


SVD
SVD = Singular Value Decomposition
Decomposio de valores singulares

VT

V = Loadings

UxS = Scores
100

Exemplo numrico (SVD)


Matriz X (Espectros de 400 a 405 nm)
400
401
402
403
404
405
AmT1 0,139 0,139 0,140 0,141 0,142 0,144
AmT2 0,236 0,237 0,238 0,241 0,243 0,245
AmT3 0,352 0,354 0,357 0,360 0,364 0,367
AmT4 0,481 0,485 0,488 0,493 0,498 0,503
AmT5 0,603 0,608 0,613 0,619 0,625 0,630
Mdia 0,362 0,365 0,367 0,371 0,374 0,378

AmT1
AmT2
AmT3
AmT4
AmT5
Mdia

Matriz X centrada na mdia


400
401
402
403
404
-0,223 -0,225 -0,228 -0,230 -0,232
-0,126 -0,127 -0,129 -0,130 -0,131
-0,010 -0,010 -0,011 -0,011 -0,011
0,119 0,120 0,121 0,123 0,124
0,241 0,243 0,246 0,248 0,250
0,000 0,000 0,000 0,000 0,000

405
-0,234
-0,132
-0,011
0,125
0,252
0,000
101

Matrizes U, S e V
0,601
0,340
0,028
-0,320
-0,648

0,011
-0,131
-0,234
0,835
-0,481

U
-0,410
0,805
-0,429
0,020
0,015

0,521
-0,141
-0,749
-0,017
0,385

0,933
0,000
0,000
0,000
0,000

0,447
0,447
0,447
0,447
0,447

0,000
0,001
0,000
0,000
0,000

UxS = Scores
S
0,000
0,000
0,001
0,000
0,000

-0,398
-0,403
-0,406
-0,410
-0,415
-0,418

0,000
0,000
0,000
0,000
0,000

0,000
0,000
0,000
0,000
0,000

V (transposta)
-0,085
0,185
-0,263
0,285
0,315
0,247
-0,506
-0,690
0,271
-0,280
0,502
0,456
-0,168
0,065
-0,764
0,741
-0,367
0,060

0,771
-0,463
-0,080
0,050
-0,403
0,139
102

Scores (UxS)

Varincia
Total

0,560
0,317
0,026
-0,298
-0,605
0,217
0,217
99,9998

Scores (UxS)
0,000
0,000
0,000
0,001
0,000
0,000
0,001
0,000
0,000
0,000
0,000
0,000

0,000
0,000
0,000
0,000
0,000
0,000

0,000
0,000
0,000
0,000
0,000
0,000

0,000

0,000

0,000

0,000

A PC1 contm 100% da informao original


As demais PCs contm rudos

103

Reconstrundo a matriz X
0,601
0,340
0,028
-0,320
-0,648

0,933
0,000
0,000
0,000
0,000

-0,398
-0,403
-0,406
-0,410
-0,415
-0,418

0,000
0,000
0,000
0,000
0,000

U
0,000
0,000
0,000
0,000
0,000

0,000
0,000
0,000
0,000
0,000

0,000
0,000
0,000
0,000
0,000

0,000
0,000
0,000
0,000
0,000

S
0,000
0,000
0,000
0,000
0,000

0,000
0,000
0,000
0,000
0,000

0,000
0,000
0,000
0,000
0,000

0,000
0,000
0,000
0,000
0,000
0,000

0,000
0,000
0,000
0,000
0,000
0,000

V (transposta)
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000

104

Reconstrundo a matriz X
Matriz X centrada na mdia - Reconstruda
-0,223
-0,225
-0,228
-0,230
-0,232
-0,126
-0,127
-0,129
-0,130
-0,131
-0,010
-0,010
-0,011
-0,011
-0,011
0,119
0,120
0,121
0,123
0,124
0,240
0,243
0,246
0,248
0,250

0,139
0,236
0,352
0,481
0,603

0,139
0,237
0,354
0,485
0,607

Matriz X - Reconstruda
0,139
0,141
0,238
0,241
0,357
0,360
0,488
0,493
0,613
0,619

0,142
0,243
0,364
0,498
0,625

-0,234
-0,132
-0,011
0,125
0,253

0,144
0,245
0,367
0,503
0,630

105

Reconstrundo a matriz X
0,139
0,236
0,352
0,481
0,603

0,139
0,236
0,352
0,481
0,603

-0,000027
-0,000042
0,000011
0,000166
-0,000108

0,139
0,237
0,354
0,485
0,608

Matriz X - Original
0,140
0,141
0,238
0,241
0,357
0,360
0,488
0,493
0,613
0,619

0,142
0,243
0,364
0,498
0,625

0,144
0,245
0,367
0,503
0,630

0,139
0,237
0,354
0,485
0,607

Matriz X - Reconstruda
0,139
0,141
0,238
0,241
0,357
0,360
0,488
0,493
0,613
0,619

0,142
0,243
0,364
0,498
0,625

0,144
0,245
0,367
0,503
0,630

0,000006
-0,000016
0,000005
-0,000117
0,000122

0,000014
-0,000007
-0,000012
-0,000132
0,000137

-0,000020
-0,000012
-0,000038
0,000080
-0,000010

Matriz de erros
-0,000105 -0,000045
0,000074 0,000008
-0,000072 0,000024
0,000174 -0,000031
-0,000072 0,000045

106

Escolha do nmero de
componentes principais
Espectros (Vis) de Amarelo Tartrazina e Amarelo
Crepsculo (Corantes alimentcios)
1,200

Matriz: 54 linhas e
1001 variveis
(350 a 550 nm)

1,000

Abs

0,800

0,600

0,400

0,200

0,000

350

400

450

500

Comprimento de onda (nm)

550
107

Escolha do nmero de
componentes principais
Varincia explicada (%)

90

PC1 = 81,5%
PC2 = 18,4%
Demais PC < 0,1%
PC1 + PC2 100%

60

30

0
PC1

PC2

PC3

PC4

PC5

PC6

PC7

PC8

PC9

PC10

PC
108

Anlise Hierrquica de Agrupamentos


HCA: Hierarchical Cluster Analysis
Objetivos

Agrupa dados com

caractersticas semelhantes
em agrupamentos

Amostras prximas
(pequenas distncias) so
semelhantes
109

Medidas de distncia e Similaridade


Distncia entre a e b: dab
Distncia Euclideana

M
d ab ( xaj xbj )
j 1

1
M

Similaridade

d ab
sab 1
d max
110

Agrupamentos
Os objetos so conectados por ordem de similaridade.
importante definir a distncia de um objeto a um

grupo ou entre grupos


Tipos de conexes:

-Conexo simples
-Conexo completa
-Conexo por meio de medianas
-Conexo por meio de centrides

-Conexo incremental
-Conexo por meio de mdias de grupo
-Conexo flexvel
111

Exemplos de conexes

Conexo simples

Conexo

completa

Conexo
centride

112

Formao do dendograma

3
2

4
5
7

6
113

3
2

4
5
7

6
114

3
2

4
5
7

6
115

3
2

4
5
7

6
116

3
2

4
5
7

6
117

3
2

4
5
7

6
118

3
2

4
5
7

6
119

Dendograma
4
5

6
2
3
1
7
Maior
Similaridade

Menor
Similaridade

Menor
Distncia

Maior
Distncia
120

Exemplos de
aplicao de
HCA

121

Artigo cientfico: Caractersticas de


sedimentos provenientes do Rio Betari no
Parque Estadual Turstico do Alto Ribeira Petar

122

rea de
estudo

Pontos de
coleta
(1 a 6)

123

Os dados
Variveis
Pontos
1
2
3
4
5
6

pH
6,99
6,02
7,30
6,21
6,21
6,94

C. O.
5,65
2,78
8,07
21,27
3,14
34,77

Um.
20
22
33
34
39
14

T. M. O.
2,99
4,34
3,88
6,04
6,74
5,05

N. T. K.
0,60
0,30
0,30
0,75
0,45
0,45

P
1,33
0,84
0,80
1,17
0,71
1,19

Arg.
0,0
2,0
2,5
4,0
6,0
4,0

Sil.
11,5
9,0
52,5
20,0
22,5
64,0

Are.
66,5
70,0
45,0
76,0
42,5
24,0

Ped.
12
13
0
0
11
1

Pontos
1
2
3
4
5
6

Agreg.
10
6
0
0
18
7

CTC e.
19,0
9,9
7,5
12,4
2,9
10,6

Zn pT.
5497
1412
417
1033
330
640

Cu pT.
104
133
27
95
109
48

Cr pT.
64
37
29
43
30
35

Mn pT.
2785
1206
449
421
1160
731

Fe pT.
53841
48231
23591
33778
54725
32325

Ni pT.
41,31
31,98
0,00
27,32
28,00
24,66

Cd pT.
10
2
0
0
0
0

Pb pT.
7570
1824
205
117
116
636

Pontos
1
2
3
4
5
6

Al pT.
7990
14090
13788
25723
25223
18262

Zn bD.
5247
802
180
69
15
516

Cu bD.
9
7
5
17
4
15

Mn bD.
356
205
286
301
178
624

Fe bD.
479
864
538
2587
559
827

Ni bD.
0,00
1,83
0,00
3,08
0,00
4,41

Cd bD.
4,50
1,25
0,00
0,00
0,00
0,00

Pb bD.
5281
556
101
43
22
371

Al bD.
927
641
501
1034
726
752

6 pontos e 29 variveis (Tabela de dados)

6 linhas e 29 colunas (Matriz de dados)


124

Nmero de PCs

50

Varincia explicada (%)

40

3 PCs so mais
que suficientes!!!
Por qu???

30

20

10

0
PC1

PC2

PC3

PC

PC4

PC5
125

0,4

Ped.
Fe pT.
Cu pT. Agreg.

0,2

PC2

PC2

Mn pT.

0,0

Al bD.
N. T. K.
-0,2

5
-3

-2

-1

PC1

Scores

Fe bD.

pH

CTC e.

Sil.
Ni bD.

-2
-4

Cd
bD.
Cd
pT.
Pb pT.
PbpT.
bD.
Zn
Zn
bD.

-1

-5

T. M.Arg.
O.
Al pT.

Are.

Cr pT.

Ni pT.

Um.

-0,4
-0,3

Cu
Mn bD.
bD.
0,0

C. O.
0,3

PC1

Loadings
126

0,4

pH

0,3

Sil.

0,2

0
0,1

PC3

PC3

-0,1

-1

0,0

Mn bD.

Zn
bD.
PbbD.
bD.
Pb
pT.
Cd
MnpT.
pT.
Zn pT.

Ped.
CTC e.
Cr pT.
P pT.
Fe

Agreg.
C. O.
Um.
Ni bD.

-0,2
-0,3

-2
-5

-4

-3

-2

-1

PC1

Scores

-0,4
-0,3

Ni pT. Are.
Cu pT.

Cu bD.

N. T. K.
Al bD.

Arg.
T.AlM.
O.
pT.

Fe bD.

0,0

0,3

PC1

Loadings

127

0,4

1,0

3
2

Sil.

0,2

0,5

0,1

PC3

6
PC3

pH

0,3

0,0

-0,5

Zn
bD.
PbPb
Cd
pT.
CdpT.
bD.
Mn pT.
Zn pT.

0,0

CTC e.

-0,1

Mn bD.

-0,2

C. O.
P
Ni bD.

Cr pT.

-1,0
-2

-1

PC2

Scores

-0,4
-0,4

Um.Fe pT.

Arg.

NiAre.
pT.
T. M. O. Cu pT.
Al pT.

Cu bD.
-0,3

Ped.
Agreg.

N.AlT.bD.
K.
Fe bD.
-0,2

0,0

0,2

0,4

PC2

Loadings
128

Dendograma (Amostras)
6

129

Dendograma (Variveis)

130

Artigo cientfico: Caractersticas de amostras


de chs com fluorescncia de raios-X

131

Dendograma (Amostras)
Verde
Cidreira
Cidreira
Cidreira
Camomila
Preto
Boldo

Boldo
Morango
Melissa com flor de laranjeira

Hortel
Maa com canela

Maa com canela


Maa vermelha
Lima limo

132

Dendograma (Variveis)
Mn

Fe

Ca

Zn

Mg

133