Escolar Documentos
Profissional Documentos
Cultura Documentos
Química Nova, 21 (4) (1998) 467
Química Nova, 21 (4) (1998) 467
AN INTRODUCTION ANALYSIS EXPLORATORY MULTIVARIATE DATE. The modern technological ability to handle large amounts of information confronts the chemist with the necessity to re-evaluate
the statistical tools he routinely uses. Multivariate statistics furnishes theoretical bases for analyzing
systems involving large numbers of variables. The mathematical calculations required for these systems
are no longer an obstacle due to the existence of statistical packages that furnish multivariate analysis
options. Here basic concepts of two multivariate statistical techniques, principal component and hierarchical cluster analysis that have received broad acceptance for treating chemical data are discussed.
Keywords: cluster analysis; principal component analysis; dendrogram.
INTRODUO
PADRONIZAO E ESCALONAMENTO
A MATRIZ DE DADOS
Os dados consistem em n medidas de diferentes propriedades
(variveis) executadas sobre m amostras (objetos), de modo que a
matriz de dados D formada por mxn elementos (m linhas correspondentes as amostras e n colunas correspondentes as variveis).
propriedade
densidade relativa
ndice de refrao
ndice de saponificao
ndice de iodo
intervalo
0,919
1,466
189
120
0,925
1,470
195
143
A amplitude da densidade 0,006 enquanto que a do o ndice de iodo de 23. Uma diferena de densidade 0,003 entre
duas amostras de leo de soja corresponde a uma variao de
50% em relao a amplitude. Uma variao do ndice de iodo
desta mesma ordem de grandeza desprezvel (~0,01%). Alm
disso, o valor numrico entre as variveis diferem acentuadamente de modo que a comparao direta entre variveis levaria
a uma ponderao maior das variveis com maior valor numrico (p. ex.: ndices de iodo e saponificao).
Uma maneira de resolver estes problemas, mantendo a informao estatstica dos dados, realizar uma transformao
sobre o conjunto original dos dados de modo que cada varivel
apresente mdia zero e varincia igual a um (autoescalonamento). Esta transformao (z transformation) expressa cada observao como o nmero de desvios padres da mdia:
MEDIDAS DE SIMILARIDADE
Cada objeto representado por um ponto no espao n-dimensional e, portanto, pode ser agrupado com outros que estejam
prximos e mais se assemelham a ele. Dois critrios de melhor
467
Covarincia e Correlao
ANLISE DE COMPONENTES PRINCIPAIS
Partindo da matriz de dados D (mxn), obtm-se a matriz de
covarincia C, onde seus elementos so dados por:
Existem outras maneiras de calcular distncias, como a distncia de Mahalanobis, que no discutiremos aqui.
ANLISE DE AGRUPAMENTO HIERRQUICO
A tcnica de agrupamento hierrquico interliga as amostras
por suas associaes, produzindo um dendrograma onde as amostras semelhantes, segundo as variveis escolhidas, so agrupadas entre si. A suposio bsica de sua interpretao esta:
quanto menor a distncia entre os pontos, maior a semelhana
entre as amostras. Os dendrogramas so especialmente teis na
visualizao de semelhanas entre amostras ou objetos representados por pontos em espao com dimenso maior do que trs,
onde a representao de grficos convencionais no possvel.
Existem muitas maneiras de procurar agrupamentos no espao
n-dimensional. A maneira matematicamente mais simples consiste
em agrupar os pares de pontos que esto mais prximos, usando a
distncia euclidiana, e substitu-los por um novo ponto localizado
na metade da distncia entre eles. Este procedimento, quando repetido at que todos os pontos sejam agrupado em um s ponto, leva
a construo do dendrograma, onde, no eixo horizontal so colocadas as amostras e, no eixo vertical, o ndice de similaridade, sij,
entre os pontos i e j, calculado segundo a seguinte expresso:
A anlise de componentes principais consiste essencialmente em reescrever as coordenadas das amostras em outro sistema de eixo mais conveniente para a anlise dos dados. Em
outras palavras, as n-variveis originais geram, atravs de suas
combinaes lineares, n-componentes principais, cuja principal
caracterstica, alm da ortogonalidade, que so obtidos em
ordem decrescente de mxima varincia, ou seja, a componente principal 1 detm mais informao estatstica que a componente principal 2, que por sua vez tem mais informao estatstica que a componente principal 3 e assim por diante.
Este mtodo permite a reduo da dimensionalidade dos pontos representativos das amostras pois, embora a informao estatstica presente nas n-variveis originais seja a mesma dos ncomponentes principais, comum obter em apenas 2 ou 3 das
primeiras componentes principais mais que 90% desta informao. O grfico da componente principal 1 versus a componente
principal 2 fornece uma janela privilegiada (estatisticamente)
para observao dos pontos no espao n-dimensional.
A anlise de componentes principais tambm pode ser usada
para julgar a importncia das prprias variveis originais escolhidas, ou seja, as variveis originais com maior peso (loadings)
na combinao linear dos primeiros componentes principais so
as mais importantes do ponto de vista estatstico.
Portanto, a tarefa do qumico que trabalha com estatstica
multivariada, consiste em interpretar a distribuio dos pontos
no grfico de componentes principais e identificar as variveis
originais com maior peso na combinao linear das componentes principais mais importantes.
Existem pacotes computacionais de estatstica que fazem todas as operaes necessrias obteno de componentes principais e agrupamento hierrquico, inclusive o tratamento prvio
de padronizao e escalonamento dos dados, como o caso do
SPSS, SYSTAT, PIROUETTE, etc. No SPSS (Statistical
Package for the Social Sciences), a opo de componentes principais aparece no menu atravs de uma de suas finalidades: a
reduo de dados. As componentes principais tambm podem
ser obtido como um dos mtodos da anlise de fatores (Factor
Analysis). O procedimento matemtico para obteno de componentes principais pode ser facilmente seguido por aqueles que
tm conhecimento de lgebra matricial e encontrado em diversos textos3,4, inclusive em portugus e dirigido para qumicos5.
APLICAO
Para ilustrar a aplicao destas tcnicas de estatstica
multivariada utilizamos uma tabela de composio de alimentos 6 que traz os teores de calorias, glicdios, protenas,
lipdios, clcio, fsforo e ferro para 20 frutas. Neste caso,
portanto, a matriz de dados representada por 7 variveis e
20 amostras. O dendrograma e os componentes principais
foram obtidas no SPSS.
A figura 1 mostra o dendrograma relativo a similaridade
das frutas segundo as variveis escolhidas. As maiores similaridades so encontradas entre abacaxi e anans, laranja pra e
tangerina e entre laranja Bahia, limo verde e limo doce. A
similaridade entre os abacates, entre as mangas, entre as bananas e entre a ata e a condessa tambm era esperada devido a
proximidade botnica. A ma vermelha mais prxima de
abacaxi e anans do que da ma branca, isto deve ter ocorrido
por que a composio das mas diferem acentuadamente em
fsforo e ferro. O grupo dos abacates diferem dos demais devido ao alto teor de lipdios e calorias. O grupo das bananas se
distingue pelo seu alto teor de glicdios.
A figura 2 est mostrando o grfico da componente principal 1 versus a componente principal 2. Neste grfico se distinQUMICA NOVA, 21(4) (1998)
ndice de similaridade
Objetos
Num
frutas
0,2
0,4
0,6
0,8
0,6
0,8
4
5
12
11
9
10
14
17
18
13
15
16
19
20
6
8
7
1
3
2
abacaxi
anans
ma vermelha
ma branca
manga rosa
manga espada
laranja Bahia
limo verde
limo doce
laranja pera
Tangerina
Lima
Ata
condessa
banana d'gua
banana ma
banana da terra
abacate comum
abacate guatemala
abacate roxo
0,2
+
0,4
Figura 1. Dendrograma obtido da anlise de agrupamento hierrquico utilizando as sete variveis: calorias, glicdios, protenas, lipdios,
clcio, fsforo e ferro.
BT
Componente principal 2
REFERNCIAS
Bananas
2
BM BA
ME
MR
MR
AT
CD
AXLB
AN
LM MV
LD
LM
LG
LP
abacates
-1
AG
AC
AR
-1
Componente principal 1
469