Você está na página 1de 3

DIVULGAO

UMA INTRODUO ANLISE EXPLORATRIA DE DADOS MULTIVARIADOS


Jos Machado Moita Neto e Graziella Ciaramella Moita
Departamento de Qumica - Universidade Federal do Piau - 64.049-550 - Teresina - PI
Recebido em 19/3/97; aceito em 10/10/97

AN INTRODUCTION ANALYSIS EXPLORATORY MULTIVARIATE DATE. The modern technological ability to handle large amounts of information confronts the chemist with the necessity to re-evaluate
the statistical tools he routinely uses. Multivariate statistics furnishes theoretical bases for analyzing
systems involving large numbers of variables. The mathematical calculations required for these systems
are no longer an obstacle due to the existence of statistical packages that furnish multivariate analysis
options. Here basic concepts of two multivariate statistical techniques, principal component and hierarchical cluster analysis that have received broad acceptance for treating chemical data are discussed.
Keywords: cluster analysis; principal component analysis; dendrogram.

INTRODUO

PADRONIZAO E ESCALONAMENTO

A extrao de informaes dos resultados de um experimento


qumico envolve a anlise de grande nmero de variveis. Muitas
vezes, um pequeno nmero destas variveis contm as informaes
qumicas mais relevantes, enquanto que a maioria das variveis
adiciona pouco ou nada interpretao dos resultados em termos
qumicos. A deciso sobre quais variveis so importantes feita,
geralmente, com base na intuio qumica ou na experincia, ou
seja, baseado em critrios que so mais subjetivos que objetivos.
A reduo de variveis atravs de critrios objetivos, permitindo a construo de grficos bidimensionais contendo maior
informao estatstica, pode ser conseguida atravs da anlise de
componentes principais. Tambm possvel construir agrupamentos entre as amostras de acordo com suas similaridades, utilizando todas as variveis disponveis, e represent-los de maneira bidimensional atravs de um dendrograma. A anlise de
componentes principais e de agrupamento hierrquico so tcnicas de estatstica multivariada complementares que tm grande
aceitao na anlise de dados qumicos.
Antes de apresentar as duas tcnicas necessrio discutir
alguns termos e conceitos bsicos:

A finalidade da padronizao e escalonamento dos dados


originais expressar cada observao em termos de variaes
inerentes ao sistema (autoescalonamento).
Para exemplificar a importncia deste pr-tratamento da
matriz de dados, vejamos o comportamento de algumas variveis que podem ser medidas para o leo de soja refinado1:

A MATRIZ DE DADOS
Os dados consistem em n medidas de diferentes propriedades
(variveis) executadas sobre m amostras (objetos), de modo que a
matriz de dados D formada por mxn elementos (m linhas correspondentes as amostras e n colunas correspondentes as variveis).

propriedade
densidade relativa
ndice de refrao
ndice de saponificao
ndice de iodo

intervalo
0,919
1,466
189
120

0,925
1,470
195
143

A amplitude da densidade 0,006 enquanto que a do o ndice de iodo de 23. Uma diferena de densidade 0,003 entre
duas amostras de leo de soja corresponde a uma variao de
50% em relao a amplitude. Uma variao do ndice de iodo
desta mesma ordem de grandeza desprezvel (~0,01%). Alm
disso, o valor numrico entre as variveis diferem acentuadamente de modo que a comparao direta entre variveis levaria
a uma ponderao maior das variveis com maior valor numrico (p. ex.: ndices de iodo e saponificao).
Uma maneira de resolver estes problemas, mantendo a informao estatstica dos dados, realizar uma transformao
sobre o conjunto original dos dados de modo que cada varivel
apresente mdia zero e varincia igual a um (autoescalonamento). Esta transformao (z transformation) expressa cada observao como o nmero de desvios padres da mdia:

O exemplo mostrado acima (autoescalonamento) apenas


uma das vrias opes de transformaes sobre o conjunto de
dados que podem ser feitas.
A j-sima varivel representada por um vetor coluna. O
i-simo objeto, ou seja, uma amostra qualquer, representado
por um vetor linha chamado vetor resposta e pode ser descrito
como um ponto no espao n-dimensional.

QUMICA NOVA, 21(4) (1998)

MEDIDAS DE SIMILARIDADE
Cada objeto representado por um ponto no espao n-dimensional e, portanto, pode ser agrupado com outros que estejam
prximos e mais se assemelham a ele. Dois critrios de melhor
467

associao podem ser utilizados2:

vs de agrupamento hierrquico (Hierarchical Analysis ou


Cluster Analysis).

Covarincia e Correlao
ANLISE DE COMPONENTES PRINCIPAIS
Partindo da matriz de dados D (mxn), obtm-se a matriz de
covarincia C, onde seus elementos so dados por:

ckl grande e positivo quando, para a maior parte das amostras,


os valores das variveis k e l desviam da mdia na mesma direo. Portanto, a covarincia de duas variveis uma medida de
sua associao. Para cada elemento da matriz de covarincia
pode ser calculado o coeficiente de correlao, consequentemente a matriz de covarincia pode ser transformada numa matriz
de correlao R, onde seus elementos so dados por:
onde sk e s1 so os desvios padres das variveis K e 1
Os valores de rkl so uma covarincia padronizada entre -1 e +1.
Medidas de distncias
Na anlise de agrupamentos (cluster analysis) a similaridade entre duas amostras pode ser expressa como uma funo
da distncia entre os dois pontos representativos destas amostras no espao n-dimensional. A maneira mais usual de calcular a distncia entre dois pontos a e b no espao n-dimensional conhecida por distncia euclidiana (xab) e dada por:

Existem outras maneiras de calcular distncias, como a distncia de Mahalanobis, que no discutiremos aqui.
ANLISE DE AGRUPAMENTO HIERRQUICO
A tcnica de agrupamento hierrquico interliga as amostras
por suas associaes, produzindo um dendrograma onde as amostras semelhantes, segundo as variveis escolhidas, so agrupadas entre si. A suposio bsica de sua interpretao esta:
quanto menor a distncia entre os pontos, maior a semelhana
entre as amostras. Os dendrogramas so especialmente teis na
visualizao de semelhanas entre amostras ou objetos representados por pontos em espao com dimenso maior do que trs,
onde a representao de grficos convencionais no possvel.
Existem muitas maneiras de procurar agrupamentos no espao
n-dimensional. A maneira matematicamente mais simples consiste
em agrupar os pares de pontos que esto mais prximos, usando a
distncia euclidiana, e substitu-los por um novo ponto localizado
na metade da distncia entre eles. Este procedimento, quando repetido at que todos os pontos sejam agrupado em um s ponto, leva
a construo do dendrograma, onde, no eixo horizontal so colocadas as amostras e, no eixo vertical, o ndice de similaridade, sij,
entre os pontos i e j, calculado segundo a seguinte expresso:

onde dij a distncia entre os pontos i e j e dmx a distncia


mxima entre qualquer par de pontos. Os dendrogramas, portanto, consistem em diagramas que representam a similaridade
entre pares de amostras (ou grupos de amostras) numa escala
que vai de um (identidade) a zero (nenhuma similaridade).
Os dendrogramas so construdos diretamente por todos os
programas estatsticos que fazem classificao dos dados atra468

A anlise de componentes principais consiste essencialmente em reescrever as coordenadas das amostras em outro sistema de eixo mais conveniente para a anlise dos dados. Em
outras palavras, as n-variveis originais geram, atravs de suas
combinaes lineares, n-componentes principais, cuja principal
caracterstica, alm da ortogonalidade, que so obtidos em
ordem decrescente de mxima varincia, ou seja, a componente principal 1 detm mais informao estatstica que a componente principal 2, que por sua vez tem mais informao estatstica que a componente principal 3 e assim por diante.
Este mtodo permite a reduo da dimensionalidade dos pontos representativos das amostras pois, embora a informao estatstica presente nas n-variveis originais seja a mesma dos ncomponentes principais, comum obter em apenas 2 ou 3 das
primeiras componentes principais mais que 90% desta informao. O grfico da componente principal 1 versus a componente
principal 2 fornece uma janela privilegiada (estatisticamente)
para observao dos pontos no espao n-dimensional.
A anlise de componentes principais tambm pode ser usada
para julgar a importncia das prprias variveis originais escolhidas, ou seja, as variveis originais com maior peso (loadings)
na combinao linear dos primeiros componentes principais so
as mais importantes do ponto de vista estatstico.
Portanto, a tarefa do qumico que trabalha com estatstica
multivariada, consiste em interpretar a distribuio dos pontos
no grfico de componentes principais e identificar as variveis
originais com maior peso na combinao linear das componentes principais mais importantes.
Existem pacotes computacionais de estatstica que fazem todas as operaes necessrias obteno de componentes principais e agrupamento hierrquico, inclusive o tratamento prvio
de padronizao e escalonamento dos dados, como o caso do
SPSS, SYSTAT, PIROUETTE, etc. No SPSS (Statistical
Package for the Social Sciences), a opo de componentes principais aparece no menu atravs de uma de suas finalidades: a
reduo de dados. As componentes principais tambm podem
ser obtido como um dos mtodos da anlise de fatores (Factor
Analysis). O procedimento matemtico para obteno de componentes principais pode ser facilmente seguido por aqueles que
tm conhecimento de lgebra matricial e encontrado em diversos textos3,4, inclusive em portugus e dirigido para qumicos5.
APLICAO
Para ilustrar a aplicao destas tcnicas de estatstica
multivariada utilizamos uma tabela de composio de alimentos 6 que traz os teores de calorias, glicdios, protenas,
lipdios, clcio, fsforo e ferro para 20 frutas. Neste caso,
portanto, a matriz de dados representada por 7 variveis e
20 amostras. O dendrograma e os componentes principais
foram obtidas no SPSS.
A figura 1 mostra o dendrograma relativo a similaridade
das frutas segundo as variveis escolhidas. As maiores similaridades so encontradas entre abacaxi e anans, laranja pra e
tangerina e entre laranja Bahia, limo verde e limo doce. A
similaridade entre os abacates, entre as mangas, entre as bananas e entre a ata e a condessa tambm era esperada devido a
proximidade botnica. A ma vermelha mais prxima de
abacaxi e anans do que da ma branca, isto deve ter ocorrido
por que a composio das mas diferem acentuadamente em
fsforo e ferro. O grupo dos abacates diferem dos demais devido ao alto teor de lipdios e calorias. O grupo das bananas se
distingue pelo seu alto teor de glicdios.
A figura 2 est mostrando o grfico da componente principal 1 versus a componente principal 2. Neste grfico se distinQUMICA NOVA, 21(4) (1998)

ndice de similaridade
Objetos
Num

frutas

0,2

0,4

0,6

0,8

0,6

0,8

4
5
12
11
9
10
14
17
18
13
15
16
19
20
6
8
7
1
3
2

abacaxi
anans
ma vermelha
ma branca
manga rosa
manga espada
laranja Bahia
limo verde
limo doce
laranja pera
Tangerina
Lima
Ata
condessa
banana d'gua
banana ma
banana da terra
abacate comum
abacate guatemala
abacate roxo

0,2

+
0,4

Figura 1. Dendrograma obtido da anlise de agrupamento hierrquico utilizando as sete variveis: calorias, glicdios, protenas, lipdios,
clcio, fsforo e ferro.

gue facilmente o grupo das bananas e dos abacates. A razo


disso pode ser observada nos pesos das componentes principais: na primeira componente os maiores pesos esto em calorias (0,94) e lipdios (0,85), na segunda componente os maiores pesos esto nos glicdios (0,93) e nos lipdios (-0,48).
CONCLUSO
3

As facilidades computacionais de obteno de


dendrogramas e de grficos de componentes principais possibilitam uma utilizao mais corriqueira destes mtodos no
ensino e pesquisa em Qumica, contudo algumas observaes
finais so pertinentes:
a) a identificao de agrupamento pode ser feita por diversos algoritmos que podem produzir resultados diferentes
entre si;
b) as variveis escolhidas para a identificao dos grupos tem
grande importncia na interpretao do resultado final;
c) os grficos da componente principal 1 versus componente
principal 2 mostra a melhor janela para a observao dos
dados, porm a componente principal 3 pode trazer informaes estatstica relevantes para entendimento do sistema em estudo;
O conhecimento do sistema importante na anlise estatstica multivariada, portanto a interpretao destes resultados
uma tarefa dos qumicos.
AGRADECIMENTOS
Agradecemos ao professor Bencio de Barros Neto da Universidade Federal de Pernambuco e a professora Ieda S.
Scarminio da Universidade Estadual de Londrina pelas sugestes apresentadas ao texto de divulgao sobre anlise
multivariada para os alunos do curso de estatstica aplicada
qumica da UFPI, que posteriormente originou este artigo
de divulgao.

BT

Componente principal 2

REFERNCIAS

Bananas

2
BM BA

ME

MR
MR

AT

CD

AXLB
AN
LM MV
LD
LM
LG
LP

abacates

-1

AG
AC
AR

-1

Componente principal 1

Figura 2. Grfico da componente principal 1 versus componente principal 2.


Abacate comum (AC), abacate roxo (AR), abacate guatemala (AG), abacaxi
(AX), anans (AN), banana dgua (BA), banana da terra (BT), banana
ma (BM), manga rosa (MR), manga espada (ME), maa branca (MB),
ma vermelha (MV), laranja pra (LP), laranja Bahia (LB), Tangerina (TG),
Lima (LM), limo verde (LV), limo doce (LD), Ata (AT), condessa (CD),

QUMICA NOVA, 21(4) (1998)

1. Codex Alimentarius Commision. Codex Standards for


Edible Soya Bean Oil. Roma, FAO/WHO 1992. V. 8, p 912 (Codex Stan 20-1981).
2. Auf der Heyder, T. P. E.; J. Chem. Educ. 1990, 67, 461.
3. Kowalski, B. R.; (Ed.) Chemometrics: Mathematical
and Statistics in Chemistry. NATO ASI series. Srie
C; vol. 138. D. Riedel Publishing Company, Dordrecht, 1984.
4. Malinowski, E. R.; e Howery, D. G.; Factor Analysis in
Chemistry. John Wiley & Sons, Inc. New York, 1980.
5. Bruns, R. E. e Faigle, J. F. G.; Qum. Nova 1985, 8, 84.
6. Franco, G.; Tabela de Composio Qumica de Alimentos. 9 a edio. Livraria Atheneu Editora, Rio de
Janeiro 1992.

469

Você também pode gostar