Você está na página 1de 8

ARTIGO

ANÁLISE EXPLORATÓRIA EM QUÍMICA ANALÍTICA COM EMPREGO DE QUIMIOMETRIA: PCA E PCA DE IMAGENS

ResumoANALÍTICA COM EMPREGO DE QUIMIOMETRIA: PCA E PCA DE IMAGENS Este trabalho trata da divulgação e

Este trabalho trata da divulgação e aplicação da análise de componentes principais em dados numéricos e imagens (PCA e PCA de imagens). Foram apresentadas e discutidas as propriedades da PCA como alternativa para estudar uma grande quantidade e variedade de dados. No primeiro caso, foi empregada a PCA para estudar dados bidimensionais provenientes de análises morfológicas e químicas de plantas de girassóis cultivadas em três tipos diferentes de substrato: solo, solo + vermicomposto e solo + vermicomposto sa- turado de Cd, Cu, Pb e Zn. Com o auxílio da PCA concluiu-se que as plantas cultivadas no solo e solo + vermicomposto foram as mais altas e as plantadas no solo + vermicomposto saturado as de maior diâmetro do caule. Além disso, foi observado que o Cu e o Pb foram responsáveis por estas diferenças. No segundo caso foi empregada a PCA de imagens para classificar e prever imagens de diferentes formatos, tamanhos, cores e tamanhos de partí- cula. Com a PCA de imagens foi possível separar diferentes figuras geométricas (círculos, triângulos e losangos) e classificar algumas amostras. Além disso, foi apresentada a possibi- lidade de empregar a PCA de imagens para separar três tamanhos de partícula: 63, 150 e 600µm. Tanto a PCA como a PCA de imagens, podem se configurar como uma importante ferramenta quimiométrica em química analítica ou em outras áreas do conhecimento.

Geraldo D. Matos Edenir R. Pereira-Filho Ronei J. Poppi Marco A. Z. Arruda*

Universidade Estadual de Campinas – UNICAMP Departamento de Química Analítica

*Autor para correspondência:

Caixa Postal 6154 13083-862. Campinas. SP Fone: (19) 3788-3089 Fax: (19) 3788-3023 E-mail: zezzi@iqm.unicamp.br

Palavras-chave: Análise de componentes principais, PCA, PCA de imagens

SummaryAnálise de componentes principais, PCA, PCA de imagens This work presents the principal component analysis applied

This work presents the principal component analysis applied numerical data and image samples (PCA and Image PCA). In this work it was presented and discussed the PCA as a good alternative to study a great variety of data. In the first example, it was employed the PCA to study bidimentional data from morphological and chemical analysis of sunflower cultivated on three types of substrates: soil, soil + vermicompost and soil + vermicompost saturated of Cd, Cu, Pb and Zn. With PCA it was concluded that plants cultivated on soil and soil + vermicompost were the highest and the plants cultivated on soil + vermicom- post saturated presented the larger steam diameter. In addition, it was observed that Cu and Pb were responsible for these differences. On the second, it was presented the Image PCA properties for images classification and prediction with different shapes, sizes, colors and particle sizes. Using image PCA it was possible to separate three diferent geometrical images (circles, triangles and losangs) and to classify some samples. In addition, it was pre- sented the possibility to employ the image PCA for separating three particle sizes: 63, 150 and 600µm. The image PCA can be a good chemometric tool when applied to analytical chemistry or other research areas.

Keywords: Principal component analysis, PCA, Image PCA

38

Revista Analytica • Agosto/Setembro 2003 • Nº 06

areas. Keywords: Principal component analysis, PCA, Image PCA 38 Revista Analytica • Agosto/Setembro 2003 • Nº
ARTIGO Introdução É notório nos diversos segmentos da química o cresci- mento tecnológico/científico manifestado

ARTIGO

Introdução

É notório nos diversos segmentos da química o cresci-

mento tecnológico/científico manifestado pela utilização, cada vez mais freqüente, de recursos computacionais. A quí- mica analítica não foge a esta regra, principalmente, devido ao contínuo aumento da quantidade dos dados analíticos gerados, bem como o aumento da variabilidade de técnicas para obtê-los (1). Diante desta realidade, muitas vezes, os

químicos analíticos se deparam com uma gama de dados que possibilitam oferecer diversos tipos de informações. No cenário atual, é importante ter como alternativa algu- ma ferramenta matemática que possa, de um modo mais cri- terioso e científico, extrair um maior número de informações de um conjunto de dados ou imagens.

A Análise de Componentes Principais (PCA, do inglês,

Principal Component Analysis) é uma ferramenta quimiomé- trica que permite extrair, de um determinado conjunto de dados, informações relevantes para o seu entendimento. Este conjunto de dados é organizado na forma de uma matriz (da- dos bidimensionais), onde as linhas podem ser amostras e as colunas variáveis. Neste sentido, com a PCA é possível efetuar uma simplificação, redução da dimensão original dos dados, modelamento, detecção de amostras anômalas (outliers), seleção de variáveis importantes em determinado sistema, classificação e previsão (2). As aplicações da PCA são diversas e abrangem diversos ramos do conhecimento, principalmente a química analítica. Na literatura são encontradas inúmeras aplicações para a PCA, entre as quais destaca-se o trabalho de DelValls et al (3). Neste trabalho, os autores determinaram as fontes de contaminação em sedimentos marinhos provenientes do Golfo de Cádiz. Com a popularização da PCA e aumento da complexida- de dos dados analíticos gerados, houve também o surgimen- to da Análise de Componentes Principais de Imagens (Image PCA, do inglês, Image Principal Component Analysis). Esta segunda técnica é uma ferramenta quimiométrica muito útil, quando uma grande quantidade de imagens é produzida e necessita ser explorada (4-7). Além de dados numéricos, algumas técnicas analíticas são capazes de gerar imagens. A Microscopia Eletrônica de Varredura (SEM, do inglês, Scanning Electron Microscopy) é um exemplo de como imagens podem ser utilizadas na visu- alização de fenômenos e/ou interações que podem ter ocor- rido durante determinado processo e/ou tratamento (8). Ou- tros exemplos podem ser encontrados em microscopia ótica (9), sensoriamento remoto (8), entre outras. Entretanto, na grande maioria das vezes, essas informações visuais não são tratadas com o mesmo rigor científico que os dados numéri-

40

cos, com conseqüente perda de informações que podem ser relevantes. Geralmente, na análise de imagens em química analítica são efetuadas apenas algumas inspeções visuais a fim de encontrar similaridades ou diferenças perceptíveis somente ao olho humano. Ao se trabalhar com a PCA de imagens, uma nova manei- ra de visualização dos dados deve ser introduzida: a grande maioria dos químicos, principalmente os analíticos, está ha- bituada a submeter uma amostra de material biológico, por exemplo, a algum processo analítico, e ter como resultado final um número (concentração de algum analito). Já com a PCA de imagens, um conjunto de imagens é processado e o

resultado final pode ser, por exemplo, a distribuição espacial da concentração, informações sobre fenômenos de superfície

e similaridades ou desigualdades (classificação) entre mate- riais que passaram por algum processo (6).

As aplicações da PCA de imagens são variadas, porém, elas estão apenas surgindo na literatura. Como exemplos recentes pode ser citado o trabalho de Skarpeid et al. (10). Neste trabalho, os autores empregaram fotos de géis de ele- troforese para modelar a composição de diversos tipos de carnes, tendo como ferramenta a PCA de imagens. Shu et al. (11) empregaram a PCA de imagens e sensoria- mento remoto para monitorar a qualidade de águas, tendo como parâmetro a concentração da clorofila A. A PCA de imagens pode ser empregada, também, para a classificação

e previsão de propriedades funcionais de pós (12,13). Em um outro trabalho, Pereira-Filho et al. (14) emprega- ram PCA de imagens no estudo da morfologia de imagens micrográficas. Estas imagens foram provenientes de bobinas de Teflon utilizadas para a mineralização de amostras na forma de suspensões. Os autores concluíram, com o auxílio da PCA de imagens, que houve um comportamento distin-

to entre as diversas regiões da bobina de mineralização. Os mesmos autores (15) empregaram a PCA de imagens para in- vestigar características morfológicas de plataformas de grafi- te pirolítico tratadas com diferentes modificadores químicos. Estas plataformas haviam sido utilizadas na determinação de Al em suspensões de leite em pó. Os objetivos principais deste trabalho estão voltados para

a divulgação da PCA e da PCA de imagens no estudo de dados numéricos e imagens. No exemplo da aplicação da PCA fo- ram utilizados dados provenientes das análises morfológicas e químicas de girassóis plantados em diferentes condições: solo, solo agregado ao vermicomposto comercial e solo agregado ao vermicomposto saturado de metais (Cd, Cu, Pb e Zn). Com

a ajuda da PCA foi possível visualizar o comportamento das plantas sob diferentes condições de cultivo.

Revista Analytica • Agosto/Setembro 2003 • Nº 06

o comportamento das plantas sob diferentes condições de cultivo. Revista Analytica • Agosto/Setembro 2003 • Nº

ARTIGO

No caso da PCA de imagens, como uma ferramenta analítica/quimiométrica, foram apresentados dois exemplos que podem facilmente ser extrapolados para aplicações ana- líticas. No primeiro, foi abordada a propriedade da PCA de imagens em separar objetos com diferentes formatos e tama- nhos. No segundo exemplo, foi mostrada a propriedade em distinguir diferentes cores e tamanhos de partículas.

Teoria da PCA

A PCA para dados bidimensionais é uma ferramenta

quimiométrica bastante difundida e utilizada para diminuir a dimensão dos dados originais (2). Desta forma, uma gama infinita de informações pode ser organizada em uma matriz de dados X formada por N linhas e M colunas. As linhas po- dem ser, por exemplo, amostras de água de diferentes locais ou diferentes tratamentos, e as colunas (variáveis) podem ser características físico-químicas ou até mesmo concentrações de espécies químicas (16). Na PCA, a dimensão dos dados originais é diminuída

para um menor conjunto de dimensões chamadas de Com- ponentes Principais – PC’s. Desta forma, as principais vanta- gens da PCA estão na simplificação, modelamento, detecção de amostras anômalas, classificação e previsão (4, 17).

A partir dos PC’s são gerados dois novos conjuntos de

dados chamados de scores e loadings. Estes dois conjuntos tra- zem, respectivamente, informações sobre as amostras e as vari- áveis. A Figura 1 mostra a decomposição dos dados originais em scores (t) e loadings (p) e uma matriz de erros E. Ao se combinar os dados dos scores é possível efetuar um estudo mais criterioso dos dados originais sem perda de informações relevantes (18).

dados originais sem perda de informações relevantes (18). Figura 1. Decomposição de uma matriz X com

Figura 1. Decomposição de uma matriz X com N linhas e K colunas em vetores de scores (t) e loadings (p) e uma matriz de erros E.

Antes de aplicar a PCA a dados numéricos, é necessário efetuar algum tipo de pré-processamento nos dados origi- nais. Os principais tipos de pré-processamento são o Cen- trado na Média – CM e o Autoescalamento – AS (2). No CM calcula-se a média de cada variável, segundo a equação 1:

42

n (1) X j = 1 n Σ X ij i=j onde X j é
n
(1)
X j =
1
n Σ
X ij
i=j
onde X j é a média dos dados X ij contidos em uma coluna (va-
riáveis). Em seguida, subtrai-se os dados originais pela média
calculada (equação 2):
(2)
X ij(cm) = X ij - X j

No AS, calcula-se a variância dos dados s 2 (equação 3):

n 1 (3) S 2 = (X ij - X j ) 2 j n-1
n
1
(3)
S 2 =
(X ij - X j ) 2
j
n-1 Σ
i=j
em seguida, subtrai-se os dados originais pela média (ver
equação 1), e dividi-se pelo desvio padrão, segundo a
equação 4:
(4)
X ij - X j
X ij(as) =
S j

O pré-processamento CM é mais empregado para

dados espectrais e o AS é empregado quando se quer dar a mesma importância para todas as variáveis. A Figura 2 mostra uma ilustração dos tipos de pré-processamento discutidos anteriormente. Na Figura 2a temos 10 variáveis (representadas por retângulos) e, como pode ser facilmen- te observado, elas possuem tamanhos muito diferentes. Ao se aplicar o pré-processamento centrado na média colocamos todas as médias em zero (ver Figura 2b). Já na Figura 2c temos os dados autoescalados e o tamanho das variáveis é basicamente o mesmo.

e o tamanho das variáveis é basicamente o mesmo. Figura 2. Exemplo de pré-processamento de dados

Figura 2. Exemplo de pré-processamento de dados para 10 variáveis fictícias: (a) dados originais, (b) dados centrados na média (média igual a zero) e (c) dados autoescalados (média igual a zero e desvio padrão igual a 1). As linhas horizontais representam as médias de cada variável.

Revista Analytica • Agosto/Setembro 2003 • Nº 06

1). As linhas horizontais representam as médias de cada variável. Revista Analytica • Agosto/Setembro 2003 •
Com relação à PCA de imagens, temos que o processa- mento digital de imagens é

Com relação à PCA de imagens, temos que o processa- mento digital de imagens é uma área relativamente recente.

Experimentalmento digital de imagens é uma área relativamente recente. A mesma se beneficia de uma importante

A

mesma se beneficia de uma importante propriedade das

Programas computacionais

imagens: a sua transformação em uma matriz de dados. Cada pequena parte da imagem, denominada pixel (contra- ção das palavras em inglês picture element), pode ser conside- rada como um objeto de uma matriz (19).

Na aplicação da PCA e da PCA de imagens foi emprega- do o MATLAB versão 6.1 (The MathWorks, Natick, USA). As rotinas foram aplicadas a partir do “PLS Toolbox”, versão 2.0 (Eigenvector Technologies, Manson, USA).

As imagens digitalizadas (transformadas em matrizes) podem ser organizadas em um arranjo tridimensional G de dimensões I, J e K (ver Figura 3). As dimensões I e J são as

Dados numéricos Para exemplificar a utilização da PCA, foram realizados

coordenadas geométricas das imagens e K é o número de imagens ou variáveis. Desta forma, a PCA de imagens pode ser empregada para a interpretação de dados em um espaço

estudos das características física e nutricional de plantas, a partir de uma cultura de girassol. Estas plantas foram subme- tidas a três diferentes tipos de tratamentos/substratos:

de variáveis. O arranjo tridimensional G pode ser desdobrado em uma longa matriz G de tamanho I.J x K (ver Figura 3). Na PCA de imagens, a matrix G é multiplicada pela sua transpos-

Tratamento 1 – T1: 10 amostras cultivadas somente com solo (terra vegetal);

Tratamento 2 – T2: 10 amostras cultivadas com solo

ta

(G’) tendo como resultado uma matriz Z de dimensões K

agregado ao vermicomposto comercial, 20% (m/m);

e

K. A matriz Z é então decomposta em uma somatória de

Tratamento 3 – T3: 10 amostras cultivadas com solo

imagens de scores e vetores de loadings, ou seja, o mesmo tratamento matemático utilizado na PCA para dados bidi- mensionais (ver Figura 1). A visualização dos loadings é muito

agregado ao vermicomposto saturado de metais, utili- zando a mesma proporção do tratamento anterior.

útil para efetuar uma análise exploratória ou classificação (4).

A equação 5 resume as informações presentes na Figura 3. a (5) G = a=1
A equação 5 resume as informações presentes na Figura 3.
a
(5)
G = a=1 T a *p a + E
Σ

no qual G é o arranjo tridimensional de imagens, T a é o score de imagens, p a é a matriz de loadings e E é uma matriz com os erros (4-7).

a matriz de loadings e E é uma matriz com os erros (4-7). Figura 3. Formação

Figura 3. Formação do arranjo tridimensional G de dimensões I, J e K, e desdobramento do arranjo G em uma matriz G de dimensões I.J x K.

Revista Analytica • Agosto/Setembro 2003 • Nº 06

Imagens No primeiro exemplo, imagens de círculos, triângulos e losangos foram gerados empregando-se o Microsoft Power- Point 2000 (Microsoft, Redmond, USA) e tratadas utilizando

o PhotoSuite versão 1.05 (MGI, Santa Clara, USA). Já no segundo exemplo três amostras de giz escolar das cores vermelha, verde e azul foram peneiradas em peneiras (Bertel, Caieiras, Brasil) com granulometrias de 63, 150 e 600 µm. As amostras peneiradas foram digitalizadas empre- gando-se uma máquina fotográfica digital (Sony, New York, USA) acoplada a uma lupa com aumento de 32 vezes (Carl Zeiss, Jena, Germany). As imagens foram tratadas no software Axion Vision (Carl Zeiss). Quatro misturas foram preparadas:

a primeira com partes iguais das três cores, e as outras forma- das pelas mesmas cores, porém, misturadas duas a duas.

Procedimentosdas pelas mesmas cores, porém, misturadas duas a duas. Obtenção dos dados por meio de cultivo

Obtenção dos dados por meio de cultivo de girassóis Durante o período de cultivo (53 dias) foram avaliadas as diferentes fases de crescimento das plantas, tais como: altura, diâmetro do caule, comprimento e largura das folhas para cada um dos tratamentos. Estas informações foram coletadas ao lon- go do período de cultivo, e devido a este fato temos ao todo

95

amostras. Os dados foram organizados em uma matriz com

95

linhas e 10 colunas. As linhas correspondem às amostras.

Estas amostras foram divididas em 3 classes (T1, T2 e T3) e 10 variáveis (altura, diâmetro, comprimento e largura das folhas).

Com estes dados temos uma matriz com 10 variáveis, ou seja,

10 dimensões. O olho humano é capaz de observar apenas até

43

dados temos uma matriz com 10 variáveis, ou seja, 10 dimensões. O olho humano é capaz

ARTIGO

3 dimensões. Desta forma, é impossível visualizar, simultane-

amente, o comportamento das 10 variáveis para todas as 95 amostras. Já com a PCA é possível reduzir estas dimensões sem perder informações relevantes. Devido à natureza heterogênea

dos dados, os mesmo foram auto-escalados. Além das características físicas das plantas foi efetuada uma avaliação nutricional dos girassóis. Nesta avaliação foram determinados Cd, Cu, Pb e Zn nas raízes, caules e folhas, bem como no substrato. Após a aquisição dos dados

físicos as plantas foram coletadas, separadas, secas (até mas- sa constante) em estufa a 50ºC e trituradas. Todas as partes das plantas e substratos foram coletadas em triplicata sendo geradas 36 amostras. Para efetuar estas determinações foram realizadas decomposições destas amostras em forno de microondas fechado (modelo QW 3000, QCI, Mississauga, Canadá). Para a decomposição das diferentes partes das plantas foi empregado 150 mg de amostra, 10 ml HNO 3 (Merck, Darms- tadt, Alemanha) concentrado e 0,5 ml H 2 O 2 65% (Merck). O programa de mineralização utilizado constou de 4 etapas: 1 a etapa com potência de 400 W por 5 min; 2 a etapa potência de 790 W por 1 min; 3 a etapa com potência de 320 W por

4 min; e uma 4 a etapa a potência zero por 3 min (20). Após

a decomposição, as amostras foram filtradas e coletadas em balões volumétricos de 10 ml, cujo volume foi completado com HNO 3 0,2% (v/v). Os quatro metais de interesse foram determinados por Espectrometria de Absorção Atômica com Atomização Eletrotérmica (ETAAS, do inglês, Electrothermal Atomic Absorption Spectrometry). Nestas determinações foi empregado um espectrômetro modelo AAnalyst 600 da PerkinElmer (Überlingen, Alemanha). As decomposições das amostras de substratos foram fei- tas também em forno de microondas utilizando 250 mg de

amostra, 10 ml de água régia e 5 ml de HF (Merck). Para esta decomposição foram utilizadas as seguintes etapas: 1 a etapa com potência de 250 W durante 3 min; 2 a etapa com potên- cia de 500 W por 5 min; 3 a etapa com potência de 600 W por

5 min; 4 a etapa com potência de 700 W por 20 min; e uma

5 a etapa com potência de 80 W durante 2 min (21). As amos- tras foram filtradas e coletadas em balões de 25 ml, onde seu volume foi completado com HNO 3 2%. A quantificação dos íons metálicos foi feita por Espectrometria de Absorção Atô- mica com Chama (FAAS, do inglês, Flame Atomic Absorption Spectrometry). Neste caso empregou-se um AAnalyst 300 da Perkin-Elmer (Norwalk, Estados Unidos). Finalizadas as determinações por ETAAS e FAAS os dados foram organizados em uma matriz com 36 linhas (3 réplicas para raiz, caule, folhas e substrato) e 4 colunas (concentração de Cd, Cu, Pb e Zn). Estes dados também apresentavam va- lores muito heterogêneos e foram auto-escalados.

44

Imagens Inicialmente, foram geradas 30 imagens a partir do Po- werPoint: 10 círculos, 10 triângulos e 10 losangos. Este pro- cedimento foi adotado para investigar as potencialidades da PCA de imagens em classificar/separar imagens com diferentes formatos. Cada grupo de imagens possuía certas particularida-

des; estas particularidades foram geradas ao se inserir diferen- tes números de figuras geométricas, cheias ou vazias, no inte- rior das imagens. Além destas, foram geradas mais 6 imagens

– 2 círculos, 2 triângulos e 2 losangos que apresentam algumas

características diferentes das 30 imagens iniciais. Com estas 6 imagens procuramos verificar se a PCA de imagens é capaz de classifica-las em seus respectivos grupos, e este grupo com 6 imagens foi chamado de amostras testes. Para todos os casos

o tamanho das imagens foi de 10x10 cm. As 36 imagens foram digitalizadas e a resolução final foi de 300 por 300 pixels para cada uma. Com as 36 imagens digitalizadas foi possível obter um arranjo tridimensional de 300x300x36, sendo este arranjo tratado por meio da PCA de imagens. As cores das imagens foram normalizadas para a escala de cinza, ou seja, foram utilizadas 256 (2 8 ) tonalidades variando do preto (0) até o branco (255). Ao utilizar a PCA de imagens foram testados dois proces- samentos de dados: centrado na média e auto-escalado, e as imagens foram empregadas, também, sem nenhum pré-proces- samento. O emprego dos dados sem nenhum tipo de pré-pro- cessamento significa que eles serão utilizados tal e qual. No caso do processamento centrado na média, é efetuada a média arit- mética dos dados (pixels) referentes a cada imagem, e a mesma é subtraída de cada pixel da imagem original. Para o processamen- to auto-escalado também é subtraída a média aritmética e, em seguida, o valor resultante é dividido pelo desvio padrão. Neste trabalho foi também investigada a possibilidade de utilizar a PCA de imagens para prever a forma de ima- gens destorcidas ou com partes faltantes. As 36 imagens descritas anteriormente foram digitalizadas empregando-se resoluções de 150x150, 75x75 e 30x30. Estas imagens foram autoescaladas e a PCA de imagens foi empregada. Além dos experimentos descritos anteriormente, foram in- vestigadas as potencialidades da PCA de imagens em separar imagens com formatos semelhantes, porém com tamanhos di- ferentes. Desta forma, as imagens já descritas foram reduzidas progressivamente de tamanho, e a resolução de 300x300 foi mantida. Para as 30 imagens (círculos, triângulos e losangos) as primeiras imagens foram dimensionadas em 10x10 cm, e as demais foram dimensionadas com 1 cm a menos que a imagem anterior. Após redimensionamento, as imagens foram digitalizadas e levadas até a PCA de imagens. No último exemplo foram empregados bastões de giz nas cores vermelho, verde e azul. Estes bastões foram tritu-

Revista Analytica • Agosto/Setembro 2003 • Nº 06

de giz nas cores vermelho, verde e azul. Estes bastões foram tritu- Revista Analytica • Agosto/Setembro

ARTIGO

rados e frações com 63, 150 e 600 µm foram obtidas com

o auxílio de peneiras. Além das imagens individuais, foram

realizadas misturas combinando as cores em uma proporção de 1:1, e uma mistura tendo todas as cores na proporção de

1:1:1. Em todos os casos foi empregada a fração com 63 µm. As frações e as misturas foram fotografadas com um aumento de 32 vezes, obtendo-se um total de 13 imagens.

um aumento de 32 vezes, obtendo-se um total de 13 imagens. Resultados e Discussão PCA –

Resultados e Discussão

PCA – Análises morfológicas e nutricionais A PCA foi aplicada com o intuito de estudar as caracte- rísticas (físicas e químicas) das plantas ao se empregar três tipos de tratamentos. Antes de visualizar os gráficos de scores

e loadings é necessário escolher o número de componentes

principais (PC’s) que caracterizam os dados originais. Os PC’s

são novos eixos criados a partir das variáveis iniciais. Na primeira PCA (características físicas) foi observado que a PC1 (Componente Principal 1) explica ou contém

cerca de 57% da variância dos dados originais. As PC’s 2, 3

e 4 explicam 20, 10 e 4%, respectivamente. Os demais PC’s

(de 5 a 10) explicam muito pouco dos dados originais (8% ao todo). A Figura 4 mostra um gráfico da variância explica- da em cada PC. Nesta figura pode-se observar que, a partir do PC4, não há uma variação muito grande da variância explicada, ou seja, ao se aplicar a PCA, foi possível reduzir a dimensão original dos dados de 10 (10 variáveis/dimensões) para 4 (4 PC). Os resultados aplicando a PCA são mostrados na Figura 5 (gráficos de Scores e Loadings). Na Figura 5a te- mos o gráfico dos scores para o PC1, PC2 e PC3. O gráfico de Scores traz informações sobre as amostras. Nesta figura é possível visualizar dois diferentes grupos: o primeiro é forma- do pelas plantas cultivadas em T1 (bolas pretas) e cultivadas em T2 (bolas azuis). O outro grupo, representado por bolas vermelhas, representa as plantas em T3. Na Figura 5b temos o gráfico dos loadings. Este gráfico traz informações sobre as variáveis. Os gráficos de scores e lo- adings são analisados em conjunto. Desta forma, temos que as plantas cultivadas em T1 e T2 (preto e azul) são as plantas mais altas (bola azul na Figura 5b). Já as plantas cultivadas em T3 correspondem às plantas mais baixas e com maior diâmetro do caule (bola vermelha na Figura 5b). Com a PCA foi possível verificar que as plantas cultivadas em T3 (em vermelho) apresentaram-se mais desenvolvidas em relação ao diâmetro do caule, comprimento e larguras das folhas (bolas pretas na Figura 5b), porém estas apresen- taram alturas inferiores aos demais tratamentos. Na PCA para as informações nutricionais das plantas fo- ram necessários apenas 3 PC’s para descrever toda a variância dos dados. A PC1, PC2 e PC3 explicaram 78, 13 e 9% (total

46

de 100%) da variância dos dados. Ao se avaliar as concentra- ções dos metais mencionados anteriormente foi detectada, novamente, uma separação entre as amostras cultivadas em T3 das demais plantas. Na Figura 5c podemos visualizar o gráfico dos scores para a PCA efetuada com as informações nutricionais. Em primeiro plano podemos notar dois grupos:

nutricionais. Em primeiro plano podemos notar dois grupos: Figura 4. Variância explicada (%) para cada componente

Figura 4. Variância explicada (%) para cada componente principal (PC’s). A seta em vermelho indica o número ideal de componentes principais – PC’s para representar os dados originais.

Figura 5a Figura 5b Figura 5c Figura 5d
Figura 5a
Figura 5b
Figura 5c
Figura 5d

Figura 5. Gráficos em três dimensões dos scores e loadings para as PCAs da avaliação morfológica e nutricional de uma cultura de girassol, cultivada em três diferentes tratamentos (T1, T2 e T3). Nos gráficos (a) e (b) temos os scores e loadings para a avaliação em relação ao aspecto morfológico. Nos gráficos (c) e (d) temos os gráficos dos scores e loadings em relação à avaliação nutricional.

Revista Analytica • Agosto/Setembro 2003 • Nº 06

dos scores e loadings em relação à avaliação nutricional. Revista Analytica • Agosto/Setembro 2003 • Nº

ARTIGO

o primeiro formado pelas plantas cultivadas em T1 (bolas

pretas) e em T2 (bolas azuis); o segundo formado pelas par- tes das plantas (caule – C, raiz – R e folhas – F) e substrato uti- lizados em T3 (bolas vermelhas). Além disso, foi notada uma

separação entre as diversas partes das plantas (raízes, caule e folhas) cultivadas em T3. O substrato do T3 também apre- sentou-se separado (representado pela letra S). Ao observar o gráfico dos loadings (Figura 5d) podemos constatar que tanto as plantas como o substrato do T3 são caracterizados pela alta concentração de Cu e Pb. Analisando os gráficos da Figura 5 pode-se concluir que

os metais responsáveis pela baixa estatura e diâmetro do caule

das plantas cultivadas em T3 foram o Cu e o Pb. Este tipo de conclusão só foi possível após o estudo dos dados com a PCA e união dos dois resultados. Este tipo de associação e estudo de

informações representa uma inovação em química analítica. Com o uso de uma ferramenta quimiométrica simples foi pos- sível visualizar comportamentos e tendências dos dados.

PCA de imagens - Investigação do formato,

resolução e tamanho As 36 imagens foram digitalizadas, e a PCA de imagens foi aplicada conforme ilustra a Figura 3. A Figura 6a mostra os resultados quando nenhum tipo de pré-processamento foi aplicado. A partir desta figura podemos visualizar que não foi possível detectar nenhum tipo de separação entre

as amostras. Mesmo ao se empregar as amostras centradas

na média, novamente, nenhuma tendência ou classificação foi observada. Entretanto, ao se utilizar as amostras com dados auto-escaladas, foi observada um separação entre as

diversas figuras geométricas utilizadas. A Figura 6b mostra a separação entre círculos (cheios e vazios), triângulos (cheios

e vazios) e losangos (cheios e vazios). As seis imagens

utilizadas como amostras (círculos, triângulos e losangos vazios – Figura 6b) foram posicionadas em seus respectivos grupos. A PCA de imagens além de separar as imagens em grupos efetuou uma classificação daquelas 6 imagens que utilizamos como amostras testes. Ao se empregar imagens com diferentes resoluções foi ob- servado que mesmo se deformando totalmente as imagem (re- solução 30x30) foi detectada uma nítida separação entre elas. Ao se trabalhar com imagens de diferentes tamanhos não foi detectada uma diferença entre os três formatos, mas sim uma diferenciação entre as amostras maiores e menores. Essa observação foi independente do tipo de pré- processamento utilizado. A Figura 7 mostra os resultados encontrados (dados centrados na média), onde as maiores imagens se posicionaram perifericamente, e as menores for- maram um grupo (estrelas).

48

Figura 6a Figura 6b
Figura 6a
Figura 6b

Figura 6. PCA de imagens das figuras geométricas. Em (a) temos as imagens sem nenhum tipo de pré-processamento e em (b) temos as imagens auto-escaladas. Os círculos, triângulos e losangos cheios representam as imagens descrita no item Procedimentos, e os vazios representam as 6 imagens que foram utilizadas como amostras.

PCA de imagens - Investigação das cores e tamanhos de partículas Ao se trabalhar com imagens de diferentes cores e tamanhos de partícula, foi notada uma separação entre as cores com a for- mação de três agrupamentos distintos. A PCA de imagens (com dados auto-escalados) permitiu, também, uma discriminação entre os diferentes tamanhos de partícula, como mostra a Figura 8. Já as imagens formadas pela mistura das cores apresentaram um agrupamento em separado. A mistura azul+vermelho se aproxima mais da cor azul, a mistura verde+vermelho é mais próxima da cor vermelha e as misturas entre as três cores e azul+verde são localizadas no meio deste sub-agrupamento. É interessante ressaltar que a PCA de imagens permitiu, ao mesmo tempo, efetuar uma separação das diferentes cores sem, con- tudo, confundir os tamanhos de partículas. Estas características podem ser muito úteis no estudo de fenômenos de superfície.

Revista Analytica • Agosto/Setembro 2003 • Nº 06

podem ser muito úteis no estudo de fenômenos de superfície. Revista Analytica • Agosto/Setembro 2003 •

ARTIGO

ARTIGO Figura 7. PCA de imagens com dados centrados na média para as imagens geométricas com

Figura 7. PCA de imagens com dados centrados na média para as imagens geométricas com diferentes tamanhos. Os círculos, triângulos e losangos em preto, vermelho e azul representam as imagens com dimensões de 8 a 10 cm. As estrelas vazias representam as imagens com dimensões de 1 a 7 cm.

vazias representam as imagens com dimensões de 1 a 7 cm. Conclusão Os exemplos mostrados neste

Conclusão

Os exemplos mostrados neste trabalho servem de subsídios para diferentes aplicações, bem como divulga- ção de ferramentas quimiométricas em química analítica com ênfase em análise exploratória. A PCA para dados bidimensionais pode ser empregada em uma gama muito extensa de dados numéricos. Assim, é viável estudar um número muito grande de variáveis para amostras de dife- rentes naturezas. Com os dados apresentados neste trabalho é possível visualizar a aplicação da PCA de imagens em diversos seg- mentos da química analítica ou mesmo em outras áreas do conhecimento. A PCA de imagens pode ser empregada, por exemplo, na detecção de diferentes tamanhos de par- tículas, ou até mesmo em um estudo mais aprofundado de fenômenos de superfície. Finalmente, as aplicações da PCA de imagens são ainda muito insipientes e têm muito ainda que contribuir na mudança de paradigma na análise e interpretação de dados analíticos.

Agradecimentos Os autores são gratos à Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) pelo apoio financeiro, e pela bol- sa concedida a ERPF (Processo no 99/00259-5) e ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) pelas bolsas concedidas a GDM, RJP e MAZA.

50

(CNPq) pelas bolsas concedidas a GDM, RJP e MAZA. 50 Figura 8. PCA de imagens para

Figura 8. PCA de imagens para as amostras de gizes colo- ridos. Os triângulos vermelhos, círculos verdes e quadrados azuis representam as cores vermelha, verde e azul, respectiva- mente. Os números representam os tamanhos de partículas:

63, 150 e 600 µm. Os triângulos pretos invertidos represen- tam as misturas de cores: todas as cores na proporção 1:1:1, verde+vermelho, azul+verde e azul + vermelho.

Referências

1.

Valcárcel M. Trends Anal. Chem. 1997, 16, 124.

2.

Wold S, Esbensen K, Geladi P. Chemometr. Intell. Lab. 1987, 2, 37.

3.

DelValls TA, Forja JM, González-Mazo E, Gómez-Parra A, Blas- co J. Trends Anal. Chem. 1998, 17, 181.

4.

Geladi P, Grahn H. Multivariate Image Analysis ; John Wiley & Sons, Chichester, 1996.

5.

Geladi P, Wold S, Esbensen K. Anal. Chim. Acta. 1986, 191, 473.

6.

Geladi P, Bengtsson E, Esbensen K, Grahn H. Trends Anal. Chem. 1992, 11, 41.

7.

Geladi P. Chemometr. Intell. Lab. 1992, 14, 375.

8.

Balaban RS, Kurtz I, Cascio HE, Smith PD. J. Microsc-Oxford. 1986, 141, 31.

9.

Turner DW, Plummer IR, Porter HQ. J. Microsc-Oxford. 1984, 136, 259.

10.

Skarpeid HJ, Moe RE, Indahl UG. Meat Sci. 2001, 57, 227.

11.

Shu X, Qiu Y, Kuang D. Proc. SPIE-Int. Soc. Opt. 1999, 3868,

460.

12.

Huang J, Esbensen KH. Chemometr. Intell. Lab. 2000, 54, 1.

13.

Huang J, Esbensen KH. Chemometr. Intell. Lab. 2001, 57, 37.

14.

Pereira-Filho ER, Poppi RJ, Arruda MAZ. Mikrochim. Acta. 2001, 136, 55.

15.

Pereira-Filho ER, Pérez CA, Poppi RJ, Arruda MAZ. Spectro- chim. Acta B. 2002, 57, 1259.

16.

Geladi P, Kowalski BR. Anal. Chim. Acta. 1986, 185, 1.

17.

Malinowski F, Howery D. Factor Analysis in Chemistry ; Wiley, New York, 1980.

19.

Castleman KR. Digital Image Processing, Prentice-Hall, Inc., Englewood Cliffs, 1979.

18.

Martens H, Naes T. Multivariate Calibration, John Wiley & Sons, Chichester, 1993.

20.

Arruda MAZ, Alves FL, Jardim WF, Cadore S, Smichowiski P, Marrero J.Quim. Nova. 2001, 24, 756.

21.

Alves FL, Cadore S, Jardim WF, Arruda MAZ. J. Braz. Chem. Soc. 2001, 12, 799.

Revista Analytica • Agosto/Setembro 2003 • Nº 06

S, Jardim WF, Arruda MAZ. J. Braz. Chem. Soc. 2001, 12, 799. Revista Analytica • Agosto/Setembro