Você está na página 1de 7

Quim. Nova, Vol. 25, No. 1, 46-52, 2002.

APLICAO DE ALGORITMOS GENTICOS NA SELEO DE VARIVEIS EM ESPECTROSCOPIA NO


INFRAVERMELHO MDIO. DETERMINAO SIMULTNEA DE GLICOSE, MALTOSE E FRUTOSE
Artigo

Paulo A. da Costa Filho e Ronei J. Poppi*


Instituto de Qumica, Universidade Estadual de Campinas, CP 6154, 13083-970 Campinas - SP

Recebido em 6/12/00; aceito em 11/6/01

APLICATION OF GENETIC ALGORITHMS IN THE VARIABLE SELECTION IN MID INFRARED SPECTROSCOPY.


SIMULTANEOUS DETERMINATION OF GLUCOSE, MALTOSE AND FRUCTOSE. Genetic algorithm was used for variable
selection in simultaneous determination of mixtures of glucose, maltose and fructose by mid infrared spectroscopy. Different
models, using partial least squares (PLS) and multiple linear regression (MLR) with and without data pre-processing, were used.
Based on the results obtained, it was verified that a simpler model (multiple linear regression with variable selection by genetic
algorithm) produces results comparable to more complex methods (partial least squares). The relative errors obtained for the best
model was around 3% for the sugar determination, which is acceptable for this kind of determination.

Keywords: genetic algorithm; sugars determination; infrared spectroscopy.

INTRODUO A crescente preocupao mundial com relao questo


ambiental outro aspecto de grande relevncia que tem incentivado
Uma das primeiras aplicaes da espectroscopia no infravermelho o desenvolvimento e aperfeioamento das anlises espectroscopicas
como ferramenta analtica, foi durante o perodo da segunda guerra no infravermelho. Estas anlises, alm de fornecerem os resultados
mundial1. Nesta ocasio, esta tcnica foi usada no setor de controle de maneira mais rpida, no so destrutivas e invasivas, assim como
de qualidade em algumas indstrias qumicas alems. Entretanto, no geram subprodutos qumicos txicos. Devido estas vantagens,
este tipo de anlise foi rapidamente substituda pela cromatografia este tipo de anlise tem sido aplicada no monitoramento em linha de
gasosa e cromatografia liquida de alta eficincia (HPLC), devido ao sistemas qumicos industriais3, na determinao de glicose4, colesterol
fato destas ferramentas de anlise viabilizarem a realizao de deter- e triglicerdeos em plasma sanguneo5, no auxlio de identificao de
minaes multicomponente quantitativas e qualitativas em amostras tumores em clulas6, no controle de qualidade7, na determinao de
complexas de interesse industrial de maneira mais eficiente. Estas nitrognio em plantas8, na indstria de polmeros9, no estudo da com-
vantagens agregaram um alto valor cromatografia, tornando-a ra- posio qumica de solos10, na adulterao da composio qumica
pidamente uma ferramenta padro de anlise para os mais diversos de combustveis11, leos comestveis e alimentos12, etc.
tipos de anlises qumicas. Como pode-se observar, hoje em dia h um vasto nmero de
Contudo, sabia-se que os espectros no infravermelho armazena- trabalhos utilizando a espectroscopia no infravermelho em anlises
vam uma grande gama de informaes sobre a amostra e portanto, quantitativas. Entretanto, neste momento depara-se com um novo
apresentavam um elevado potencial para serem empregados nos mais problema: apesar da espectroscopia no infravermelho fornecer um
diversos tipos de anlises qumicas e\ou fsicas. Entretanto, at duas grande nmero de dados, parte destes no possuem informaes
dcadas atrs era praticamente impossvel extrair informaes quan- correlacionadas diretamente com o(s) anlito(s) de interesse. Isso
titativas a partir dos espectros no infravermelho. Devido a este fato, pode ocasionar distores ao modelo, e conseqentemente a conclu-
a espectroscopia no infravermelho restringiu-se basicamente a apli- ses errneas nas anlises.
caes qualitativas ou para reforar hipteses propostas sobre a es- Para minimizar este problema tem sido utilizado diversos mto-
trutura qumica das espcies. dos de pr-processamento13, como escalamento, utilizao de deri-
Nos meados dos anos oitenta, uma srie de fatos nas reas cien- vadas e filtragem digital para remoo de rudo. Para minimizar o
tficas e tecnolgicas contriburam para a inverso deste quadro. rudo, vrios trabalhos tm proposto o uso do filtro de mdia m-
Dentre estes podemos destacar o desenvolvimento da microeletrnica vel14, transformada de Fourier 15, transformada de Wavelet16 ou
e a popularizao dos microcomputadores, que proporcionaram um Savitsky-Golay14. A derivada13 vem sendo empregada freqentemente
significativo avano nas anlises instrumentais, possibilitando a aqui- para melhorar a definio de bandas que se encontram sobrepostas
sio de maneira fcil e rpida de um grande nmero de dados de em uma mesma regio espectral e para correo de linha base.
uma mesma amostra. Conseqentemente, o tratamento dos dados Outro procedimento que vem sendo aplicado a seleo de vari-
obtidos passou a exigir modelos mais complexos que iam alm da veis, a qual permite eliminar os termos que no so relevantes na
tradicional calibrao univariada. O problema da modelagem destes modelagem. Isso gera um sub-conjunto com o melhor nmero de
dados foi solucionado com a aplicao de tcnicas quimiometricas2. variveis, e que apresente maior sensibilidade e linearidade para o(s)
Portanto, a quimiometria tambm pode ser considerada como uma analito(s) de interesse. Desta maneira, este procedimento minimiza
das fortes razes que contriburam para a utilizao da espectroscopia ou at mesmo elimina caractersticas potenciais dos interferentes,
como uma ferramenta de anlise em aplicaes qualitativas e quanti- bem como no-linearidades.
tativas na qumica analtica. Recentemente tem-se observado uma tendncia na aplicao do
algoritmo gentico na seleo de variveis17, entretanto, vale ressal-
* e-mail:ronei@iqm.unicamp.br tar que existem outros mtodos de seleo de variveis18-21. A prefe-
Vol. 25, No. 1 Aplicao de Algoritmos Genticos na Seleo de Variveis em Espectroscopia no Infravermelho Mdio 47

rncia pelo algoritmo gentico deve-se a sua eficincia, versatilidade


e robustez 17.
A seleo de variveis permite o uso intensivo de modelos mais
simples como a regresso linear mltipla (RLM) em calibrao
multivariada, que at ento, se limitava a aplicaes onde o nmero
de variveis independentes eram menor ou igual ao nmero de amos-
tras22. Uma explicao mais detalhada sobre o algoritmo gentico
pode ser obtida em um artigo publicado pelo autores na revista Qu-
mica Nova23.
Neste trabalho foi realizada a determinao quantitativa simult-
nea de glicose, maltose e frutose em soluo. Para tanto utilizou-se a
tcnica de reflexo atenuada (ATR), para a aquisio dos espectros
no infravermelho mdio. A reflexo total atenuada baseia-se no fe-
nmeno da reflexo total da radiao na interface de matrias com
ndices de refrao diferentes. Esta tcnica freqentemente empre-
gada para evitar interferentes na impresso digital do espectro de
filmes finos. Tem grande utilidade para examinar materiais densos
ou com alta absoro onde a transmisso no possvel24-28. Este
tipo de problema comumente verificado em situaes onde o Figura 1. Representao do planejamento experimental completo da mistura
solvente (gua, por exemplo) comporta-se como interferente, por de Acares com trs variavis e trs niveis.
apresentar estiramentos caractersticos na mesma regio de absoro
da espcie de interesse, inviabilizando a anlise pelos mtodos tradi-
cionais.
O interesse na quantificao destes acares deve-se ao fato de
que estes so parte integrante e essencial do reservatrio nutricional
dos animais (em animais superiores essencial a presena de glicose
no sangue) e estrutural das plantas. Tambm possuem um grande
interesse industrial, visto o grande nmero de aplicaes destas es-
pcies qumicas nos mais diversos segmentos.
O objetivo deste trabalho apresentar a potencialidade do
algoritmo gentico na seleo de variveis em dados espectroscpicos
no infravermelho, em problemas onde os espectros dos analitos es-
tudados possuem um alto grau de similaridade. Alm disso, abre a
perspectiva de poder-se construir um modelo matemtico mais sim-
ples, eficiente e robusto utilizando a Regresso Linear Mltipla. Tam-
bm pretende-se apresentar o uso de de tcnicas quimiomtricas na
resoluo de problemas qumicos que at ento apresentavam-se
insoluvis ou extremamente complexos de serem resolvidos pelo
mtodos tradicionais.
Figura 2. Representao do planejamento experimental incompleto da
PARTE EXPERIMENTAL mistura de Acares, com trs variavis e trs nveis.

A fase preliminar preparao das amostras envolveu um plane-


jamento experimental29-30 para determinar o melhor conjunto de va-
lores de concentrao para a preparao de 64 misturas de solues,
contendo glicose, maltose e frutose na faixa de 21,99 a 28,28 gL-1 ;
15,99 a 28,30 gL-1 e 9,97 a 16,30 gL-1 , respectivamente. As solues
foram preparadas por pesagem dos acares em uma balana analitica
e posterior diluio em gua deonizada.
Para obter-se o nmero ideal de amostras para o experimento,
optou-se por realizar 3 planejamentos experimentais distintos. Inici-
almente foi preparado um planejamento experimental com 3 nveis e
trs variveis totalizando um nmero total de 27 experimentos, con-
forme ilustrado na Figura 1.
Em seguida foi realizado um segundo planejamento na forma de
um cubo menor (Figura 2) contendo 14 amostras, que se encontra no
interior dos limites do primeiro cubo (Figura 1).
O terceiro planejamento envolveu a preparao de mais oito
amostras, formando um terceiro cubo menor (Figura 3), o qual en-
contra-se no interior dos limites dos dois primeiros cubos (Figuras 1
e 2).
Para totalizar o nmero de 64 amostras, foram preparadas mais Figura 3. Representao do planejamento experimental incompleto da
15 misturas das solues dos acares de forma aleatria dentro do mistura de Acares, com trs variavis e dois nveis.
48 Costa Filho e Poppi Quim. Nova

limite superior (cubo maior) e limite inferior de concentrao dos 3 que so as amostras 2, 26, 27 e 48, podem ser consideradas como
analitos (cubo menor). anmalas (amostras que possuem alguma espcie de comportamen-
A aquisio dos espectros foi realizada em um espectrofotmetro to diferenciado da populao da qual foram extraidas). O grfico da
de infravermelho Nicolet 520 FT-IR, utilizando a tcnica de reflexo primeira componente principal contra a segunda componente prin-
total atenuada (ATR), empregando um acessrio do tipo bote com cipal, mostra que estas amostras possuem valores de escores na se-
um cristal de seleneto de zinco. Os espectros foram obtidos utilizan- gunda componente principal bem superior que as demais amostras.
do 32 leituras por espectro; resoluo de 2 cm-1, regio de aquisio Isso leva a concluir que elas podem no pertencer a mesma popula-
de 4000 a 400 cm-1, em uma cmara purgada com nitrognio. Foi o dos demais sessenta espectros obtidos.
utilizado o ar como espectro de referncia.
Para o desenvolvimento dos modelos de calibrao foram esco-
lhidas 24 amostras para a construo do modelo de calibrao (fase
de calibrao) e 19 amostras para a fase de seleo das variveis
(fase de validao). Os mtodos de inteligncia artificiais como o
algoritmo gentico, exigem o uso de um terceiro grupo de amostras
(conjunto teste) que no tenha sido usado na etapa de seleo das
variveis. Isso porque durante a seleo de variveis o algoritmo
pode selecionar variveis que apresente bons resultados somente para
o caso particular das amostras do conjunto de validao, no poden-
do ser aplicada a outras amostras. Com o uso de um terceiro conjun-
to, composto de 17 amostras nesse caso, este tipo de problema pode
ser detectado.

Parmetros de Configurao do Algoritmo Gentico

O algoritmo gentico foi iniciado com uma populao inicial de


100 cromossomos, com um nmero de geraes igual a 100, proba- Figura 5. Anlise das componentes principais das 64 amostras de acares.
bilidade de cruzamento de 90%, probabilidade de mutao de 1%,
erro mximo para a finalizao do processo de 1% e nmero mxi- Por precauo, decidiu-se excluir estas amostras do estudo de
mo de variveis selecionadas igual a 10. Essa mesma configurao quantificao dos acares, pois o comportamento diferenciado do
foi executada para a seleo de variveis utilizando o mtodo dos perfil destas amostras com relao as demais sugere que estes espec-
mnimos quadrados (PLS)31 e regresso linear multipla (RLM)32. Para tros tiveram algum problema na sua aquisio, ou ento podem pos-
o mtodos dos mnimos quadrados empregou-se o nmero de com- suir um comportamento no linear33. Portanto, a incluso destes es-
ponentes principais igual a 4. pectros pode ocasionar distores no modelo de calibrao, com-
prometendo seriamente os resultados de previso do modelo.
RESULTADOS E DISCUSSO A anlise quantitativa dos acares envolveu a construo de
seis modelos de calibrao para avaliar efeitos como : influncia do
Anlise da Coleo de Espectros das Solues de Acares e pr-tratamento dos dados nos resultados de previso do modelo de
Seleo do Nmero de Componentes Principais calibrao e importncia do mtodo de calibrao utilizado (PLS ou
RLM) no desempenho do modelo de calibrao.
Fazendo a anlise visual da coleo de espectros dos acares Inicialmente sero apresentados os resultados obtidos pelos mo-
(Figura 4), observa-se a presena de 4 amostras com absorbncia delos de calibrao com a utilizao dos dados sem nenhum pr-trata-
superior a 0,7, que apresentam um comportamento diferenciado da mento para o PLS com e sem seleo de variaveis e para a RLM com
coleo de espectros obtidos. seleo de variavis. Posteriormente, sero mostrados os resultados
Realizando a anlise das componentes principais13,14 PCA (Fi- obtidos aps a utilizao de pr-tratamento dos dados para o PLS com
gura 5), verifica-se que as amostras com absorbncia acima de 0,7, e sem seleo de variavis e para a RLM com seleo de variavis. No
final uma comparao dos resultados obtidos ser realizada.

Modelos dos Mnimos Quadrados Parciais sem Pr-


Tratamento dos Dados

Um estudo prvio utilizando-se validao cruzada34, indicou que


o nmero ideal das componentes principais para este conjunto de
amostras seriam quatro, pois a partir desse nmero no existe altera-
o significativa no valor do erro de previso, conforme mostrado na
Figura 6.
Para que se possa comparar os resultados entre os modelos que
utilizam o mtodo dos mnimos quadrados parciais com e sem sele-
o de variavis, empregou-se quatro componentes principais para
todos os modelos de calibrao. Optou-se por manter fixo o nmero
de componentes principais, devido a dificuldade de determin-los
durante o processo de seleo de variveis. Neste tipo de otimizao,
Figura 4. Coleo de espectros no infravermelho das 64 solues de para obter o nmero de componentes principais ideais, seria neces-
acares. srio realizar uma validao cruzada para cada cromossomo gerado,
Vol. 25, No. 1 Aplicao de Algoritmos Genticos na Seleo de Variveis em Espectroscopia no Infravermelho Mdio 49

apenas uma das amostras possue erro relativo superior a 10% na


determinao deste analito.
Ainda pode-se observar na figura 7, que o erro relativo de previ-
so de maltose e frutose parecem estar correlacionados de alguma for-
ma, j que apresentam o mesmo comportamento com relao ao erro.
Curiosamente o erro de previso da glicose possue um comportamen-
to inverso, ou seja, erros relativos positivos nas concentraes de glicose
implicam em erros negativos nas concentraes de maltose e frutose, e
vice versa. Pode-se associar este comportamento a algum tipo de erro
sistemtico detectado ou criado pelo modelo de calibrao.
Os erros padro de previso encontrados para o conjunto de va-
lidao foram: 2,10 gL-1 para a maltose, 2,67 gL-1 para a glicose e
1,11 gL-1 para a frutose. J para o conjunto teste, os erros padro de
previso foram: 2,24 gL-1 para a maltose, 1,67 gL-1 para a glicose e
1,38 gL-1 para a frutose. Neste caso, observa-se que no existe gran-
Figura 6. Determinao do Nmero das Componentes Principais ideais, de diferena entre os valores do SEP calculados para o conjunto de
utilizando validao cruzada. validao e teste, indicando que o modelo est robusto.

Algoritmo Gentico na Seleo de Variveis no Mtodo dos


tornando praticamente invivel o processo, devido ao tempo reque- Mnimos Quadrados Parciais sem Pr-Tratamento dos Dados
rido de processamento.
A Figura 7 apresenta os erros relativos das determinaes dos 3 Em uma fase posterior, utilizou-se o algoritmo gentico para se-
acares analisados para o conjunto teste do modelo de calibrao, lecionar o melhor conjunto de variveis para o mtodo dos mnimos
utilizando a regio dos espectros compreendida entre 950 a 1200 quadrados parciais. Neste estudo utilizou-se o espectro na faixa en-
cm-1. Alm do erro relativo, foi utilizado o erro padro de previso tre 950 a 1200 cm-1 , sem nenhum pr-tratamento dos dados.
(SEP) como um segundo parmetro para avaliar o erro obtido duran- No final do processo de seleo das variveis, foi selecionado o
te as fases de validao e teste do modelo construdo35. melhor conjunto de comprimentos de onda que minimizam o erro no
processo de validao do modelo de calibrao. Os seguintes nme-
ros de onda foram selecionadas: 1036; 1038; 1051; 1062; 1109; 1117;
1118; 1120; 1148; 1168 cm-1.
A Figura 8 apresenta os erros relativos para as amostras do con-
junto teste, obtidos neste caso. Aps a seleo de variavis, os erros
relativos de previso dos trs analitos apresentam o mesmo tipo de
comportamento sistemtico, observado no modelo do PLS sem sele-
o de variavis. Contudo, para este novo modelo, observou-se que
a glicose apresenta o mesmo tipo de comportamento que os demais
acares.

Figura 7. Erro relativo para o conjunto teste do modelo de calibrao,


utilizando a regio dos espectros compreendida entre 950 a 1200 cm-1.

O erro padro de previso (equao 1) comumente emprega-


do, j que representa um erro mdio do modelo com as mesmas uni-
dades da(s) propriedade(s) estimada(s), sendo mais sensvel pre-
sena de amostras com erros elevados.
O erro padro de previso calculado como:
Figura 8. Erro relativo para o conjunto teste do modelo de calibrao,
(1) utilizando o algoritmo gentico na seleo de variavis.

onde: Oi o valor real Este comportamento, indica que provavelmente haja uma rela-
Oi representa o valor estimado pelo modelo o direta entre os erros de previso dos trs analitos. Isso pode estar
n o nmero de amostras. associado ao fato dos acares possurem estruturas qumicas pare-
cidas. A glicose, maltose e frutose tm espectros no infravermelho
A Figura 7 evidencia que o modelo de calibrao apresentou similares, devido aos modos vibracionais do anel dos acares se-
melhor desempenho para a previso da concentrao de glicose, pois rem os principais responsveis pelo perfil dos espectros36.
50 Costa Filho e Poppi Quim. Nova

Os erros padro de previso para o conjunto de validao foram: resultados obtidos sem o pr-tratamento dos dados e sem a seleo de
0,93 gL-1 para a maltose, 1,06 gL-1 para a glicose e 0,66 gL-1 para a variveis. Neste caso, os erros padro de previso para o conjunto de
frutose. Para o conjunto teste obteve-se os seguintes erros de previ- validao foram 1,03 gL-1 para a maltose, 1,05 gL-1 para a glicose e
so: 1,45 gL-1 para a maltose, 1,26 gL-1 para a glicose e 0,82 gL-1 0,52 gL-1 para a frutose. Para o conjunto teste os erros foram 1,16 gL-
1
para a frutose. para a maltose, 0,86 gL-1 para a glicose e 0,55 gL-1 para a frutose.
Ao comparar os resultados obtidos para o PLS com e sem a sele-
o de variveis, pode-se notar uma melhora significativa na estima-
tiva da concentrao dos acares.

Algoritmo Gentico na Seleo de Variveis para a Regresso


Linear Mltipla sem Pr-Tratamento dos Dados

Foi realizada a quantificao dos acares utilizando-se regres-


so linear mltipla para a modelagem. Para este modelo foram
selecionadas as seguintes variveis: 975; 996; 1036; 1039; 1068;
1071; 1100; 1103; 1148; 1164 cm-1.
A Figura 9 apresenta o erro relativo para as amostras do conjun-
to teste. Os erros padro de previso encontrados para o conjunto de
validao foram: 0,67 gL-1 para a maltose, 1,06 gL-1 para a glicose e
0,56 gL-1 para a frutose. Para o conjunto teste os erros padro de
previso foram: 1,08 gL-1 para a maltose, 1,18 gL-1 para a glicose e
0,70 gL-1 para a frutose. Pode-se notar que com a RLM houve uma
melhora nos resultados em relao ao PLS, onde observa-se erros Figura 10. Erro relativo para o conjunto teste do modelo de calibrao,
relativos sempre menores que 10%, assim como SEP inferiores para utilizando o mtodo dos mnimos quadrados parciais.
os trs acares.
A diferena significativa observada entre os resultados sem e
com pr-tratamento dos dados (antes da seleo de variveis) refor-
a a necessidade da aplicao de pr-tratamento dos dados quando
se utiliza um grande nmero de variavis para a construo do mo-
delo de calibrao.

Algoritmo Gentico na Seleo de Variveis no Mtodo dos


Mnimos Quadrados Parciais com Pr-Tratamento dos Dados

As variveis selecionadas pelo algoritmo gentico a partir de um


conjunto de dados pr-tratados foram:1002; 1055; 1066; 1121; 1125;
1141; 1165 cm-1. Observa-se que estas variveis selecionadas so
concordantes com as variveis selecionadas sem o pr-tratamento
dos dados, j que os nmeros de onda selecionados encontram-se
em regies bastante prximas. Entretanto tambm observa-se que
foram necessrias algumas variveis a mais para os dados sem o pr-
tratamento. Isso provavelmente encontra-se relacionado presena
Figura 9. Erro relativo para o conjunto teste do modelo de calibrao, de rudo e no-linearidades.
utilizando o algoritmo gentico na seleo de variavis na regresso linear Os resultados obtidos podem ser avaliados a partir da Figura 11
mltipla. e dos erros padro de previso que para o conjunto de validao
foram : 0,77 gL-1 para maltose, 1,03 gL-1 para a glicose e 0,44 gL-1
Mtodo dos Mnimos Quadrados Parciais com Pr-Tratamento para a frutose. J para o conjunto teste os erros foram : 0,78 gL-1
dos Dados para a maltose, 1,04 gL-1 para a glicose e 0,56 gL-1 para a frutose.
Mais uma vez, observa-se que os erros obtidos aps o pr-tratamen-
Nesta etapa realizou-se um pr-tratamento dos dados, para veri- to so menores e que com a seleo de variveis os valores de SEP
ficar se seria possvel reduzir ou eliminar rudos nos espectros, oriun- tambm diminuem.
dos da aquisio dos dados, e conseqentemente melhorar os resul-
tados de previso do modelo. Algoritmo Gentico na Seleo de Variveis para a Regresso
Como pr-tratamento dos dados utilizou-se o filtro de Savisky- Linear Mltipla com Pr-Tratamento dos Dados
Golay e a primeira derivada13,35. Basicamente o filtro de Savisky-
Golay ajusta um polinmio a uma certa janela com um nmero fixo A Figura 12 apresenta os erros relativos obtidos aps utilizar o
de pontos do espectro. Em seguida, h um deslocamento de um pon- modelo construdo a partir das seguintes variveis selecionadas pelo
to nesta janela, ajustando-se outro polinmio (da mesma ordem), e algoritmo gentico: 973; 977; 985; 992; 1061; 1075; 1095; 1136;
assim sucessivamente ocorre o deslocamento at o final do espectro. 1151; 1199 cm-1.
No caso da misturas de acares cada janela continha 31 pontos, e Pode-se observar que neste caso obteve-se uma estimativa da
foi utilizado um polinmio de segunda ordem. concentrao das amostras do conjunto teste sem que nenhuma de-
Observando os resultados das Figura 10 verifica-se certa melhora las tivesse erros relativos superiores a 10%. Alm disso, os erros
na previso das concentraes dos acares, comparado aos mesmos padro de previso para o conjunto de validao foram: 0,69 gL-1
Vol. 25, No. 1 Aplicao de Algoritmos Genticos na Seleo de Variveis em Espectroscopia no Infravermelho Mdio 51

onde:
- SEPAG_XX representa o valor obtido para o erro padro de previ-
so dos modelos que utilizaram o algoritmo gentico para a sele-
o de variveis.
- SEPPadro representa o valor obtido para o erro padro de previso
dos modelos que utilizaram somente o PLS (sem a seleo de
variveis).
- n e j indicam o nmero de amostras utilizadas para calcular
o SEP do conjunto teste, utilizando o algoritmo gentico (AG) e
para o mtodo padro de referncia de calibrao, respectiva-
mente.
A Tabela 1 apresenta os valores do teste F para os modelos de
calibrao dos mnimos quadrados parciais e regresso linear multipla
sem pr-tratamento dos dados. Para este conjunto de dados, com 95
% de confiana, o valor crtico para o teste F 2.27.
Figura 11. Erro relativo para o conjunto teste do modelo de calibrao,
utilizando o algoritmo gentico na seleo de variavis no mtodo dos
Tabela 1. Valores do teste F para os modelos de calibrao sem pr-
mnimos quadrados parciais.
tratamento dos dados.
Modelo Maltose Glicose Frutose
PLS 2.39 1.76 2.83
RLM 4.30 2.00 3.89

Aps a realizao do teste F com 95% de confiana para os


resultados de SEP do conjunto teste dos diversos modelos construdos,
constatou-se que apenas para a glicose, quando no se realiza ne-
nhum pr-tratamento, a seleo de variveis no conferiu uma me-
lhora significativa nos resultados, conforme se pode observar na Ta-
bela 1. O teste F reitera a expectativa que a aplicao do algoritmo
gentico em dados sem pr-tratamento pode resultar em uma melho-
ra nos resultados.
Posteriormente, o teste F foi aplicado aos dados pr-tratados, e
os resultados so mostrados na Tabela 2. O teste F mostrou que os
modelos construdos com e sem seleo de variveis dos dados pr-
tratados no apresentaram diferena significativa.
Figura 12. Erro relativo para o conjunto teste do modelo de calibrao,
utilizando o algoritmo gentico na seleo de variavis para a regresso Tabela 2. Valores do teste F para os modelos de calibrao com pr-
linear mltipla. tratamento dos dados.
Modelo Maltose Glicose Frutose
para a maltose, 0,99 gL-1 para a glicose e 0,48 gL-1 para a frutose.
Para o conjunto teste os erros foram: 0,90 gL-1 para a maltose, PLS 2.21 0.68 0.96
1,08 gL-1 para a glicose e 0,58 para a frutose. RLM 1.66 0.63 0.90

ANLISE DOS RESULTADOS OBTIDOS Os resultados obtidos pela regresso linear mltipla com a sele-
o de variveis so semelhantes aos com seleo envolvendo o
Como pode-se observar pelos resultados apresentados, a seleo mtodo dos mnimos quadrados parciais. Tambm pode-se constatar
de nmeros de onda proporciona uma significativa melhora nos re- que os resultados da RLM so similares quando os dados so pr-
sultados dos modelos de calibrao multivariada. Alm disso, pos- processados ou no. Isso mostra que os resultados podem independer
svel constatar que os resultados da regresso linear mltipla apre- da sofisticao do modelo matemtico e portanto, reforando a tese
sentaram desempenho comparvel aos fornecidos pelos modelo de de que modelos mais simples e sem pr-tratamento podem fornecer
os mnimos quadrados parciais com seleo de variveis, evidenci- resultados to bons quando os mais complexos. Contudo, os leitores
ando a viabilidade do uso de um modelo matemtico mais simples mais cticos podem argumetar que o algoritmo genetico por si s
na quantificao da mistura de acares. mais complexo que o PLS, o que no justificaria sua aplicao. En-
Para realizar uma comparao mais rigorosa dos resultados obti- tretanto, necessrio lembrar que a utilizao do algoritmo gentico
dos, pode-se empregar o teste F30. Este procedimento visa mostrar se mais simples e pode ser realizada sem a interveo ou ajuda do
as diferenas obtidas entre os resultados para o conjunto teste dos operador, o que confere uma grande vantagem para ser utilizado
diversos modelos so realmente significativas. Desta forma poss- quando exista pouco, ou nenhum, conhecimento sobre tcnicas
vel avaliar o desempenho de diferentes modelos para um mesmo quimiometricas. Por outro lado, para a utilizao de modelos como
conjunto de dados. o dos mnimos quadrados parciais necesrio um conhecimento
O teste F foi usado da seguinte maneira: mnimo do mtodo.
Na Figura 13 esto indicados os nmeros de onda selecionados
pelo algoritmo gentico para a regresso linear mltipla, quando se
(2) utiliza a primeira derivada dos espectros nos clculos.
52 Costa Filho e Poppi Quim. Nova

discrepncia em nenhum dos modelos relatados neste trabalho. Ou-


tro ponto que refora esta afirmao, que com a seleo de vari-
veis em dados com ou sem o pr-tratamento, o modelo apresenta
pouca variaes na previso das amostras de validao e teste.
A determinao de acares por espectroscopia no infravermelho
mdio com reflexo total atenuada mostrou que a seleo de vari-
veis por si s pode dispensar os pr-tratamentos de dados, j que as
variveis selecionadas procuram minimizar o efeito da relao sinal/
rudo, de sobreposies de picos e de no linearidade dos dados.
Sendo esta uma caracterstica muito importante, pois torna o uso de
ferramentas matemticas mais simples como a regresso linear, alm
de dispensar o pr-tratamento dos dados .

REFERNCIAS

1. Coates, J. P.; Appl. Spectrosc. Rev. 1996, 31 , 179.


Figura 13. Primeira derivada do espectro da mistura de acares, com as 2. Massart, D. L.; Vandeginste, B. G.; Deming, S. N.; Michotte, Y.; Kaufman,
variveis selecionadas pelo algoritmo gentico. L.; Chemometrics: a textbook; Elsevier, New York, 1986.
3. Hammond, R. P.; Proc. Control Qual. 1997, 9, 117.
4. Hazen, K. H.; Arnold, M. A.; Small, G. W.; Anal. Chim. Acta 1998, 371,
Aps o pr-tratamento, encontrou-se um erro mdio nas concen- 255.
traes dos acares na faixa de 3,2 a 3,5 %. De acordo com a litera- 5. Heise, H. M.; Marbach, R.; Bittner, A.; J. Near Infrared Spectrosc. 1996,
6, 361.
tura, o erro mdio aceitvel industrialmente na determinao destes
6. Haaland, D. M.; Jones, D. T. H.; Thomas, E. V.; Appl. Spectrosc. 1997,
acares por volta de 3%, faixa esta obtida pelo mtodo padro 51, 340.
que utiliza cromatografia lquida de alta eficincia33,37. Assim, a uti- 7. Boulou, J. C.; Analusis 1998, 26, M46.
lizao de espectroscopia no infravermelho pode tornar-se interes- 8. Mello, C.; Poppi, R. J.; de Andrade, J. C.; Cantarella, H.; Analyst 1999,
sante para determinaes on-line em processo industrial. 124, 1669.
9. Urban, M. W.; Allison, C .L.; Johnson, G. L.; DiStefano, F.; Appl.
A Tabela 3 apresenta uma tentativa de atribuio dos nmeros de Spectrosc. 1999, 53, 1520.
onda selecionados para a regresso linear mltipla, relacionando-os 10. Messerschmidt I.; Cuelbas, C. J.; Poppi, R. J.; de Andrade, J. C.; de Abreu,
com os respectivos acares. Segundo a literatura, os estiramentos C. A.; Davanzo, C. U.; J. Chemom. 1999, 13, 265.
encontrados na regio entre 1153 a 904 cm-1 so atribudos aos mdulos 11. Guchardi, R.; da Costa Filho, P. A.; Poppi, R. J.; Pasquini, C.; J. Near
Infrared Spectrosc. 1998, 6, 333.
vibracionais C-O e C-C. Na regio entre 1199 a 1474 cm-1 ocorrem as
12. Kangming, M.; van de Voort, F. R.; Ismail, A. A.; Zhuo, H.; Cheng, B.; J.
deformaes angulares das ligaes O-C-H, C-C-H e C-O-H 33,37. Am. Oil Chem. Soc. 2000, 77, 681.
13. Martens, H.; Naes,T.; Multivariate Calibration; Wiley; New York, 1989.
Tabela 3. Atribuio dos nmeros de onda selecionados. 14. Malinowski, E. R.; Factor Analysis in Chemistry; Wiley; New York, 1991.
15. Cerqueira, E. O.; Poppi, R. J.; Kubota, L. T.; Mello, C.; Quim. Nova 2000,
Nmero de onda Estiramento das Atribuio 23, 690.
16. Walczak, B.; Massart, D. L.; Chemom. Intell. Lab. Syst. 1997, 36, 81.
Selecionado Espcies puras
17. Goldberg, D.E; Genetic Algorithms in Search, Optimization, and Machine
(cm-1) (cm-1) Learnig; Addison-Wesley; Reading, 1989.
18. Costadinnova, L. ; Nedeltcheva, T.; Analyst 1995,120, 2217.
1 972 972 C-C (Frutose)
19. Frenich, A. G. ; Jouan-Rimbaud, D.; Massart, D.L.; Kuttatharmmakul, S.;
2 976 972 C-C (Frutose) Galera, M. M.; Vidal, J. L. M.; Analyst 1995,120, 2787.
3 985 984 C-C (Glicose) 20. Centner, V.; Massart, DL.; Anal. Chem. 1996, 68, 3851.
4 992 984 C-C (Glicose) 21. Hrchner,U.; Kalivas, J. H.; J. Chemom. 1995, 9, 283.
5 1060 1056,1065 C-O-C (Frutose, 22. Leardi, R.; Boggia, R.; Terrile, M.; J. Chemom. 1992, 6, 267.
23. Costa Filho, P. A. da; Poppi, R. J.; Quim. Nova 1999, 22, 405.
Maltose) 24. Mirabella Jr., F. M.; Appl. Spectrosc. Rev. 1985, 21 ,45.
6 1075 1080 C-O-C, C-O (Maltose) 25. Miller, M. P.; Appl. Spectrosc. Rev. 1987, 25, 329.
7 1095 1092 C-O (Maltose) 26. Gbel, R.; Krska, R.; Kellner, R.; Seitz, R. W.; Tomellini, S. A.; Appl.
8 1135 1136 C-O (Glicose) Spectrosc. 1994, 48 , 678.
27. Pike, P. R.; Sworan, P. A.; Cabaniss, S. E.; Anal. Chim. Acta 1993, 280,
9 1151 1148 C-O (Glicose)
253.
10 1199 1192 O-C-H, C-C-H, (Frutose) 28. Bayada, A.; Lawrance, G. A.; Maeder, M. ; Molloy, K. J.; Appl. Spectrosc.
C-O-H 1995, 49, 1789.
29. Morgan, E.; Chemometrics Experimental Design; Wiley, Baffins Lane,1991.
30. Bruns, R. E.; Scarminio, I. S.; Neto, B. B.; Planejamento e Otimizao de
CONCLUSO Experimentos ; Editora da Universidade Estadual de Campinas, Campinas,
1995.
31. Geladi, P.; Kowalski, B. R.; Anal. Chim. Acta 1986,185 ,1.
O algoritmo gentico mostrou-se uma ferramenta poderosa, no 32. Draper, N.; Smith, H.; Applied Regression Analysis; Wiley, New York,1981.
que tange robustez dos modelos. A robustez decorrente de um 33. Mirouze, F. L.; Boulou, J. C.; Dupuy, N.; Meurens, M.; Huvenne, J. P.;
modelo consistente, o qual apresenta pequenas variaes no desvio Legrand, P.; Appl. Spectrosc. 1991,47 , 1187.
34. Geladi, P.; Kowalski; Anal. Chim. Acta 1986, 185, 19.
padro dos erros, durante a previso de novas amostras. Esta uma
35. Willians, P.; Near-Infrared Technology in The Agricultural and Food
importante caracterstica, pois para modelos robustos, algumas ve- Industries; American Association of Cereal Chemists, St. Paul, Minnesota,
zes torna-se possvel realizar extrapolaes. USA, 1990.
A robustez do modelo, utilizando o algoritmo gentico, pode ser 36. Cadet, F.; Bertrand, D.; Robert, P.; Maillot, J.; Dieudonn, J.; Rouch, C.;
constatada ao comparar-se os resultados apresentados para o con- Appl. Spectrosc. 1991, 45 , 166.
37. Bellon-Maurel, V.; Vallat, C.; Goffinet, D.; Appl. Spectrosc. 1995, 49 , 556.
junto de validao e teste, j que os erros no apresentam elevada

Você também pode gostar