Você está na página 1de 14

Quim. Nova, Vol. 30, No.

5, 1347-1356, 2007 ELUCIDAO ESTRUTURAL DE SUBSTNCIAS ORGNICAS COM AUXLIO DE COMPUTADOR: EVOLUES RECENTES Ricardo Stefani e Paulo Gustavo Barboni Dantas Nascimento Departamento de Qumica, Faculdade de Filosofia, Cincias e Letras de Ribeiro Preto, Universidade de So Paulo, Av. Bandeirantes, 3900, 14040-901 Ribeiro Preto SP, Brasil Fernando Batista Da Costa* Departamento de Cincias Farmacuticas, Faculdade de Cincias Farmacuticas de Ribeiro Preto, Universidade de So Paulo, Av. do Caf, s/n, 14040-903 Ribeiro Preto SP, Brasil Recebido em 4/4/06; aceito em 1/2/07; publicado na web em 30/07/07

COMPUTER-AIDED STRUCTURE ELUCIDATION OF ORGANIC COMPOUNDS: RECENT ADVANCES. The development of new tools for chemoinformatics, allied to the use of different algorithms and computer programmes for structure elucidation of organic compounds, is growing fast worldwide. Massive efforts in research and development are currently being pursued both by academia and the so-called chemistry software development companies. The demystification of this environment provoked by the availability of software packages and a vast array of publications exert a positive impact on chemistry. In this work, an overview concerning the more classical approaches as well as new strategies on computer-based tools for structure elucidation of organic compounds is presented. Historical background is also taken into account since these techniques began to develop around four decades ago. Attention will be paid to companies which develop, distribute or commercialize software as well as web-based and open access tools which are currently available to chemists. Keywords: artificial intelligence; computer programmes; organic compounds.

INTRODUO A elucidao estrutural de compostos orgnicos um ramo to antigo da Qumica Orgnica quanto ela prpria. Durante muito tempo o processo de elucidao estrutural era emprico, baseado em observaes e experimentos simples, sendo que basicamente se empregavam processos degradativos e obteno de derivados, o que muitas vezes induzia a erros. Esta situao comeou a mudar a partir da segunda metade do sculo XX, quando os mtodos espectromtricos (espectrometria de massas EM, espectroscopia no infravermelho IV, no ultravioleta UV e ressonncia magntica nuclear RMN) se sedimentaram, permitindo maior preciso e confiabilidade na elucidao de estruturas. Com o passar do tempo, os mtodos de separao e purificao de substncias, as metodologias analticas e a tecnologia relacionada espectrometria evoluram consideravelmente. Como conseqncia, houve aumento considervel da preciso e confiabilidade dos dados obtidos atravs de anlises instrumentais. Isso teve como resultado o crescimento expressivo de dados espectromtricos disponveis para diversas substncias orgnicas, os quais passaram a ser organizados e catalogados como qualquer outra propriedade da molcula. Caso um qumico tivesse uma coleo de dados espectromtricos disponvel, poderia compar-las com os dados experimentais obtidos para uma substncia com estrutura desconhecida, evitando que todo o processo de interpretao dos espectros fosse feito a partir da etapa inicial. Assim, surgiram as primeiras colees handbooks de dados espectromtricos. A comparao dos dados espectromtricos obtidos de uma amostra desconhecida com aqueles disponveis na literatura tornou-se o modus operandi mais comum em elucidao estrutural e os handbooks passaram a ser um excelente auxlio nesta tarefa. Esta abordagem, a mais convencional de todas, tambm empregada em ferramentas
*e-mail: febcosta@fcfrp.usp.br

computacionais de elucidao estrutural, como ser discutido posteriormente. Entretanto, os handbooks tornaram-se cada vez mais volumosos e complexos; realizar uma simples busca em um deles sem possuir nenhum conhecimento prvio sobre a classe de substncia qual a amostra desconhecida pertencia, muitas vezes, era o mesmo que procurar uma agulha no palheiro. Alguns grupos de pesquisa perceberam essas limitaes e aproveitaram o desenvolvimento da informtica1 para criar as primeiras formas de tratamento de informaes qumicas atravs de computador. Estes grupos pesquisaram maneiras de se representar uma estrutura qumica no computador2, sendo que outros, como o do pioneiro projeto DENDRAL 3, pesquisaram como se poderia automatizar o processo de elucidao estrutural de substncias utilizando-se computadores. A esta abordagem iremos nos referir como elucidao estrutural auxiliada por computador, uma traduo do famoso jargo ingls CASE (Computer-Assisted Structure Elucidation). Aps os projetos pioneiros, vrios outros surgiram nos ltimos 40 anos e alguns desenvolvem-se at os dias atuais. Aps os resultados bem sucedidos de alguns destes projetos e com o rpido desenvolvimento de diferentes tcnicas computacionais, foram criadas condies para a evoluo e o aperfeioamento das tcnicas que pudessem auxiliar o qumico na elucidao estrutural de substncias orgnicas. Tcnicas de Inteligncia Artificial (IA) no seu sentido mais amplo passaram a ser empregadas e forneceram excelentes resultados. Uma vez que a demanda pela elucidao estrutural de substncias orgnicas cresce a cada instante, busca-se aumentar a produtividade, pois torna-se evidente que a etapa limitante do processo de elucidao de uma substncia no mais a gerao de dados, mas sim como interpret-los. Rapidez tambm essencial, sendo que j existem programas que realizam tarefas complexas de elucidao estrutural em apenas alguns segundos. Logo, evidente a necessidade do emprego de tcnicas computacionais que possam auxiliar o qumico no processo de elucidao estrutural. Desta

Divulgao

1348

Stefani et al.

Quim. Nova

forma, tanto a academia quanto as empresas de pesquisa e desenvolvimento de software dedicados qumica investiram maciamente no setor, gerando bons resultados. Tal fato pode ser constatado observando-se o aumento da quantidade de publicaes de artigos cientficos inerentes ao tema e nos produtos oferecidos pelas empresas. A facilidade ao acesso a programas de computador e a massificao da internet deram o impulso que faltava neste campo. Atualmente, excelentes ferramentas computacionais comerciais ou no voltadas para a elucidao estrutural de substncias orgnicas esto disposio dos usurios. Histrico O projeto pioneiro no ramo de elucidao estrutural automatizada e o mais clssico de todos foi o DENDRAL2. Basicamente o programa funcionava com as estratgias clssicas denominadas planejar-montar-testar. Durante a realizao do projeto, foram desenvolvidos diversos algoritmos4 e tcnicas que se tornaram clssicas e so atuais at os dias de hoje. O DENDRAL possua um banco de dados contendo vrios fragmentos de estruturas qumicas com seus respectivos deslocamentos qumicos. Todos esses fragmentos eram pequenos, com no mximo quatro ou cinco tomos, incluindo heterotomos. O sistema iniciava confrontando os dados de RMN 13 C do espectro-problema com os dados disponveis em seu banco de dados e ento era obtida uma lista de fragmentos compatveis com os dados do espectro e com a frmula molecular oriunda de EM. A partir desta fase, o DENDRAL no era mais totalmente automatizado, pois o qumico deveria informar ao programa quais grupamentos funcionais ou subestruturas deveriam estar presentes na soluo final do problema (goodlist) e quais deveriam estar ausentes (badlist). Aps esta etapa o programa elaborava as propostas estruturais. Um exemplo completo de elucidao estrutural utilizando-se o DENDRAL est disponvel na literatura5. Um dos primeiros programas que foi desenvolvido na dcada de 60 a partir do DENDRAL era um gerador de estruturas, ou seja, um programa que, partindo da frmula molecular, podia gerar todos os seus possveis ismeros. Este gerador foi a base para os sistemas CONGEN (CONectivity GENerator)6 e uma extenso deste, o GENOA (GENeration with Overlapping Atoms)7. Um outro programa pioneiro, porm mais recente e avanado que o DENDRAL, foi o DARC/EPIOS (Direct Access Radar Channel/Elucidation by Progressive Intersection of Ordered Substructures)8. A comear pelo banco de dados, este programa utilizava um sistema diferente daquele utilizado pelo DENDRAL. O DARC/EPIOS tambm possua um banco de fragmentos estruturais, entretanto, estes eram baseados em um tomo de carbono central ligado a seus respectivos vizinhos e juntamente com a descrio dos deslocamentos qumicos dos mesmos. Desta forma, haviam subestruturas conhecidas como ELCOs (Environment Limited and Concentric Ordered)9, capazes de descrever diversos ambientes qumicos. O algoritmo utilizado era capaz de selecionar os ELCOs cujos deslocamentos qumicos do tomo central fossem compatveis com os do espectro-problema. A partir dos ELCOs, a estrutura era gerada. O DARC/EPIOS utilizava um algoritmo mais eficiente que o do DENDRAL, necessitando de um mnimo de interferncia do qumico. Um dos programas desenvolvidos por Munk e colaboradores10 armazenava em seu banco de dados estruturas completas e seus respectivos deslocamentos qumicos de RMN 13C. O qumico deveria informar os dados experimentais de RMN 13C e o nmero mnimo de sinais que as solues deveriam apresentar. O programa fazia uma busca dos dados fornecidos pelo usurio em todo o banco e comparava os dados espectromtricos de cada estrutura do banco com os dados experimentais. Em seguida, o programa filtra-

va as estruturas que continham dados espectromtricos compatveis com os experimentais. Aquelas com o mnimo de sinais requeridos eram novamente filtradas, sendo que estruturas duplicadas eram descartadas. Assim, tinha-se uma lista de n estruturas compatveis com os dados experimentais do espectro-problema. Outros sistemas desenvolvidos pelo grupo de Munk incluem o ASSEMBLE11, o SESAMI12 e o HOUDINI13. O ASSEMBLE se diferencia-se dos outros sistemas por no possuir banco de dados e tampouco trabalhar com dados espectromtricos. Tal sistema lida apenas com a frmula molecular e todos os ismeros possveis so gerados a partir desta frmula molecular. Entretanto, apenas gerar todos os ismeros possveis para uma dada frmula molecular algo intil, pois o nmero de ismeros cresce exponencialmente de acordo com o nmero de tomos presentes na molcula, juntamente com o tempo de computao necessrio para gerar tais ismeros. Desse modo, os projetistas do ASSEMBLE adicionaram opes para o usurio poder indicar ao programa fragmentos que deveriam estar presentes ou ausentes na soluo final, o que em quimioinformtica se denomina restries (constraints). Assim, a partir da interpretao dos dados espectromtricos, o usurio poderia saber se por exemplo uma molcula possua ou no uma funo epxido ou um sistema , -insaturado ligado a uma carbonila e informar ao gerador. O programa ASSEMBLE evoluiu desde ento e hoje est disponvel em sua verso 2.0, porm paga. O SESAMI (Systematic Elucidation of Structure Applying Machine Intelligence)12, tambm do mesmo grupo de pesquisa, possui um gerador que trabalha primeiro procurando todos os centros quirais possveis na molcula, em conjunto com as restries impostas pelo usurio. Seu algoritmo baseado em tabelas que correlacionam estruturas com caractersticas de um espectro. A interpretao de espectros pelo SESAMI inicia-se pela frmula molecular e a extrao de fragmentos compatveis com dados espectromtricos da substncia desconhecida. Esses dados so utilizados como uma segunda lista, que a partir da utilizada para gerar as estruturas compatveis com a frmula molecular. Recentemente, Munk e colaboradores ainda desenvolveram o HOUDINI13, a partir do SESAMI, que um sistema completo que utiliza dados de RMN mono e bidimensionais e mais a frmula molecular da substncia desconhecida. O HOUDINI possui uma abordagem totalmente diferente dos sistemas anteriores, pois o seu algoritmo envolve primeiro a criao de uma hiper-estrutura com todas as ligaes possveis entre seus tomos. A partir deste ponto, as ligaes excedentes vo sendo removidas de acordo com as valncias atmicas e correlaes bidimensionais, at haver apenas a presena de poucas estruturas compatveis com os dados experimentais. O sistema CSEARCH14 (Carbon-13 SEARCH), desenvolvido pelo grupo de Robien, na Universidade de Viena, baseado no sistema de procura desenvolvido por Munk. Entretanto, possui alguns melhoramentos, tais como predio de deslocamentos qumicos baseada em cdigo HOSE15 (Hierarchically Ordered Spherical Description of Environment), procura por grupos funcionais e por similaridade de espectros, sendo que o sistema ainda capaz de quebrar as estruturas encontradas em fragmentos de at trs tomos e combinar estes fragmentos com novas estruturas on the fly16. Isso significa que o CSEARCH possui um gerador estrutural, ainda que primitivo. O sistema CHEMICS17, desenvolvido por um grupo de pesquisadores japoneses, tambm utiliza algoritmos semelhantes aos usados pelo DENDRAL e DARC/EPIOS e capaz tratar dados de RMN bidimensionais para descartar fragmentos invlidos durante a gerao estrutural. J o ACCESS18 outro sistema que combina um gerador estrutural com busca em uma biblioteca de espectros.

Vol. 30, No. 5

Elucidao estrutural de substncias orgnicas com auxlio de computador

1349

Participao do Brasil O SISTEMAT O desenvolvimento do SISTEMAT19 foi iniciado nos anos 80 e o nico dos sistemas especialistas utilizando IA que foi desenvolvido para mltiplas aplicaes alm de elucidao estrutural. Uma das aplicaes que merece destaque a utilizao de informaes sobre ocorrncias botnicas das substncias naturais de origem vegetal existentes no banco, o que permite seu uso para estudos quimiotaxonmicos. O SISTEMAT um sistema modular, formado por diversos pequenos programas que executam tarefas especficas, tais como insero de dados no banco (DATASIS20), anlise e extrao de dados botnicos (SISBOTA21 e SISTAX22) e busca de dados espectromtricos (REGRAS23 e SISCONST24). O sistema pode ser executado sob as plataformas DOS ou Microsoft Windows e est em contnuo desenvolvimento, sendo que atualmente se estuda incorporar Redes Neurais (RN) artificiais em seus mdulos25. Dos diferentes programas disponveis no SISTEMAT para a tarefa de elucidao estrutural, o mais til , sem dvida, o SISCONST. Ele trabalha exclusivamente com dados de RMN 13C e utiliza-os para procurar subestruturas compatveis com o espectro-problema em todo o banco do SISTEMAT. Porm o usurio responsvel por reunir os fragmentos e montar as propostas estruturais, visto que ainda falta um gerador de estruturas. ESTRATGIAS PRINCIPAIS NA ELUCIDAO ESTRUTURAL AUTOMATIZADA No contexto da elucidao estrutural, que envolve a situao onde todas as informaes obtidas a partir dos dados espectrais so insuficientes para se propor uma estrutura para uma substncia desconhecida, as principais estratgias para se realiz-la de forma automatizada so: planejamento, quando os dados disponveis so confrontados com dados de uma biblioteca e subestruturas so obtidas a partir destes dados; gerao de estruturas, quando as estruturas qumicas so geradas; validao, quando se verifica se as estruturas geradas so compatveis com os dados apresentados, incluindo-se aqui o processo de predio e comparao de espectros. Essa abordagem conhecida como planejar-gerar-testar (Figura 1) e est presente nos sistemas completos para elucidao estrutural automatizada. Contudo, a maioria dos programas desenvolvida especificamente para apenas uma destas trs etapas, funcionando como mdulos simples, porm de grande utilidade. O qumico ou o espectroscopista so responsveis por utilizar outros programas para realizar as demais etapas do processo, ou devem realiz-las usando apenas seu prprio raciocnio. Planejamento Nesta etapa, os dados espectrais obtidos (IV, RMN, EM) so confrontados com os dados existentes em um banco e aqueles que forem compatveis com os dados experimentais so selecionados e apresentados ao usurio. Em seguida, os dados seguem para a prxima etapa, a gerao de estruturas (Figura 1). Os dados presentes em tais bancos usualmente so estruturas qumicas ou fragmentos destas, que geralmente so armazenados como cadeias no formato SMILES26 (Simplified Molecular Input Line Entry System)27, MDL/MOL (ou SDF)28 ou ainda em algum formato prprio do sistema. Juntamente com esses fragmentos so armazenados os respectivos dados de espectrais. Alguns sistemas de busca de dados de RMN limitam-se a esta nica etapa, como o SISCONST do SISTEMAT e o sistema on-line NMRShiftDB. Gerao de estruturas A etapa seguinte do processo ao mesmo tempo a etapa

Figura 1. Diagrama contendo as estratgias principais da elucidao estrutural automatizada (planejar-gerar-testar), tendo como exemplo dados de RMN

limitante e consiste em combinar os fragmentos compatveis (e seus respectivos dados espectrais) com a frmula molecular em novas estruturas qumicas (Figura 1). Estas metodologias podem ser agrupadas em dois grandes grupos. O primeiro do tipo determinstico que, atravs de um algoritmo, vai testar todas as combinaes possveis de acordo com os dados presentes e combinaes impostas e, por isso, tambm so conhecidas por exaustivas. Dentre estas metodologias, esto a montagem29, a reduo30, ou a combinao das duas, utilizando-se tcnicas bidimensionais31. Entre os sistemas determinsticos temse o DENDRAL, DARC/EPIOS, ASSEMBLE, MOLGEN (MOLecular GENerator)32, CHEMICS, SESAMI, HOUDINI e ACD/StrucEluc. O segundo grupo de metodologia do tipo estocstico, fazendo uma gerao aleatria, de acordo com um determinado conjunto de dados e combinaes possveis, gerando ento estruturas aleatrias. No entanto, tais estruturas so quimicamente corretas e compatveis com os dados fornecidos, porm no so geradas todas as estruturas possveis. Dentre os mtodos estocsticos, pode-se citar o mtodo de Faulon33 e Algoritmos Genticos (AG). O desenvolvimento de metodologias estocsticas para gerao estrutural recente e, at o momento, apenas o SENECA (Faulon + AG) e o GENIUS34 (AG) as utilizam. Validao Nesta etapa, verifica-se se a estrutura gerada ou no compatvel com os dados fornecidos (Figura 1). Pode ser realizada aps todas as estruturas terem sido geradas ou em paralelo com a gerao estrutural, onde logo aps a sua gerao verificado se a estrutura compatvel com os dados do espectro real. Na primeira fase

1350

Stefani et al.

Quim. Nova

da validao, so checadas todas as valncias e a ordem das ligaes para se verificar se so vlidas ou no. Isso evita absurdos como, por exemplo, a presena de tomos de carbono tri ou pentavalentes na molcula. Se tudo estiver correto com as ligaes e valncias, a estrutura vlida (Figura 1). Contudo, deve-se saber se a estrutura gerada possui dados espectromtricos compatveis com os dados experimentais. Para isso, o mais comum predizer os dados de RMN 1H e de 13C e depois compar-los com os dados do espectro real. Para essa etapa, podem ser utilizadas metodologias empricas, tais como regras de adio (ChemNMR, da CambridgeSoft), procura em bancos de dados utilizando-se cdigo HOSE (NMRPredict, da Modgraph e os produtos da ACD/Labs, como ACD/HNMR ou ACD/CNMR Predictor) ou ainda IA, como nos sistemas especialistas, com emprego de RN (SPINUSWEB, GENIUS e SpecSolv35). O cdigo HOSE um mtodo de descrever a vizinhana de um tomo central, sendo muito utilizado para descrever o ambiente qumico deste tomo (Figura 2) e, a partir da, predizer o seu deslocamento qumico. O mtodo foi descrito por Bremser15, em 1978, e consiste em codificar a vizinhana de um tomo central de uma at n esferas, onde cada esfera representa tomos de uma at n ligaes distantes do tomo central. Por exemplo, um cdigo HOSE de duas esferas capaz de descrever as vizinhanas e de um tomo central X, sendo que um de trs esferas descreve as vizinhanas , e do tomo X (Figura 2) e assim por diante. Quanto maior for o nmero de esferas do cdigo HOSE, mais confivel ser a qualidade da predio de deslocamento qumico do tomo X.

Figura 2. Vizinhana descrita por um cdigo HOSE de trs esferas (vizinhanas D, E e J) para a estrutura de um esterol. O tomo central est indicado com um quadrado

As redes neurais artificiais ou redes neuronais compreendem uma outra metodologia muito utilizada para a predio de deslocamentos qumicos ou de espectros, como IV, RMN ou EM. Por exemplo, as RN tm a finalidade de validar uma determinada proposta estrutural, o que ser discutido adiante com maiores detalhes. uma das tcnicas que utilizam IA e que atualmente competem em igualdade com o clssico cdigo HOSE. PRINCIPAIS METODOLOGIAS Alm das regras peculiares de alguns dos sistemas j descritos muitas delas envolvendo IA diferentes metodologias esto sendo amplamente utilizadas, tais como mecnica quntica, redes neurais (RN) e algoritmos genticos (AG), ou at mesmo combinaes destas, sendo que algumas sero discutidas a seguir. Mecnica quntica Atualmente possvel utilizar os conceitos da mecnica quntica

para o clculo terico de grandezas relacionadas espectrometria de RMN, sobretudo para o tomo de 13C, no auxlio elucidao estrutural de substncias orgnicas. Com a utilizao de mtodos de estrutura eletrnica, baseados no formalismo de Hartree-Fock-Roothan36, em conjunto com mtodos de insero da correlao eletrnica, possvel obter valores muito prximos dos experimentais para um dado confrmero molecular. At recentemente, a utilizao de tcnicas de qumica quntica estava restrita a molculas com peso molecular muito baixo, devido ao alto custo computacional para a criao de modelos suficientemente complexos da estrutura eletrnica de molculas orgnicas que pudessem ser utilizados na predio das suscetibilidades magnticas. Com funes de base pequenas, a descrio do ambiente molecular no suficiente e pode levar a erros. Por isso, o clculo da suscetibilidade magntica deve ser realizado com funes de base extensas37-39, contendo funes difusas e de polarizao, de maneira a obter dados confiveis. A tcnica GIAO40 (Gauge Independent Atomic Orbital) a maneira mais utilizada para a obteno das suscetibilidades magnticas de tomos leves, definindo para cada tomo uma origem do potencial vetorial do campo magntico externo. H ainda a tcnica CSGT41 (Continuous Set of Gauge Transformations) que utiliza uma origem nica para o campo vetorial magntico externo. Existem ainda outras tcnicas, as quais utilizam orbitais localizados IGLO 42 (Individual Gauge Localized Orbital) e LORG 43 (Localized Orbital/Local Origin), porm so menos indicadas por sua maior dependncia com a funo de base utilizada. Todas estas tcnicas e mtodos encontram-se implementados e disponveis em vrios programas comerciais, como por ex. o Gaussian 03. Os valores obtidos para o deslocamento qumico so qualitativamente semelhantes aos experimentais e em muitos casos quantitativamente tambm. Enfatiza-se que os valores so obtidos para apenas uma conformao, no vcuo, e ajustes paramtricos dos valores tericos podem compensar pelas diferenas do modelo, buscando menores erros estatsticos. Um experimento que auxilia a determinao estrutural de substncias orgnicas verificar a concordncia linear entre dados experimentais de 13C e dados tericos, pois grandes desvios e pontos fora da reta podem indicar alguma troca na atribuio dos dados experimentais. Uma das vantagens do clculo a certeza de qual deslocamento qumico corresponde a cada tomo. Para deslocamentos qumicos de 1H esta anlise mais complexa, pois se deve considerar a maior suscetibilidade dos prtons, os efeitos de solvente e a conformao da molcula. Inteligncia Artificial (IA) - algoritmos e metodologias A IA um dos ramos da computao que pesquisa metodologias para tentar simular o raciocnio humano atravs de computador, ou pelo menos, no mnimo, tais metodologias tentam reduzir o tempo que o computador gasta para realizar tarefas em que o crebro humano melhor que um computador. A IA no um ramo novo, mas apenas recentemente surgiram as condies consideradas ideais para a proliferao desta tcnica, tais como computadores mais velozes, linguagens de programao e algoritmos mais eficientes. Algumas das mais importantes metodologias aplicadas em IA so a heurstica, as redes neurais (RN) e os algoritmos genticos (AG). A heurstica uma das primeiras tcnicas em IA e consiste em um conjunto de regras de tomada de deciso. Algumas delas so inseridas pelos especialistas durante o projeto do sistema e outras so inferidas pelo sistema conforme novos casos so apresentados

Vol. 30, No. 5

Elucidao estrutural de substncias orgnicas com auxlio de computador

1351

a este, sendo que as regras vo sendo armazenadas em um banco. Assim, quando aparece um problema semelhante, o sistema capaz de julgar qual o melhor caminho para a resoluo deste. Dentre os sistemas heursticos, encontram-se o DENDRAL, SISTEMAT, DARC/EPIOS, SESAMI, HOUDINI e ACD/StrucEluc. As redes neurais so um mtodo computacional que simula o funcionamento do crebro humano e tm a capacidade de aprender a partir de exemplos. Podem ser consideradas como uma caixa preta que recebe uma srie de estmulos de entrada (input) e, a partir destes, produz um ou mais dados de sada (output) (Figura 3). Por ex., recebem dados mdicos de um paciente e realizam predies sobre o tipo de doena que ele possui, ou a partir de um espectro de uma substncia podem prever sua estrutura. As RN consistem de um conjunto de neurnios e um conjunto de sinapses artificiais, onde um neurnio artificial recebe estmulos e envia sinais para o neurnio seguinte, assim como os neurnios biolgicos (Figura 3). Detalhes sobre o funcionamento das RN e suas aplicaes em qumica, bem como em elucidao estrutural de substncias (RMN, IV e EM) foram anteriormente publicados44,45.

passos demonstrados na Figura 4. Primeiramente, gerado um nmero aleatrio de solues possveis que so passadas para a funo de adaptao, por exemplo a predio de espectros. Tal funo pontua cada soluo de acordo com os resultados e as que obtiverem maior pontuao sobrevivem (neste exemplo, o espectro previsto mais prximo do experimental). As solues sobreviventes sofrem mutao como por exemplo oxidao, reduo, mudana da ordem de uma ligao etc. ou ento so recombinadas (crossover) e geram descendentes, ou seja, uma nova populao. Todo o processo continua com os descendentes at as respectivas pontuaes convergirem, isto , at no ser mais possvel melhorar a qualidade das solues. Os AG esto implementados, por exemplo, no programa SENECA.

Figura 3. Esquema de uma rede neural artificial do tipo Back Propagation, destacando-se a entrada, a sada e os neurnios das camadas de entrada, escondida (intermediria) e de sada, contendo todas as sinapses. Cada neurnio simbolizado por um crculo

As RN tm exercido atrao aos qumicos, pois em vrios casos pode-se resolver problemas de interpretao de espectros e elucidao estrutural, uma vez que elas conseguem trabalhar com as complexas relaes entre propriedades moleculares e dados espectrais. Para citar um exemplo, como entrada podem-se utilizar estruturas qumicas e como sada, seus respectivos deslocamentos qumicos ou vice-versa. Uma vez devidamente treinada, as RN so capazes de receber exemplos desconhecidos e realizar predies. Dentre as metodologias mais comuns em elucidao estrutural de substncias utilizando-se RN esto os mtodos supervisionados como CPG46 (CounterPropaGation), BP (BackPropagation, Figura 3) e ASNN47 (ASsociative Neural Networks). Programas como o SPINUS-WEB, GENIUS e SpecSolv possuem RN em sua arquitetura. Os algoritmos genticos so tambm chamados de computao evolucionria e baseiam-se em uma analogia com os sistemas biolgicos, tendo tambm vrias aplicaes em qumica48. Na abordagem de algoritmos genticos, cada soluo do problema chamada de cromossomo. Os cromossomos consistem de genes e cada caracterstica da soluo, como por exemplo um grupo funcional de uma molcula, chamada de gene. Nesta metodologia, o algoritmo realiza mutaes e combinaes para encontrar a melhor soluo para o problema. A rotina que realiza tal trabalho chamada de funo de adequao/adaptao. O algoritmo segue os

Figura 4. Diagrama das etapas envolvidas no algoritmo gentico (a); representao esquemtica destacando a populao inicial e a nova, um cromossomo e seu gene codificado com cadeia binria (b)

O ACESSO DO USURIO AOS PROGRAMAS DE ELUCIDAO ESTRUTURAL Atualmente existem diversos programas disponveis para auxiliar o usurio qumico ou espectroscopista na elucidao estrutural de substncias. Esses programas tm sua arquitetura baseada em diferentes metodologias e operam de acordo com as diferentes estratgias de elucidao estrutural descritas anteriormente. Um resumo contendo os principais programas disponveis que so discutidos neste trabalho e suas principais caractersticas encontra-se na Tabela 1. Existem inmeras formas de se ter acesso a tais programas, sejam eles aplicativos ou ferramentas: pode ser realizada a compra de sua licena de uma empresa; utilizar material de acesso livre, seja da academia ou de cdigo aberto; pode-se ainda fazer uso de programas disponveis em pginas da internet, como os servios on-line, gratuitos ou no; finalmente, o acesso pode ser feito mediante solicitao ao(s) seu(s) criador(es) ou responsvel(is), com envio posterior ao usurio.

1352

Stefani et al.

Quim. Nova

Empresas de desenvolvimento de software para qumica A Advanced Chemistry Development bem conhecida pelos qumicos por ser a firma que disponibiliza o ChemSketch, um programa livre muito utilizado para desenho e edio de estruturas qumicas. Possui em sua linha de produtos comerciais (pagos) uma variedade enorme de programas e pacotes para diversas finalidades. Na linha de elucidao estrutural, destacam-se o ACD/HNMR Predictor 1D e 2D e de constantes de acoplamento, mdulos para diferentes ncleos (13C, 31P, 15N, 19F), alm de um outro programa para a predio de fragmentos de espectros de massas. Possui servio on-line em sua pgina da internet, onde aps registro, o usurio pode realizar gratuitamente tanto a avaliao de produtos pagos como tambm efetuar testes por um perodo de tempo determinado. Esta jovem empresa canadense de tecnologia uma das que mais rapidamente se desenvolveu e inovou no setor, contando com vrios doutores em sua equipe que pesquisam continuamente novos mtodos e desenvolvem novas ferramentas computacionais. A CambridgeSoftware Corporation a empresa que comercializa o ChemOffice e o ChemDraw, recomendado por alguns peridicos de qumica como editor padro de estruturas, o que tem causado desconforto por parte dos que so simpatizantes do software livre. Juntamente com o ChemOffice Pro a empresa comercializa o simulador ChemNMR embutido. O ChemNMR um programa que utiliza regras empricas para calcular os deslocamentos qumicos de RMN. O ChemNMR possui um sistema de predio menos sofisticado que o da ACD/Labs, mas ainda confivel. Pesquisadores que desenvolvem novas metodologias ou novos programas para a predio de deslocamentos qumicos de RMN geralmente comparam seus resultados com aqueles originados pelos programas da ACD/Labs e CambridgeSoftware. Existem vrias outras empresas, todas de menor porte, a maioria delas localizada na Europa, as quais se dedicam pesquisa e ao desenvolvimento de software para a qumica e ferramentas de quimioinformtica. Muitas delas empregam qumicos, dando preferncia a doutores da rea de quimioinformtica, sendo que algumas sero citadas a seguir. O acesso livre ou pblico e os gratuitos (freeware) O acesso livre ou no a tais ferramentas gera basicamente as mesmas discusses que ocorrem quando se discute a comercializao de software e o monoplio da Microsoft por exemplo com o Windows e o Office e as empresas que produzem software de cdigo livre para o sistema Linux como a Conectiva+Mandrake (hoje Mandriva), Red Hat (Fedora), Suse Linux, etc. e o OpenOffice. Esse tipo de discusso muitas vezes chega a ser to fervorosa quanto discusses polticas, futebolsticas ou religiosas, quando cada lado defende cegamente seu ponto de vista. Isto feito sem levar em conta que ambos os modelos de distribuio de software tm vantagens e desvantagens, tanto para desenvolvedores como para usurios. Estas discusses tambm levam criao e perpetuao de muitos mitos sobre o software livre, dos quais dois valem a pena ser esclarecidos. O primeiro o mito de que software livre e de cdigo aberto grtis e nunca deve ser cobrado, ou seja, comum confundir software livre com software grtis ou freeware49. Tal confuso devida ao termo ingls50, que levou muitos a confundir o sentido de livre que no movimento do cdigo aberto (opensource) quer dizer que o usurio tem a liberdade para distribuir, modificar e adaptar o programa s suas necessidades e redistribu-lo se quiser ou at mesmo criar um trabalho derivado totalmente novo com o sentido de livre, que muitas vezes em relaes comercias quer dizer que um produto dado como brinde ou vendido por um preo simblico.

Se fosse verdade que todo software livre e de cdigo aberto deveria ser grtis, no haveria tantas empresas e pessoas tirando deste modelo de distribuio o sustento de suas vidas. Na prtica, o que ocorre que as empresas que vendem software livre cobram pelo servio de empacotamento, gravao de mdia, distribuio, documentao e suporte, e no pelo software em si, fazendo com que o custo de aquisio dos produtos seja, em mdia, um dcimo ou um centsimo do custo de aquisio de um software distribudo pelo modelo tradicional. O segundo mito que software livre de domnio pblico, algo to equivocado quanto o mito anterior, acreditando-se que o software livre de domnio pblico e qualquer um pode fazer um trabalho derivado e vender como se fosse seu trabalho original. Pelo contrrio, a grande maioria dos software livres possuem licena de distribuio e direitos autorais. As licenas de software livre visam proteger os direitos autorais dos desenvolvedores e garantir o direito dos usurios de compartilhar o software, sendo que cada licena protege os direitos e estabelece os deveres de ambas as partes de maneira diferente. Dentre as licenas mais comuns esto a GPL (General Public License), LGPL (Lesser General Public License), BSD (Berkeley-Software Development License), Academic License, Apache License, Artistic License, SPL (Sun Public License), MPL (Mozilla Public License) e mais recentemente a MSL (Microsoft Shared License), sendo que cada licena tem suas prprias caractersticas. No entanto, o que todas estas licenas tm em comum a exigncia de que o devido direito autoral seja mantido e respeitado em todos os trabalhos derivados. O desrespeito a essa diretriz, alm ser anti-tico, pode acarretar ao infrator sanes jurdicas. Um caso clssico de desrespeito aos direitos autorais de software livre em quimioinformtica envolve o RasMol e o conhecido miniaplicativo para visualizao de molculas 3D MDL/Chime, o qual gerou at uma publicao a respeito51. O RasMol um visualizador de molculas em 3D de cdigo aberto produzido por Roger Sayle, do departamento de pesquisa e desenvolvimento da GlaxoWellcome e liberado sob licena GPL, a qual no permite o uso do cdigofonte em projeto proprietrios e de cdigo-fonte fechado, caso do Chime. No passado, programadores da MDL apropriaram-se indevidamente do cdigo do RasMol para desenvolver o Chime, sem darem o devido crdito a Sayle. Quando o fato foi descoberto, a GlaxoWellcome entrou com uma ao judicial contra a MDL e esta foi forada a reconhecer publicamente que tinha utilizado indevidamente partes do RasMol, tendo de pagar uma indenizao a Sayle e a liberar o Chime, anteriormente pago, gratuitamente na rede. A MDL tambm oferece gratuitamente o MDL/IsisDraw para desenho e edio de estruturas qumicas. Acesso on-line Existem pesquisadores que implementaram poderosas plataformas de livre acesso e de cdigo aberto. Tais ferramentas so bibliotecas para desenvolvimento de novos programas para quimioe bioinformtica, tais como OpenBabel, com licena GPL em C++; Chemistry Development Kit52, com licena LGPL em Java; JOELib, com licena GPL, uma biblioteca para quimioinformtica e clculo de descritores em Java. De todas essas bibliotecas, as mais maduras e que se autocomplementam so a CDK e a JOELib. Dentre os sistemas de cdigo livre e com acesso livre em rede para elucidao estrutural esto o SENECA53, com licena Artistic, e o NMRShiftDB54, com licena GPL, ambos oriundos do mesmo grupo de pesquisa. Alguns sistemas so projetados para o acesso livre e on-line, e mesmo no sendo de cdigo aberto, so ferramentas de grande auxlio para o qumico. Dentre esses sistemas, podese citar o SPINUS-WEB para predio de deslocamentos qumicos

Vol. 30, No. 5

Elucidao estrutural de substncias orgnicas com auxlio de computador

1353

e espectros de RMN 1H, o TeleSpec para predio de espectros na regio do IV, o SpecInfo para procura de dados de RMN e elucidao estrutural, dentre outros. PROGRAMAS PARA AUXLIO NA ELUCIDAO ESTRUTURAL Conforme foi discutido, existem disponveis aos usurios vrios pacotes, aplicativos, ferramentas e bancos de dados, comerciais ou no, os quais podem ser obtidos de diferentes fontes (Tabela 1). As metodologias implementadas em alguns destes programas e suas caractersticas principais, bem como as respectivas fontes, sero descritos a seguir. Programas comerciais ASSEMBLE Desenvolvido pelo grupo de pesquisas de Munk, possui duas linhas para a abordagem da elucidao: gerao de estruturas e

reduo de estruturas. Originalmente um puro gerador de estruturas, recentemente propagandeado como um mdulo independente, est na verso 2.055. No realiza interpretao de espectros, baseando-se puramente nas informaes fornecidas pelo usurio, que deve realizar a sua interpretao. Ele tambm gera subestruturas. As informaes fornecidas so restries e devem envolver, por ex., contagem do nmero mximo e mnimo de ligaes duplas e triplas, nmero de tomos de carbono nas molculas, nmero esperado de anis, contagem de tomos de hidrognio, tipo de hibridao para metais pesados etc. Com base nestas informaes, o programa gera e fornece listas de subestruturas ao usurio, que deve observ-las e reanque-las de acordo com a concordncia dos dados espectromtricos experimentais anteriormente obtidos para a estrutura desconhecida. O usurio quem realiza a interpretao dos espectros, sendo que o programa apenas lista estruturas com base nos fragmentos. Uma verso de demonstrao que pode trabalhar com estruturas de at 15 tomos que no sejam de hidrognio pode ser baixada gratuitamente na pgina da empresa sua Upstream Solutions.

Tabela 1. Exemplos de software utilizados para elucidao estrutural auxiliada por computador e suas principais caractersticas Nome SPINUS-WEB ASSEMBLE CSEARCH Disponibilidade on-line, livre comercial, demo disponvel on-line (apenas predio) academia cdigo aberto, livre Licena N/D proprietria N/D Estratgia predio gerao busca/ predio Metodologia RN heurstica RN, HOSE, banco de dados Facilidade de uso fcil (WEB) fcil (GUI1) fcil (WEB, e-mail) URL http://www.dq.fct.unl.pt/spinus/ http://www.upstream.ch/ products/assemble.html http://homepage.univie.ac.at/ wolfgang.robien/ csearch_server_info.html -

DENDRAL CONGEN

domnio pblico

busca/gerao banco de dados, heurstica gerao heurstica

GENOA HOUDINI SESAMI DARC/EPIOS SPECINFO SENECA

academia academia academia, sob requisio academia on-line, comercial cdigo aberto, livre

proprietria Artistic

gerao heurstica gerao heurstica gerao/ heurstica predio gerao/predio heurstica busca/predio banco de dados, HOSE busca/gerao GA, heurstica

NMRShiftDB ACD/HNMR/ CNMR StrucEluc

cdigo aberto, livre comercial

GPL proprietria

busca, predio predio

banco de dados/ HOSE banco de dados/ HOSE

difcil http://www.cs.cmu.edu/ (linhas de comando; afs/cs/project/ai-repository/ conhecimento de ai/areas/reasonng/ programao necessrio) chem/congen/ fcil (GUI) http://chemistry.asu.edu/faculty/ M_munk.asp fcil (WEB) http://specinfo.wiley.com/ specsurf/welcome.html mdio (o programa vem http://almost.cubic. apenas como cdigouni-koeln.de/cdk/jrg/ fonte e deve ser software/seneca compilado; possui GUI) fcil (WEB) http://www.nmrshiftdb.org http://www.acdlabs.com/ products/spec_lab/ predict_nmr/ mdio (GUI http://www.acdlabs.com/ complicada) products/spec_lab/ complex_tasks/str_elucidator/ mdio (com GUI, http://www.mathe2.unimas mal documentado) bayreuth.de/molgen4/ fcil (GUI) http://www.jens-meiler.de/ index_soft.html mdio (linha de comando, modo texto) fcil (GUI) http://www.modgraph.co.uk/ product_nmr_benefit.htm mdio http://www.univ-reims.fr/ (linha de comando) Labos/UMR6013 fcil (GUI)

comercial

proprietria

busca/gerao/ banco de dados/ predio HOSE/heurstica gerao gerao/ predio busca predio gerao heurstica GA, RN banco de dados HOSE, RN heurstica

MOLGEN GENIUS SISTEMAT NMRBenefit LSD


1

comercial, demo academia, sob requisio academia, sob requisio comercial academia, cdigo aberto

proprietria N/D N/D proprietria GPL

Graphical User Interface (interface grfica para o usurio)

1354

Stefani et al.

Quim. Nova

Advanced Chemistry Development Conforme mencionado, os programas para elucidao estrutural desenvolvidos por esta empresa so pagos. No entanto, possvel cadastrar-se na pgina da internet para obter uma autorizao vlida por 15 dias para teste ilimitado de alguns aplicativos e bancos de dados que a empresa oferece, bastando o pesquisador interessado se cadastrar em http://ilab.acdlabs.com. ACD/HNMR Predictor 1D e 2D A metodologia empregada neste programa de bancos de dados relacionais. De acordo com a empresa, existem armazenados dados de RMN 1H de mais de 175.000 estruturas diferentes, com cerca de 1.440.000 deslocamentos qumicos atribudos. O mtodo funciona com base em uma tabela de correlao de fragmentos de estruturas com seus respectivos deslocamentos qumicos, o que torna possvel um desempenho melhor que dos sistemas baseados em regras. Este sistema possui alto desempenho durante a predio de deslocamentos qumicos e foi usado como parmetro de comparao para vrias metodologias 56,57. O algoritmo inteligente e heurstico, pois pode achar os fragmentos da molcula que esto presentes em seus bancos de dados e calcular as interaes spinspin presentes na molcula para ajustar os valores de deslocamento qumico. Ainda reconhece diferenas no espectro dos seguintes tipos de estruturas isomricas: ismeros cis - trans e ismeros cclicos endo-exo. ACD/StrucEluc (Structure Elucidator) Este programa, que est na verso 8.058, foi desenvolvido para a elucidao estrutural automatizada de estruturas qumicas. O programa possui uma moderna interface com o usurio e necessria pouca interferncia do qumico. Os algoritmos do sistema baseiam-se na frmula molecular (um espectro de massas necessrio) e correlaes de espectros 1D/2D para realizar o processo de elucidao estrutural. Se dados de NOESY (Nuclear Overhauser Effect SpectroscopY) estiverem disponveis, o sistema tambm capaz de determinar a estereoqumica relativa automaticamente59. Ele ainda utiliza as correlaes entre os espectros 2D para criar uma lista de fragmentos compatveis com as correlaes apresentadas. Tais fragmentos so enviados ao gerador para combinao e gerao das solues, que so validadas pelo ACD/NMR Predictor. Alm da predio de espectros de 1H e de 13C, a empresa ainda possui programas para predio de espectros para outros ncleos, como 19F, 15N e 31P, alm de fragmentos de espectros de massas (ACD/MS Fragmenter). SPECINFO Este programa foi originalmente desenvolvido pela BASF. Em seguida, sua licena passou para a Chemical Concepts GmbH, da Alemanha, em 1998, e desde 2004 comercializado pela Wiley Interscience, que fornece acesso on-line e a atualizao para o Specinfo XS Client, utilizado para acesso ao servidor SPECINFO, verso 4.0. O SPECINFO, uma das maiores colees do mundo com mais de 420.000 espectros, um sistema de gerenciamento de banco de dados projetado para armazenar, buscar e manipular espectros de IV, RMN (1H, 13C, 31P e 15N) e EM de substncias orgnicas. Possui ainda plataforma integrada para visualizao, predio e busca de espectros. O programa foi projetado para ser uma ferramenta auxiliar no processo de elucidao estrutural, utilizando um algoritmo de busca de espectro/subespectro no banco para encontrar uma estrutura/subestrutura compatvel com os dados do espectro-problema. Possui tambm um mdulo de predio de espectros. Pode ser utilizado por qumicos que desejam ter uma idia para onde direcionar a elucidao estrutural ou na confirmao de

uma proposta para uma determinada estrutura. Uma verso on-line da ferramenta SpecSurf XS para a busca de espectros e predio de deslocamentos qumicos, juntamente com um guia ilustrado para o usurio, pode ser acessada gratuitamente em http://cds.dl.ac.uk/ cds/datasets/spec/specinfo/specinfo.html (apenas para membros de universidades britnicas) mediante registro na pgina da CDS (Chemical Database Service, http://cds.dl.ac.uk/), da Inglaterra. Sistemas de cdigo aberto e livres SENECA Trata-se de um pacote de programas para elucidao estrutural auxiliada por computador. Esta ferramenta utiliza o mtodo estocstico e AG para gerao de estruturas60, sendo capaz de buscar espaos constitucionais de molculas que sejam mais amplos que os algoritmos determinsticos. Utilizando este procedimento, o programa tenta encontrar a constituio de uma molcula desconhecida a partir de evidncias de seus dados espectromtricos experimentais. No processo de elucidao estrutural so utilizados basicamente dados de RMN, porm a frmula molecular obtida por EM recomendvel, sendo que quaisquer dados espectromtricos so aceitveis. Porm, antes de iniciar o processo, o usurio deve providenciar os dados de entrada, os quais so retirados dos espectros obtidos experimentalmente. Uma caracterstica importante do SENECA a utilizao de dados de RMN monodimensionais de 13C como DEPT (Distortionless Enhancement by Polarization Transfer) 90 e 135o. Entretanto, dados bidimensionais tambm podem ser submetidos, como por exemplo 1H-1H COSY (COrrelated SpectroscopY), dados de correlao 1JCH a curta distncia como HMQC (Heteronuclear Multiple Quantum Coherence) e HSQC (Heteronuclear Single Quantum Coherence) e, ainda, dados de correlao a longa distncia, como HMBC (Heteronuclear Multiple Bond Correlation), tanto para C-H como N-H. O programa tem inclusive a capacidade de importar arquivos do programa Win-NMR da Bruker (editor/processador de espectros de RMN), alm de trabalhar com o formato XML (eXtensible Markup Language). O pacote, disponvel apenas em ingls, foi escrito na linguagem Java e roda nas interfaces Cocoa (MacOS X), Gnome, KDE e Win32 (MS Windows). Possui licena Artistic, podendo ser baixado na prpria pgina que o descreve, a partir do atalho http://www.sf.net/projects/seneca. O sistema distribudo e caso o acesso internet esteja disponvel, capaz de distribuir a tarefa para outros computadores executando o SENECA, o que pode tornar o processo mais rpido. Embora os autores no afirmem, o SENECA pode ser uma tima alternativa livre ao ACD/StrucEluc, tendo inclusive chegado aos mesmos resultados deste ltimo software na elucidao do triterpeno policapol61,62. Sistemas on-line livres com cdigo fechado SPINUS-WEB uma ferramenta on-line destinada verificao e validao de estruturas orgnicas atravs da predio de deslocamentos qumicos de RMN 1H63,64. Roda na plataforma Java e foi desenvolvido por J. A. de Sousa, pesquisador da Universidade Nova de Lisboa, Portugal, estando disponvel na pgina desta universidade (http:// www.dq.fct.unl.pt/spinus) e com um espelho (mirror) na Universidade Erlangen-Nuremberg (http://www2.chemie.unierlangen.de/services/spinus), na Alemanha. Possui em sua interface o editor de estruturas Marvin Applet a fim de que o usurio possa desenhar a estrutura desejada (2D) antes do clculo de seus deslocamentos qumicos. Entretanto, o aplicativo ainda suporta a importao de estruturas em outros formatos individuais como o

Vol. 30, No. 5

Elucidao estrutural de substncias orgnicas com auxlio de computador

1355

SMILES e MDL/MOL (com tabelas de conectividade65), alm de grupos de estruturas em formato MDL/SD. Para rodar o programa, alm da instalao do software gratuito Java (Sun Microsystems, http://java.sun.com/), o usurio ainda necessita instalar o plugin Chime para visualizar estruturas 3D. O MDL/Chime est disponvel gratuitamente para download na pgina da MDL. A entrada de cada estrutura (em 2D) feita aps sua insero ou desenho no editor da tela principal. Porm, antes da predio de seus deslocamentos qumicos, o SPINUS-WEB gera automaticamente as coordenadas em 3D atravs do software CORINA, alm de calcular vrias propriedades fsico-qumicas para cada tipo de hidrognio presente na estrutura. O CORINA 66, um software comercializado pela empresa alem Molecular Networks GmbH (http://www.mol-net.de/) e tambm disponvel gratuitamente para uso on-line na pgina da Universidade Erlangen-Nuremberg (http:/ /www2.chemie.uni-erlangen.de/software/corina/index.html), um gerador de estruturas em 3D que foi incorporado ao SPINUS-WEB. A metodologia empregada para a predio dos deslocamentos qumicos que foi incorporada ao SPINUS-WEB baseia-se em conjuntos de vrias RN artificiais com o algoritmo do tipo BP (ou FFNN). Alm da predio de deslocamentos qumicos, o programa fornece a simulao do espectro de RMN 1H da substncia em questo. Todo este processo muito rpido, sendo que a predio para uma molcula relativamente pequena (< 600 Da) realizada em computador com processador Pentium IV ou equivalente conectado a uma rede DSL dura menos de 15 s. Existe tambm uma verso paga do SPINUS, com itens adicionais, comercializada pela empresa Molecular Networks GmbH. CSEARCH (http://homepage.univie.ac.at/wolfgang.robien/ csearch_main.html). Trata-se de um banco de dados com mais de 230.000 espectros de RMN 13C e mais de 2.700.000 deslocamentos qumicos de 13C atribudos. um programa baseado em cdigo HOSE para predio de espectros que recentemente incorporou RN artificiais. Existe uma verso on-line para a predio de espectros de RMN 13C onde os dados de entrada so estruturas 2D no formato MDL/MOL, podendo ou no conter informaes sobre a estereoqumica. Aps o registro do usurio no servidor, estas informaes devem ser submetidas atravs de e-mail, sendo que o espectro previsto posteriormente enviado ao usurio. Em 2005 o CSEARCH foi incorporado a um programa denominado NMR Predict que se encontra na verso 2.0 e atualmente comercializado pela empresa britnica Modgraph Consultants LTD (http:// www.modgraph.co.uk/). Esta verso realiza predies de RMN tanto para 13C (com a incorporao do CSEARCH) como para 1H (com a incorporao de um programa denominado CHARGE Proton NMR Prediction), alm de oferecer algumas melhorias ao usurio. Sistemas on-line livres com cdigo aberto NMRShiftDB Trata-se de um banco de dados de cdigo aberto (opensource) de molculas orgnicas e seus dados de RMN. Atualmente, seu banco de dados possui cerca de 19.000 espectros, nmero que aumenta a cada dia, pois qualquer pesquisador pode se cadastrar na pgina da internet e enviar os dados de RMN de qualquer substncia qumica. Para garantir a integridade e veracidade dos dados enviados, estes so revistos e confirmados por dois pesquisadores voluntrios. Se tais pesquisadores encontrarem algum erro, aquele que enviou os dados contactado por e-mail e deve corrigi-los em 48h. Caso a correo no seja feita, os dados so eliminados do banco. No caso de dados originais, eles so eliminados caso no sejam publicados em peridico dentro de um prazo de 120 dias.

Esse processo lembra o processo de reviso por pares (peer review), comum para avaliar manuscritos submetidos a peridicos. O sistema tambm faz predio de dados de RMN, baseandose em cdigos HOSE de at seis esferas. Para utilizar o sistema, o usurio entra com os dados de RMN e o sistema retorna uma lista de estruturas contendo uma porcentagem de similaridade entre o espectro da substncia do banco e o espectro informado pelo usurio ou ento, pode-se entrar com uma estrutura e obter-se o espectro previsto. Esse sistema mostra-se como uma alternativa livre, ainda que com um banco de dados menor que o do SpecInfo. A utilizao deste sistema para a elucidao estrutural de um cromeno foi descrita na literatura67. CONCLUSES E PERSPECTIVAS Os diferentes programas para elucidao estrutural auxiliada por computador esto provocando uma revoluo no setor, seja na academia ou em empresas que desenvolvem software para a qumica. Uma tendncia integrar tais programas de computador em pesquisas para estudos de bioprospeco de vegetais e microrganismos ou de produtos de reaes orgnicas em larga escala, com o intuito de se aumentar a produtividade. Como exemplo, recentemente surgiu o termo High Throughput Structure Elucidation (HiTSE), que consiste em minimizar ao mximo o tempo necessrio para a elucidao estrutural de uma determinada substncia qumica. O princpio baseia-se na comparao de dados espectromtricos, fsico-qumicos e cromatogrficos com os dados presentes em uma biblioteca de substncias puras68. A procura em princpio baseada em tempos de reteno relativos e pesos moleculares obtidos por EM, sendo que aps esta fase so selecionadas substncias com dados cromatogrficos muito semelhantes entre si, para em seguida poder compar-los aos dados de espectros de RMN. Desta forma, as estruturas so identificadas com maior acuidade e preciso, alm de maior rapidez. vlido lembrar que todo este processo realizado de forma automatizada e para uma grande quantidade de substncias. Caso alguma substncia no possa ser identificada atravs deste procedimento, como por exemplo aquelas novas na literatura ou ausentes no banco de dados, realizada a elucidao estrutural parcial, com base em subestruturas. A elucidao da estrutura concluda com o auxlio de tcnicas de RMN bidimensionais (HSQC, HMBC, 1H-1H COSY etc.). O HiTSE ainda pode ser utilizado ou adaptado para uso com outras tcnicas, tais como HPLC-EM69. Constata-se que os programas de computador j esto completamente consolidados na rea de elucidao estrutural de substncias orgnicas. Vrios indicadores atestam tal afirmao: o aumento significativo de publicaes em peridicos especializados a cada ano; o crescimento e investimento em pesquisa, desenvolvimento e na distribuio por empresas da rea de qumica que desenvolvem e comercializam software, como a ACD/Labs, CambridgeSoft, de outras menores e da academia; surgimento dos programas de cdigo aberto e as ferramentas on-line na internet, havendo ainda espao para o software livre e os que funcionam baseados em collaborative development. Cada um destes produtos tem vantagens e desvantagens, tais como suporte, preo, validao, plataformas, metodologias, acuidade, alm da capacidade da interface ser amigvel ou no ao usurio. A escolha por um produto ou outro depende do problema em questo, sendo que a preciso varia para diferentes classes de substncias. Uma das limitaes a ser vencida o efeito do solvente nos deslocamentos qumicos, em especial em RMN 1H, pois os dados utilizados so obtidos apenas em deuteroclorofrmio. Torna-se bvio que ainda no existe um produto que seja capaz de operar muito bem em todas as situaes e o

1356

Stefani et al.

Quim. Nova

conselho que o usurio teste diferentes programas com diferentes molculas, ainda mais se pretende comprar algum, pois o preo no costuma ser baixo. Embora alguns almejem, dificilmente o software ir substituir a inteligncia do especialista no processo de elucidao estrutural de substncias. A elucidao estrutural auxiliada por computador ainda no um processo totalmente automatizado e exige a presena do especialista, tanto no seu desenvolvimento quanto em seu uso. MATERIAL SUPLEMENTAR Nesta seo encontra-se breve descrio do material suplementar (figuras) que est disponvel gratuitamente em http:// quimicanova.sbq.org.br, na forma de arquivo PDF. As Figuras 1Sa e 1Sb so referentes a pginas da web do programa SPINUS-WEB, discutido na seo sistemas on-line livres com cdigo fechado. A Figura 1Sa mostra a tela inicial com uma estrutura 2D usada como dado de entrada para as predies; a Figura 1Sb mostra a mesma estrutura, 2D e tambm 3D, com os deslocamentos qumicos previstos de seus hidrognios (tabela direita) e a simulao do respectivo espectro de RMN 1H (abaixo). A pgina de entrada do sistema CSEARCH para predio de espectros de RMN 13C mostrada na Figura 2S. A Figura 3S mostra a pgina da web do banco de dados NMRShiftDB, discutido na seo sistemas on-line livres com cdigo aberto; pode-se observar o processo de auxlio da elucidao estrutural de um produto natural atravs de seus dados de RMN 13C que foram utilizados como dados de entrada.

REFERNCIAS
1. Cincia que trata da organizao, busca e extrao de informao de forma automatizada atravs do uso de um computador; no sinnimo de computao. 2. Morgan, H. L.; J. Chem. Doc. 1965, 5, 107. 3. Lindsay, R.; Buchanan, B. G.; Feigenbaum, E. A.; Ledberg, J.; Applications of Artificial Intelligence in Organic Chemistry: The Dendral Project, McGraw-Hill: Nova York, 1980. 4. a descrio, de forma lgica, de um conjunto finito de passos a serem executados no cumprimento de determinada tarefa; uma receita para um pocesso computacional. 5. Gray, N. A. B.; Nourse, J. G.; Crandell, C. W.; Smith, D. H.; Djerassi, C.; Org. Mag. Reson. 1981, 15, 375. 6. Masinter, L. M.; Sridharan, N. S.; Ledeberg, J.; Smith, D. H.; J. Am. Chem. Soc. 1974, 96, 7702. 7. Carhart, R. E.; Smith, D. H.; Gray, N. A. B.; Nourse, J. G.; Djerassi, C.; J. Org. Chem. 1981, 46, 1708. 8. Dubois, J.-E.; Sobel, Y.; J. Chem. Inf. Comput. Sci. 1985, 25, 326. 9. Dubois, J.-E.; Carabedian, M.; Dagane, I.; Anal. Chim. Acta 1984, 158, 217. 10. Shelley, C. A.; Munk, M. E.; Anal. Chem. 1982, 54, 516. 11. Shelley, C. A.; Hays, T. R.; Munk, M. E.; Roman, R. V.; Anal. Chim. Acta 1978, 103, 121. 12. Madison, M. S.; Schulz, K. P.; Korytko, A. A.; Munk, M. E.; Internet J. Chem. 1998, 1, 34. 13. Korytko, A.; Schulz, K. P.; Madison, M. S.; Munk, M. E.; J. Chem. Inf. Comput. Sci. 2003, 32, 1434. 14. Kalchhauser, H.; Robien, W.; J. Chem. Inf. Comput. Sci. 1985, 25, 103. 15. Bremser, W.; Anal. Chim. Acta 1978, 103, 355. 16. Jargo de informtica; significa que o sistema capaz de inferir ou calcular novos dados durante a execuo do programa a partir de dados prexistentes em um banco. 17. Kudo, Y.; Sasaki, S.; J. Chem. Inf. Comput. Sci. 1976, 16, 43. 18. Bremser, W.; Fachinger, W.; Magn. Reson. Chem. 1985, 23, 1056. 19. Gastmans, J. P.; Furlan, M.; Lopes, M. N.; Borges, J. H. G.; Emerenciano, V. P.; Quim. Nova 1990, 13, 10. 20. Gastmans, J. P.; Furlan, M.; Lopes, M. N.; Borges, J. H. G.; Emerenciano, V. P.; Quim. Nova 1990, 13, 75. 21. Alvarenga, S. A. V.; Rodrigues, G. V.; Gastmans, J. P.; Emerenciano, V. P.; Nat. Prod. Lett. 1995, 7, 133.

22. Alvarenga, S. A. V.; Gastmans, J. P.; Rodrigues, G. V.; Brandt, A. J. C.; Emerenciano, V. P.; J. Braz. Chem. Soc. 2003, 14, 369. 23. Ferreira, M. J. P.; Brandt, A. J. C.; Rodrigues, G. V.; Emerenciano, V. P.; Anal. Chim. Acta 2001, 429, 151. 24. Fromanteau, D. L. G.; Gastmans, J. P.; Vestri, S. A.; Emerenciano, V. P.; Borges, J. H. G.; Comput. Chem. 1993, 17, 369. 25. Rufino, A. R.; Brandt, A. J. C.; Santos, J. B. O.; Ferreira, M. J. P.; Emerenciano, V. P.; J. Chem. Inf. Model. 2005, 45, 645. 26. Weiniger, D.; J. Chem. Inf. Comput. Sci. 1988, 28, 31. 27. Nomenclatura qumica para a representao de estruturas, mais especificamente um modelo de valncia altamente simplificado e compactado; descreve uma estrutura qumica como uma notao de linha. 28. Ctfile Formats. MDL Information Systems, http://www.mdli.com, San Leandro, 2002. 29. Masinter, L. M.; Shriodharan, N. S.; Lederberg, J.; Smith, D. H.; J. Am. Chem. Soc. 1974, 96, 7702. 30. Bradley, D. C.; Munk, M. E.; J. Chem. Inf. Comput. Sci. 1988, 28, 87. 31. Fontana, P.; Pretsch, E.; J. Chem. Inf. Comput. Sci. 2002, 42, 614. 32. Kerber, A.; Laue, R.; Grner, T.; Meringer, M.; Match 1998, 37, 205. 33. Faulon, J. L.; J. Chem. Inf. Comput. Sci. 1994, 34, 1204. 34. Meiler, J.; Will, M.; J. Am. Chem. Soc. 2002, 124, 1868. 35. Will, M.; Fachinger, W.; Richert, J. R.; J. Chem. Inf. Comput. Sci. 1996, 36, 221, 36. Pople, J. A.; Nesbet, R. K.; J. Chem. Phys. 1954, 22, 571. 37. Chesnut, D. B.; Phung, C. G.; Chem. Phys. 1990, 147, 91. 38. Chesnut, D. B.; Ann. Rep. NMR Spectrosc. 1994, 29, 71. 39. Fileti, E. E.; Canuto, S.; Int. J. Quantum Chem. 2005, 102, 554. 40. Wolinski, K.; Hilton, J. F.; Pulay, P.; J. Am. Chem. Soc. 1990, 112, 8251. 41. Keith, T. A.; Bader, R. F. W.; Chem. Phys. Lett. 1992, 194, 1. 42. Schindler, M.; Kutzelnigg, W.; Mol. Phys. 1983, 48, 781. 43. Hansen, A. E.; Bouman, T. D.; J . Chem. Phys. 1989, 91, 3552. 44. Zupan, J.; Gasteiger, J.; Neural Networks in Chemistry and Drug Design, Winheim, Wiley-VCH, 2nd ed., 1999. 45. Munk, M. E.; Madison, M. S.; J. Chem. Inf. Comput. Sci. 1996, 36, 231. 46. Gasteiger, J.; Chem. Intell. Lab. Syst., no prelo. 47. Tetko, I. V.; Vsevold, Y. T.; J. Chem. Inf. Comput. Sci. 2002, 42, 1136. 48. Filho, P. A. C.; Poppi, R. J.; Quim. Nova 1999, 22, 405. 49. Termo em ingls para designar um software disponvel gratuitamente. 50. Em ingls: free software; a palavra free em ingls tem duplo sentido e depende muito do contexto; pode significar tanto livre no sentido de liberdade ou livre no sentido de obter-se algo de forma gratuita, ou seja, grtis; por isso, o termo vem sendo rapidamente substituido por opensource. 51. Hodgson, J.; Nat. Biotechnol. 1996, 14, 690. 52. Steinbeck, C.; Youngquan, H.; Kuhn, S.; Horlacher, O.; Luttmann, E.; Willighangem, E.; J. Chem. Inf. Comput. Sci. 2003, 43, 493. 53. Steinbeck, C.; J. Chem. Inf. Comput. Sci. 2001, 41, 1500. 54. Steinbeck, C.; Kuhn, S.; Krause, S.; J. Chem. Inf. Comput Sci. 2003, 45, 1733. 55. Baderstcher, M.; Korytko, A.; Schulz, K. P.; Madison, M.; Munk, M. E.; Portmann, P.; Junghans, M.; Fontana, P.; Pretsch, E.; Chem. Intell. Lab. Syst. 2000, 51, 73. 56. Magri, F. M. M.; Milito, J. S. L.; Ferreira, M. J. P.; Brandt, A. J. C.; Emerenciano, V. P.; Spectroscopy 2001, 15, 99. 57. Meiler, J.; Maier, W.; Will, M.; Meusinger, R.; J. Magn. Reson. 2002, 157, 242. 58. Elyashberg, M. E.; Blinov, K. A.; Willians, A. J.; Molodtsov, S. G.; Martin, G. E.; Martirosian, E. R.; J. Chem. Inf. Comput. Sci. 2004, 44, 771. 59. Sumurnyy, Y. D.; Elyashberg, M. E.; Blinov, K. A.; Lefbrvre, B. A.; Martin, G. E.; Williams, A. J.; Tetrahedron 2005, 61, 9980. 60. Han, Y.; Steinbeck, C.; J. Chem. Inf. Comput. Sci. 2004, 44, 489. 61. Elyashber, M. E.; Blinov, K. A.; Williams, A. J.; Martinrosian, E. R.; Molodtsov, S. G.; J. Nat. Prod. 2002, 65, 693. 62. Steinbeck, C.; Nat. Prod. Rep. 2004, 21, 512. 63. Aires-de-Sousa, J.; Hemmer, M. C.; Gasteiger, J.; Anal. Chem. 2002, 74, 80. 64. Binev, Y.; Aires-de-Sousa, J.; J. Chem. Inf. Comput. Sci. 2004, 44, 940. 65. Do ingls Connection Table (CT): dentre vrias outras, a forma predominante de representao de estruturas qumicas em programas de computador, baseada em uma matriz com uma lista de tomos e outra de ligaes qumicas que fornece as conexes entre os tomos. 66. Sadowski, J.; Gasteiger, J.; Chem. Rev. 1993, 93, 2567. 67. Steinbeck, C.; Kuhn, S.; Phytochemistry 2004, 65, 2711. 68. Bindseil, K. U.; Jakupovic, J.; Wolf, D.; Lavayre, J.; Leboul, J.; Pyl, D.; Drug Disc. Today 2001, 16, 840. 69. Wolf, C.; Villalobos, C. N.; Cummings, P. G.; Kennedy-Gabbs, S.; Olsen, M. A.; Trescher, G.; J. Am. Soc. Mass. Spectrom. 2005, 16, 553.

Quim. Nova, Vol. 30, No. 5, S1-S4, 2007 ELUCIDAO ESTRUTURAL DE SUBSTNCIAS ORGNICAS COM AUXLIO DE COMPUTADOR: EVOLUES RECENTES Ricardo Stefani e Paulo Gustavo Barboni Dantas Nascimento Departamento de Qumica, Faculdade de Filosofia, Cincias e Letras de Ribeiro Preto, Universidade de So Paulo, Av. Bandeirantes, 3900, 14040-901 Ribeiro Preto SP, Brasil Fernando Batista Da Costa* Departamento de Cincias Farmacuticas, Faculdade de Cincias Farmacuticas de Ribeiro Preto, Universidade de So Paulo, Av. do Caf, s/n, 14040-903 Ribeiro Preto SP, Brasil

Figura 1Sa. SPINUS-WEB. Tela de entrada com uma estrutura 2D cujos deslocamentos qumicos de RMN 1H sero previstos

*e-mail: febcosta@fcfrp.usp.br

Material Suplementar

S2

Stefani et al.

Quim. Nova

Figura 1Sb. SPINUS-WEB. Tela de entrada com uma estrutura 2D (acima, esquerda) com deslocamentos qumicos de RMN 1H previstos (tabela direita) e o respectivo espectro de RMN 1H simulado (abaixo).

Vol. 30, No. 5

Elucidao estrutural de substncias orgnicas com auxlio de computador:

S3

Figura 2S. CSEARCH. Pgina da internet do programa com acesso on-line

S4

Stefani et al.

Quim. Nova

13

Figura 3S. NMRShiftDB. Pgina da internet ilustrando o processo de elucidao estrutural de uma substncia natural e os deslocamentos qumicos de RMN C na tabela de similaridade com os resultados ( direita)