Você está na página 1de 4

Este documento a verso produzida pelos autores.

. A verso definitiva do documento est publicada na edio n 3 de Outubro de 2003 na revista centroatlantico.pt (http://www.centroatl.pt/revista/).

Bioinformtica - Explorao da Informao Francisco M. Couto (http://www.di.fc.ul.pt/~fjmc) Mrio J. Silva (http://xldb.fc.ul.pt/mjs)

A biotecnologia tem como objectivo a produo e transformao industrial de materiais de natureza biolgica. Os exemplos mais conhecidos de aplicaes deste tipo de tecnologia so: o conhecimento do genoma de cada indivduo para previso de doenas e eventual tratamento pelos medicamentos mais apropriados; a manipulao gentica de sementes permitindo obter plantas de maior rendimento; a substituio de materiais poluentes como os plsticos, combustveis e antibiticos por materiais de origem biolgica com um nvel de poluio muito inferior. A bioinformtica por sua vez uma disciplina cientfica recente, cujo principal objectivo a produo de conhecimento de interesse para a biotecnologia. Estuda tcnicas inovadoras de manipulao, gesto, e anlise de grandes quantidades de informao biolgica, permitindo aos cientistas extrair conhecimento a partir dessa informao. As fronteiras que limitam a variedade das aplicaes da bioinformtica so difceis de identificar, pois esta integra conhecimentos de diversas reas da cincia, como a biologia, a bioqumica, a estatstica, a matemtica e, naturalmente, a informtica. O factor comum de todas as suas aplicaes o uso de sistemas computacionais no tratamento de informao biolgica para a obteno eficaz de importantes resultados cientficos. Nome Oracle PostgreSQL MySQL Principais Caractersticas Muito utilizado pela indstria; Grande capacidade de dados; Sistema comercial Tipo de dados flexveis; Vasto conjunto de funcionalidades; Open Source Facilidade na instalao e no uso; Radipez na execuo das operaes Open Source Endereo na Web http://www.oracle.com/ http://www.postgresql.org/ http://www.mysql.com/

Tabela 1. Principais sistemas de gesto de bases de dados (SGDBs) utilizados em Bioinformtica.

O grande interesse pela bioinformtica nos ltimos anos deve-se sobretudo exploso da informao disponvel proveniente dos esforos de sequenciao dos genomas de diferentes

organismos. Esta informao permitiu o estudo de processos biolgicos relacionados com o genoma, o que gerou ainda mais informao. Para a gerir tm sido criadas diversas bases de dados de grande dimenso (Tabela 1). Por exemplo, a base de dados GenBank (http://www.ncbi.nih.gov/GenBank/) disponibilizava atravs da Internet em Julho de 2003 cerca de 20GB s em sequncias, resultante de um crescimento exponencial desde a sua criao. Este valor no conta com a informao descritiva de cada sequncia, que ainda de maior dimenso e de enorme importncia. A gesto destas bases de dados afigurou-se desde cedo como um processo complexo. A ausncia de recursos para caracterizao das entidades armazenadas foi infelizmente acompanhada pela utilizao de mtodos simplistas de anotao, causas da maioria das incongruncias encontradas presentemente nas bases de dados. A integrao de diversas fontes de informao uma forma vivel de completar e corrigir o conhecimento sobre as entidades biolgicas, mas o objectivo, a estrutura, a nomenclatura e o tipo de informao variam nas diferentes bases de dados, tornando assim pouco vivel a sua integrao. Contudo, todo esse conhecimento biolgico est presente na literatura, pois esta tem sido o meio preferido para divulgao do conhecimento cientfico. A maioria das bases de dados tem equipas de peritos que procuram informao relevante para a sua base de dados atravs da leitura de artigos cientficos, cuja falta de estrutura dificulta o tratamento automtico. Estes factos motivam o desenvolvimento de ferramentas automticas que possam extrair parte desta informao, ou que pelo menos permitam uma melhor orientao no trabalho destas equipas.

Figura 1. PubMed (http://www.ncbi.nih.gov/PubMed/) um servio da National Library of Medicine que actualmente disponibiliza o acesso a mais de 12 milhes de citaes armazenadas no repositrio de literatura biolgica MEDLINE. Cada citao composta pelo ttulo, nome dos autores, sumrio e outros dados que descrevem o artigo citado. Estes dados so disponibilizados tambm em formato XML, o que facilita a explorao desta informao de uma forma automtica.

Tcnica Clustering Classificao

Aplicao Agrupar as entidades biolgicas de acordo com propriedades comuns. Atribuir uma determinada propriedade a um

Regresso Combinao de Estimativas

conjunto de entidades biolgicas. Extrapolar uma tendncia num conjunto de experincias biolgicas. Melhorar a preciso das estimaes atravs da combinao de diferentes tcnicas.

Tabela 2. Principais tcnicas de prospeco de dados utilizadas em Bioinformtica

Com a disponibilizao da literatura biolgica na Internet em formato electrnico (Figura 1), o estudo de mtodos de extraco e prospeco de dados (ou data mining) desta literatura constituiu-se recentemente como um tpico de investigao muito activo (Tabela 2). Estes mtodos tm por objectivo identificar e estruturar informao relevante expressa nos textos de publicaes cientficas para posterior insero em bases de dados. Esto em curso um grande nmero de projectos que tm como objectivo o desenvolvimento de sistemas de extraco automtica de informao da literatura cientfica para catalogao em bases de dados de informao biolgica. Todavia, o uso de diferentes nomenclaturas, a heterogeneidade da informao, e a subjectividade dos resultados tm sido obstculos difceis de transpor, ao contrrio do que hoje se alcana noutros domnios, como na identificao automtica de entidades reconhecidas em texto retirado de jornais noticiosos, onde j possvel alcanar nveis de qualidade equivalentes aos de um perito humano. As solues mais utilizadas para aumentar a eficcia dos mtodos de extraco de conhecimento a partir da literatura biolgica baseiam-se na integrao de informao especfica a cada problemai. Este tipo de abordagem tem custos muito elevados, pois exige um grande esforo dos peritos para adaptar o mtodo ao problema a resolver. Custos esses que muitas vezes no so compensados pelos resultados obtidos.

Figura 2. Um grupo de entidades biolgicas com estrutura semelhante (dentro do crculo azul) tendem a ser anotadas com propriedades biolgicas semelhantes. Desta forma as propriedades que no seguem esta regra tem uma forte probalidade de estarem erradas e por isso devem ser corrigidas, como o caso da propriedade assinalada com uma cruz encarnada.

Com vista a atenuar este problema, o projecto ReBIL (Relacionamento de Informao Biolgica atravs da Literatura) (http://xldb.fc.ul.pt/rebil/) prope-se desenvolver mtodos para melhorar a extraco de informao a partir da literatura biolgica de uma forma totalmente automtica, explorando a correlao biolgica entre a estrutura e a funo das entidades biolgicas como forma de validar a informao extrada automaticamente (Figura 2). O projecto faz parte de um conjunto de iniciativas para dinamizar a investigao e

ensino da bioinformtica em Portugal. A Universidade de Lisboa lanou recentemente os primeiros graus de Mestre e de Doutor em bioinformtica, integrados num novo programa de ps-graduao criado numa iniciativa conjunta da Faculdade de Cincias da Universidade de Lisboa e do Instituto Gulbenkian de Cincia (http://bioinformatics.fc.ul.pt/). A integrao dos formandos no tecido das infra-estruturas existentes, tanto nacionais como internacionais em que Portugal participa, poder levar progressiva criao de estruturas empresariais que levaro as aplicaes desta nova cincia aos vrios sectores da sociedade portuguesa.
Na maioria dos casos estas solues baseiam-se no desenvolvimento de regras gramaticais que quando aplicveis a uma parte do texto permitem identificar informao relevante. Recentemente, tem sido tambm utilizado Hidden Markov Models para evitar a criao manual destas regras.
i

Você também pode gostar