Rel Estagio

Emilio Mario Wieczorek
Caminhos e Tendncias do Uso de Bancos de Dados em Bioinformtica
Palmas 2002
Emilio Mario Wieczorek
Caminhos e Tendncias do Uso de Bancos de Dados em Bioinformtica
Relatrio
apresentado
como
requisito parcial da disciplina Prtica em Sistemas de Informao I do Curso de Sistemas de Informao, coordenado Leal. pelo Prof. Eduardo
Palmas 2002
EMILIO MARIO WIECZOREK
CAMINHOS E TENDNCIAS DO USO DE BANCOS DE DADOS EM BIOINFORMTICA
Relatrio
apresentado
como
requisito parcial da disciplina Prtica em Sistemas de Informao I do Curso de Sistemas de Informao, coordenado pelo Prof. Eduardo Leal.
Aprovada em 03/12/2002 BANCA EXAMINADORA
______________________________________________________ Prof. Eduardo Leal

Centro Universitrio Luterano de Palmas
_______________________________________________________ Prof. Deise de Brum Saccol

_______________________________________________________ Prof. CRISTINA DORNELLAS FILIPAKIS

Palmas 2002
4 AGRADECIMENTOS
Agradeo a Deus, por me dar apoio quando necessito; a meus pais e minha namorada, por sempre me incentivarem na realizao de meus sonhos e a meu professor orientador que muito contribuiu para a realizao deste relatrio.
5 DEDICATRIA
Dedico este relatrio de estgio a Deus e a meus familiares, que sempre estiveram comigo para me auxiliar nos momentos mais difceis de minha vida.
6 RESUMO
Este relatrio de estgio traa os caminhos e tendncias adotadas por empresas e institutos de pesquisa na utilizao de bancos de dados na rea de bioinformtica, descrevendo as tecnologias de Banco de Dados, Data Warehouse e XML que so utilizadas para o armazenamento, transformao e acesso a dados biolgicos provenientes de projetos de pesquisa, como o Projeto Genoma Humano. Sero demonstrados os problemas existentes na utilizao destas tecnologias, descrevendo tambm propostas formuladas por alguns autores para solucionar tais problemas. Sero abordadas, principalmente, tcnicas envolvendo bancos de dados, pois este o principal elemento deste estudo.
Palavras-chave: caminho s, tendncias, bioinformtica, banco de dados.
7 LISTA DE ABREVIATURAS
CAD CAM SQL DNA XML RNA LOB SGBD 3D HTML CGI DTD OID XSL XSLT DOM API SAX W3C PDF
Computer Aided Design Computer Aided Manufacturing Structured Query Language Linguagem de Consulta Estruturada cido Desoxirribonuclico eXtensible Markup Language Linguagem de marcao de dados cido Ribonuclico Large Objects Sistema de Gerenciamento de Banco de Dados Trs dimenses HiperText Markup Language Common Gateway Interface Document Type Definition Object Identifier Extensible Stylesheet Language Extensible Stylesheet Language Transformations Document Object Model Aplications Programming Interface Simple API for XML World Wide Web Conso Portable Data Format
8 LISTA DE TABELAS
Tabela 1- reas de informtica que possuem relacionamento com bioinformtica (Biotech,
1996). .......................................................................................... Tabela 2- Projetos desenvolvidos em Universidades e Centros de Pesquisas (Biotech,
1996). .......................................................................................... Tabela 3- Elementos utilizados para a busca de genes (Biotech, 1996). ............................. 19 Tabela 4- Bancos de Dados com capacidade de armazenar e buscar dados biolgicos
(Flix, 2002). ....................................................................................
9 LISTA DE FIGURAS
Figura 1- Representao Grfica da rea de Bioinformtica. .............................................. 16 Figura 2- Processo pelo qual so usadas sucesses de DNA para modelar um modelo de protena (Biotech, 1996). ............................................................................................. 18 Figura 3- Etapas para o armazenamento de segmentos de DNA em um banco de dados. .. 21 Figura 4- Pesquisa SQL representando operadores definidos pelo usurio. ....................... 24 Figura 5- Pesquisa SQL representando o otimizador de extensibilidade. ........................... 26 Figura 6- Estrutura de um Data Warehouse (Critchlow; Musik; Slezak, 2000).................. 27 Figura 7- Representao da interpretao do modelo atual de dados biolgicos para anlise (Shui, 2001). ................................................................................................................ 30
10 SUMRIO
1. INTRODUO ...............................................................................................................11 2. MOTIVAO .................................................................................................................13 3. REVISO DE LITERATURA........................................................................................14 3.1 Bioinformtica .......................................................................................................15 3.1.1 Projeto Genoma ..........................................................................................17 3.1.2 Tecnologias existentes para a rea de Bioinformtica................................19 3.2 Bancos de Dados....................................................................................................20 3.2.1 Problemas na Utilizao de Banco de Dados .............................................21 3.2.2 Propostas para a Utilizao de Banco de Dados.........................................21 3.2.2.1 Banerjee ........................................................................................... 22 3.2.2.2 Oracle ............................................................................................... 22 Criao de Tipos Definidos pelo Usurio.......................................... 23 Criao de Operadores Definidos pelo Usurio ................................ 23 Indexao Extensvel......................................................................... 24 Otimizador de Extensibilidade .......................................................... 25 3.2.3 O Uso de Data Warehouses para a Integrao de Bases de Dados Biolgicas ....................................................................................................................26 3.4 Tecnologias de XML para a Bioinformtica .........................................................28 3.4.1 Propostas de Utilizao de XML para Bancos de Dados Biolgicos .........29 4. MATERIAIS E MTODOS............................................................................................31 5. RESULTADOS E DISCUSSES ...................................................................................32 6. CONCLUSES ...............................................................................................................35 7. REFERNCIAS BIBLIOGRFICAS ............................................................................36
11
1. INTRODUO
O mapeamento do genoma humano e de outros organismos gera diariamente um elevado volume de informaes que so sistematicamente armazenadas em bancos de dados computacionais, sendo estas informaes fontes de estudo para a biologia e medicina atravs da bioinformtica. A bioinformtica um campo interdisciplinar que une biologia e informtica, e tem como objetivo desenvolver e aplicar tcnicas computacionais no estudo da gentica, da biologia molecular e da bioqumica (Lengauer, 2001). A bioinformtica torna-se essencial para a construo de bases de dados contendo informaes sobre os genes e protenas dos organismos vivos, para a descoberta de novos genes, e de novos medicamentos, pois atravs da bioinformtica que novas tcnicas para o mapeamento e armazenamento das informaes extradas dos genes vem sendo estudadas e estruturadas (Banerjee, 2000). No campo da informtica, a evoluo dos sistemas computacionais segue a evoluo das necessidades que as aplicaes por ele tratadas devem atender. Por exemplo, nos anos 60 a preocupao era o tratamento de dados que envolviam aplicaes tipicamente cient ficas, evoluindo para as aplicaes comerciais (folhas de pagamento, etc) e hoje atente a diversas reas como CAD, CAM, aplicaes mdicas, e outros. Para atender essas necessidades computacionais, os bancos de dados esto em constante evoluo, uma vez que devem suportar os diferentes tipos de dados que essas aplicaes requerem. O desafio apresentado pela bioinformtica encontrar a melhor forma de armazenamento e de pesquisa (SQL) para os dados gerados por projetos de pesquisa na rea da bioinformtica, como o projeto genoma humano, que possui centenas de gigabytes de dados a espera para serem armazenados e tratados. Para tanto, surge a necessidade de se possuir formas de armazenamento, acesso e pesquisa sobre tais dados, para que se consiga trazer a informao da melhor maneira desejada possvel, devendo existir assim, tcnicas diferenciadas para o tratamento destes dados, que so nada mais do que grandes cadeias de DNA (em banco de dados, grandes cadeias de caracteres).
12 Outro fator que merece ateno a expanso que vem acontecendo no setor de biotecnologia mdica, fazendo com que um grande nmero de institutos de pesquisa pblicos e privados se voltem para as reas de biotecnologia, mais precisamente para a bioinformtica, uma rea relativamente nova (ltimos 10 anos), tornando assim esta rea necessria para a descoberta de futuras curas para doenas, como o cncer ( engauer, L 2001). Esse estudo tem como objetivo o levantamento do uso de banco de dados no domnio da bioinformtica, a fim de identificar os caminhos e tendncias adotados, para que num futuro breve, consigamos elaborar um padro a ser utilizado por estes bancos de dados, facilitando assim, a integrao de vrios institutos de pesquisa que trabalhem com dados biolgicos e moleculares. Esse estudo permite que novas descobertas acerca do genoma, principalmente do genoma humano, sejam realizadas mais rapidame nte e com maior eficcia, pois a falta de um padro tanto para a elaborao e construo quanto para o armazenamento e acesso aos dados biolgicos e moleculares dificulta o tratamento dos dados provenientes de pesquisas envolvendo o DNA, alm de no se conseguir uma integrao maior entre os vrios institutos de pesquisa que trabalham com estes dados. Este trabalho est organizado da seguinte forma: o captulo 2 apresenta a motivao para a realizao deste relatrio de estgio, o captulo 3 apresenta a reviso bibliogrfica, o captulo 4 apresenta os materiais e os mtodos utilizados no desenvolvimento deste relatrio de estgio, o captulo 5 apresenta os resultados e discusses, o captulo 6 apresenta a concluso e o captulo 7 destinado s referncias bibliogrficas.
13
2. MOTIVAO
A motivao para a realizao deste relatrio de estgio a crescente expanso do mercado farmacutico em escala mundial, alm do crescente interesse de instituies brasileiras em estudar e desenvolver solues em bancos de dados para o domnio da bioinformtica. Outro fator importante que devido este assunto ser muito recente, principalmente no Brasil, ele se torna um desafio a mais para se tentar aplicar tcnicas de banco de dados que se adequem ao domnio da bioinformtica, alm de poder possibilitar a descoberta de informaes hoje ocultas no genoma humano e de outros seres vivos.
14
3. REVISO DE LITERATURA
Neste captulo sero descritos os principais esforos que vem sendo feitos para encontrar o melhor meio de prover o armazenamento de dados biolgicos, como DNA, protenas e genoma. Atualmente, no se encontra na literatura material disponvel que trate os diversos aspectos relacionados a bioinformtica. Em (Human Genome Program, 1992) so demonstrados os requisitos iniciais dos projetos de genoma; em (Alander, 1995) tm-se um ndice bibliogrfico com algumas informaes de projetos envolvendo gentica; em (Langdom, 1996) so abordados estruturas de dados para projetos de genoma; em (Biotech, 1998) tem-se informaes sobre bioinformtica, projetos envolvendo dados biolgicos desenvolvidos por instituies espalhadas pelo mundo e algumas informaes sobre tecnologias usuais em bioinformtica; em (Bomtempi, 1999) o autor apresenta uma srie de contribuies da informtica para as reas biolgicas em geral; em (Jnior, Denipote, 1999) abordado o projeto genoma de maneira geral; em (Leser, 1999) abordado um projeto global para armazenar informaes biolgicas; em (Banerjee, 2000) t m- se a proposta apresentada pelo autor, alm de algumas informaes sobre o banco de dados 8i da Oracle; em (Basan, 2000) tm-se informaes sobre ferramentas para sequenciamento e anotao de genes, incluindo algumas informaes sobre bancos de dados biolgicos; em (Costa, 2000) abordado o trabalho desenvolvido por institutos de pesquisa e empresas no mapeamento do genoma humano; em (Critchlow; Musik; Slezak, 2000) abordado a integrao de bases de dados atravs de data warehouses; em (Oracle Corporation, 2000) tm-se a infra-estrutura do banco de dados Oracle 8i referente a dados biolgicos; em (Pessini, 2000) so abordados os progressos de tecnologias de informtica no mbito da sade mundial; em (Schroeder, 2000) so mostrados os recursos existentes no banco de dados desenvolvido pelo Centro Nacional de Biotecnologia; em (Tachinardi, 2000) so mostradas tendncias que vem a surgir em tecnologias voltada para a rea de sade; em (Lengauer, 2001) feito um comparativo entre a era ps-genmica e a era pr-genmica, estabelecendo quais so as tecnologias envolvidas na rea de bioinformtica que merecero
15 destaque nos prximos anos; em (Shui, 2001) abordada a utilizao de tecnologias de XML para o armazenamento e integrao de dados biolgicos; em (Ministrio da Cincia e Tecnologia; Centro de Referncia em Informao Ambiental, 2001) tm- se a tentativa de estabelecimento de padres para o armazenamento de dados biolgicos no banco Postgree SQL; em (Flix, 2002) so demonstradas algumas tcnicas para a utilizao de dados provenientes de projetos de genoma; em (Fugita, 2002) so demonstrados os passos realizados para efetuar a Anotao de Genes Associados com o Controle da Proliferao Celular e Origem de Tumores e em (Genoma e Gentica, 2002) feita uma anlise dos desenvolvimentos ocorridos atravs do projeto genoma.
3.1 Bioinformtica A bioinfo rmtica, como demonstrado pela figura 1, um campo interdisciplinar que une biologia e informtica, e tem como objetivo desenvolver e aplicar tcnicas computacionais no estudo da gen tica, da biologia molecular e da bioqumica (Lengauer, 2001). Este novo campo apresenta um dos principais desafios deste sculo, pois representa uma grande rea que est aberta para o desenvolvimento de novas pesquisas e de novas tecnologias, visto que tende a atender pesquisas envolvendo sistemas biolgicos, organismos e clulas. A bioinformtica , ao mesmo tempo, uma soluo para o desenvolvimento de aplicaes imediatas e uma base para um sucesso cientfico e econmico futuro. (Lengauer, 2001). A bioinformtica surge ao trmino da era pr-genmica, era que foi caracterizada pelo esforo em mapear o genoma humano. A era ps-genmica se concentra em descobrir novas informaes escondidas dentro deste mapa do genoma humano (lengauer, 2001). A bioinformtica, como mostrado pela tabela 1, se relaciona com vrias reas da informtica, utilizando o melhor de cada rea para solucionar os desafios apresentados no tratamento de dados provenientes de projetos biolgicos, como o Projeto Genoma Humano (Biotech, 1996).
16
Figura 1- Representao Grfica da rea de Bioinformtica. A tabela 1 mostra algumas das reas da informtica que possuem um relacionamento com a bioinformtica:
Tabela 1- reas de informtica que possuem relacionamento com bioinformtica (Biotech, 1996). rea Inteligncia Artificial Redes Neurais Computao evolutiva, Algoritmos Genticos e Programao Gentica Sistemas especialistas Aprendizagem de mquina Simulao de Sistemas Estatsticas e Clculos de Probabilidade A bioinformtica surge em um primeiro momento, devido falta de mecanismos para o armazenamento de informaes provenientes de projetos de pesquisa envolvendo o genoma, como o Projeto Genoma Humano, pois a grande quantidade de informaes gerada deveria ser armazenado de forma cuidadosa, com organizao, e possuindo indexao sobre as informaes provenientes de sucesses genmicas (Critchlow; Musik; Slezak, 2000).
17 As tarefas mais efetuadas na bioinformtica esto relacionadas com a criao e a manuteno de bancos de dados que contenham informaes biolgicas, envolvendo a anlise de sucesses biolgicas como (Shui, 2001): Encontrar genes nas sucesses de DNA pertencentes a vrios organismos; Desenvolvimento de mtodos capazes de predizer a estrutura e / ou a funcionalidade de protenas descobertas em sucesses de RNA e DNA; Encontrar sucesses de protena, agrupando-as em famlias de sucesses relacionadas, para que possam ser desenvolvidos modelos de protenas; e Alinhamento similar de protenas e elaborao de rvores filogenticas geradas para examinar relaes evolutivas. Todas as caractersticas descritas acima foram de vital importncia para o desenvolvimento de ferramentas que auxiliaram o desenvolvimento do Projeto Genoma.
3.1.1 Projeto Genoma Iniciado a partir de 1990, o projeto Genoma Humano constitui-se em um esforo de 13 anos coordenado pelo Departamento Americano de Energia (Human Genome Program, 1992). O projeto originalmente foi planejado para ter uma durao de 15 anos, mas os rpidos progressos tecnolgicos aceleraram as previses para o ano de 2003. Os principais objetivos do projeto so: identificar todos os 100.000 genes humanos presentes no DNA, determinar as seqncias de 3 bilhes de pares de bases qumicas, que constituem a base do DNA, armazenar estas informaes em bancos de dados, desenvolver ferramentas para anlise do material obtido, discutir e normatizar questes legais advindas do processo de pesquisa. (Genoma e Gentica, 2002). Segundo o Departamento Americano de Energia (Human Genome Program, 1992), a meta primria dos projetos de genoma pblicos e privados fazer uma srie de mapas de diagramas descritivos de cada cromossomo humano a resolues crescentemente melhores. Isto feito dividindo os cromossomos em fragmentos menores que podem ser isolados, e ordenando estes fragmentos para corresponder aos locais respectivos dos cromossomos nos fragmentos. Depois que a ordenao completada, o prximo passo determinar a sucesso de bases A (Adenina),T (Timina), C (Citosina) e G (Guanina) em cada fragmento. Ento, vrias regies dos cromossomos da seqncia sero marcados com sua respectiva
18 funo. Finalmente podem ser catalogadas diferenas em sucesses entre indivduos em um cenrio global. A figura abaixo mostra o processo pelo qual so usadas sucesses de DNA para modelar um modelo de protena.
Figura 2- Processo pelo qual so usadas sucesses de DNA para modelar um modelo de protena (Biotech, 1996). A tabela 2 mostra alguns projetos que vem sendo desenvolvidos em Universidades e Centros de Pesquisa espalhados pelo mundo.
Tabela 2- Projetos desenvolvidos em Universidades e Centros de Pesquisas (Biotech, 1996). Universidade / Centro de Pesquisa Descrio Este centro contm uma lista de bases de dados e de softwares que trabalham com Centro Nacional Australiano de Pesquisas bioinformtica, alm de possuir um motor em Bioinformtica. de busca interno de modo que se possa rapidamente encontrar o que se est procurando no Centro. Departamento de Bioinformtica da Desenvolvimento de bases de dados e Universidade de Informtica de Bergen, softwares para bioinformtica. Noruega. Desenvolvimento de bases de dados e Instituto de Bioinformtica da Universidade softwares para bioinformtica, alm de de Stanford. pesquisa envolvendo o Projeto Genoma. Laboratrio de Neuropsicolgica e Desenvolvimento de bases de dados e Bioinformtica da Universidade de Tohoku, softwares para bioinformtica, alm de Japo. pesquisa envolvendo o Projeto Genoma. Universidade de Campinas (UNICAMP) Estudo de Arranjos (Microarrays) de DNA,
19 construo de bases de dados e softwares para bioinformtica. Biologia Molecular. Desenvolvimento de Pesquisas na rea de vrus em pestes agrcolas e em mapas do Genoma Humano.
Universidade Federal do Rio Grande do Sul (UFRGS) Centro de Bioinformtica da Universidade de Pune, ndia.
3.1.2 Tecnologias existentes para a rea de Bioinformtica
Tecnologias computacionais proveram mtodos capazes de armazenar e organizar informaes sobre sucesso de genes em bancos de dados, permitindo assim uma anlise mais rpida da sucesso de genes em questo. A evoluo da computao e a alta capacidade de armazenamento tm causado o aumento de informaes criadas sobre seqncias genotpicas, facilitando assim, a descoberta de novos genes. Cientistas desenvolvem novos e sofisticados algoritmos que permitem comparar sucesses usando teorias de probabilidade. Novas tecnologias como as de data warehouse permitem que estas informaes sejam colocadas na Internet, facilitando a integrao de mais pesquisadores, facilitando a construo de novas ferramentas que auxiliem o processo de bioinformtica. Para Banerjee (Banerjee, 2000), existem quatro tecnologias poderosas que se mostram promessas para resolver problemas intratveis em bioinformtica: a arquitetura de extensibilidade para armazenar uma sucesso de dados nativamente e executar estruturas de procura no banco de dados; tecnologias de warehousing para dados em padres genticos; tecnologias de integrao de dados para habilitar questes heterogneas por fontes biolgicas distribudas; e tecnologias de portal de Internet que permitem publicar informaes de pesquisas na rea da bioinformtica, tanto para Intranets quanto para Internet. A tabela 3 mostra alguns elementos que so utilizados para a busca de genes.
Tabela 3- Elementos utilizados para a busca de genes (Biotech, 1996). Elementos Descrio Algoritmos para Reconhecimento de So usados formulrios de probabilidade Padro para determinar se duas sucesses forem
20 estatisticamente semelhantes. Estas tabelas de dados contm informaes sobre sucesses iguais para vrios elementos genticos. Quanto mais informao se tem de um determinado fragmento de DNA, melhor ser sua anlise. Sucesses genotpicas de um indivduo possuem taxonomia diferente em relao a outro indivduo. A incluso destas diferenas em um processo onde a velocidade de anlise alta minimizar erros. Estas instrues de programa definem como os algoritmos so aplicados. Definem o grau de semelhana aceitado e se existem fragmentos inteiros de sucesses, considerando uma anlise. Uma boa lgica no desenvolvimento do programa permite que os usurios possam ajustar estas variveis.
Tabelas de Dados
Diferenas de Taxonomia
Regras de Anlise
3.2 Bancos de Dados A maioria dos bancos de dados para a bioinformtica (biolgicos) consiste em longas cadeias de caracteres para representar as bases do DNA G (Guanina), A (Adenina), T (Timina) e C (Citosina). Cada sucesso de bases ou aminocidos representa um gene particular ou protena, respectivamente. Enquanto que a maioria dos bancos de dados biolgicos contm bases de DNA (nucleotdeos) e informaes sobre sucesso de protena, tambm h bancos de dados que incluem informao sobre taxonomia, como as caractersticas estruturais e bioqumicas de organismos (Basan, 2000). A tabela 4 mostra alguns bancos de dados / SGBDs que suportam dados biolgicos.
Tabela 4- Bancos de Dados com capacidade de armazenar e buscar dados biolgicos (Flix, 2002). Banco de Dados/SGBD Instituto/Empresa NIH - Banco de dados de expresso gnica Molecular Pharmacology of Cancer SMD - Banco de Dados de Microarrays Stanford University YMGV - Viso global sobre Microarray http://www.transcriptome.ens.fr/ymgv/
21 de levedura Oracle 8i/9i Banco de dados comercial
Oracle Corporation
3.2.1 Problemas na Utilizao de Banco de Dados Um problema a ser superado quando se fala em banco de dados para bioinformtica que bancos de dados tm sido em grande parte usados para administrar dados empresariais, nmeros simples, carter ou datas. Poucos bancos de dados tiveram uma habilidade nativa para lidar com dados complexos, como dados multimdia, texto, dados espaciais, ou dados genticos (sucesso de genes). A maioria destes dados fica difcil de ser controlado, como questes de achar a semelhana (em grandes cadeias de caracteres), questes sobre sucesses de gene e questes de localizao de genes em cadeias de DNA (Oracle Corporation, 2000). A figura 3 demonstra as etapas para o armazenamento de segmentos (sucesses de genes) de DNA em um banco de dados.
Figura 3- Etapas para o armazenamento de segmentos de DNA em um banco de dados. Como podemos observar na figura 3, o grande problema no armazenamento de dados biolgicos (de genoma) est no fato de que aps ser feito o mapeamento das bases de DNA para o formato de caractere, este dado dever ser armazenado, de forma que as pesquisas e busca de informaes sobre estes dados no seja dispendiosa, e que estas retornem o que realmente se espera.
3.2.2 Propostas para a Utilizao de Banco de Dados Nas sees abaixo, abordaremos algumas propostas que se mostram interessantes para a utilizao de bancos de dados no ambiente da bioinformtica.
22 3.2.2.1 Banerjee
Segundo Banerjee (Banerjee, 2000), para o caso especfico de dados biolgicos (DNA, protenas), deveria ser possvel procurar por: Propriedades: Quais so as caractersticas (propriedades) de um segmento de DNA humano com tamanho igual ou superior a 10Kb e o que est associado a este segmento; Semelhana Estrutural: dado um segmento de genes qualquer (CGTAATGC), que outros segmentos existentes no banco de dados possuiro este mesmo segmento, tanto para este organismo quanto para outros organismos? A operao de possuir deve encontrar somente segmentos que possuem em algum ponto de sua extenso o segmento dado para a procura; e Local: dado um fragmento de DNA qualquer (CGTAATGC), qual a seqncia de genes que o antecedem e o procedem. A menos que bancos de dados possam t atar nativamente de dados complexos, r aplicaes especializadas tm que ser usadas como intermedirias para executar busca e localizao de genes em fragmentos de DNA no banco de dados. Para a soluo destes problemas, Banerjee (Banerjee, 2000) defende o uso de bancos de dados relacionais estendidos.
3.2.2.2 Oracle A Oracle (Oracle Corporation, 1999) apresenta uma proposta interessante para a soluo dos problemas de banco de dados em bioinformtica: devem ser elaborados bancos de dados que sejam capazes de controlar tipos complexos, de modo a conseguir suprir as necessidades do domnio da aplicao, alm de prover apoio a qualquer tipo de dado definido pelo usurio, ou seja, um banco de dados extensvel. Este banco de dados extensvel dar apoio s necessidades do sistema para definir tipos de dados novos que sejam capazes de criar entidades de domnio como sucesso genotpica; uso de operadores definidos pelo usurio; indexao de domnio especfico, fornecendo apoio para ndices especficos de dados bio lgicos e otimizar a estensibilidade, fazendo assim uma ordenao inteligente dos predicados em questo, envolvendo tipos de dados definidos pelo usurio.
23 Criao de Tipos Definidos pelo Usurio
O sistema de tipos do ORACLE 8i/9i prov uma interface baseada em SQL para definir tipos. Estes tipos podem ser implementados em Java, C/C++ ou PL/SQL. O SGBD prov os servios de infra-estrutura de baixo nvel que so necessrios para a criao automtica destes novos tipos. Estes novos tipos podem ser objetos. Um dado tipo objeto diferente de tipos SQL nativos tais como tipos numricos (NUMBER), literais (VARCHAR) ou data (DATE). Estes novos tipos geralmente so utilizados para estender as capacidades nativas do SGBD. Estes tipos podem ser utilizados para que possam ser feitos modelos que melhor representem o domnio do sistema, melhorando a visualizao de dados do mundo real no SGDB. Alm disso, ainda existe a possibilidade da utilizao de outros dados pr-definidos pelo ORACLE 8i/9i para o armazenamento de dados grandes, como o tipo LOB. Tipos objeto podem possuir mtodos para acessar e manipular os atributos de objetos, e estes mtodos podem ser invocados de dentro do SGBD.
Criao de Operadores Definidos pelo Usurio Tipicamente, bancos de dados provem um jogo de operadores pr-definidos para operar em tipos de dados embutidos. Podem ser relacionados os operadores matemticos (+, -, *, /), de comparao (=,>, <), lgica booleana (NOT, AND, OR), comparao de strings (LIKE) e assim por diante. Para que se tenha m operadores definidos pelo usurio, a Oracle (Oracle Corporation, 1999) acrescentou a seus bancos de dados (Oracle 8i/9i) a capacidade para definir operadores de domnios especficos, ou seja, se torna possvel definir um operador para comparar sucesses genmicas. A implementao do operador deixada ao usurio, este podendo escolher as funes, os tipos de mtodos, pacotes, rotinas de bibliotecas externas e assim por diante. Pode-se ainda, serem invocados os operadores definidos pelo usurio em qualquer lugar, estes podendo ser usados como operadores embutidos, isto , onde quer que aconteam nas expresses. Os operadores definidos pelo usurio podem ainda ser usados em um comando SELECT, na condio de uma clusula WHERE, na clusula ORDER BY, e na clusula GROUP BY. Depois que um usurio define um novo operador, este pode ser usado em comandos SQL juntamente com qualquer outro operador embutido.
24 Por exemplo: o usurio define um novo operador CONTEM () que possui um FRAGMENTO de DNA decodificado de uma sucesso particular, retornando TRUE se o fragmento contiver a sucesso especificada. Esta pesquisa poder ser escrita da forma como mostra a figura abaixo:
Figura 4- Pesquisa SQL representando operadores definidos pelo usurio. Esta habilidade para aumentar a semntica dos operadores de domnio especfico um servio oferecido pelo banco de dados.
Indexao Extensvel
Bancos de dados apiam-se em alguns mtodos de acesso padro a dados, como a utilizao de rvores B+ e tabelas Hash. Como dados biolgicos so dados complexos, surge ento a necessidade de indexar tais dados utilizando tcnicas de indexao especficas para o domnio em questo. Para tipos de dados simples como tipos numricos, literais e data, a indexao destes dados pode ser controlada facilmente pelo banco de dados. Para dados de sucesso de genes (dados biolgicos/genmicos), so necessrios ndices especiais que possam executar comparaes estruturais 3D, semelhana entre cadeias de DNA, e buscas sobre outros dados complexos. O Framework para desenvolver novos tipos de ndice est baseado no conceito de cooperao entre o usurio que ir desenvolver o novo tipo de ndice e o banco de dados que ir dar suporte para a utilizao deste novo ndice criado para o controle de tipos complexos como dados genticos ou espaciais. Neste caso, o usurio responsvel por definir a estrutura do ndice, enquanto que o banco de dados o utiliza para realizar as transaes com os dados genticos. A estrutura de nd ice criada pode ser armazenada tanto no banco de dados como em um arquivo no sistema operacional, sendo que a melhor forma de armazenamento no prprio banco de dados. Para dar suporte a esta necessidade, o ORACLE 8i/9i apresenta o conceito de um IndexType, cujo propsito habilitar procura e recuperao de dados em domnios
25 complexos como domnios de bioinformtica de forma eficiente. Com tal funcionalidade, o usurio pode: Definir a estrutura de um ndice que ser utilizado em um determinado domnio como um Indextype novo; Armazenar os tipos de dados criados no prprio banco de dados ou em arquivo no sistema operacional; e Administrar e utilizar os dados de ndice para avaliar consultas. Na ausncia de ndices de domnio definidos pelo usurio, diversas aplicaes mantm em memria separada ndices para dados complexos armazenados em arquivos. Para tal feito, uma quantia considervel de cdigo e esforo requerida, pois manter a consistncia entre os ndices externos e os dados do banco de dados que se relacionam com estes ndices no uma tarefa muito fcil.
Otimizador de Extensibilidade Um otimizador tpico gera um plano de execuo para uma instruo SQL. Considerando uma instruo SELECT, temos que a execuo planeja tal instruo, incluindo um mtodo de acesso a cada tabela na clusula FROM, ordenando estas tabelas de acordo com a melhor forma (forma menos dispendiosa, mais rpida) para realizar a execuo da clusula. Mtodos de acesso definidos pelo sistema incluem ndices, clusters hash e scaneamento de tabelas. O otimizador escolhe um plano gerado atravs de um jogo de ordenao e permutao, computando o custo de cada consulta, selecionando assim a consulta com mais baixo custo. Para cada tabela existente na consulta, o otimizador calcula o custo de cada mtodo de acesso. Bancos de dados colecionam e mantm estatsticas sobre os dados em tabelas, como nmero de valores distintos, histogramas de distribuio e assim por diante, o que ajuda o otimizador a realizar seus clculos para encontra a me lhor instruo SQL. Sempre que um ndice de domnio analisado, uma ligao feita com uma coleo de estatsticas definidas pelo usurio. A representao e o significado destas estatsticas colecionadas pelo usurio no de conhecimento do banco de dados, mas ser utilizada pelo usurio calculando o custo ou a seletividade de uma operao de domnio. A seletividade de um predicado ou clusula que utiliza uma tabela escolhida para formar a consulta SQL usada para determinar a otimizao desta consulta. Assim, se fssemos
26 elaborar um ndice de domnio para sucesses de genes e implementar um operador CONTEM () baseado neste ndice, seria necessrio tambm que fosse especificado a seletividade do operador. Depois disto, um usurio executa uma consulta da forma mostrada pela figura 5, fazendo com que um plano de execuo seja gerado para determinar se o operador CONTEM dever ser aplicado antes do operador > ou vice versa:
Figura 5- Pesquisa SQL representando o otimizador de extensibilidade. O otimizador tambm calcula o custo de vrios caminhos de acesso escolhendo uma instruo SQL tima. Este otimizador de extensibilidade j implementado pelos bancos Oracle 8i/9i.
3.2.3 O Uso de Data Warehouses para a Integrao de Bases de Dados Biolgicas Para o acesso aos dados gerados por projetos de bioinformtica (dados biolgicos, como DNA, Protenas), o Lawrence Livermore National Laboratory (Critchlow; Musik; Slezak, 2000) possui um projeto para a criao de um Data Warehouse (cha mado de DataFoundry) para o ambiente de bioinformtica (dados biolgicos). O projeto comeou a ser desenvolvido em outubro de 1996 e sua tarefa inicial era desenvolver uma infraestrutura que permitiria criar e manter uma viso consistente de vrias fontes de dados autnomas. Uma outra abordagem pode ser atravs de sistemas envolvendo Data Warehouses (Armazns de Dados), pois estes so utilizados pela indstria h muitos anos, e como demonstrado pela Figura 6, so constitudos tipicamente de 5 camadas: as fontes de dados, que contm os dados a serem integrados (adicionados) ao Data Warehouse atravs dos Wrappers (analisadores gramaticais de dados), os mediadores (que traduzem os dados para a representao do Data Warehouse), o prprio Data Warehouse, que um grande repositrio de dados, geralmente um banco de dados relacional, que apresenta uma viso
27 consistente dos dados provenientes das fontes de dados, e finalmente os usurios, que interagem com o sistema atravs de uma interface.
Figura 6- Estrutura de um Data Warehouse (Critchlow; Musik; Slezak, 2000). Segundo (Critchlow; Musik; Slezak, 2000), o desafio para a criao de um Data Warehouse para o ambiente da bioinformtica est no fato de que deve-se desenvolver uma infra estrutura flexvel o bastante para controlar a natureza dinmica do domnio, pois fontes de dados para aplicaes cientficas so extremamente dinmicas. Sempre que uma fonte de dados muda seus dados, o Wrapper e o mediador devem ser atualizados para que estas atualizaes sejam espelhadas no Data Warehouse. Isto se torna um grande desafio, pois deve-se manter um Data Warehouse extremamente funcional, mesmo integrando vrias fontes de dados que sofram mudanas constantemente. A infra-estrutura de meta dados do DataFoundry (Critchlow; Musik; Slezak, 2000) contm um gerador de mediador, um programa que automaticamente gera um mediador que usa uma coleo de meta dados declarativos, definindo uma biblioteca de classes que pode ser usada pelo wrapper para representar dados obtidos da fonte de dados. Isto simplifica a integrao (adio) de novas fontes de dados, pois o administrador somente definir o conjunto de meta dados apropriados e escrever um wrapper que usar tais classes resultantes, ao invs de ter de escrever o wrapper e o mediador. Tambm ir simplificar a manuteno da Data Warehouse, pois significamente mais fcil atualizar o conjunto de meta dados do que atualizar o mediador. O DataFoundry prover acesso para os usurios atravs de interfaces desenvolvidas basicamente em HTML e Scripts CGI,
28 podendo esta interface ser desenvolvida tambm em uma linguagem de programao da escolha do laboratrio/usurio, como PERL, C/C++, e outras.
3.4 Tecnologias de XML para a Bioinformtica Bancos de dados biolgicos provaram ser teis para o armazenamento de dados biolgicos (genoma, DNA, protenas), especia lmente para a anlise de dados notrabalhados. Ferramentas computacionais para a identificao de sucesso, anlise estrutural e visualizao de cadeias de DNA foram elaboradas para acessar estes bancos de dados. Isto torna difcil a integrao de dados de diferentes fontes. Para se tentar solucionar este problema, pode-se utilizar recursos que integram bancos de dados para bioinformtica (biolgicos) diferentes atravs da utilizao de documentos XML (Shui, 2001). Recentemente alguns esforos esto sendo dedicados para a construo de documentos de definio XML (DTD) que permitem converses entre bancos de dados que se utilizam de diferentes tecnologias de XML (SHUI, 2002). Existem muitos projetos em andamento que provem bibliotecas de repositrio de dados em muitas linguagens, como Java e C/C++. Porm, muitos destes projetos esto preocupados em como analisar gramaticalmente os dados XML, ao invs de estabelecer um banco de dados XML bem formulado, capaz de integrar bancos de dados diferentes, criando assim um repositrio de informao biolgica. A grande preocupao neste caso de como integrar estas diversas bases de dados XML, visto que os dados biolgicos no possuem uma estrutura padro, pois os dados podem variar de tipo de uma base para outra. Vrios modelos de dados propostos para dados semi-estruturais so semelhantes, com variaes secundrias. Estes modelos modelam uma DTD como um grfico rotulado, onde cada n do elemento XML possui um identificador associado (OID), permitindo assim indexar mais rapidamente uma recuperao de dados do documento (Shui, 2001). Cada n do documento XML ser formado por vrias folhas, onde cada folhar possuir um valor atmico. Foram propostos vrias linguagens de consulta para estes dados semi-estruturados, onde a caracterstica comum a de descrever o contedo abordado dentro de um determinado n do documento XML. Tecnologias como XSL, XSLT, DOM API para XML (SAX) foram desenvolvidos para auxiliar o controle de visualizao de documentos XML. Estas tecnologias permitem que documentos XML
29 possam ser convertidos em documentos HTML, post-script, PDF e outros formatos de documentos, podendo estes serem utilizados para vrios propsitos (Shui, 2001).
3.4.1 Propostas de Utilizao de XML para Bancos de Dados Biolgicos Aqui apresentada uma soluo proposta por William M. Shui (SHUI, 2000), onde abordado o desenvolvimento de um sistema de banco de dados XML para o tratamento de dados biolgicos. O modelo proposto est baseado em um SGBD XML e aborda a utilizao de fontes de dados biolgicos diferentes, integrando funcionalidades variadas de bioinformtica com um sistema de bancos de dados. Este modelo permite a proviso de funes de bioinformtica atravs da interface do SGBD. O sistema projetado como um mdulo separado do SGBD XML, possuindo sua prpria API que permite que o sistema de banco de dados o utilize atravs de um plug- in. Esta API prov acesso a uma coleo de dados biolgicos atravs de ferramentas de anlise que filtram e procuram por dados durante a execuo de uma pesquisa XML. A API tambm traz algumas informaes estatsticas como o tempo mdio gasto para se efetuar uma pesquisa, o valor das variveis utilizadas na pesquisa e outras informaes que sejam necessrias atravs de funes bio-analticas. Isto permite realizar a otimizao de eventuais consultas que venham a ser feitas em cima de dados biolgicos. A figura abaixo representa a interpretao do modelo atual de dados biolgicos para anlise.
30
Figura 7- Representao da interpretao do modelo atual de dados biolgicos para anlise (Shui, 2001).
31
4. MATERIAIS E MTODOS
Para a realizao deste relatrio de estgio, foram feitas pesquisas na biblioteca do Centro Universitrio Luterano de Palmas, pesquisas na Internet atravs de sites de busca como http://www.google.com.br, http://www.altavista.com.br e outros, discusses com o grupo de estudos da rea de banco de dados do Centro Universitrio Luterano de Palmas, alm de reunies semanais com o professor orientador. importante salientar que neste caso, por se tratar de um tema novo no Brasil, a maioria do material encontrado para a realizao deste relatrio de estgio foram artigos cientficos escritos em ingls, com poucos materiais especficos do tema deste relatrio em portugus. Tentou-se tambm um estabelecimento de contato com outras universidades brasileiras como a PUC-Rio, a UNICAMP e a UFRS, que so grandes nomes em pesquisas envolvendo bioinformtica, mas no houve um interesse destas universidades em ceder algum ou parte de algum material sobre pesquisas envolvendo bancos de dados para o armazenamento de dados biolgicos (de bioinformtica). Apesar dos contratempos encontrados devido a falta de material adequado em nosso idioma, esse relatrio apresenta-se com uma boa bibliografia, a fim de complementar certos aspectos tericos discutidos neste relatrio.
32
5. RESULTADOS E DISCUSSES
O incio deste estudo serviu para a elaborao do artigo Caminhos e Tendncias do Uso de Banco de Dados em Bioinformtica, apresentado no IV Encontro de Estudantes de Informtica, II Encontro de Informtica do Tocantins e IV Escola de Informtica Norte da Sociedade Brasileira da Computao, que aconteceu em outubro de 2002, no auditrio do Centro Universitrio Luterano de Palmas - TO. Um fator relevante que foi verificado a falta de material que trate do assunto aqui levantado (bancos de dados para bioinformtica), o que foi, sem dvida, o maior problema para a realizao deste relatrio, pois se trata de um relatrio onde o principal objetivo o levantamento bibliogrfico do que est acontecendo na rea de banco de dados para bioinformtica. Outro fator verificado a falta de integrao dos centros de pesquisa brasileiros, pois como o assunto uma novidade para a maioria destes centros, os resultados obtidos com experincias com banco de dados biolgicos esto sendo, de certa forma, mantidos em sigilo, o que um ponto contra quando novas pesquisas que visam auxiliar este desenvolvimento comeam a ser desenvolvidas, pois a falta de informao e principalmente a falta de integrao so um dos grandes desafios a ser superados. Atravs da anlise dos tpicos relacionados, podemos inferir que encontrar um banco de dados que suporte tudo o que gerado em projetos de pesquisa com genes e outros dados biolgicos atravs da bioinformtica sem sombra de dvida, complexo, pois o banco de dados dever se adequar ao domnio da aplicao. Tecnologias de Data Warehouse se mostram promissoras na tentativa de integrar bases de dados heterogneas distribudas geograficamente, mas somente isto no ajudar no desenvolvimento de um padro especfico para dados biolgicos, pois atravs desta padronizao que poder se trabalhar com vrias bases de dados, sem haver nenhuma
33 perda de performance, facilitando ento o andamento de projetos que envolvam dados biolgicos distribudos em diversos centros de pesquisa. As tecnologias de XML (SGBD XML) para bioinformtica se mostram promissoras, principalmente no que diz respeito integrao de dados biolgicos provenientes de bases de dados heterogneas distribudas geograficamente que armazenem os dados biolgicos como documentos XML, mas tais tecnologias ainda esto no incio de seu desenvolvimento, o que faz com que tecnologias de XML entrem no mercado da bioinformtica daqui a alguns anos (SHUI, 2001). Muitas empresas e institutos vm pesquisando a rea de bancos de dados para bioinformtica, mas sem conseguir chegar a um padro a ser adotado para todos os bancos de dados utilizados para o armazenamento e busca de dados biolgicos, pois estas empresas e institutos tentam somente adequar o domnio de suas aplicaes aos bancos de dados j existentes no mercado, tentando solucionar suas necessidades imediatas. At o presente momento, no existe um esforo maior para se tentar encontrar um padro para ser adotados na elaborao e construo de novos bancos de dados com objetivo especfico de atender s necessidades da bioinformtica, o que impossibilita de certa forma, a troca de informaes sobre projetos que envolvam dados biolgicos pelos mais diversos centros de pesquisa espalhados geograficamente. Alm de no existir um esforo para a padronizao dos bancos de dados para bioinformtica, tambm no existe uma tentativa significativa para que seja feita a padronizao do esquema de pesquisa SQL para os dados biolgicos (DNA, protenas, etc). Atualmente, a Oracle, uma das grandes empresas do ramo de solues para banco de dados, iniciou suas pesquisas na rea de bioinformtica, objetivando atender as necessidades dos institutos e empresas particulares que trabalhem com dados biolgicos, sendo assim, uma das primeiras empresas a tentar padronizar o esquema de banco de dados para bioinformtica, pois at ento os esforos para a rea eram escassos e individuais, no possibilitando assim a construo de um padro a ser adotado para o armazenamento e tratamento de dados biolgicos. Alm da Oracle, outros grandes institutos e centros de pesquisa, tanto de computao quanto de biologia molecular, de universidades, rgos do governo de vrios pases (inclusive o Brasil) e empresas privadas (principalmente farmacuticas), espalhadas pelo mundo esto tentando entrar em comum acordo para elaborar um padro que venha a
34 ser adotado por todos os bancos de dados que venham a trabalhar com dados biolgicos, a fim de acabar com o problema causado pela falta de padronizao. Com a adoo de um padro especfico para os bancos de dados biolgicos (para bioinformtica), a troca de informaes dentre os mais variados institutos de pesquisa ser amplamente melhorada, facilitando assim a descoberta de novos medicamentos e novas curas para doenas considerveis intratveis como o cncer (Lengauer, 2001). Com o recente interesse da indstria farmacutica em estudar o genoma para desenvolver medicamentos melhores e mais eficazes, as tentativas para a padronizao dos bancos de dados biolgicos (de bioinformtica) se daro de uma maneira mais rpida, pois os valores investidos na rea de bancos de dados para bioinformtica pelas por empresas farmacuticas far com que diversos centros de pesquisa tentem desenvolver um padro a ser adotado (Banerjee, 2000).
35
6. CONCLUSES
Como foi mostrado neste relatrio de estgio, muitas instituies e empresas privadas de vrios pases vm tentando desenvolver solues de bancos de dados que venham a auxiliar na pesquisa de dados genticos (DNA, protenas), a fim de que o desenvolvimento de novas pesquisas envolvendo dados biolgicos se d de uma maneira mais rpida e eficiente. O interessante neste caso que poucos ou nenhum dos bancos de dados existentes no mercado para a bioinformtica consegue retornar de forma eficaz os resultados esperados nas consultas efetuadas sobre uma base de dados biolgica. Solues como as da Oracle oferecem um melhor suporte para a realizao de tais pesquisas, mas tal soluo somente o incio de pesquisas que devam surgir nos prximos anos, a fim de fazer com que dados biolgicos possuam uma facilidade de tratamento e busca tal qual existe para dados comuns, como NUMBER, DATE e CHAR. A utilizao de data warehouse uma soluo interessante quando falamos em interligar bases biolgicas de vrias entidades, mas esta soluo no pode ser aplicada separadamente, sem utilizarmos formas de otimizao de pesquisas e tratamento dos dados biolgicos, pois se somente a integrao destes bancos no nos garante que as buscas por informaes referentes a dados biolgicos v se dar de uma forma eficaz. A utilizao de tecnologias XML muito interessante, mas esta tecnologia ainda no est bem formulada para o domnio de dados biolgicos, sendo implementada e testada aos poucos, principalmente se apoiando nos conceitos oferecidos pela W3C. Devido o que foi visto neste relatrio, podemos concluir que o desenvolvimento de solues para bancos de dados no domnio da bioinformtica est em crescente expanso, o que far com que pesquisas melhores no mbito da bioinformtica venham a acontecer, facilitando assim a descoberta de novos dados biolgicos/genmicos que possibilitem a descoberta de novos medicamentos.
36
7. REFERNCIAS BIBLIOGRFICAS
ALANDER, Jarmo T. An Indexed Bibliografy of Genetic Programing. Vaasa: University of, 1995.
BANERJEE, Sandeepan. A Database Platform for Bioinformatics. Redwood Shores: Oracle Corporation, 2000.
BASAN, Ana Lcia C. Ferramentas de Bioinformtica para Sequenciamento e Anotao. Porto Alegre: Universidade Federal do Rio Grande do Sul, 2000.
BIOTECH.
Bioinformatics.
Texas:
jun.
1998.
Disponvel
em
<http://biotech.icmb.utexas.edu/pages/bioinform/BIintro.html>. Acesso em 22/08/2002.
BOMTEMPI, Nelson. Contribuies da Cincia Biolgica no sculo XX e sua projeo para o sculo XXI. O Mundo da Sade , So Paulo, ano 23, n. 6, p. 399-405, nov. a dez. 1999.
COSTA, Viviane Rita. Genoma Decifrado, Trabalho Dobrado. Cincia Hoje , So Paulo, v. 28, n. 166, p. 22-35, nov. 2000.
CRITCHLOW,
Terence;
MUSICK,
Ron;
SLEZAK,
Tom.
An
Overview
of
Bioinformatics Research at Lawrence Livermore National Laboratory. Califrnia: Department of Energy by University of California Lawrence Livermore National Laboratory, 2000.
37 FLIX, Juliana M. Genoma Funcional. Biotecnologia, Cincia & Desenvolvimento, So Paulo, n. 24, p. 60-67, jan. a fev. 2002.
FUGITA, Andr. Anotao de Genes Associados com o Controle da Proliferao Celular e Origem de Tumores. So Paulo: Universidade de So Paulo, ago. 2002. Disponvel em <http://www.linux.ime.usp.br/~fugita/mac499>. Acesso em 18/08/2002.
GENOMA E GENTICA. So Paulo: ClickZero, ago. 2002. Disponvel em <http://www.geocities.com/clickzero/genome.htm>. Acesso em 15/08/2002.
HUMAN GENOME PROGRAM. Department of Ene rgy,
Primer on MolecularGenetics. ago.1992.
Washington: em
Disponvel
<http://www.ornl.gov/hgmis/publicat/primer>. Acesso em 02/08/2002.
JNIOR, Hermes P. Morais; DENIPOTE, Juliana Gouveia. Projeto Genoma. So Paulo: Universidade Estadual Paulista, 1999.
LANGDON, W. B. Data Structures and Genetic Programing. Londres: University College London, 1996.
LENGAUER, Tomas. Computational Biology at the Beginning of the Post-genomic Era. Berlin: University of Bonn, 2001.
LESER, Ulf. Designing a Global Information Resource for Molecular Biology (Short Paper). Berlin: Technische Universitt Berlin, 1999.
MIT, Ministrio da Cincia e Tecnologia; CRIA, Centro de Referncia em Informao Ambiental. Sistemas de Informao: Estudos de Tecnologias e Padres. Braslia, DF, 2001.
ORACLE CORPORATION. Oracle8i Data Cartridge Developers Guide: Release 8.1.5 (Part No. A68002-01). Redwood Shores: Oracle Corporation, 1999.
38 PESSINI, Lo. Tecnocincia da Informao em Sade. O Mundo da Sade , So Paulo, ano 24, n. 3, p. 163-164, mai. a jun. 2000.
SCHROEDER, L. F. Recursos de Banco de Dados do Centro Nacional de Biotecnologia (NCBI). Braslia: Centro Nacional de Biotecnologia, 2000.
SHUI, Willian M. Utilizing Multiple Bioinformatic Information Sources: An XML Database pproach 2001 Bioinformatics Honours Thesis. Sydney: University of New South Wales, 2001.
TACHINARDI, Umberto. Tendncias da Tecnologia da Informao em Sade. O Mundo da Sade , So Paulo, ano 24, n. 3, p. 165-172, mai. a jun. 2000.

Rel Estagio

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Rel Estagio

Enviado por

Direitos autorais:

Formatos disponíveis

Emilio Mario Wieczorek

Caminhos e Tendncias do Uso de Bancos de Dados em Bioinformtica

Emilio Mario Wieczorek

Caminhos e Tendncias do Uso de Bancos de Dados em Bioinformtica

EMILIO MARIO WIECZOREK

CAMINHOS E TENDNCIAS DO USO DE BANCOS DE DADOS EM BIOINFORMTICA

Aprovada em 03/12/2002 BANCA EXAMINADORA

______________________________________________________ Prof. Eduardo Leal

_______________________________________________________ Prof. Deise de Brum Saccol

_______________________________________________________ Prof. CRISTINA DORNELLAS FILIPAKIS

Palavras-chave: caminho s, tendncias, bioinformtica, banco de dados.

Tabela 1- reas de informtica que possuem relacionamento com bioinformtica (Biotech,

1996). .......................................................................................... Tabela 2- Projetos desenvolvidos em Universidades e Centros de Pesquisas (Biotech,

(Flix, 2002). ....................................................................................

3.1.2 Tecnologias existentes para a rea de Bioinformtica

21 de levedura Oracle 8i/9i Banco de dados comercial

23 Criao de Tipos Definidos pelo Usurio

<http://biotech.icmb.utexas.edu/pages/bioinform/BIintro.html>. Acesso em 22/08/2002.

HUMAN GENOME PROGRAM. Department of Ene rgy,

Primer on MolecularGenetics. ago.1992.

<http://www.ornl.gov/hgmis/publicat/primer>. Acesso em 02/08/2002.

Você também pode gostar