P. 1
Banco de Dados biológico

Banco de Dados biológico

|Views: 875|Likes:
Publicado porDiana Santos
Trabalho sobre fundamentos e aplicações dos bancos de dados biológicos na atualidade.
Trabalho sobre fundamentos e aplicações dos bancos de dados biológicos na atualidade.

More info:

Published by: Diana Santos on Jun 27, 2011
Direitos Autorais:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

08/21/2013

pdf

text

original

BANCO DE DADOS BIOLÓGICO

EQUIPE: Cleyton Daniel Danilo Diana Glaydson Haury Marcos Victor

Recife, 10 de junho de 2009

Banco de Dados Biológicos

Índice

Visão Geral…………………………………………………………………………….....……….3 Recursos Principais…………………………………………………………………….....…..5 Exemplos e Softwares………………………………………………………………….…....7 Conclusão………………………………………………………………………………….….....10 Bibliografia…………………………………………………………………………………...….10

2

Banco de Dados Biológicos Banco de Dados Biológicos – Visão Geral
O que é Banco de Dados Biológico? Um Banco de dados biológico constitui um grande conjunto de dados persistentes, geralmente associado a um software projetado para atualizar, consultar e recuperar componentes dos dados armazenados no sistema. Geralmente são tabelas que contêm uma grande quantidade de registros. Por exemplo, um registro associado a uma seqüência de nucleotídeos, contém normalmente uma descrição do tipo de molécula, seu nome científico, além disso citações na literatura correspondentes a esta seqüência. Para os pesquisadores que se beneficiam com os dados guardados em um banco de dados, dois requisitos são precisos: – Fácil acesso às informações. (Eficácia) – Métodos para extrair somente as informações necessárias para responder a uma específica pergunta biológica. (Objetivo)

O objetivo O principal objetivo é permitir integrar e consultar, de forma otimizada, dados de seqüências de DNA, padrões de expressão de genes, estrutura de proteínas, conseqüências clínicas, dentre outros elementos resultantes de pesquisas efetuadas em um projeto genoma*. *Projeto Genoma é o nome de um trabalho conjunto realizado por diversos países visando desvendar o código genético de um organismo (podendo ser animal, vegetal, de fungos, bactérias ou de um vírus) através do seu mapeamento. Seu marco inicial é considerado o Projeto Genoma Humano. Projeto GMOD “O Generic Model Organism Database Project é um projeto open source, cujo objetivo é desenvolver um conjunto completo de softwares para a criação e administração de um banco de dados biológico”. GMOD (2004). Financiado pelo NIH (National Institute of Health) e pelo USDA Agricultural Research Service. Citrina: – O Citrina consiste em uma ferramenta de gerência que permite automatizar o espelhamento e processamento de bancos de dados que estão distribuídos através de diversos servidores FTP. A mesma foi desenvolvida através da tecnologia Java Ant, o que a torna mais flexível e portável. – Um exemplo de uso para o Citrina seria a transferência de Chado SQL entre vários sites de organismos e a população automática dos diversos bancos de dados PostgreSQL através dos recursos de SQL fornecidos pela tecnologia Java Ant. 3

Banco de Dados Biológicos

BioMart: – Sistema de Integração de dados orientado a consultas, baseado na idéia de data warehouse. – Sistema de Consultas desenvolvido especificamente para uso de grandes bancos de dados. Simplifica a tarefa de integração entre diferentes bancos de dados distribuídos pela rede. Chado: Segundo Chado (2004), consiste em um “... conjunto de módulos de um esquema destinados à construção de um esquema de banco de dados biológico relacional....” O Chado foi desenvolvido com o intuito de ser aplicado, especificamente, a um banco de dados open source, como é o caso do PostGreSQL (PostgreSQL, 2004) e do MySQL (MySQL, 2004). Além disso, outro pré-requisito para o funcionamento eficiente do Chado é a configuração de diversos pacotes BioPerl (BioPerl, 2004). O Chado está sendo utilizado atualmente pelo FlyBase (FlyBase, 2004) e pelo Berkeley Drosophila Genome Project (BDGP, 2004). O Chado, o qual constitui um dos subprojetos do GMOD, apresenta-se como um esquema mais simples e genérico para a representação de dados biológicos. Este esquema ainda se encontra em desenvolvimento, o que pode ser verificado na grande simplicidade nos módulos responsáveis pela representação de mapas genéticos, interações genéticas e expressão gênica. Todos os dados resultantes das análises de um projeto genoma são armazenados nos chamados bancos de dados biológicos. Inicialmente, cada laboratório desenvolveu o seu próprio banco de dados, contemplando somente as necessidades do projeto genoma por ele sendo executado. Um banco de dados genômico para os biólogos geralmente é um web site que apresenta informações que muitas vezes estão armazenadas em arquivos texto. Outras vezes, os dados podem até estar em SGBDs, mas isto só começou a se tornar realidade há poucos anos. Por exemplo, o www.plasmodb.org, um "banco de dados genômico" do Plasmodium (causador da malária) usa dados armazenados tanto em arquivos texto quanto em Oracle. A migração vem se dando há pouco tempo. O banco de dados biológico mais famoso é o GenBank.

4

Banco de Dados Biológicos Recursos Principais de banco biológico
Um dos mais importantes desafios para a biologia pós-genômica é atender a estrutura e o comportamento das interações moleculares complexas que controlam o comportamento celular. Para tanto é essencial à integração dos dados biológicos referentes a estas interações armazenadas em diversos bancos de dados. Este é um problema difícil, pois estes dados estão disponíveis em banco de dados públicos espalhados geograficamente na rede mundial de computadores, e cada um destes possui um sistema diferente de gerenciamento, formato ou visão de como representar os dados. Os principais problemas para a realização desta tarefa são: a necessidade de se desenvolver e aplicar parsers para cada banco de dados sem ausência de um vocabulário unificado. Como uma alternativa para facilitar estes problemas, este trabalho propõe a ontologia MONET (Molecular Network Ontology) que tem como objetivo ser um modelo integrado para a rede de redes que existe dentro da celula. Tal visão integrada ajuda a entender as interações de larga escala responsáveis pelo comportamento da célula, e permite a predição do comportamento celular que pode ser experimentalmente testado. A ontologia engloba o metabolismo e a integração proteína-proteína para os organismos procariotos e eucariotos, e regulação gênica para seres procariotos. Como resultado, este trabalho proporcionou uma padronização dos termos usados nas três áreas abarcadas pela ontologia e a população da ontologia com dados referentes à bactéria E.coli. A partir desta integração construímos a rede integrada da bactéria, e com o conhecimento representado realizamos experimentos de aprendizado de máquina para a predição da essencialidade de um gene com base na análise topológica da rede de interações, utilizando o algoritmo J48, obteve-se uma cobertura de 85,7 por cento para o melhor resultado. Além disto, caracterizamos a rede integrada da E.coli, como uma rede livre de escala hierárquica Sendo a eficiência um problema constantemente observado em praticamente todos os textos lidos sobre banco de dados biológicos, problema encontrado mais especificamente nas buscas e no tratamento destes dados. Principalmente porque os sistemas de banco de dados atuais estão prontos para informações simples não alcançaram ainda a complexidade biológica com todas as suas minúcias e com relacionamentos que transcendem a capacidade dos sistemas atuais. Os principais recursos disponíveis até o momento para se tentar encontrar a melhor forma de armazenamento e de pesquisa (SQL), através de técnicas diferenciadas para o tratamento destes dados gerados pelas pesquisas biológicas são: SGBD’s que possuem suporte para a criação de novos tipos de dados e métodos através de um banco dados extensível dando apoio as necessidades do sistema, 5

Banco de Dados Biológicos
definido novos tipos de dados capazes de criar entidades de domínio, como sucessão genotípica entre outras, usando operadores definidos pelo usuário como: indexação de domínio específico, fornecendo apoio para índices específicos de dados biológicos e otimizar a extensibilidade, fazendo assim uma ordenação inteligente dos predicados em questão, envolvendo tipos de dados definidos pelo usuário. Warehouses, ou armazéns de dados, é geralmente um banco de dados relacional apresentando uma visão consistente dos dados, um problema para a criação em bioinformática é a necessidade de uma infra estrutura flexível ao ponto de controlar a dinâmica do domínio, são constituídos de cinco camadas: as fontes de dados, os Wrapper’s, o mediador, o data werehouse e o usuário. Fontes de dados – origem dos dados a serem adicionados ao warehouse. Wrapper’s – analisadores gramaticais de dados. Mediador – traduz os dados para apresentação do Data Warehouse. Data Warehouse – dados. repositório de

Usuários – interagem com o sistema através de uma interface.

XML (DTD) que permite conversões entre bancos de dados que se utilizam de diferentes tecnologias de XML. A idéia é criar um banco de dados XML bem formulado capaz de integrar danço de dados diferentes, criando um repositório de informação biológica. O problema é integrar diversas bases de dados XML cujos dados não possuem uma estrutura padrão, podendo variar o tipo de uma base para outra. SGBD ad-hoc, um gerenciador de Baco de dados voltado especificamente para lidar com dados biológicos. Um problema para esta aplicação é o alto custo e pouca abrangência, o que os torna economicamente inviáveis.

6

Banco de Dados Biológicos Exemplos e Softwares de bancos de dados públicos para biologia molecular
1 - Bancos de dados primários (seqüências de nucleotídeos) NCBI, EMBL, DDBJ Armazenam seqüências de nucleotídeos de todos os organismos Eles trocam informação e são fontes para outros bancos de dados. 2 - Meta-databases ENTREZ

Interface por meio da qual todos os seus BDs componentes podem ser acessados.

3 - Bancos de dados genômicos Ensembl, SGD, TAIR Ensembl fornece: - Genomas completos e diversos. - Anotação de SNPs - Alinhamento com seqüências homólogas de outros organismos. - Correlações com outros bancos de dados. SGD (Saccharomyces Genome Database ) fornece: -Genoma completo -Fenótipos de mutantes específicos para cada gene -Dados de expressão gênica 7 TAIR fornece: -Genoma completo -Localização das inserções de T-DNA -Dados de expressão gênica

Banco de Dados Biológicos
4 - Bancos de dados de proteínas UNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY UniProt: Consórcio que visa fornecer anotação relevante e curada de Proteínas. Baseiam-se em dados de proteômica (principalmente), genômica e transcriptômica. Proteínas anotadas são incluídas no UniProtKB-SwissProtTraduções de genes depositados no EBI são incluídos no UniProt-TrEMBL. ExPasy: Sistema de análise e recuperação de informação de proteínas. Produz as anotações para o UniProtKB/SwissProt Possui uma série de ferramentas para análise de proteínas 5 - Bancos de dados de estrutura de proteínas PDB

Anota, cataloga e distribui conjuntos de coordenada atômicas de macromoléculas PDB (World Wide Protein Data Bank) fornece: - Detalhes experimentais sobre a geração da estrutura. - Atribuições da estrutura - Coordenações atômicas - Links para outros bancos de dados 6 - Bancos de domínios e motivos protéicos PFAM, SMART, PROSITE, PRODOM, PRINTS

- Anotam e catalogam domínios ou motivos protéicos. Fazem comparações entre seqüência de consulta e banco de dados.

7 - Bancos de vias metabólicas KEGG, BioCyc Kegg – coleção de bancos de dados on-line que ligam genomas com vias enzimáticas 8

Banco de Dados Biológicos
8 - Bancos de dados de expressão gênica ArrayExpress, GEO - Banco de dados de depósito de dados de expressão gênica em larga escala (ArrayExpress – somente microarranjos)

9 - Bancos de ontologia Gene Ontology

Gene Ontology (GO) project, fornece um vocabulário controlado para descrever genes e produtos gênicos de um organismo. Ontologias: Molecular Function (atividade enzimática, função biológica) Biological process (processo em que a proteína está envolvida), Cellular component (Compartimento onde a proteína se localiza) As ontologias são estruturadas como grafos acíclicos diretos. Parece uma Hierarquia, porém termos mais especializados (filhos) Podem ser relacionados a mais de um termo menos especializado (pai).

9

Banco de Dados Biológicos Conclusão
Até o presente momento, não existe um esforço maior para se tentar encontrar Um padrão para ser adotados na elaboração e construção de novos bancos de dados com objetivo específico de atender às necessidades da bioinformática, o que impossibilita de certa forma, a troca de informações sobre projetos que envolvam dados biológicos pelos mais diversos centros de pesquisa espalhados geograficamente. A utilização de data warehouse é uma solução interessante quando falamos em interligar bases biológicas de várias entidades, mas esta solução não pode ser aplicada separadamente, sem utilizarmos formas de otimização de pesquisas e tratamento dos dados biológicos, pois se somente a integração destes bancos não nos garante que as buscas por informações referentes a dados biológicos vá se dar de uma forma eficaz. A utilização de tecnologias XML é muito interessante, mas esta tecnologia ainda não está bem formulada para o domínio de dados biológicos, sendo implementada e testada aos poucos, principalmente se apoiando nos conceitos oferecidos pela W3C.

BIBLIOGRAFIAS:
http://imgproj.cs.man.ac.uk/tambis/ http://www.ncbi.nlm.nih.gov/Genbank/ III Congresso Científico do CEULP/ULBRA(PADRÕES DE TIPOS E MÉTODOS PARA BANCO DE DADOS EM BIOINFORMÁTICA.pdf)

10

You're Reading a Free Preview

Descarregar
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->