Você está na página 1de 39

BANCOS DE DADOS BIOLGICOS

Jorge Mondego

Bancos de dados biolgicos

Bancos de dados incluem:


- Arquivos contendo as informaes
- Organizao lgica e estruturada dessas informaes
- Ferramentas para se ter acesso s informaes

Por que criar bancos de dados biolgicos?


Disponibilizar dados biolgicos para os cientistas
O mximo possvel de um tipo particular de informao
deve estar disponvel em um nico lugar
Dados publicados podem ser difceis de encontrar ou acessar
Colet-los da literatura consume muito tempo
Disponibilizar dados em formato que possa ser lido
por um computador

Como acessar e recuperar informaes dos bancos de dados?


-

Todo banco de dados composto por entradas (pacotes discretos e


coerentes de informao)
Um software de recuperao de informao identifica entradas
relevantes para o seu interesse
Para que a pesquisa seja bem-sucedida, seja o mais especfico
possvel
Se voc procura uma albumina de galinha....

Busque por Chicken AND albumin


-

Se voc for procurar primeiro por Chicken vo aparecer entradas


que no contm informao sobre as albuminas (perda de tempo)
Se voc procurar por albumin vo aparecer entradas contendo a
informao sobre albuminas que no so necessariamente de
galinha (perda de informao)

Saiba o qu e aonde voc est pesquisando....


E. coli Escherichia coli

E. Coli Elisabetta coli, pesquisadora do departamento de


psiquiatria, farmacologia, neurobiologia e biotecnologia.
Seo de psiquiatria, Universidade de Pisa, Italia.

Sede por conhecimento

-Talvez voc no encontre o que voc busca, mas se encontrar.....


provavelmente vai querer saber mais

- Exemplos:
-Achar genes homlogos ao que voc buscou
-Referncias bibliogrficas sobre o gene
-Estrutura da protena codifcada por esse gene

Coneco entre os bancos de dados


(Interatividade)
-Achar genes homlogos ao que voc buscou
- Coneco entre entradas do mesmo banco
(banco de dados de genes)
-Referncias bibliogrficas sobre o gene
- Coneco entre banco de dados de genes e banco
de referncias
-Estrutura da protena codifcada por esse gene
-Coneco entre banco de dados de genes e banco de
struturas de protenas

Bancos de dados e o crescimento da informao

Informao aumenta e os bancos devem se adequar

Informao aumenta, os genes evoluem


e os bancos devem se adequar...e ..evoluir

- Aumento do recurso computacional para o arquivamento e


interpretao dos dados
- Aumento do nmero de bancos especializados (boutiques)
- Surgimento dos sites guarda-chuva tipo portal
- Aumento da interatividade

Exemplos de bancos de dados pblicos


para biologia molecular
1 - Bancos de dados primrios (seqncias de nucleotdeos)
- NCBI, EMBL, DDBJ
2 - Meta-databases
ENTREZ
3 - Bancos de dados genmicos
Ensembl, SGD, TAIR
4 - Bancos de dados de protenas
UNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY
5 - Bancos de dados de estrutura de protenas
PDB
6 - Bancos de domnios e motivos proteicos
PFAM, SMART, PROSITE, PRODOM, PRINTS
7 - Bancos de vias metablicas
KEGG, BioCyc
8 - Bancos de dados de expresso gnica
ArrayExpress, GEO
9 - Bancos de ontologia
Gene Ontology

1 - Bancos de dados primrios (seqncias de nucleotdeos)

DDBJ (DNA Data Bank of Japan)


EMBL Nucleotide DB (European Molecular Biology Laboratory - EBI)
GenBank (National Center for Biotechnology Information - NCBI)
Consrcio International Nucleotide Sequence Database (INSD)
Armazenam seqncias de nucleotdeos de todos os organismos
Eles trocam informao e so fontes para outros bancos de dados

http://www.ddbj.nig.ac.jp/
http://www.ebi.ac.uk/embl/
http://www.ncbi.nlm.nih.gov/

Ponto forte do sistema NCBI so as conexes entre


os vrios bancos de dados

Selecionar

Inserir
consulta

2Meta-database

Entrez
Busca em vrios bancos
do NCBI

Interface por meio da


qual todos os seus
BDs componentes
podem ser acessados

PubMed: biomedical literature citations and abstracts, including


Medline - articles from (mainly medical) journals
PubMed Central: free, full text journal articles
Books: online books
OMIM: online Mendelian Inheritance in Man
OMIA: online Mendelian Inheritance in Animals
Nucleotide: sequence database (GenBank)
Protein: sequence database
Genome: whole genome sequences and Mapping
Structure: three-dimensional macromolecular structures
Taxonomy: organisms in GenBank Taxonomy
SNP: single nucleotide polymorphism
Gene: gene-centered information
HomoloGene: eukaryotic homology groups
PubChem Compound: unique small molecule chemical structures
PubChem Substance: deposited chemical substance records
Genome Project: genome project information
UniGene: gene-oriented clusters of transcript sequences
CDD: conserved protein domain database
3D Domains: domains from Entrez Structure
UniSTS: markers and mapping data
PopSet: population study data sets (epidemiology)
GEO Profiles: expression and molecular abundance profiles
GEO DataSets: experimental sets of GEO data
Cancer Chromosomes: cytogenetic databases
PubChem BioAssay: bioactivity screens of chemical substances
GENSAT: gene expression atlas of mouse central nervous system
Probe: sequence-specific reagents

3 - Bancos de dados genmicos


Coleo de informaes sobre determinados genomas (quase
sempre organimos modelo).
Dados de anotao vinculados a genome browse

Iniciativa conjunta ente o EBI e o


Sanger Center. Coleta e anotao de
seqncias disponveis de eucariotos,
tendo como foco principal o Homo sapiens.

Busca por regio no cromossomo 16

Ensembl fornece:
- Genomas completos de diversos
- Anotao de SNPs
- Alinhamento com seqncias homlogas de outros organismo
- Correlaes com outros bancos de dados

SGD fornece:
-Genoma completo
-Fentipos de mutantes especficos para cada gene
-Dados de expresso gnica

The Arabidopsis Information Resource

TAIR fornece:
-Genoma completo
-Localizao das inseres de T-DNA
-Dados de expresso gnica

4 - Bancos de protenas

Consrcio que visa fornecer anotao relevante e curada de protenas.


Baseiam-se em dados de protemica (principalmente), genmica
e transcriptmica.

Como funciona:
Protenas anotadas so includas no UniProtKB-SwissProt
Tradues de genes depositados no EBI so includos no UniProt-TrEMBL

Vantagens do UniProt:
- banco curado manualmente
- contm muita informao
sobre as protenas
(glicosilao, pontes
dissulfeto, Stios
transmembrana)
- conectado a outros bancos
de dados de protenas

ExPASy Expert Protein Analysis System

Sistema de anlise e recuperao de informao de protenas.


Produz as anotaes para o UniProtKB/SwissProt
Possui uma srie de ferramentas para anlise de protenas

5 - Bancos de estruturas de protenas e outras macromolculas


Anota, cataloga e distribui conjuntos de coordenadas
atmicas de macromolculas

Estrutura do vrus da dengue

PDB fornece:
- Detalhes experimentais sobre a gerao da estrutura
- Atribuies da estrutura
- Coordenaes atmicas
- Links para outros bancos de dados

6 - Bancos de domnios proteicos


Anotam e catalogam domnios ou motivos proteicos. Fazem comparaes entre
sequencia de consulta e banco de dados.

Os domnios ajudam na identificao de


molculas que compartilham
a mesma atividade

Interpro: Portal que inclui vrios bancos de dados de


domnios e de estrutura de protenas

O Interpro une as anotaes dos bancos residentes


e gera uma cdigo de acesso consenso

7 - Bancos de vias metablicas


Kegg coleo de bancos de dados on-line que ligam
genomas com vias enzimticas

EC number

BioCyc liga genomas e vias metablicas

8 - Bancos de dados de expresso gnica

- Banco de dados de depsito de dados de expresso gnica em larga


escala (ArrayExpress somente microarranjos)

9 - Bancos de ontologia

Gene Ontology (GO) project, fornece um vocabulrio controlado para descrever


genes e produtos gnicos de um organismo.

Ontologias :
Molecular Function (atividade enzimtica, funo biolgica)
Biological process (processo em que a protena est envolvida),
Cellular component (Ccompartimento onde a protena se localiza)
As ontologias so estruturadas como grafos accilicos diretos.
Parece uma Hierarquia, porm termos mais especializados (filhos)
podem ser relacionados a mais de um termo menos especializado (pai).

Biological process Biossntese de hexose tem dois pais:


- Processo metablico de hexose e processo biossinttico
de monossacardeos
- Biossntese de hexose um tipo de processo metablico e
hexose um monossacardeo
- Qualquer gene envolvido com biossntese de hexose ser
anotado com esse termo e automaticamente anotado em
processo metablico de hexose e processo biossinttico de
monossacardeos

Busca por ontologia no GO

Nveis GO

NAR database issue 2008

http://nar.oxfordjournals.org/cgi/content/full/gkm1037/DC1/1

http://nar.oxfordjournals.org/content/vol36/suppl_1/index.dtl