Você está na página 1de 27

Introdução Bancos de Dados

Secundários

PROF. DR. RODRIGO MATHEUS PEREIRA


FCBA - UFGD
Bancos de dados secundários

 Há bancos de dados em bioinformática para


praticamente qualquer tipo de abordagem em
biologia molecular;

 Bancos de dados primários;


 Genbank, ENA

 Bancos de dados secundários;


 Swissprot, RefSeq, COG
Tipos de BD Biológico
 BD Primário
 Contém informações de seqs experimentais (nucleotídeo ou
proteína)

 Acompanha informações básicas como função, origem,


autor, referência com outras bases;

 Depósito direto de Sequencias ou informações

 Exemplos: Genbank, ENA.


Tipos de BD Biológico

 BD secundário
 Geralmente são bancos curados;

 Previamente analisado por equipes de cientistas;

 As informações são retiradas de outros bancos de dados


biológicos (bancos primários).

 Exemplos: RefSeq, CARD, SWISS-PROT.


Os bancos de dados do NCBI

 PubMed

 GenBank
 GenPept
 Genome
 dbGSS
 dbEST
 dbSNP
National Center for Biotechnology
Information

O NCBI fornece acesso a


genomas completos de mais de
7000 organismos. Se levarmos em
conta os que estão em processo de
sequenciamento esse número
salta para mais de 60000.

http://www.ncbi.nlm.nih.gov
Bancos de dados secundários

 NCBI
 Entrez é o sistema que permite realizar buscas em 39 bancos
de dados do NCBI

 Os bancos estão divididos em :


 Literatura,;

 Químicos,;

 Saúde ;

 Genomas ;

 Proteínas;
RefSeq

 Um conjunto de dados não


redundante, integrado, bem
anotado, de sequências de
referência genômicas;

 Banco de dados de sequências


de referência para genomas,
incluindo transcritos e
proteínas;

 Apresenta uma única cópia


para cada gene no genoma
 É o verdadeiro NR
Níveis de curadoria RefSeq

 Predita: automática
 cDNA com ORF sem função descrita

 Provisória: manual
 proteína com função conhecida ou inferida
 o melhor representante do GenBank, mais anotado

 Revisada: manual
 compilação sobre o gene e seus transcritos
 sequência, propriedades, nomenclatura, referências,
retirada de vetor, adição de UTRs, domínios conservados,
descrição da função do gene, links
 http://www.ncbi.nlm.nih.gov/refseq/
dbEST

 O banco de dados de EST é


uma coleção de sequencias
transcritas do genbank.
 Essas sequências possibilitam
avaliar a expressão do gene,
encontrar variações, e anotar
genes.
 http://www.ncbi.nlm.nih.gov
/nucest
UniGene

 Contém clusters de ESTs


formados a partir de
similaridades usando o
algoritmo megaBLAST

 Reune variantes de
splicing no mesmo
identificador

 Cataloga variantes de
splicing por tecido
Unigene

• Identifica transcritos do mesmo locus, analisa a


expressão por tecido, idade, estado de saúde.

• Informa proteínas relacionadas e fontes de clones;

• Cada aglomerado do UniGene contém as


sequências que representam um gene único;

• http://www.ncbi.nlm.nih.gov/unigene
Genome

 Este banco organiza as seguintes informações sobre


genomas:
 Sequencias;
 Mapas genômicos;
 Cromossomos;
 Montagens;
 Anotações.
 http://www.ncbi.nlm.nih.gov/genome
SNP
(single nucleotide polymorphisms)

 Banco de dados de polimorfismo de nucleotídeo


simples (SNP) fornece informações sobre:
 SNPs
 Variações múltiplas de inserções/deleções;
 Microsatélites;
 Variantes não polimórficas.

 http://www.ncbi.nlm.nih.gov/snp
Taxonomy

 O Taxonomy é banco de dados de classificação


curado que exibe a nomenclatura para todos os
organismos no banco de dados público.

 Atualmente apresenta a descrição de quase 10% de


todas as espécies vivas do planeta

 http://www.ncbi.nlm.nih.gov/taxonomy
ClinVar

 O ClinVar agrega informação sobre variações


genômicas e suas relações com a saúde humana.

 Os alelos descritos nas submissões são mapeados nas


sequências de referência;

 http://www.ncbi.nlm.nih.gov/clinvar/
COG

 Cluster of Orthologous
Groups
 Classificação filogenética de
proteínas codificadas em
genomas completos

 Genes bacterianos
agrupados por função
biológica
 KOG, eucariotos
 http://www.ncbi.nlm.nih.
gov/COG/
Banco de dados Secundários

 EMBL-EBI
 European Molecular Biology Laboratory - European Biology
Institute;
 Possui ferramentas e bancos de dados primários e
secundários;
 Formado por diversos centros de pesquisa espalhados em
vários países europa;
DGVa

 Banco de dados de variantes genômicas arquivadas


(Database of Genomic Variants archive)
 A variação estrutural genômica que ocorre
através de inserções/deleções, inversões e
translocações causa modificações únicas no fenótipo
que podem ocasionar doenças.
 Esse banco de dados armazena e possibilita acesso e
distribuição pública de variantes genômicas em
todas as espécies;
 https://www.ebi.ac.uk/dgva
ESEMBL

 O projeto Esembl disponibiliza acesso on line gratuito a


bancos de dados e ferramentas que avaliam vertebrados
e outros eucariotos.

 http://www.ensembl.org/index.html
Esembl genomes

 O projeto Esembl genomes disponibiliza acesso on


line gratuito a bancos de dados que vão de eucariotos
a procariotos.
Pfam

 Um banco de dados construído com hidden Markov


models e alinhamentos para descrever famílias de
proteínas e domínios.

 https://www.ebi.ac.uk/services/proteins
Uniprot

 UniProt: The Universal Protein Resource


 O padrão ouro , recurso abrangente para sequência
de proteínas e anotação funcional de dados.
KEGG

 Kyoto Encyclopedia of
Genes and Genomes
 Permite anotar a
presença de enzimas e
completar vias
bioquímicas
 Visão integrada do
metabolismo
KEGG pathways
• Enzimas/proteínas
encontradas são
marcadas em verde
Bancos de dados secundários

 Nucleic Acids Research


 Janeiro

 BMC Bioinformatics
 Bioinformatics
 Briefings in Bioinformactics
 PLOS Computational Biology
 Transactions on Computational Biology and
Bioinformatics (TCBB)
 IEEE/ACM
Bancos de dados secundários

 Referências
 http://www.ncbi.nlm.nih.gov/books/NBK44864/

 http://www.ncbi.nlm.nih.gov/books/NBK3837/

 Applied bioinformatics: an introductionSELZER, P. M;


ROHWER, A; MARHOFER, R. J. Applied bioinformatics:
an introduction. Berlin: Springer, 2008. 287p.

 Understanding bioinformaticsZVELEBIL, Marketa;


BAUM, Jeremy O. Understanding bioinformatics. New
York: Garland Science, 2008. 772p.

Você também pode gostar