Você está na página 1de 57

Bancos de dados

Prof. Dr. Francisco Prosdocimi

Relational database
Conceitos importantes Banco de dados Tabela Campos Relaes Chave-primria

A linguagem SQL

Outra linguagem?

Criando uma tabela e definindo campos

A magia do comando SELECT

A clusula WHERE

mysql> select * from bovEST_BLAST where (similarity > 70 and e_value < 1e-20) order by similarity DESC limit 40;
+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+ | q_id | s_id | similarity | ali_length | mismatches | gap_openings | q_init | q_end | s_init | s_end | e_value | score | +---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+ | RE087RA01.esd | Chr18 | 100 | 308 | 0 | 0 | 384 | 691 | 43689822 | 43689515 | 3e-172 | 611 | | RE087RA01.esd | Chr18 | 100 | 75 | 0 | 0 | 241 | 315 | 43691823 | 43691749 | 3e-33 | 149 | | RE087RA01.esd | Chr18 | 100 | 69 | 0 | 0 | 85 | 153 | 43694415 | 43694347 | 1e-29 | 137 | | RE087RB10.esd | Chr5 | 100 | 179 | 0 | 0 | 105 | 283 | 56439425 | 56439247 | 3e-95 | 355 | | RE087RB10.esd | Chr5 | 100 | 133 | 0 | 0 | 283 | 415 | 56438471 | 56438339 | 7e-68 | 264 | | RE087RC01.esd | Chr3 | 100 | 179 | 0 | 0 | 106 | 284 | 42018973 | 42018795 | 9e-96 | 355 | | RE087RC02.esd | Chr10 | 100 | 125 | 0 | 0 | 313 | 437 | 99740206 | 99740330 | 2e-63 | 248 | | RE087RC02.esd | Chr10 | 100 | 104 | 0 | 0 | 212 | 315 | 99739617 | 99739720 | 8e-51 | 206 | | RE087RC02.esd | Chr10 | 100 | 92 | 0 | 0 | 117 | 208 | 99738535 | 99738626 | 1e-43 | 182 | | RE087RC03.esd | Chr10 | 100 | 110 | 0 | 0 | 325 | 434 | 99740206 | 99740315 | 2e-54 | 218 | | RE087RC03.esd | Chr10 | 100 | 104 | 0 | 0 | 224 | 327 | 99739617 | 99739720 | 7e-51 | 206 | | RE087RC03.esd | Chr10 | 100 | 92 | 0 | 0 | 129 | 220 | 99738535 | 99738626 | 1e-43 | 182 | | RE087RC05.esd | Chr5 | 100 | 158 | 0 | 0 | 172 | 329 | 24199827 | 24199984 | 9e-83 | 313 | | RE087RC05.esd | Chr5 | 100 | 136 | 0 | 0 | 436 | 571 | 24201779 | 24201914 | 1e-69 | 270 | | RE087RC05.esd | Chr5 | 100 | 67 | 0 | 0 | 107 | 173 | 24199155 | 24199221 | 2e-28 | 133 | | RE087RC06.esd | Chr5 | 100 | 170 | 0 | 0 | 323 | 492 | 108223843 | 108223674 | 6e-90 | 337 | | RE087RC06.esd | Chr5 | 100 | 137 | 0 | 0 | 491 | 627 | 108223120 | 108222984 | 3e-70 | 272 | | RE087RC08.esd | Chr19 | 100 | 356 | 0 | 0 | 130 | 485 | 36886303 | 36886658 | 0 | 664 | | RE087RC10.esd | Chr14 | 100 | 103 | 0 | 0 | 146 | 248 | 1077123 | 1077021 | 6e-50 | 204 | | RE087RC10.esd | Chr11 | 100 | 103 | 0 | 0 | 146 | 248 | 93831389 | 93831287 | 6e-50 | 204 | | RE087RC11.esd | Chr7 | 100 | 91 | 0 | 0 | 103 | 193 | 33783452 | 33783362 | 6e-43 | 180 | | RE087RD01.esd | Chr14 | 100 | 103 | 0 | 0 | 155 | 257 | 1077123 | 1077021 | 6e-50 | 204 | | RE087RD01.esd | Chr11 | 100 | 103 | 0 | 0 | 155 | 257 | 93831389 | 93831287 | 6e-50 | 204 | | RE087RD04.esd | Chr8 | 100 | 198 | 0 | 0 | 252 | 449 | 100369996 | 100369799 | 1e-106 | 392 | | RE087RD05.esd | Chr7 | 100 | 91 | 0 | 0 | 368 | 458 | 39281415 | 39281505 | 8e-43 | 180 | | RE087RD07.esd | Chr14 | 100 | 219 | 0 | 0 | 151 | 369 | 23348458 | 23348676 | 3e-119 | 434 | | RE087RD07.esd | Chr14 | 100 | 101 | 0 | 0 | 541 | 641 | 23349620 | 23349720 | 9e-49 | 200 | | RE087RD07.esd | Chr14 | 100 | 75 | 0 | 0 | 368 | 442 | 23349004 | 23349078 | 3e-33 | 149 | | RE087RE01.esd | Chr13 | 100 | 332 | 0 | 0 | 112 | 443 | 51325163 | 51324832 | 3e-172 | 611 | | RE087RE02.esd | Chr19 | 100 | 125 | 0 | 0 | 204 | 328 | 56707552 | 56707428 | 4e-63 | 248 | | RE087RE02.esd | Chr19 | 100 | 62 | 0 | 0 | 142 | 203 | 56710310 | 56710249 | 2e-25 | 123 | | RE087RE05.esd | Chr2 | 100 | 241 | 0 | 0 | 275 | 515 | 131052933 | 131052693 | 3e-132 | 478 | | RE087RE05.esd | Chr2 | 100 | 79 | 0 | 0 | 145 | 223 | 131053063 | 131052985 | 1e-35 | 157 | | RE087RE09.esd | Chr19 | 100 | 106 | 0 | 0 | 100 | 205 | 13495533 | 13495428 | 1e-51 | 210 | | RE087RF01.esd | Chr3 | 100 | 195 | 0 | 0 | 86 | 280 | 14725822 | 14726016 | 7e-105 | 387 | | RE087RF01.esd | Chr3 | 100 | 180 | 0 | 0 | 279 | 458 | 14729898 | 14730077 | 6e-96 | 357 | | RE087RF01.esd | Chr3 | 100 | 119 | 0 | 0 | 457 | 575 | 14730286 | 14730404 | 2e-59 | 236 | | RE087RF01.esd | Chr3 | 100 | 74 | 0 | 0 | 575 | 648 | 14730866 | 14730939 | 1e-32 | 147 | | RE087RF02.esd | Chr5 | 100 | 133 | 0 | 0 | 282 | 414 | 56438471 | 56438339 | 7e-68 | 264 | | RE087RF02.esd | Chr5 | 100 | 107 | 0 | 0 | 413 | 519 | 56437590 | 56437484 | 2e-52 | 212 | +---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+ 40 rows in set (14.36 sec)

Bancos de dados Biolgicos


Prof. Dr. Francisco Prosdocimi

Bancos de dados
Servem para organizar a informao biolgica e disponibiliz-la de maneira simples aos pesquisadores Bancos mais comuns
Sequncia, estrutura, proteinprotein interaction, domnios, assinaturas, famlias gnicas, evolutivos, paper-especficos

Conceitos bsicos
O conceito de curadoria de sequncias Bancos de dados primrios
Genbank, PDB, EMBL

Bancos de dados secundrios


Swissprot, RefSeq, COG, KEGG

National Center for Biotechnology Information


O NCBI fornece acesso a genomas completos de mais de 5.700 organismos. Genomas significam tanto sequncias completas de organismos quanto os que esto em processo de sequenciamento.

http://www.ncbi.nlm.nih.gov

Os bancos de dados do NCBI


PubMed GenBank GenPept Genome dbGSS dbEST dbSNP

GenBank
Genbank, ddBJ, EMBL Identificadores
gI, accession number

Formatos
FASTA, GenBank http://www.ncbi.nlm.nih.gov /nuccore/187830767?repor t=genbank&log$=seqview
>gi|187830767|ref|NM_000546.4| Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGC TTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGG GGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTC CCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAG TCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATG GAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGG ATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCA GGTCCAGATGAAGCTCCCAG(...)

Taxonomy
Permite verificar o nmero de sequncias de nucleotdeos, protenas e genomas de espcies

Contm a classificao taxonmica completa das espcies


Incluindo categorias nolineanas

BLAST databases
Peptide Sequence Databases
Nr: All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF Refseq: RefSeq protein sequences from NCBI's Reference Sequence Project. Swissprot: Last major release of the SWISS-PROT protein sequence database (no updates). Pat: Proteins from the Patent division of GenPept. Pdb: Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank. Month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days. env_nr: Protein sequences from environmental samples.

Nucleotide Sequence Databases


Nr: All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant". refseq_rna, refseq_genomic Est: Database of GenBank + EMBL + DDBJ sequences from EST Divisions
est_human, est_mouse, est_others

gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences. Pat: Nucleotides from the Patent division of GenBank. Month: All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days. Dbsts: Database of GenBank+EMBL+DDBJ sequences from STS Divisions . Chromosome: A database with complete genomes and chromosomes from the NCBI Reference Sequence project.. Wgs: A database for whole genome shotgun sequence entries. env_nt: Nucleotide sequences from environmental samples, including those from Sargasso Sea and Mine Drainage projects.

Trace Archive
Contm os dados brutos de sequenciamento para diversas espcies O pesquisador pode fazer o download e realizar o base-calling da maneira como preferir Arquivos pesados (dados brutos) Obsoleto...
short read archive

RefSeq
Banco de dados de sequncias de referncia para genomas Apresenta uma nica cpia para cada gene no genoma
o verdadeiro NR

Dividido em genoma, cDNA e protena (NC, NM e NP)

Contm sequncias de splicing alternativo

Nveis de curadoria RefSeq


Predita: automtica
cDNA com ORF sem funo descrita

Provisria: manual
protena com funo conhecida ou inferida o melhor representante do GenBank, mais anotado

Revisada: manual
compilao sobre o gene e seus transcritos sequncia, propriedades, nomenclatura, referncias, retirada de vetor, adio de UTRs, domnios conservados, descrio da funo do gene, links

dbEST
Contm sequncias de ESTs (e ORestes) de diversos organismos

dbGSS
Contm sequncias genmicas single-passed para diversos organismos

UniGene
Contm clusters de ESTs formados a partir de similaridades usando o algoritmo megaBLAST

Rene variantes de splicing no mesmo identificador


Cataloga variantes de splicing por tecido

UniGene
Organizao das sequncias do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contm as sequncias que representam um gene nico E tambm informaes relacionadas, como em que tecidos o gene expresso, etc. E tambm onde est mapeado

MegaBLAST gera o UniGene


Todas ESTs contra todas Deteco de homologia

> 96% de identidade


> 70% do potencial Aglomerar

GEO database
Contm dados de experimentos de microarray

COG
Cluster of Orthologous Groups
66 genomas bacterianos

Best Hits cruzados entre 3 organismos Genes bacterianos agrupados por funo biolgica KOG, eucariotos

CDD, conserved domains


Banco de dados de domnios

NCBI-curated domains
Baseado nas bases de dados:
Pfam, SMART, COG, PRK, TIGRFAM

Permite mostrar a arquitetura de domnios de uma sequncia quando o usurio faz um BLAST
Utiliza o RPS-blast

Go to => NCBI

Outros servios NCBI


Servios educacionais
http://www.ncbi.nlm.nih.gov/Education/

NCBI Handbook
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.Vie w..ShowTOC&rid=handbook.TOC&depth=2

ORF finder Muito mais...


Coffe break http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=c offeebrk

SwissPROT
Banco de dados de sequncias de protenas mais curado e mais utilizado no mundo Europeus no usam NCBI

TrEMBL
Complemento no anotado ao SwissPROT

No houve curadoria manual Anotao automtica

Famlias proticas
A maioria das protenas pode ser agrupada em famlias com base na similaridade entre suas sequncias
Similaridade intra-espcies Evidncia de ancestralidade comum

Protenas da mesma famlia costumam ter funes moleculares e biolgicas semelhantes inferncia biolgica Inferncia de funo
Similaridade de sequncia Anlise filogentica

Famlias e alinhamento
dkk1 dkk2 dkk3

Prokinecitin/ Intestinal toxin

Lipase protein cofactor

Pfam :
Dickkopf N-terminal domain Colipase Colipase C-terminal domain

Assinaturas ou domnios proticos


Obtidos atravs da anlise de regies que se mantm constantes em grupos de sequncias similares alinhadas

Distingue membros de famlias dos nomembros


Auxilia a atribuio de funcionalidades moleculares e biolgicas

Identificao de famlias por expresses regulares

Montando uma expresso regular

Expresso regular

Expresso regular para a famlia

Uso de expresses regulares


Identificao de padres de famlias Identificao de promotores, stios para a ligao do ribossomo (consenso de kosak)

Problemas
Pequenas diferenas em um membro da famlia pode retir-lo do grupo Lembrete: a vida no apresenta regras rgidas Programas com base estatstica ou baseados em inteligncia artificial

Prosite

Prosite INFO

Prosite INFO

pFAM
Cadeias de Markov: no se acessa o estado, porm um observao probabilstica do estado

Bancos de dados de domnios

InterPRO

KEGG
Kyoto Encyclopedia of Genes and Genomes Permite anotar a presena de enzimas e completar vias bioqumicas

Viso integrada do metabolismo

KEGG pathways
Enzimas/protenas encontradas so marcadas em verde

Gene Ontology
Primeira ontologia criada em biologia molecular, 2000 Consrcio para a padronizao da anotao gnica Vocabulrio padro para a descrio de genes em trs categorias
Processo biolgico Funo molecular Localizao celular
Human, mouse, worm, fly, etc...

Processo biolgico

Funo molecular

Localizao Celular

Alm do Gene Ontology


OBO foundry: The open biomedical ontologies Anatomy ontologies

BaliBASE
Banco de dados de alinhamentos mltiplos Curado manualmente Viso integrada do metabolismo

Protemica
Swiss-2D-page Banco de dados de gis bidimensionais

Codon Usage DB
Preferncia em cdons sinnimos Utilizao preferencial de certos cdons por aminocidos Diferena por organismo/organela

Lembrete
Muitos bancos de dados esto disponveis para FTP
Faa o download e instale na sua mquina Bancos de dados locais e pesquisaespecficos ajudam no desenvolvimento e anlise de dados

Instale no MySQL mais prximo


Monte suas tabelas e faa seus selects! PERL + SQL (a biblioteca DBI)

Concluses
H bancos de dados em bioinformtica para praticamente qualquer tipo de abordagem em biologia molecular Stein, 2009 O papel central da bioinformtica na pesquisa genmica moderna NAR, duas edies por ano preciso conhecer os servios, mais cedo ou mais tarde, voc pode precisar

Você também pode gostar