Escolar Documentos
Profissional Documentos
Cultura Documentos
Relational database
Conceitos importantes Banco de dados Tabela Campos Relaes Chave-primria
A linguagem SQL
Outra linguagem?
A clusula WHERE
mysql> select * from bovEST_BLAST where (similarity > 70 and e_value < 1e-20) order by similarity DESC limit 40;
+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+ | q_id | s_id | similarity | ali_length | mismatches | gap_openings | q_init | q_end | s_init | s_end | e_value | score | +---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+ | RE087RA01.esd | Chr18 | 100 | 308 | 0 | 0 | 384 | 691 | 43689822 | 43689515 | 3e-172 | 611 | | RE087RA01.esd | Chr18 | 100 | 75 | 0 | 0 | 241 | 315 | 43691823 | 43691749 | 3e-33 | 149 | | RE087RA01.esd | Chr18 | 100 | 69 | 0 | 0 | 85 | 153 | 43694415 | 43694347 | 1e-29 | 137 | | RE087RB10.esd | Chr5 | 100 | 179 | 0 | 0 | 105 | 283 | 56439425 | 56439247 | 3e-95 | 355 | | RE087RB10.esd | Chr5 | 100 | 133 | 0 | 0 | 283 | 415 | 56438471 | 56438339 | 7e-68 | 264 | | RE087RC01.esd | Chr3 | 100 | 179 | 0 | 0 | 106 | 284 | 42018973 | 42018795 | 9e-96 | 355 | | RE087RC02.esd | Chr10 | 100 | 125 | 0 | 0 | 313 | 437 | 99740206 | 99740330 | 2e-63 | 248 | | RE087RC02.esd | Chr10 | 100 | 104 | 0 | 0 | 212 | 315 | 99739617 | 99739720 | 8e-51 | 206 | | RE087RC02.esd | Chr10 | 100 | 92 | 0 | 0 | 117 | 208 | 99738535 | 99738626 | 1e-43 | 182 | | RE087RC03.esd | Chr10 | 100 | 110 | 0 | 0 | 325 | 434 | 99740206 | 99740315 | 2e-54 | 218 | | RE087RC03.esd | Chr10 | 100 | 104 | 0 | 0 | 224 | 327 | 99739617 | 99739720 | 7e-51 | 206 | | RE087RC03.esd | Chr10 | 100 | 92 | 0 | 0 | 129 | 220 | 99738535 | 99738626 | 1e-43 | 182 | | RE087RC05.esd | Chr5 | 100 | 158 | 0 | 0 | 172 | 329 | 24199827 | 24199984 | 9e-83 | 313 | | RE087RC05.esd | Chr5 | 100 | 136 | 0 | 0 | 436 | 571 | 24201779 | 24201914 | 1e-69 | 270 | | RE087RC05.esd | Chr5 | 100 | 67 | 0 | 0 | 107 | 173 | 24199155 | 24199221 | 2e-28 | 133 | | RE087RC06.esd | Chr5 | 100 | 170 | 0 | 0 | 323 | 492 | 108223843 | 108223674 | 6e-90 | 337 | | RE087RC06.esd | Chr5 | 100 | 137 | 0 | 0 | 491 | 627 | 108223120 | 108222984 | 3e-70 | 272 | | RE087RC08.esd | Chr19 | 100 | 356 | 0 | 0 | 130 | 485 | 36886303 | 36886658 | 0 | 664 | | RE087RC10.esd | Chr14 | 100 | 103 | 0 | 0 | 146 | 248 | 1077123 | 1077021 | 6e-50 | 204 | | RE087RC10.esd | Chr11 | 100 | 103 | 0 | 0 | 146 | 248 | 93831389 | 93831287 | 6e-50 | 204 | | RE087RC11.esd | Chr7 | 100 | 91 | 0 | 0 | 103 | 193 | 33783452 | 33783362 | 6e-43 | 180 | | RE087RD01.esd | Chr14 | 100 | 103 | 0 | 0 | 155 | 257 | 1077123 | 1077021 | 6e-50 | 204 | | RE087RD01.esd | Chr11 | 100 | 103 | 0 | 0 | 155 | 257 | 93831389 | 93831287 | 6e-50 | 204 | | RE087RD04.esd | Chr8 | 100 | 198 | 0 | 0 | 252 | 449 | 100369996 | 100369799 | 1e-106 | 392 | | RE087RD05.esd | Chr7 | 100 | 91 | 0 | 0 | 368 | 458 | 39281415 | 39281505 | 8e-43 | 180 | | RE087RD07.esd | Chr14 | 100 | 219 | 0 | 0 | 151 | 369 | 23348458 | 23348676 | 3e-119 | 434 | | RE087RD07.esd | Chr14 | 100 | 101 | 0 | 0 | 541 | 641 | 23349620 | 23349720 | 9e-49 | 200 | | RE087RD07.esd | Chr14 | 100 | 75 | 0 | 0 | 368 | 442 | 23349004 | 23349078 | 3e-33 | 149 | | RE087RE01.esd | Chr13 | 100 | 332 | 0 | 0 | 112 | 443 | 51325163 | 51324832 | 3e-172 | 611 | | RE087RE02.esd | Chr19 | 100 | 125 | 0 | 0 | 204 | 328 | 56707552 | 56707428 | 4e-63 | 248 | | RE087RE02.esd | Chr19 | 100 | 62 | 0 | 0 | 142 | 203 | 56710310 | 56710249 | 2e-25 | 123 | | RE087RE05.esd | Chr2 | 100 | 241 | 0 | 0 | 275 | 515 | 131052933 | 131052693 | 3e-132 | 478 | | RE087RE05.esd | Chr2 | 100 | 79 | 0 | 0 | 145 | 223 | 131053063 | 131052985 | 1e-35 | 157 | | RE087RE09.esd | Chr19 | 100 | 106 | 0 | 0 | 100 | 205 | 13495533 | 13495428 | 1e-51 | 210 | | RE087RF01.esd | Chr3 | 100 | 195 | 0 | 0 | 86 | 280 | 14725822 | 14726016 | 7e-105 | 387 | | RE087RF01.esd | Chr3 | 100 | 180 | 0 | 0 | 279 | 458 | 14729898 | 14730077 | 6e-96 | 357 | | RE087RF01.esd | Chr3 | 100 | 119 | 0 | 0 | 457 | 575 | 14730286 | 14730404 | 2e-59 | 236 | | RE087RF01.esd | Chr3 | 100 | 74 | 0 | 0 | 575 | 648 | 14730866 | 14730939 | 1e-32 | 147 | | RE087RF02.esd | Chr5 | 100 | 133 | 0 | 0 | 282 | 414 | 56438471 | 56438339 | 7e-68 | 264 | | RE087RF02.esd | Chr5 | 100 | 107 | 0 | 0 | 413 | 519 | 56437590 | 56437484 | 2e-52 | 212 | +---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+ 40 rows in set (14.36 sec)
Bancos de dados
Servem para organizar a informao biolgica e disponibiliz-la de maneira simples aos pesquisadores Bancos mais comuns
Sequncia, estrutura, proteinprotein interaction, domnios, assinaturas, famlias gnicas, evolutivos, paper-especficos
Conceitos bsicos
O conceito de curadoria de sequncias Bancos de dados primrios
Genbank, PDB, EMBL
http://www.ncbi.nlm.nih.gov
GenBank
Genbank, ddBJ, EMBL Identificadores
gI, accession number
Formatos
FASTA, GenBank http://www.ncbi.nlm.nih.gov /nuccore/187830767?repor t=genbank&log$=seqview
>gi|187830767|ref|NM_000546.4| Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGC TTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGG GGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTC CCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAG TCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATG GAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGG ATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCA GGTCCAGATGAAGCTCCCAG(...)
Taxonomy
Permite verificar o nmero de sequncias de nucleotdeos, protenas e genomas de espcies
BLAST databases
Peptide Sequence Databases
Nr: All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF Refseq: RefSeq protein sequences from NCBI's Reference Sequence Project. Swissprot: Last major release of the SWISS-PROT protein sequence database (no updates). Pat: Proteins from the Patent division of GenPept. Pdb: Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank. Month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days. env_nr: Protein sequences from environmental samples.
gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences. Pat: Nucleotides from the Patent division of GenBank. Month: All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days. Dbsts: Database of GenBank+EMBL+DDBJ sequences from STS Divisions . Chromosome: A database with complete genomes and chromosomes from the NCBI Reference Sequence project.. Wgs: A database for whole genome shotgun sequence entries. env_nt: Nucleotide sequences from environmental samples, including those from Sargasso Sea and Mine Drainage projects.
Trace Archive
Contm os dados brutos de sequenciamento para diversas espcies O pesquisador pode fazer o download e realizar o base-calling da maneira como preferir Arquivos pesados (dados brutos) Obsoleto...
short read archive
RefSeq
Banco de dados de sequncias de referncia para genomas Apresenta uma nica cpia para cada gene no genoma
o verdadeiro NR
Provisria: manual
protena com funo conhecida ou inferida o melhor representante do GenBank, mais anotado
Revisada: manual
compilao sobre o gene e seus transcritos sequncia, propriedades, nomenclatura, referncias, retirada de vetor, adio de UTRs, domnios conservados, descrio da funo do gene, links
dbEST
Contm sequncias de ESTs (e ORestes) de diversos organismos
dbGSS
Contm sequncias genmicas single-passed para diversos organismos
UniGene
Contm clusters de ESTs formados a partir de similaridades usando o algoritmo megaBLAST
UniGene
Organizao das sequncias do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contm as sequncias que representam um gene nico E tambm informaes relacionadas, como em que tecidos o gene expresso, etc. E tambm onde est mapeado
GEO database
Contm dados de experimentos de microarray
COG
Cluster of Orthologous Groups
66 genomas bacterianos
Best Hits cruzados entre 3 organismos Genes bacterianos agrupados por funo biolgica KOG, eucariotos
NCBI-curated domains
Baseado nas bases de dados:
Pfam, SMART, COG, PRK, TIGRFAM
Permite mostrar a arquitetura de domnios de uma sequncia quando o usurio faz um BLAST
Utiliza o RPS-blast
Go to => NCBI
NCBI Handbook
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.Vie w..ShowTOC&rid=handbook.TOC&depth=2
SwissPROT
Banco de dados de sequncias de protenas mais curado e mais utilizado no mundo Europeus no usam NCBI
TrEMBL
Complemento no anotado ao SwissPROT
Famlias proticas
A maioria das protenas pode ser agrupada em famlias com base na similaridade entre suas sequncias
Similaridade intra-espcies Evidncia de ancestralidade comum
Protenas da mesma famlia costumam ter funes moleculares e biolgicas semelhantes inferncia biolgica Inferncia de funo
Similaridade de sequncia Anlise filogentica
Famlias e alinhamento
dkk1 dkk2 dkk3
Pfam :
Dickkopf N-terminal domain Colipase Colipase C-terminal domain
Expresso regular
Problemas
Pequenas diferenas em um membro da famlia pode retir-lo do grupo Lembrete: a vida no apresenta regras rgidas Programas com base estatstica ou baseados em inteligncia artificial
Prosite
Prosite INFO
Prosite INFO
pFAM
Cadeias de Markov: no se acessa o estado, porm um observao probabilstica do estado
InterPRO
KEGG
Kyoto Encyclopedia of Genes and Genomes Permite anotar a presena de enzimas e completar vias bioqumicas
KEGG pathways
Enzimas/protenas encontradas so marcadas em verde
Gene Ontology
Primeira ontologia criada em biologia molecular, 2000 Consrcio para a padronizao da anotao gnica Vocabulrio padro para a descrio de genes em trs categorias
Processo biolgico Funo molecular Localizao celular
Human, mouse, worm, fly, etc...
Processo biolgico
Funo molecular
Localizao Celular
BaliBASE
Banco de dados de alinhamentos mltiplos Curado manualmente Viso integrada do metabolismo
Protemica
Swiss-2D-page Banco de dados de gis bidimensionais
Codon Usage DB
Preferncia em cdons sinnimos Utilizao preferencial de certos cdons por aminocidos Diferena por organismo/organela
Lembrete
Muitos bancos de dados esto disponveis para FTP
Faa o download e instale na sua mquina Bancos de dados locais e pesquisaespecficos ajudam no desenvolvimento e anlise de dados
Concluses
H bancos de dados em bioinformtica para praticamente qualquer tipo de abordagem em biologia molecular Stein, 2009 O papel central da bioinformtica na pesquisa genmica moderna NAR, duas edies por ano preciso conhecer os servios, mais cedo ou mais tarde, voc pode precisar