Escolar Documentos
Profissional Documentos
Cultura Documentos
A Revoluo da
Genmica/Bioinformtica
A Verdadeira Revoluo
Leroy Hood
International Consortium
Grupos acadmicos
Celera Genomics
Companhia Privada
A nova revoluo da Genmica
Sequenciamento de Genomas
sequenciamento de novo
re-sequenciamento - variabilidade SNPs e
mutaes
Sequenciamento de Transcriptomas
variabilidade- splicing, poliadenilao
quantificao de expresso gnica
Sequenciamento de novo
Re-sequenciamento
Transcriptoma
Projeto 454
Sequenciador: 454
Fapesp/LICR
Genoma Humano do Cncer Projeto 454 Venter/LICR
# corridas ~15,000 01
Gerao de dados
deixa de ser o fator
Com os bilhes de
limitante
datapoints gerados em
horas, o processamento
e anlise dos dados
tornou-se o maior
gargalo das pesquisas
biomdicas.
Bioinformtica
Computao
Matemtica
Biologia
O que Bioinformtica?
Bioinformtica - Histria
1970, Needleman/Wunch, Alinhamento Global.
1972, Margaret Dayhoff, Matrizes de
Comparao.
1979, Walter Goad, GenBank.
1981, Smith/Waterman, Alinhamento Local.
1989, NHGRI, Projeto Genoma Humano.
1990, Altschul/Gish/Miller/Myers/Lipman, BLAST.
1994, Eddy/Krogh/Durbin, Hidden Markov
Models (HMMs).
Bioinformtica - Importncia
Poucas pessoas adequadamente treinadas em
Biologia e Computao.
Desenvolvimento de ferramentas.
Forma de explorar novos dados.
Processamento de dados gerados por
projetos em larga-escala.
Uma nova forma de se fazer cincia
dirigida por hipteses.
Bioinformtica
O Bioinformata O Usurio
- Manipula a informao. - Recursos da Web.
- Desenvolve ferramentas - Local ou remoto.
- Bancos de dados locais. - nada de programao.
- Local. - pouca habilidade de TI.
- Mta programao.
- Habilidades de TI.
Cinco websites que todos devem
conhecer
NCBI (The National Center for Biotechnology Information;
http://www.ncbi.nlm.nih.gov/
EBI (The European Bioinformatics Institute)
http://www.ebi.ac.uk/
The UCSC Genome Browser
http://genome.ucsc.edu/
SwissProt/ExPASy (Swiss Bioinformatics Resource)
http://expasy.cbr.nrc.ca/sprot/
PDB (The Protein Databank)
http://www.rcsb.org/PDB/
NCBI
(http://www.ncbi.nlm.nih.gov/)
Acesso aos bancos de dados via Entrez
Medline/OMIM
Genbank/Genpept/Structures
Servidor de BLAST
Todos os tipos de Blast
Portal do Genoma Humano
Muito, muito mais..
EBI (http://www.ebi.ac.uk/)
GenBank (USA)
http://www.ncbi.nlm.nih.gov/Genbank
EMBL (Europa)
http://www.ebi.ac.uk/embl/
DDBJ (Japo)
http://www.ddbj.nig.ac.jp/
Homologia
- Ortologia
- Paralogia
Dois conceitos importantes
Paralogia: O evento que originou s duas
sequncias um evento de duplicao
gnica! FUNES SIMILARES!
Alinhamento de sequncias
Motivos (padres consensuais)
Blocos, perfis, etc....
Hidden Markov Models - HMM
Similarity Searches on Sequence Databases, EMBnet Course, October 2003
Alinhamento
0 1 2 3 4 5 6 7 8 9 10
G A A - G G A T TA G
G A T C G G A - -A G
Identidade - MATCH
Lacunas - GAPS
Insero/Deleo - INDELS
Alinhamento
Alinhamento 1:
ACGGACT
| | | - ||
ATCGGATCT
Alinhamento 2:
ATCGGATCT
| ||| -||
ACGGACT
Pontuao
Esquema de pontuao
match: +2
mismatch: +1
indel: 2
Tabela de comparao
p(A B) = p(B A)
AA ou nucleotdeos
Percent Accepted Mutation
(PAM - Dayhoff)
Margaret Dayhoff (1978)
Primeira matriz
71 grupos de protenas, 85% de similaridade
1572 substituties de aminocidos
PAM 250 => 250 mutaes por 100 aa => 250% mutaes em 2500 milhes anos
PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60%
http://www.blc.arizona.edu/courses/bioinformatics/dayhoff.html
Blocks Substitution Matrix
(BLOSUM)
Kenikoff & Henikoff (1992)
Sequncias Consenso
60% idnticas: BLOSUM 60
80% idnticas : BLOSUM 80
http://www.blc.arizona.edu/courses/bioinformatics/blosum.html
GAVCTKI
GVVCYRE
6+0+4+9+(-2)+2+(-3)= 16
Relao ente BLOSUM e PAM
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html
Local
Segmentos com o maior nmero de identidades
Regies alinhadas e no alinhadas ( mismatch)
Sequncias similares em algumas regies, que diferem em
tamanho ou que compartilham domnios conservados
Aplicaes
Global
Deduzir histrias evolutivas entre membros da mesma famlia
Estabelecer a existncia de um ancestral comum (homologia)
Local
Inferir funes biolgicas
Identificar regies conservadas e de alta similaridade (stio ativo,
domnios) entre outras pouco conservadas
Reconstruir sequncias de DNA a partir de seus fragmentos
Comparar sequncias de mRNA (sem ntrons) sequncia genmica
Mtodos de Anlise
Dotter (http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html)
PLALIGN (http://fasta.bioch.virginia.edu/fasta/fasta_list.html)
Computacionalmente lento
HBA_HUMAN 1 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44
|:| :|: | | |||| : | | ||| |: : :| |: :|
HBB_HUMAN 1 VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE 43
HBA_HUMAN 45 HF.DLS.....HGSAQVKGHGKKVADALTNAVAHVDDMPNALSAL 83
| ||| |: :|| ||||| | :: :||:|:: : |
HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATL 88
Sensibilidade
Habilidade de encontrar a maior parte dos membros relacionados famlia da
sequncia query
Seletividade
Habilidade de no identificar sequncias de outras famlias como falso-
positivos
3) Selecionar o programa
4) Definir os parmetros
Passo 1: Escolha da sequncia
Natureza
Tamanho
Protenas
GenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP
Nucleotdeos
GenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69, STS70, vetores, sequncias de
mitocndrias, GSS71, sequncias HTGS72
Contedo
no-redundncia,
periodicidade de atualizao
organismos ou espcies
sequncias patenteadas
interesse imunolgico
elementos repetitivos, etc.
http://www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf
Passo 3: Seleo do Programa
Natureza da sequncia
Finalidade da busca
Banco de dados
DNA codifica 6 protenas potenciais
5 CAT CAA
5 ATC AAC
5 TCA ACT
5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3
3 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5
5 GTG GGT
5 TGG GTA
5 GGG TAG
Tipos de Programas
Filter
Expect
organism
Word size
Scoring matrix
Filtro
Report Header
query
database hits
(a) gi number, designao do banco de dados, nmero de acesso e o nome do locus para as
sequncias encontradas, separados por barras verticais
(b) Definio da sequncia
(c) Escore de alinhamento ( bits)
(d) E-value
Pairwise Sequence Alignment
Famlias de Elementos
Repetitivos
Alu
L1
L2
Tais sequncias podem gerar
alinhamentos esprios.
Alu
Constitutes about 5% of the human
genome.
Short interspersed repeats.
Found in primate genomes.
ALU elements often found in 3 regions or
introns.
Blast usando uma sequncia
de Alu
Como identificar e remover
elementos repetitivos
Filter para elementos repetitivos no
servidor de Blast do NCBI
Repeat Masker:
http://ftp.genome.washington.edu/cgi-
bin/RepeatMasker
Nair & Rost, 2002
Way out!
- psi-Blast
- pattern (phi-Blast)
Busca protenas que contm padro especificado pelo usurio E similar sequncia query
em relao in the vicinity ao padro
Reduz o nmero de hits que contm o padro no banco de dados mas pode tambm
apresentar nenhuma homologia ao query
Padro encontrado:
[LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV]
Hidden Markov Models
An approach based on statistical sampling
theory
Previously used with success for natural
language processing
Model sequence as a Markov model that is not
known (hidden)
Observed sequence is a noisy representation of
the hidden true model
A HMM for a DNA sequence
T A C C
http://pfam.wustl.edu/
http://www.sanger.ac.uk/Software/Pfam/index.shtml
03 mtodos principais: :
Parsimnia
Mtodos baseados em distncia
Verossimilhana mxima
Parsimnia
Probabilidade da rvore
No simples e intuitivo
Computacionalmente intenso
Bootstrap procedure
Rattus
91
46 Mus
Bos
97
Homo
Xenopus
Bootstrap
Compilaes
Uma lista de web sites
http://www.ucmp.berkeley.edu/subway/phylogen.htm
l
Uma lista grande de programas
http://evolution.genetics.washington.edu/
phylip/software.html
Recursos de Web para filogenia
Editor de alinhamento
SEAVIEW : para windows e unix
http://pbil.univ-lyon1.fr/software/seaview.html
Desenho de rvores
NJPLOT (para todas as plataformas)
http://pbil.univ-lyon1.fr/software/njplot.html
Aulas de filogenia
http://www.bioinf.org/molsys/lectures.html
sandro@ludwig.org.br
Ontologia
Biological Process
Objetivo dentro da clula, tecido
Molecular Function
Funo bsica ou tarefa
Cellular Component
Compartimento ou complexo
Busca com a palavra collagenase
Contedo do GO