BioInformatica Sandro2009

BIOLOGIA/MEDICINA
A Revoluo da
Genmica/Bioinformtica
A Verdadeira Revoluo
Incio do sc. 20: Mendel e as leis da hereditariedade.
1944: DNA como elemento carreador da

informao gentica (Avery)
1953: Watson/Crick e aestrutura do DNA.
Anos 70 e 80: Biologia Molecular/Biotecnologia
Anos 90 e sc. 21: Genmica/Bioinformtica

Histria da Biologia Molecular
1951 Fred Sanger, Amino Acid Sequence of Insulin
1953 Watson/Crick, Estrutura do DNA
1957 Francis Crick, Central Dogma, DNA RNA Protein
1960s Nirenberg, Matthaei, The Genetic Code
1967 Shapiro and Beckwith, First gene cloned, LacZ
1972 Paul Berg, First recombinant DNA molecule
1973 Cohen/Boyer, First recombinant organism
1977 Maxam/Gilbert and Fred Sanger, DNA sequencing
1977 Fred Sanger, Complete sequence of phage X174
1978 David Botstein, Restriction Fragment Length
Polymorphisms (RFLP)
1980 Kerry Mullis, PCR
1983 Lee Hood, First Automated DNA Sequencer
Sequenciamento
do DNA
Sanger, Gilbert (Nobel 1980)
Sequenciamento Automtico
Leroy Hood
30kb por corrida

A era genmica
376 Genomas Concludos! 251 como
rascunho! 342 em andamento
327 Bacterial, 27 Archeal, 22 Eukaryotic
1995, Haemophilus influenzae
1996, Methanococcus jannaschii
1997, Saccharomyces cerevisiae
1997, Escherichia coli
1998, Caenorhabditis elegans
2000, Drosophila melanogaster
2000, Arabidopsis thaliana
2001, Homo sapiens
2002, Schizosaccharomyces
pombe
2002, Oryza sativa
2002, Mus musculus
http://www.ncbi.nlm.nih.gov
2005, Pan troglodites 09/07/2006
Um modelo gentico
Genoma Humano
2001
International Consortium
Grupos acadmicos
Celera Genomics
Companhia Privada
A nova revoluo da Genmica
454 Solexa - Illumina SOLiD - ABI
~120 MB de DNA ~01 GB de DNA ~03 GB de DNA

por corrida por corrida por corrida
12KB/US$ 100KB/US$ 300KB/US$
Tecnologia de Capilar = 0.5KB/US$

Nova tecnologia
Dispensa clonagem dos fragmentos em

sistemas bacterianos
Dispensa a preparao de DNA molde
para sequenciamento
Reaes feitas em paralelo em volume
extremamente pequeno -
nanotecnologia
Aplicaes
Sequenciamento de Genomas
sequenciamento de novo
re-sequenciamento - variabilidade SNPs e
mutaes
Sequenciamento de Transcriptomas
variabilidade- splicing, poliadenilao
quantificao de expresso gnica
Sequenciamento de novo
Re-sequenciamento
Transcriptoma
Projeto 454
Participantes: LICR-SP, LICR-NY, Venter Institute
Objetivo: Sequenciamento extensivo dos genes

expressos na linhagem celular HCC1954 (tumor de
mama) buscando conhecer, com um nico set de
dados, alteraes genticas e epi-genticas neste tipo
de cncer.
Sequenciador: 454
Fapesp/LICR
Genoma Humano do Cncer Projeto 454 Venter/LICR
# sequncias 1.2 milhes 520 mil
# sequenciadores 05 MegaBaces 01 454
# corridas ~15,000 01
Custo (US$)* 12 milhes 10 mil
* Excluindo o preo dos aparelhos

Um objetivo a curto prazo
Os sequenciadores de nova gerao
promovem uma mudana no
paradigma
Gerao de dados
deixa de ser o fator
Com os bilhes de
limitante
datapoints gerados em
horas, o processamento
e anlise dos dados
tornou-se o maior
gargalo das pesquisas
biomdicas.
Bioinformtica
Computao
Matemtica
Biologia
O que Bioinformtica?
Bioinformtica - Histria
1970, Needleman/Wunch, Alinhamento Global.
1972, Margaret Dayhoff, Matrizes de
Comparao.
1979, Walter Goad, GenBank.
1981, Smith/Waterman, Alinhamento Local.
1989, NHGRI, Projeto Genoma Humano.
1990, Altschul/Gish/Miller/Myers/Lipman, BLAST.
1994, Eddy/Krogh/Durbin, Hidden Markov
Models (HMMs).
Bioinformtica - Importncia
Poucas pessoas adequadamente treinadas em
Biologia e Computao.
Biologia em larga-escala. Produo de dados

em massa gera uma demanda para anlises
computacionais.
Economiza tempo e dinheiro.

Bioinformtica
Desenvolvimento de ferramentas.
Forma de explorar novos dados.
Processamento de dados gerados por
projetos em larga-escala.
Uma nova forma de se fazer cincia
dirigida por hipteses.
Bioinformtica
O Bioinformata O Usurio
- Manipula a informao. - Recursos da Web.
- Desenvolve ferramentas - Local ou remoto.
- Bancos de dados locais. - nada de programao.
- Local. - pouca habilidade de TI.
- Mta programao.
- Habilidades de TI.
Cinco websites que todos devem
conhecer
NCBI (The National Center for Biotechnology Information;
http://www.ncbi.nlm.nih.gov/
EBI (The European Bioinformatics Institute)
http://www.ebi.ac.uk/
The UCSC Genome Browser
http://genome.ucsc.edu/
SwissProt/ExPASy (Swiss Bioinformatics Resource)
http://expasy.cbr.nrc.ca/sprot/
PDB (The Protein Databank)
http://www.rcsb.org/PDB/
NCBI
(http://www.ncbi.nlm.nih.gov/)
Acesso aos bancos de dados via Entrez
Medline/OMIM
Genbank/Genpept/Structures
Servidor de BLAST
Todos os tipos de Blast
Portal do Genoma Humano
Muito, muito mais..
EBI (http://www.ebi.ac.uk/)
Acesso a bancos de dados via SRS

EMBL, SwissProt,
Muitas outras ferramentas
ClustalW, DALI,
UCSC Genome Browser
(http://genome.ucsc.edu/)
Banco de dados e Browser para genomas
de diferentes espcies
Humano, camundongo, rato, zebrafish, etc.
Muitas outras ferramentas
SNPs,domnios prticos, genmica
comparativa, etc.
SwissProt
(http://www.expasy.ch/sprot/)
Checagem manual.
O nmero de entradas errneas bastante
reduzido.
Cross-link extensivo com outros bancos
SwissProt o gold-standard em termos
de bancos de dados e o melhor lugar
para se comear uma anlise se vc
procura info para uma ou poucas
Protein Data Bank PDB
(http://www.rcsb.org/pdb/)
Armazena a estrutura tri-dimensional para
milhares de protenas
Acesso a vrios servios relacionados a

biologia estrutural
Bancos de
Sequncia Primrios
GenBank (USA)
http://www.ncbi.nlm.nih.gov/Genbank
EMBL (Europa)
http://www.ebi.ac.uk/embl/
DDBJ (Japo)
http://www.ddbj.nig.ac.jp/
Homologia
- Ortologia
- Paralogia
Dois conceitos importantes
Paralogia: O evento que originou s duas
sequncias um evento de duplicao
gnica! FUNES SIMILARES!
Orthologia: O evento que deu origem s

duas sequncias um evento de
especiao! FUNES IDNTICAS!
Como definir funo?
Alinhamento de sequncias
Motivos (padres consensuais)
Blocos, perfis, etc....
Hidden Markov Models - HMM
Similarity Searches on Sequence Databases, EMBnet Course, October 2003
Alinhamento
0 1 2 3 4 5 6 7 8 9 10
G A A - G G A T TA G
G A T C G G A - -A G
Identidade - MATCH
Semelhana / divergncia - MISMATCH
Lacunas - GAPS
Insero/Deleo - INDELS
Alinhamento
Qual o melhor alinhamento ?
Alinhamento 1:
ACGGACT
| | | - ||
ATCGGATCT
Alinhamento 2:
ATCGGATCT
| ||| -||
ACGGACT
Pontuao
Esquema de pontuao
match: +2
mismatch: +1
indel: 2
Alinhamento 1: (5 *2) + (1*1) + (4*-2) = 10 + 1 8 = 3
Alinhamento 2: (6 *2) + (1*1) + (2*-2) = 12 + 1 4 = 9
Escore final = soma dos escores para cada posio

Favorece os matches, penaliza os gaps
Matriz de Substituio
Tabela de comparao
Reflete a probabilidade ou frequncia de determinada substituio

em sequncias biologicamente relacionadas
p(A B) = p(B A)
Construdas pelo estudo do alinhamento de diversas sequncias

relacionadas
AA ou nucleotdeos
Percent Accepted Mutation
(PAM - Dayhoff)
Margaret Dayhoff (1978)
Probabilidade de substituio de aa em alinhamentos globais de sequncias

homlogas
Cada matriz reflete as mutaes entre sequncias que divergiram por

determinado perodo de tempo
Mutaes aceitas => no afetam negativamente a viabilidade da protena
Primeira matriz
71 grupos de protenas, 85% de similaridade
1572 substituties de aminocidos
Expanso do nmero de protenas => 1991 database

Matrizes PAM
Premissa => cada mutao independente das mutaes anteriores
Consequncia => as substituies observadas em curtos perodos podem ser

extrapoladas para longos perodos
PAM 1 => sequncias com 1% ou menos de divergncia =>1 mutao aceita a

cada 100 aminocidos
PAM N mutaes = (PAM 1)N
PAM 250 => 250 mutaes por 100 aa => 250% mutaes em 2500 milhes anos
PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60%
http://www.blc.arizona.edu/courses/bioinformatics/dayhoff.html
Blocks Substitution Matrix
(BLOSUM)
Kenikoff & Henikoff (1992)
Frequncia de substituio de aa em um conjunto de ~2000 padres (blocos)
Maior nmero de sequncias consideradas => mais de 500 famlias
Alinhamentos locais de sequncias relacionadas e no geradas a partir de

extrapolaes
BLOSUM 62 o padro para BLAST 2.0 => sequncias moderadamente distantes

ou mais prximas
Sequncias Consenso
60% idnticas: BLOSUM 60
80% idnticas : BLOSUM 80
http://www.blc.arizona.edu/courses/bioinformatics/blosum.html
GAVCTKI
GVVCYRE
6+0+4+9+(-2)+2+(-3)= 16
Relao ente BLOSUM e PAM
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html
PAM => origens evolutivas de protenas

BLOSUM => domnios conservados
Global vs. Local
Global
Alinhamento de toda a sequncia utilizado o maior nmero de
caracteres possveis
Sequncias similares e de tamanho aproximado
Local
Segmentos com o maior nmero de identidades
Regies alinhadas e no alinhadas ( mismatch)
Sequncias similares em algumas regies, que diferem em
tamanho ou que compartilham domnios conservados
Aplicaes
Global
Deduzir histrias evolutivas entre membros da mesma famlia
Estabelecer a existncia de um ancestral comum (homologia)
Local
Inferir funes biolgicas
Identificar regies conservadas e de alta similaridade (stio ativo,
domnios) entre outras pouco conservadas
Reconstruir sequncias de DNA a partir de seus fragmentos
Comparar sequncias de mRNA (sem ntrons) sequncia genmica
Mtodos de Anlise
Diagramas - DOT PLOT
Algoritmo de Programao Dinmica
Algoritmos Heursticos - Word-Based ou K-tuples

Dot Plot
Inseres & Delees
Repeties & Inverses
Programas
Disponveis
Dotter (http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html)
COMPARE & DOTPLOT (Genetics Computer Group)
PLALIGN (http://fasta.bioch.virginia.edu/fasta/fasta_list.html)
Web browser (http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html)

Programao
Dinmica
Needleman & Wunsch (1970)
Compara cada par de caracteres nas duas sequncias
Posiciona os gaps de forma a obter o maior nmero de

alinhamentos idnticos ou similares
Gera uma matriz de nmeros que representa todos os possveis

alinhamentos de acordo com um sistema de escore
Alinhamento timo => maior escore

Limitaes
Computacionalmente lento
Nmero de alinhamentos cresce exponencialmente com a

mdia dos comprimentos das sequncias (n)
Nmero de clculos => proporcional a n2 ou n3
Memria => capacidade da ordem de n2

Needleman-Wunsch
As sequncias
abcdefghajklm
abbdhijk
So alinhadas e scores so dados
a b c d e f g h a j k l m
| | | | | |
a b b d . . . h i j k
match 4 4 4 4 4 4
mismatch -3 -3
gap_open -2
gap_extend -1-1-1
Score total de 24-6-2-3 = 13.
Needleman-Wunsch
O alinhamento de maior score entre as duas

sequncias considerado o mais provvel.
Needleman-Wunsch
Sada tpica:
Global: HBA_HUMAN vs HBB_HUMAN

Score: 290.50
HBA_HUMAN 1 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44
|:| :|: | | |||| : | | ||| |: : :| |: :|
HBB_HUMAN 1 VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE 43
HBA_HUMAN 45 HF.DLS.....HGSAQVKGHGKKVADALTNAVAHVDDMPNALSAL 83
| ||| |: :|| ||||| | :: :||:|:: : |
HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATL 88
HBA_HUMAN 84 SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF 128

|:|| || ||| ||:|| : |: || | |||| | |: |
HBB_HUMAN 89 SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV 133
HBA_HUMAN 129 LASVSTVLTSKYR 141

:| |: | ||
HBB_HUMAN 134 VAGVANALAHKYH 146
%id = 45.32 %similarity = 63.31

Overall %id = 43.15 Overall %similarity = 60.27
Razes para se usar um banco de sequncias
Eu acabei de obter uma sequncia. O que sabido respeito desta

sequncia? Ela nica?
Eu tenho uma sequncia nica. Ela tem similaridade com alguma

outra sequncia de funo conhecida?
Eu encontrei uma nova protena em um determinado organismo.

Existe um ortlogo conhecido?
Eu decidi trabalhar com um gene novo. Eu no tenho como obter um

clone contendo a sequncia deste gene. Eu preciso da sequncia
do cDNA para fazer uma PCR.
O que envolve uma busca ?
Algoritmos de busca (BLAST, FASTA)
Matrizes de comparao (PAM vs. BLOSUM)
Banco de dados (nr, dbEST)
Parmetros de busca (filtros on/off, threshold, etc)

Basic Local Alignment Search Tool
Mtodo heurstico => mtodo emprico, que utiliza a frmula tentativa e

erro para encontrar as solues
Significado estatstico => determina se um alinhamento ocorre

aleatoriamente ou no
Vantagem => pelo menos 50 vezes mais rpido que os algoritmos de

programao dinmica e mais apropriados para busca em bancos de
dados
Desvantagem => no garante uma soluo com um alinhamento timo

como os algoritmos de programao dinmica
Aplicaes
Identificar sequncias ortlogas e parlogas
Descobrir novos genes ou protenas
Descobrir variantes de genes e protenas
Investigar Expressed Sequence Tags - ESTs
Explorar a estrutura e funo de protenas

BLAST WEB Pages
BLAST (NCBI National Center for Biotechnology Information):

http://www.ncbi.nlm.nih.gov/BLAST/
BLAST2 (Swiss EMBnet server - European Molecular Biology

network??): http://www.ebi.ac.uk/blastall/
WU-BLAST (Washington University): http://blast.wustl.edu/

Blast Heurstico
1) Tabela de busca com todas as palavras (words) de comprimento W (3 aa ou11

nucleot.) mais as palavras vizinhas semelhantes, que aparecem pelo menos T
vezes na sequncia query.
2) Busca de sementes (hits, hot spots) na sequncia do banco de dados que

alinhem com as palavras previamente estabelecidas.
3) Extenso das sementes em ambas as direes, produzindo alinhamentos locais

mximos (HSP - high scoring pair) com ou sem lacunas, de acordo com os
parmetros estabelecidos.
4) Registro da informao em um arquivo SeqAlign (ASN.1).
5) A informao utilizada para buscar sequncias similares. Os resultados podem

ser reformatados sem a necessidade de refazer a busca.
Sensibilidade vs. Seletividade
Sensibilidade
Habilidade de encontrar a maior parte dos membros relacionados famlia da
sequncia query
Seletividade
Habilidade de no identificar sequncias de outras famlias como falso-
positivos
Grau de cobertura dos membros da famlia dado um nvel de falso-positivos

Escores e Estatstica
Bit Score
Indica quo bom o alinhamento. Quanto maior o escore, melhor o alinhamento
Considera o nmero de resduos idnticos ou similares e a quantidade de gaps
Influenciado pela Matriz de Substituio (padro: BLOSUM 62 )
Exceo: blastn and MegaBLAST
Normalizao: bit scores de diferentes alinhamentos podem ser comparados

Escores e Estatstica
E-value
Significado estatstico do alinhamento
Quanto menor o escore, mais significativo o alinhamento
E-value = 0.05. Significa que existem 5 chances em 100 (1 em 20) da

similaridade entre as sequncias ocorrer aleatoriamente
Influenciado pelo tamanho do banco de dados e o sistema de escore

utilizado
Etapas de Busca
1) Selecionar a sequncia (query)
2) Selecionar o banco de dados
3) Selecionar o programa
4) Definir os parmetros
Passo 1: Escolha da sequncia
Natureza
Tamanho
Formatos : Identificadores (ID), FASTA (>seq name), sequncias puras (txt?)

Passo 2: Seleo do Banco de Dados
Protenas
GenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP
Nucleotdeos
GenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69, STS70, vetores, sequncias de
mitocndrias, GSS71, sequncias HTGS72
Contedo
no-redundncia,
periodicidade de atualizao
organismos ou espcies
sequncias patenteadas
interesse imunolgico
elementos repetitivos, etc.
http://www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf
Passo 3: Seleo do Programa
Natureza da sequncia
Finalidade da busca
Banco de dados
DNA codifica 6 protenas potenciais
5 CAT CAA
5 ATC AAC
5 TCA ACT
5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3
3 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5
5 GTG GGT
5 TGG GTA
5 GGG TAG
Tipos de Programas
programa entrada banco de dados

1
blastn DNA DNA
1
blastp protein protein
6
blastx DNA protein
6
tblastn protein DNA
36
tblastx DNA DNA
Passo 4: Seleo dos parmetros
Tamanho da palavra (w-er)
Filtros
E value
Matriz de substituio & penalidades para gap
Sensibilidade e velocidade => W, T e X

Seletividade => cutoff score
Entrez
Filter
Expect
organism
Word size
Scoring matrix
Filtro
Report Header
Tipo de programa (BLASTP), verso (2.2.1) e data da verso

Artigo que descreve o BLAST, request ID (issued by QBLAST), a definio da sequncia e
resumo do banco de dados
Taxonomy reports: mostra o resultado deste BLAST na base de informao do banco de
dados Taxonomy
Taxonomy Report
Graphical Overview
query
database hits
Quanto mais prximas da query, mais semelhantes

Barras em rosa: lower-scoring matches que alinham em 2 regies (resduos 3-60 e 220-
500)
Segmento rachurado: as duas regies de similaridade esto na mesma protena mas esta
regio no alinha
Outras barras: lower-scoring matches
One-line Descriptions
(a) gi number, designao do banco de dados, nmero de acesso e o nome do locus para as
sequncias encontradas, separados por barras verticais
(b) Definio da sequncia
(c) Escore de alinhamento ( bits)
(d) E-value
Pairwise Sequence Alignment
Famlias de Elementos
Repetitivos
Alu
L1
L2
Tais sequncias podem gerar
alinhamentos esprios.
Alu
Constitutes about 5% of the human
genome.
Short interspersed repeats.
Found in primate genomes.
ALU elements often found in 3 regions or
introns.
Blast usando uma sequncia
de Alu
Como identificar e remover
elementos repetitivos
Filter para elementos repetitivos no
servidor de Blast do NCBI
Repeat Masker:
http://ftp.genome.washington.edu/cgi-
bin/RepeatMasker
Nair & Rost, 2002
Way out!
- psi-Blast
- pattern (phi-Blast)
- Hidden Markov Models (HMMs)

Position Specific Interactive (PSI)-
BLAST
Detecta protenas fracamente relacionadas ou novos membros de uma famlia
protica (mais sensvel)
Utilizado quando o BLAST padro falha em encontrar hits significativos ou

retorna hits com decries do tipo "hypothetical protein" ou "similar to... "
Busca iterativa => comparam-se as sequncias de alto escore com a sequncia de

busca para determinar quais delas so altamente conservadas
Sequncias resultantes => construo de um modelo de escore especfico por

posio (consenso) => Position-Specific Scoring Matrix (PSSM ou profile)
PSI-BLAST - Algoritmo
Busca com BLASTp normal
Construo de um consenso a partir das regies alinhadas com E

values menores que o limite estabelecido (padro = 0.005)
Utilizando este consenso, procede a uma nova pesquisa sobre a base

de dados
Quaisquer novos hits abaixo do limite so includos em um novo

PSSM
Fim do processo (convergncia) : nenhuma nova sequncia

adicionada ao consenso em iteraes subsequentes
Pattern-Hit Initiated (PHI)-BLAST
Busca protenas que contm padro especificado pelo usurio E similar sequncia query
em relao in the vicinity ao padro
Reduz o nmero de hits que contm o padro no banco de dados mas pode tambm
apresentar nenhuma homologia ao query
Exemplo de sequncia query e um padro no formato ProSite:
>gi|4758958|ref|NP_004148.1| Human cAMP-dependent protein kinase

MSHIQIPPGLTELLQGYTVEVLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDR
VADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVIHPKTDEQRCRLQEACKDILLF
KNLDQEQLSQVLDAMFERIVKADEHVIDQGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELA
LMYNTPRAATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEVSERMKIVDVIGEK
IYKDGERIITQGEKADSFYIIESGEVSILIRSRTKSNKDGGNQEVEIARCHKGQYFGELALVTNKPRAAS
AYAVGDVKCLVMDVQAFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ
Padro encontrado:
[LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV]
Hidden Markov Models
An approach based on statistical sampling
theory
Previously used with success for natural
language processing
Model sequence as a Markov model that is not
known (hidden)
Observed sequence is a noisy representation of
the hidden true model
A HMM for a DNA sequence
T A C C
T (prob 0.8) G (prob 0.1)

or A (prob 0.2) or C (prob 0.9)
A (prob 0.7) G (prob 0.1)
or T (prob 0.3) or C (prob 0.9)
Idea of HMM
Since multiple alignment of k sequences
take O(Nk) time, instead estimate a
statistical model of the sequences
Align the multiple sequences to this model
This is equivalent to aligning the
sequences to one another
Protein Family Classification
Pfam
large collection of multiple sequence
alignments and hidden Markov models
covers many common protein domains
and families
Over 73% of all known protein sequences
have at least one match
5,193 different protein families
Pfam
Initial multiple alignment of seeds using a
program such as Clustal
Alignment hand scrutinized and adjusted

Pfam
Links to the Pfam software:
http://pfam.wustl.edu/
http://www.sanger.ac.uk/Software/Pfam/index.shtml
View some examples:

http://pfam.wustl.edu/
Locating ORFs
Simplest method of predicting coding regions is
to search for open reading frames (ORFs)
open reading frames begin with a start (AUG)

codon, and ends with one of three stop codons
Six total reading frames

Locating ORFs
Prokaryotes: DNA sequences coding for proteins
generally transcribed into mRNA which is translated into
protein with very little modification
Locating an open reading frame from a start codon to a

stop codon can give a strong suggestion into protein
coding regions
Longer ORFs are more likely to predict protein-coding

regions than shorter ORFs.
Locating ORFs
Eukaryotes: mRNA undergoes processing to
remove introns before the protein is translated
ORF corresponding to a gene may contain

regions with stop codons found within intronic
regions
Posttranscriptional modification makes gene

prediction more difficult
Filogenia
Problema de determinao de rvores
filogenticas
Encontrar a rvore que melhor descreve a
relao entre um conjunto de objetos
(espcies ou txons)
Cenoura Baleia Chimpanz Humano

Filogenia
Txons e Complexidade
3 rvores possveis para 4 txons
Filogenia
Txons e Exploso Combinatorial
Mtodos para reconstruo
filogentica
03 mtodos principais: :
Parsimnia
Mtodos baseados em distncia
Verossimilhana mxima
Parsimnia
D preferncia topologia que requer o menor nmero

de mudanas .
Filogenia
Mtodos de Distncia
A distncia evolutiva calculada para todos
os pares de txons
Matriz de Distncias
A rvore filogentica construda
considerando a relao entre esses valores
de distncias
O mtodo de evoluo mnima
Para todas as topologias possveis :

Calcula o comprimento de todos os ramos, S
Mantm a rvore com menos S.
Problema: computacionalmente intenso. No

usado com mais de 25 sequncias.
Filogenia
Mtodos com Critrio de timo
Mxima Verossimilhana
Determina-se a probabilidade de um modelo evolutivo
gerar um certo dado
Considera todos os stios e todas as possibilidades
de mutaes em todos os ns internos da rvore
proposta
Multiplica-se a probabilidade de cada stio
Probabilidade da rvore
Pode ser utilizado para anlises de caractersticas e de

valores
Mais consistente e com estimativas com menor varincia
No simples e intuitivo
Computacionalmente intenso
Bootstrap procedure
O suporte para cada ramo interno expresso em

termos the % de rplicas.
"bootstrapped tree
0.02 Gallus
Rattus
91
46 Mus
Bos
97
Homo
Xenopus
Bootstrap
Ramos internos suportados por 90%

das rplicas so considerados
estatisticamente significativos.
O procedimento de bootstrap no
define se um programa bom. Uma
rvore errada pode ter 100% de
suporte de bootstrap em seus ramos
internos.
Tempo de processamento para vrios programas
distance < parsimony ~ PHYML << Bayesian < classical ML

NJ DNAPARS PHYML MrBayes fastDNAml,PAUP
Recursos de Web para filogenia
Compilaes
Uma lista de web sites
http://www.ucmp.berkeley.edu/subway/phylogen.htm
l
Uma lista grande de programas
http://evolution.genetics.washington.edu/
phylip/software.html
Editor de alinhamento
SEAVIEW : para windows e unix
http://pbil.univ-lyon1.fr/software/seaview.html
Programas para filogenia molecular

PHYLIP :
http://evolution.genetics.washington.edu/phylip.html
PAUP :
http://paup.csit.fsu.edu/index.html
PHYLO_WIN :
http://pbil.univ-lyon1.fr/software/phylowin.html
MrBayes :
http://morphbank.ebc.uu.se/mrbayes/
PHYML :
http://www.lirmm.fr/~guindon/phyml.htm
Desenho de rvores
NJPLOT (para todas as plataformas)
http://pbil.univ-lyon1.fr/software/njplot.html
Aulas de filogenia
http://www.bioinf.org/molsys/lectures.html
sandro@ludwig.org.br
Ontologia
Fornecer um vocabulrio estruturado

e controlado para representar
o conhecimento biolgico nos bancos
de dados.for the
Gene Onthology (GO)
Biological Process
Objetivo dentro da clula, tecido
Molecular Function
Funo bsica ou tarefa
Cellular Component
Compartimento ou complexo
Busca com a palavra collagenase
Contedo do GO
molecular function 7422 termos

biological process 8972 termos
cellular component 1472 termos
all 17,866 terms

BioInformatica Sandro2009

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

BioInformatica Sandro2009

Enviado por

Direitos autorais:

Formatos disponíveis

BIOLOGIA/MEDICINA

Incio do sc. 20: Mendel e as leis da hereditariedade.

1944: DNA como elemento carreador da

1953: Watson/Crick e aestrutura do DNA.

Anos 70 e 80: Biologia Molecular/Biotecnologia

Anos 90 e sc. 21: Genmica/Bioinformtica

30kb por corrida

454 Solexa - Illumina SOLiD - ABI

~120 MB de DNA ~01 GB de DNA ~03 GB de DNA

12KB/US$ 100KB/US$ 300KB/US$

Tecnologia de Capilar = 0.5KB/US$

Dispensa clonagem dos fragmentos em

Participantes: LICR-SP, LICR-NY, Venter Institute

Objetivo: Sequenciamento extensivo dos genes

# sequncias 1.2 milhes 520 mil

# sequenciadores 05 MegaBaces 01 454

Custo (US$)* 12 milhes 10 mil

* Excluindo o preo dos aparelhos

Biologia em larga-escala. Produo de dados

Economiza tempo e dinheiro.

Acesso a bancos de dados via SRS

Acesso a vrios servios relacionados a

Orthologia: O evento que deu origem s

Semelhana / divergncia - MISMATCH

Qual o melhor alinhamento ?

Alinhamento 1: (5 *2) + (1*1) + (4*-2) = 10 + 1 8 = 3

Alinhamento 2: (6 *2) + (1*1) + (2*-2) = 12 + 1 4 = 9

Escore final = soma dos escores para cada posio

Reflete a probabilidade ou frequncia de determinada substituio

Construdas pelo estudo do alinhamento de diversas sequncias

Probabilidade de substituio de aa em alinhamentos globais de sequncias

Cada matriz reflete as mutaes entre sequncias que divergiram por

Mutaes aceitas => no afetam negativamente a viabilidade da protena

Expanso do nmero de protenas => 1991 database

Premissa => cada mutao independente das mutaes anteriores

Consequncia => as substituies observadas em curtos perodos podem ser

PAM 1 => sequncias com 1% ou menos de divergncia =>1 mutao aceita a

PAM N mutaes = (PAM 1)N

Frequncia de substituio de aa em um conjunto de ~2000 padres (blocos)

Maior nmero de sequncias consideradas => mais de 500 famlias

Alinhamentos locais de sequncias relacionadas e no geradas a partir de

BLOSUM 62 o padro para BLAST 2.0 => sequncias moderadamente distantes

PAM => origens evolutivas de protenas

Diagramas - DOT PLOT

Algoritmo de Programao Dinmica

Algoritmos Heursticos - Word-Based ou K-tuples

COMPARE & DOTPLOT (Genetics Computer Group)

Web browser (http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html)

Compara cada par de caracteres nas duas sequncias

Posiciona os gaps de forma a obter o maior nmero de

Gera uma matriz de nmeros que representa todos os possveis

Alinhamento timo => maior escore

Nmero de alinhamentos cresce exponencialmente com a

Nmero de clculos => proporcional a n2 ou n3

Memria => capacidade da ordem de n2

O alinhamento de maior score entre as duas

Global: HBA_HUMAN vs HBB_HUMAN

HBA_HUMAN 84 SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF 128

HBA_HUMAN 129 LASVSTVLTSKYR 141

%id = 45.32 %similarity = 63.31

Eu acabei de obter uma sequncia. O que sabido respeito desta

Eu tenho uma sequncia nica. Ela tem similaridade com alguma

Eu encontrei uma nova protena em um determinado organismo.

Alinhamento 1: (5 2) + (11) + (4*-2) = 10 + 1 8 = 3

Alinhamento 2: (6 2) + (11) + (2*-2) = 12 + 1 4 = 9