Você está na página 1de 46

Mtodos de alinhamento de

sequncias biolgicas

Marcelo Falsarella Carazzolle


Resumo
- Introduo
- Alinhamentos timos
- Global
- Local (Smith-Waterman)
- Semi global
- Matrizes de alinhamento (BLOSUM)
- Alinhamentos heursticos
- BLAST
-PHI-BLAST, PSI-BLAST, MEGABLAST e BLAST2SEQS
Introduo

?
- Uma forma rpida de agregar alguma informao sobre uma
sequncia desconhecida compar-la com um banco de dados de
sequncias com funes conhecidas
- Esta comparao feita atravs de alinhamentos par a par entre
as sequncias. Isto , se o banco de dados possuir 1000 sequncias
conhecidas sero realizados 1000 alinhamentos
- Tipicamente so usados os bancos de dados mundiais (NCBI,
EMBL)

Fonte: http://www3.ebi.ac.uk/Services/DBStats/

- Atualmente uma busca nesses bancos faz 100,000,000 de


alinhamentos
- Existem vrios programas de alinhamentos com diferentes metodologias,
sendo que o mais utilizado o BLAST
Relevncia biolgica
- Essencialmente esses alinhamentos devem tentar indicar uma
homologia entre as sequncias (ou pelos menos terem uma
similaridade estatisticamente significante)
- Similaridade x Homologia
- identidade = nmero que indica a quantidade de nucleotdeos
alinhados
- similaridade = uma medida que considera a probabilidade
do alinhamento ter ocorrido por acaso (e-value). Considera
todos os outros possveis alinhamentos
- homologia = similaridade entre sequncias que dividem a
mesma ancestralidade. Possui um significado evolutivo
E-value x probabilidade

Probabilidade do alinhamento ocorrer por acaso


10
1
0.1
0.01
0.001

E-value
value 0.0001
0.00001 = 1 x 10-5 = 1e-5
1e-10
1e-50
1e-100
1e-180
0

Quanto maior o banco de dados, maior o e-value


Outras aplicaes de alinhamentos

- Reconstruo
da sequncia consensu a partir de sobreposies
de fragmentos de sequncias (montagens de sequncias de
DNA)
- Alinhamento entre sequncias de ESTs e DNA genmico
- Comparao entre protenas e DNA
- Construo de mapas fsicos
- Comparao entre genomas
- ...
Alinhamentos
-A comparao entre sequncias de DNA de organismos
diferentes baseada no conceito de que estes organismos
originaram-se de um ancestral comum.
- No contexto de evoluo as sequncias de DNA sofrem
mutaes. Estas modificaes locais entre os nucleotdeos podem
ser :
- Inseres : insero de uma base ou vrias bases na
sequncia
- Delees : deleo de uma base ou mais bases na sequncia
- Substituies : substituio de uma base por outra
- Portanto um programa de alinhamento de sequncias biolgicas
tem que considerar essas mutaes
Exemplo :
Gap = -2

Match = 1 Mismatch = -1

- Gaps representam as inseres e delees entre as sequncias


- O melhor alinhamento entre duas sequncias aquele que
maximiza o score :
- Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)
= 24 4 10 = 10
Modelos para alinhamentos
- Alinhamento global
- til quando as duas sequncias tem tamanhos prximos
- Exemplo de programa : CLUSTAL
- Alinhamento local
- til para alinhamento entre sequncias de tamanhos diferentes
e tambm para sequncias com apenas alguns trechos
conservados
- Exemplo de programa : BLAST E FASTA
- Alinhamento semi-global (ou pontas livres)
- til para encontrar sobreposies de fragmentos de
sequenciamento
- Exemplo de programa : PHRAP E CAP3
Programao dinmica
- Motivao : gerar e testar o score de todos os possveis alinhamentos
exponencial no tamanho das seqncias (nn ), onde n o tamanho
das sequncias :

- Se o alinhamento de 2 sequncias de 100 pb leva 1 segundo,


o alinhamento de duas sequncias de 1000 bp levaria trilhes de anos.

- Abordagem alternativa : programao dinmica. Com programao


dinmica o tempo de processamento e memria ficam quadrticos
(n2):

- Se o alinhamento de 2 sequncias de 100 pb leva 1 segundo, o


alinhamento de 2 sequncias de 1000 pb leva 100 segundos
- Mas ainda no est bom, pois alinhamento de sequncias de 10
Mpb (genoma de Saccharomyces) levaria 377 anos
Alinhamento global
- Alinhamento de GACATTG com GATCAATG

1a linha e 1a coluna da matriz so fceis de computar:


- G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14
G -2
A -4 G GA
T -6 - - -
C -8
A -10
A -12 Lembre-se, penalidade
de 1 gap = -2 e de dois
T -14 gaps = -4
G -16

http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
- G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14
G -2
A -4
T -6
C -8
A -10
A -12 [i,j]=p(i,j)
T -14
G -16

- Para
um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for
um match e p(i,j) = -1 se for um mismatch.
- G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14
G -2
A -4
T -6
C -8
A -10 [i-1,j-1] [i-1,j]
A -12 [i,j-1] [i,j] = max([i-1,j] - 2,
T -14 [i-1,j-1] + p(i,j),
[i,j-1] - 2)
G -16

-O valor de [i,j] definido exclusivamente pelos elementos [i-1,j-1]


(diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
- Construindo o alinhamento

A G C
0 -2 -4 -6

A -2 1 -1 -3

A -4 -1 0 -2
A -6 -3 -2 -1

C -8 -5 -4 -1

No alinhamento global o alinhamento deve ser construdo a partir


do extremo da matriz
Alinhamento local (Smith-Waterman)
http://bioweb.pasteur.fr/seqanal/interfaces/water.html

- G A C A T T G
- 0 0 0 0 0 0 0 0
G 0
A 0
T 0
C 0
A 0 [i-1,j-1] [i-1,j]
A 0 [i,j-1] [i,j] = max([i-1,j] - 2,
[i-1,j-1] + p(i,j),
T 0 [i,j-1] 2,
G 0 0 zero)

- No alinhamento local a primeira linha e coluna so inicializadas com


zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
No alinhamento local o alinhamento deve ser construdo partir do
maior score da matriz e para quando encontrar um score=0
Alinhamento semi-global

- No penaliza espaos nas extremidades do


alinhamento.
- Exemplo CAGCA CTTGGATTCTCGC
|| | | | |
- - - CAGCGTGG - - - - - - - -
- No global teramos,
CAGCA CTTGGATTCTCGC
CAGC - - - - - - G - T - - - - - -
- Qual dos dois alinhamentos mais
interessante ?
- No alinhamento semi-global a primeira linha e coluna so
inicializadas com zeros. O resto igual ao alinhamento global
- A abordagem de programao dinmica importante pois garante o melhor
alinhamento entre duas seguncias, mas ainda temos um problema :
- Lembram-se disso : se o alinhamento de 2 sequncias de 100 pb leva 1
segundo, o alinhamento de sequncias de 10 Mpb (genoma de
Saccharomyces) leva 377 anos
- A abordagem alternativa conhecida como o mtodo de k-tuplas, no qual
no garantido encontrar o alinhamento timo (heurstica) mas
significantemente mais rpido. Com esse mtodo os conceitos de alinhamento
discutidos acima foram modificados dando origem aos programas de
alinhamento local :
- BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25
(1990), 3389
- FASTA : PNAS 85 (1988), 2444-2448
- Basicamente este mtodo identifica uma srie de palavras curtas em uma das
sequncias (word size) e depois realiza uma busca exata por essas palavras nas
sequncias a serem comparadas, filtrando assim os possveis candidatos.
Alinhando protenas

- Alinhamento protena-protena
- Alinhamento nucleotdeo-protena
- Alinhamento protena-nucleotdeo
- Alinhamento nucleotdeo-nucleotdeo (feito em protenas)
Matrizes de substituio
- BLOSUM (BLOcks of amino acid SUbstitution Matrix )

- I e V => Hidrofbicos
- D e W => D (carga negativa) e W (aromtico)
- C => pontes de sulfeto (estrutural)
-A matriz foi construda a partir de alinhamentos
mltiplos globais de 504 grupos de protenas

- BLOSUM 62 : grupos com similaridade >62%

- BLOSUM 80 : grupos com similaridade >80%


- BLOSUM 45 : grupos com similaridade >45%
Query Length Substitution Matrix
<35 PAM-30
35-50 PAM-70
50-85 BLOSUM-80
>85 BLOSUM-62 PNAS 89 (1992), 10915-19919
BLAST
Basic Local Alignment Search Tool
Algoritmo BLAST (Alstchul et al.; 1990 J. Biol., 215, 403-
410)
Implementaes: NCBI BLAST e WU-BLAST
Acesso via web / local (linux)
Consulta de seqncias em BDs biolgicos (nt ou protenas)
Alinhamento sobreposio de trechos semelhante de duas
seqncias (seqs). BLAST traz pontuao e mostra
alinhamentos.
Similaridade grau de semelhana de seqs num alinhamento.
Homologia genes com ancestral comum
BDs nucleotdeos, protenas, domnios,
genomas especficos, dados particulares
Blastp prot / prot (distantes)
Blastn nt / nt (prximos)
Blastx nt trad / prot (novas seqs)
Tblastn prot / nt trad (regies no anotadas)
Tblastx nt trad / nt trad
Query BD Compara Programa
nt nt nt blastn
nt (trad) aa aa blastx
aa aa aa blastp
aa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que comparado, nucleotdeos (nt) ou aminocidos (aa).
Programa = um dos cinco principais tipos de blast.
BLAST interface
BLASTp

http://www.ncbi.nlm.nih.gov/blast/
Limita a regio da sequncia
que ser usada na consulta

Pode ser usado um arquivo com vrias


sequncias gravadas no formato fasta

Pode ser colocado vrias sequncias ao mesmo tempo ou


vrios GIs (genbank identifier)
Filtro por organismo, use o banco de
taxonomia do NCBI para ver a forma
correta de escrever o organismo

Banco de dados de protenas do NCBI

Filtros mais elaborados usando as opes Banco de dados de protenas curadas


avanadas de busca do NCBI : pelo EBI
protease NOT hiv1[organism] => retornar
apenas resultados com proteases que no sejam Banco de dados de protenas com a
do organismo HIV 1 estrutura tridimensional conhecida
Nmero mximo de sequncias alinhadas

E-value de corte
Nmero de bases que sero
utilizados para formar as k-tuplas

Altera as penalidades de criao e


extenso de gaps no alinhamento

Mascara regies de repetio


Link

Corte 1e-5
1 64
query
subject
1 71 134
BLASTx diferenas importantes

Diferentes cdigos genticos para diferentes organismos


A mudana no
frame de leitura
gera a quebra do
alinhamento
formando dois
HSPs (high
scoring pair)

91
63 95 243
1 query

subject
1 11 60
10
BLAST local
Pode ser instalado localmente
Bancos de dados prprios e atualizaes
Facilidades
Velocidade de buscas
Maleabilidade
Automatizao
Dados locais
Independe de internet
PHI-BLAST
-um blastp com a opo de passar uma outra sequncia curta ou
um padro servindo como um vnculo para a consulta

N - Qualquer nucleotdeo
N(3) - Uma sequncia de trs nucleotdeos
Ex :
N(2,4) - Uma sequncia de 2,3 ou 4
nucleotdeos [CG](5)TG{A}N(1,5)C
[AC] - pode ser um A ou um C
{AG} - no pode ser nem A e nem G
PSI-BLAST
- um blastp interativo no qual a matriz (BLOSUM), aps a primeira
interao, refeita com base nos alinhamentos entre as protenas
resultantes da consulta :
- uma posico conservada no alinhamento recebe um score
alto e uma posio no conservada um score baixo
- til para encontrar membros distantes de famlias de protenas
BL2SEQS
- Faz um alinhamento de uma sequncia contra a outra (blastn/blastx/blastp/tblastx/tblastn)

- http://www.ncbi.nlm.nih.gov/BLAST/bl2seq/wblast2.cgi
Spliced alignments

http://mobyle.pasteur.fr/cgi-bin/MobylePortal/portal.py?form=est2genome
Alinhamento de genomas

http://asap.ahabs.wisc.edu/mauve/
FIM

Você também pode gostar