Você está na página 1de 58

Mdulo de BioInformtica

Anlise de sequncias

Cadeira de Algortmica e Programao

Eduardo Rocha
Atelier de BioInformatique, U. Paris 6 & Institut Pasteur, Paris
erocha@pasteur.fr

Contedo
Alinhamento de sequncias _________________________________________________ 3
Mtodo de "dot plot"____________________________________________________ 3
Combinatria de um alinhamento ________________________________________ 5
Alinhamentos por programao dinmica__________________________________ 7

Sistemas de scores ________________________________________________________ 14


Anlise estatstica dos resultados de alinhamento_______________________________ 26
Pesquisa rpida de semelhanas numa base ___________________________________ 30
Alinhamento de N sequncias ______________________________________________ 35
Alinhamento global por blocos __________________________________________ 39
Alinhamento local por motivos __________________________________________ 40
Avaliao de alinhamentos mltiplos ____________________________________ 41

Caracterizao de sequncias pr-alinhadas___________________________________ 44


Identificao de blocos conservados ______________________________________ 44
Consensos ___________________________________________________________ 46
Matriz de peso score-posio (PSSM) _____________________________________ 48

Anlise de distribuies enviesadas de palavras ________________________________ 51


Concluso______________________________________________________________ 54
Referncias bibliogrficas _________________________________________________ 55

Alinhamento de sequncias
Mtodo de "dot plot"
Existem essencialmente duas formas de realizar dot-plots:

A forma exacta: As sequncias a ser comparadas so arrumadas ao longo da matriz.


A cada clula (i,j) da matriz associa-se um ponto se i=j ou se i e j se assemelham
segundo um qualquer critrio (e.g. do ponto de vista da matriz de scores escolhida).
Uma sequncia diagonal de pontos indica regies onde as duas sequncias so
semelhantes. Este grfico til quando aplicado a sequncias de protenas porque
elas se codificam com um alfabeto de 20 letras. Para o ADN, o seu alfabeto de 4
letras implica grficos demasiado carregados de pontos, onde os padres so
dificilmente perceptveis. Existem mtodos estatsticos que permitem analisar
precisamente os resultados (Gibbs and McIntyre 1970). Maizel and Lenk
popularizaram os dot-plots e sugeriram o uso de um filtro para reduzir o rudo
provocado por matches aleatrios (Maizel and Lenk 1981). Muitos filtros so
possveis (basta puxar pela imaginao), mas o mais comum consiste em colocar um
ponto na clula (i, j) se uma janela de 10 bases centrada em (i, j) contm mais de 6
matches positivos. Outra forma de filtrar os resultados consiste em dar-lhes um peso
de acordo com a sua semelhana qumica (Staden 1982). Independentemente do
filtro, este mtodo requer a construo de uma matriz mxn, e portanto cresce com o
produto do comprimento das sequncias (O(N2)). Isto acarreta um peso
computacional consequente. Para dois genes com um comprimento mdio (1000 nt),
este mtodo implica a construo de uma matriz com 106 clulas.

Blocos de identidade. Este mtodo envolve "hashing" e em vez de ter em conta a


matriz completa e calcular os pontos para cada clula da matriz, pode-se poupar
consideravelmente se se procurar apenas por matches exactos de um certo
comprimento. Este mtodo procura unicamente blocos de identidade (semelhana)
perfeita. A complexidade deste algoritmo cresce linearmente com N. O algoritmo
simplesmente subdivide as duas sequncias em "palavras" de comprimento pr3

especificado. Para cada sequncia a localizao de cada palavra registada. Estes


vectores de "palavras" so ento ordenados em paralelo com as palavras. Ento, por
comparao do vector ordenado de uma sequncia com o da outra, obtm-se
automaticamente as localizaes de todas as "palavras" idnticas. As heursticas de
alinhamento na base de Fast e Blast utilizam este mtodo para seleccionar as regies
de alinhamento mais promissoras.
Na matriz de dot-plot, podem-se tambm colocar os scores obtidos por uma janela
deslizante. Cada janela pode corresponder tambm ao alinhamento de sequncias de ADN.
Neste caso, como o alfabeto pequeno (4 nucleotdeos) utiliza-se frequentemente um
nmero mltiplo de resduos, quer de comprimento fixo, quer correspondente a sinais
especficos. Os valores obtidos so ento comparados aos valores que se obteriam com
sequncias da mesma composio mas aleatorizadas (Monte Carlo). Ao resultado desta
comparao convencionou-se chamar o z-score por homologia com o Z score da distribuio
Gaussiana
(z = (x-mdia)/desvio padro). Neste caso, apenas se guardam os valores que se afastam de
mdia por mais do que um certo nmero de desvios padro. Foi assim demonstrado que os
ARN ribossomais 26S/28S contm dois tipos de segmentos ("core" e "expansion"). Os
elementos de expanso tm uma composio em bases enviesada e so detectados
rapidamente usando os dot-plots como mtodos de auto-comparao. Estes segmentos de
expanso so justamente aqueles que so responsveis pela diferena de comprimento entre
os ARN ribossomais dos eucariotas (26S/28S) e os dos procariotas (23S).
Estes mtodos permitiram para alm do mais constatar que entre 15 a 20% das protenas
possuem repeties internas. Por exemplo, Gibbs & McIntyre (Gibbs and McIntyre 1970)
descobriram duas repeties de 60 cidos aminados na cadeia 2 da haptoglobina (protena
que captura a hemoglobina proveniente da lise dos glbulos vermelhos). Estas mesmas
repeties foram encontradas numa dezena de protenas (por vezes repetidas mais de 30
vezes). A figura seguinte representa um gene que codifica para uma protena de superfcie de
Mycoplasma pulmonis. Esta protena imunodominante (provoca uma forte resposta do
sistema imunitrio). A existncia de um elevado nmero de repeties de um motivo de 11
cidos aminados (33 nt) provoca uma constante expanso/contrao do comprimento da
protena. Este facto implica que numa populao normal coexistam diversos polimorfismos
4

da mesma protena, dos quais alguns conseguem escapar ao sistema imunitrio (M. pulmonis
provoca pneumonia no rato). A barra representa a fraco do gene que se encontra repetida.
A linha diagonal principal representa a identidade (alinhamento da sequncia com ela
prpria).

Existem muitos programas gratuitos que permitem realizar dot-plots. De entre estes,
sobressai especialmente o programa dotter, pela sua interactividade (Sonnhammer and
Durbin 1995).

Combinatria de um alinhamento
Comeamos por mostrar que ilusrio tentar procurar todos os alinhamentos possveis afim
de os comparar estimando o nmero de alinhamentos (com gaps) possveis entre 2
sequncias A e B de comprimentos n e m.

Mtodo ingnuo:
Vamos considerar um algoritmo directo para alinhar 2 sequncias A e B (cada uma de
comprimento N): para isto vamos considerar que para encontrar o melhor alinhamento se
vo testar todos os alinhamentos de todas as subsequncias das 2 sequncias (uma
subsequncia um conjunto de posies sobre a sequncia). Seja o algoritmo seguinte:

1. Para i de 1 a N fazer
1.1.

Para todas as subsequncias de A de comprimento i fazer

1.1.1.

Para todas as subsequncias de B de comprimento i fazer

1.1.1.1. alinhar cada k-simo smbolo da subsequncia de A com o


k-simo smbolo da subsequncia de B e contar o seu score
(logo contar o score de i pares de smbolos pois 1 k i)
1.1.1.2. contar

score

dos

gaps

dos

2(N-i)

smbolos

no

alinhados em A e em B
1.1.1.3. guardar o score se ele for melhor

O nmero de operaes a fazer (e portanto o tempo de execuo do programa) pode ser


estimado. H CNi subsequncias de comprimento i numa sequncia de comprimento N. CNi
o nmero de maneiras de escolher i elementos de entre N, sem contar com a sua ordem.
Para cada comprimento i, existem portanto (CNi )2 pares de subsequncias a alinhar: i
resduos no alinhamento e 2(N-i) resduos no alinhados (face a gaps) sobre cada sequncia,
logo i+2(N-i) = 2N-i scores a calcular e a adicionar. Isto d para o nmero de operaes a
fazer (vlido para N > 3):
N

i =1

i =1

(CNi )2 (2 N i) N (CNi )2 = NC2NN 22 N


usando a frmula de Stirling n! 2 n

Eq. 1

n +1
n
2

Para n = 20 (o que ridiculamente pequeno para uma sequncia biolgica!), tem-se ento
22*20= 240, ou seja cerca de 1011 operaes a fazer.
Se se tiver em linha de conta que um computador actual trata cerca de 20.106 instrues
simples/s, ele alinharia por este algoritmo as 2 sequncias de 20 cidos aminados em 1011/
20.106, ou seja cerca de 55000 segundos, logo 2/3 de um dia. Para alinhar 2 sequncias de 21
cidos aminados, ele levar 22*21= 242 ou seja 4 vezes mais tempo (2,6 dias). Tendo em conta
que uma protena de dimenso mdia tem cerca de 300 cidos aminados, chega-se
concluso que o programa levaria cerca de 1081 anos a alinhar duas protenas tpicas (a
comparar com os cerca de 1.109 anos estimados para a idade do universo).

Alinhamentos por programao dinmica


Definio de uma distncia de edio
Considerem-se as duas sequncias de smbolos e as trs operaes elementares seguintes:
substituio: que consiste em substituir um smbolo por outro,
insero: um novo smbolo inserido numa das sequncias,
deleo: um smbolo suprimido numa das sequncias.
Pode-se ento associar a cada alinhamento possvel, um score igual ao nmero de operaes
de edio elementares efectuadas. O problema que se pe de seguida o de determinar o
alinhamento "ptimo" de duas sequncias. Levenshtein introduziu em 1966 o conceito de
distncia de edio (Levenshtein 1966). A distncia d(a,b) entre duas sequncias a e b
definida como o nmero mnimo de operaes elementares de edio necessrias para
transformar a em b. O termo de distncia utilizado em matemtica para definir uma funo
que verifica as propriedades mtricas seguintes:
d(a,b) 0

quaisquer que sejam a e b

d(a,b) = 0

se e apenas se a = b

d(a,b) = d(b,a)

quaisquer que sejam a e b

d(a,b) + d(b,c) d(a,c)

quaisquer que sejam a, b e c

A procura do melhor alinhamento reduz-se assim ao clculo de uma distncia.


A definio precedente pode ser ligeiramente modificada, sem perturbar significativamente a
sua generalidade, associando a cada operao elementar de edio um peso (ou custo). Se se
considerar que as operaes elementares de edio tidas em conta (substituio ou
insero/deleo) representam diferenas elementares, o problema consiste em minimizar
estas diferenas, i.e. a procurar o alinhamento de menor custo.

Clculo de uma distncia de edio: o algoritmo de base


A distncia de edio entre duas sequncias calculada utilizando um algoritmo de
programao dinmica. A programao dinmica uma tcnica fundamental de programao.
aplicvel sempre que um grande espao de procura pode ser estruturado numa sucesso de
passos, de tal forma que:

o passo inicial contm as solues triviais dos subproblemas;


7

cada soluo parcial num passo posterior pode ser calculada por recorrncia a um
nmero fixo de solues parciais de passos anteriores;

o passo final contm a soluo global.

Vamos portanto utilizar a recursividade: i.e. vamos supor o problema resolvido at ao passo
i-1 para o resolver no passo i. Este algoritmo descreve-se da forma recursiva seguinte:
Considerem-se duas sequncias a e b de comprimento respectivo m e n; e note-se ai e bj
como os smbolos correspondentes s posies a0 ...... am e b0 ...... bn. Note-se D i,j como a
distncia mnima entre as duas sequncias alinhadas do incio at aos resduos ai e bj.
Calcula-se sucessivamente as distncias Di,j para os valores crescentes de i e j, at atingir o
valor de Dm,n que ser a distncia mnima entre a e b. Os valores correspondentes so
guardados numa tabela a duas dimenses. O procedimento comea em D0,0 = 0. O valor de
uma clula (i,j) definido a partir das trs clulas precedentes (i-1,j), (i-1,j-1) e (i,j-1).
Assim, calcula-se Di,j a partir da equao recursiva seguinte:
Di 1, j +w(ai ,0)

Di,j = min Di 1, j 1 +w(ai ,b j )


D
i, j 1 +w(0,b j )

Eq. 2

w(ai, ) corresponde ao custo associado deleo do resduo ai


w(ai, bj) corresponde ao custo associado substituio de ai por bj
e

w(, bj) corresponde ao custo associado insero do resduo bj

Assim, o alinhamento ptimo entre ai e bj obtido considerando de entre as trs alternativas


seguintes (figura seguinte), a de menor custo (clculo de uma distncia mnima) :
-1- Considera-se o alinhamento optimal entre ai-1 e bj e prolonga-se este pela
supresso do resduo ai;
-2- Considera-se o alinhamento optimal entre ai-1 e bj-1 e prolonga-se este
substituindo o resduo ai pelo resduo bj;
-3- Considera-se o alinhamento optimal entre ai e bj-1 e prolonga-se este inserindo
o resduo bj.

i-1

d(i-1,j-1) + ws(ai ,bj )

d(i,j) = min d(i-1,j)

+ wd(ai)

d(i,j-1)

+ wi(bj )

j-1

ai
bj

i-1 a
i

j
i
j-1

bj

Eq. 3

Esquematizando, o resultado do preenchimento de uma clula, partindo das trs clulas


precedentes dado por:

di-1,j-1 di,j-1
di-1,j

min

A figura seguinte ilustra um exemplo.

ELA-GUEUR
-LARG-EUR

1 insero
2 delees

ELAGUEUR
-LARGEUR

1 deleo
2 mismat ch

distncia = 3

Nota: Para este alinhamento os custos de insero, de deleo e de substituio so de 1.

Needleman e Wunsch [(Needleman and Wunsch 1970), e posteriormente Sankoff e Sellers


(Sankoff 1972; Sankoff and Cedergren 1973) propuseram a aplicao deste algoritmo ao
caso particular das sequncias biolgicas. O mtodo exacto de Needleman e Wunsch um
pouco diferente da que foi enunciado atrs, na medida em que eles puseram o problema em
termos de maximizao de semelhanas em vez de minimizao de diferenas. Na sua
abordagem, o score correspondente ao melhor alinhamento o maior de todos. Os dois
mtodos permitem alinhar de forma optimal duas sequncias (o algoritmo frequentemente
chamado de NWS). Pode-se mostrar que o score calculado a partir das minimizaes das
diferenas verifica as propriedades de uma distncia (Sellers 1974). Isto pode parecer menos
evidente para o caso da implementao de Needleman e Wunsch. No entanto, Smith e
9

Waterman (Smith and Waterman 1981) demostram que este pode ser definido de tal forma
que o procedimento seja igualmente mtrico. De seguida apresenta-se uma matriz definida de
acordo com o algoritmo inicial de NWS. Uma vez que na literatura, e nos programas
disponveis, ambas as formas so frequentes, importante verificar qual das
implementaes est a ser utilizada.
medida que se constri a matriz, guarda-se em cada clula um ponteiro direccionado para a
clula que esteve na sua origem do seu score. Na figura seguinte indica-se um exemplo de
uma matriz de NWS. Esta matriz representa um alinhamento de ACGTACGT com
GATGC, utilizando um score de match de 5, um score de gap de mismatch de 5 e um score
de gap de 10.
0

1
A

7
G

8
T

-3 5

-2 0 - 3 0

-1 5 -2 5

-2 0

-3 0

-3 5

-1 0

-2 0

-2 5

-1 5

-2 0

- 5 - 1 5

-2 5

-3 5

-1 5

-5 0

-2 0

-1 5

-1 0

-2 5

-4 0

- 5 5 - 6 5

- 2 0 -3 0 - 4 0 -5 0

6
C

-1 5

-2 0

-3 0

-2 0

-1 0

-5

5
A

- 1 5 - 2 5 - 3 5 - 4 5

-2 0

-1 5

-5

-1 0

4
T

3
G

- 1 0 - 2 0 - 3 0 - 4 0 - 5 0 - 6 0 - 7 0 - 8 0

2
C

-2 5

ACGTACGT
--G-ATGC

O valor da clula final da matriz corresponde necessariamente ao melhor score de


alinhamento. Para determinar o alinhamento exacto, necessrio encontrar o caminho das
escolhas que levaram a esse valor final. Para tal, basta seguir o caminho dos ponteiros que se
deixaram em cada clula no momento da construo da matriz. Este mtodo conhecido sob
o nome de back tracking (figura precedente) e permite encontrar o alinhamento ptimo. No
entanto, pode haver outros alinhamentos to bons como o ptimo. Certas variante do
algoritmo NWS permitem encontrar no s os outros alinhamentos ptimos como os n
alinhamentos sub-ptimos (Zuker 1991).
As penalidades de descontinuidade ("gap") podem ser constantes (Needleman and Wunsch
1970) ou, de forma mais prxima da realidade biolgica, dependentes do comprimento da

10

descontinuidade (k) e com uma penalidade (a) para a abertura da descontinuidade,


g(k) = a + kb. Neste caso, o algoritmo transformado da forma seguinte:
Di 1, j 1 + w(ai ,b j )

Di, j = min min1 k j Di, j k + g(k)


min
1l i Di l, j + g(l)

{
{

}
}

Eq. 4

Podem-se introduzir, ou no, as penalidades para os gaps de extremidade dependendo se as


sequncias so de comprimento idntico ou diferente. Esta modificao conduz de forma
natural aos algoritmos de alinhamento local.

Alinhamento pseudo-global - Bestfit


Quando se pretende alinhar duas sequncias de comprimento muito diferente, NWS vai
"esticar" a sequncia mais pequena sobre a grande por forma a evitar gaps de extremidade
demasiado caros. A soluo neste caso passa pela utilizao de um algoritmo dito de
"bestfit" (Erickson and Sellers 1983). A diferena fundamental com NWS devida no
contagem dos gaps de extremidade da sequncia de maior comprimento. Isto traduz-se na
matriz de alinhamento pela introduo de zeros na primeira linha da matriz (supondo que a
sequncia maior corresponde s colunas), e por um custo nulo associado s inseres na
ltima linha. O alinhamento obtido atravs da procura do score optimo de alinhamento na
ltima clula. Este algoritmo tem como consequncia que o score mais baixo que se puder
obter na ultima linha ser prolongado por todas as clulas da ltima linha at ltima clula,
devido ao custo nulo de insero nesta zona da tabela.

Nota: Para este alinhamento os custos de insero, de deleo e de substituio so de 1.

O que d como alinhamento neste caso:


ELAGUEUR
--AG-EU11

O mtodo de best-fit extremamente til quando se pretende fazer um alinhamento que


tenha em conta a integralidade da sequncia mais pequena, sem no entanto forar um
alinhamento onde ele no se espera, extremidades de uma das sequncias, devido ao facto da
outra ser mais pequena.

Alinhamento local - Smith & Waterman


O alinhamento global til para comparar duas sequncias homlogas. Mas quando as duas
sequncias apenas possuem certos domnios em comum, ou quando necessrio comparar
uma sequncia com todas as entradas de uma base de dados, est-se mais interessado nos
melhores alinhamentos locais entre duas subsequncias. A base dos alinhamentos locais o
algoritmo de Smith-Waterman (Smith and Waterman 1981), que uma modificao do
algoritmo de Needleman-Wunsch, atravs de duas modificaes principais. Por conveno,
sigamos o esquema anterior de conferir scores positivos aos indels e aos no-matches e
pesos negativos aos matches. O problema portanto o de minimizar as distncias de edio
entre as duas sequncias. Em primeiro lugar, junta-se uma nova possibilidade na escolha do
valor da clula: se o score positivo foramo-lo a ser zero. Isto , se o melhor alinhamento
encontrado at posio (i, j) conduz a um score positivo, para-se e recomea-se um novo
alinhamento local a partir dessa posio. A segunda diferena uma consequncia directa da
primeira, o alinhamento optimal no chega necessariamente ltima clula, mas apenas
clula de menor score, pois que ela contm a subsequncia ptima maximal. Partindo de (1)
as alteraes ao algoritmo traduzem-se por:

Di 1, j +w(ai, 0)

Dij = min Di 1, j 1 +w(ai , b j )


Di , j 1 + w(0,b j )
0

Eq. 5

Assim, o alinhamento maximal encontra-se limitado esquerda e direita pela primeira


clula contendo um zero (Smith and Waterman 1981).

12

L
A

0
0

-1
0

0
-2

0
-1

-1
0

0
-2

-1
-1

0
0

0
0

0
0

-1

-1

-1

-1

-2

-1

-3

-2

Nota: 1 para no matches e indels, -1 para matches

O que d o alinhamento local seguinte:


LAFLALMEE
---LA-MENote-se que quando se tem duas escolhas de caminho de igual peso, escolhe-se sempre a da
substituio (clula em diagonal). Em consequncia, entre dois alinhamentos de igual score
escolhe-se o que tem menos gaps.
A programao dinmica apresenta como problema importante o facto de o nmero de
operaes a realizar crescer com o produto do comprimento das duas sequncias a
comparar. No caso da pesquisa em bases de dados, salvo utilizao de material especfico,
isto conduz a tempos de clculo importantes. Por esta razo foram desenvolvidas vrias
heursticas. Estes programas so muito mais rpidos, mas acarretam a perda da garantia de
optimalidade do alinhamento. O objectivo das heursticas a pesquisa da fraco mais
pequena possvel das clulas da matriz, tentando evitar perder os melhores alinhamentos.

Programas derivados do algoritmo de NWS


O alinhamento global de duas sequncias por programao dinmica uma operao custosa,
em tempo e em memria. Vrios algoritmos derivados de NWS, tm sido desenvolvidos com
o objectivo de reduzir tanto o tempo de execuo como o espao necessrio em memria
(Fickett 1984; Goad and Kanehisa 1982) (Gotoh 1982) (Waterman 1984). Por outro lado,
mtodos visando a determinao dos alinhamentos sub-optimais (Vingron 1996) tm
igualmente sido desenvolvidos por forma a ter em conta alinhamentos menos bons, mas
eventualmente interessantes. Nestes casos, os mtodos permitem encontrar todos os
alinhamentos de scores abaixo de um certo limiar e suficientemente diferentes tanto do
melhor alinhamento como dos outros alinhamentos sub-optimais.

13

Sistemas de scores
Trs definies esto em voga para o resumo da noo de identidade entre duas sequncias,
dado um alinhamento:
%Identidade =

2 Nid
Nid
=
L1 + L2 Lt Ngap 2

%Identidade =

Nid
Lt

%Identidade =

Nid
Inf ( L1 , L2 )

onde Nid: nmero de coincidncias estritas, L1: comprimento da primeira sequncia, L2:
comprimento da segunda sequncia, Lt: comprimento total do alinhamento, Ngap: nmero de
gaps, Inf(a,b): mais pequeno de a e b. A primeira definio a mais consensual. A
identidade no necessariamente uma medida muito fina de semelhana. Suponhamos, por
exemplo, um resduo hidroflico numa protena. Espera-se que uma posio numa protena
homloga seja mais semelhante se este resduo for diferente mas tambm hidroflico, que se
for hidrofbico. Assim, em muitos casos a restrio da noo de identidade acarreta uma
perda de informao. Nestes casos costuma-se analisar a semelhana.
Se a percentagem de identidade conhece vrias definies, a percentagem de semelhana, no
tem de todo uma definio precisa. De facto, no caso da semelhana a indefinio
intrnseca, pois a noo de semelhana (ao contrrio da noo de identidade),
necessariamente contingente a um sistema de semelhanas. Assim, antes de falar em
percentagem de semelhana preciso definir uma matriz de semelhanas.
Comeamos por distinguir semelhana de homologia:
semelhana: calculada a partir da distncia de edio entre duas sequncias de
smbolos.
homologia: distncia evolutiva entre duas sequncias biolgicas, estimada em funo
do nmero de eventos mutacionais necessrios para explicar as suas histrias
evolutivas desde a divergncia.
Assim, a homologia refere-se a um modelo biolgico de evoluo, ao passo que a semelhana
refere-se ao processo de edio subjacente ao alinhamento. Naturalmente, o ideal seria que se
pudesse estabelecer uma correspondncia perfeita entre as duas. Nos pargrafos anteriores
14

realizaram-se alinhamentos optimais em funo de um sistema de scores, i.e. em funo de


um conjunto de penalidades de indels e de mismatches. Como o algoritmo utiliza
explicitamente os scores na construo da matriz, diferentes sistemas de scores conduzem a
diferentes alinhamentos. Sendo assim, o papel dos scores central na definio do
alinhamento entre duas sequncias. O problema portanto o de estabelecer um sistema de
scores que conduza a resultados relevantes para o problema biolgico em questo, o que nos
aproxima do problema da modelao dos fenmenos evolutivos.
Para fazer a ligao entre a similaridade definida pelo alinhamento lexicogrfico e a homologia
que procuramos determinar, necessrio comear por associar a cada uma das operaes
elementares de edio um evento mutacional preciso (insero/deleo de um resduo,
substituio de um resduo por um outro). Neste contexto um evento mutacional
correspondente substituio de um cido aminado por um outro no tem sempre o mesmo
significado. Para exprimir o facto de que certas cadeias laterais de cidos aminados so mais
ou menos facilmente modificveis no seio de uma estrutura proteica, utilizam-se "matrizes
de distncias" ou "matrizes de homologias". Vrios critrios podem ser tidos em conta na
definio destas matrizes, quando se trata de homologia entre protenas:
1.

As propriedades qumicas associadas s cadeias laterais (Grantham 1974) (Rao


1987).

2.

As frequncias de substituio observadas a partir de protenas evolutivamente


prximas (matrizes PAM, ver em baixo) (Dayhoff, Schwartz and Orcutt 1978)
(McLachlan 1971).

3.

A frequncia de apario de cada um dos cidos aminados no seio de uma estrutura


secundria (Levin, Robson and Garnier 1986; Rao 1987).

4.

A distncia gentica, i.e. o nmero mnimo de bases a modificar para transformar um


codo associado a um dado cido aminado num codo correspondente a um outro cido
aminado (Feng, Johnson and Doolittle 1985).

5.

As frequncias de substituio observadas aps sobreposio de estruturas


tridimensionais de protenas homlogas (Risler et al. 1988).

Quanto ao que se refere homologia definida em termos de ADN, utiliza-se tipicamente a


identidade, i.e. distncia de Levenshtein, como definidas atrs. Em estudos de filogenia, onde
se tenta determinar a rvore filogentica que melhor descreve a divergncia entre espcies,
15

tornam-se necessrias matrizes mais realistas de um ponto de vista biolgico (Harvey et al.
1996).
As matrizes de scores definem as ponderaes das operaes de edio em funo dos
resduos em questo. Podem-se construir matrizes de distncia (valores entre 0 e 1) que se
transformam facilmente em matrizes de semelhana (entre 1 e 0; 1-valor de distncia). Estes
pesos intervm no clculo da distncia correspondente ao alinhamento optimal entre duas
sequncias. Em particular, se a matriz no uma matriz de distncia no sentido matemtico
do termo, ento o algoritmo no pode assegurar uma soluo optimal. Alm disso, h que ter
presente que a escolha de uma matriz de distncia d analise efectuada um significado
particular. A matriz utilizada impe uma certa perspectiva sobre as sequncias em
comparao e enviesa o resultado da anlise. Mudar a matriz de distncia implica modificar
o alinhamento optimal.

A matriz PAM
A matriz PAM foi a primeira a ser construda (Dayhoff, Schwartz and Orcutt 1978). A sua
utilizao (e a sua construo) assenta sobre trs hipteses: 1) os eventos mutacionais so
independentes do contexto, 2) um acontecimento mutacional numa certa posio
independente dos eventos mutacionais anteriores que tiveram lugar nessa posio (processo
de Markov de ordem 0), 3) a probabilidade de substituio de X em Y a mesma que a de Y
em X.
A construo da matriz pode ser dividida em trs etapas: construo da matriz de
substituies observadas; clculo da matriz de probabilidades de substituio; clculo da
matriz de odds.
Em 1978, para a definio da matriz, A, das substituies observadas, utilizaram-se 1572
sequncias proteicas, agrupadas em 71 famlias. Posteriormente estas anlises foram
repetidas com mais sequncias. As sequncias utilizadas apresentam menos de 15% de
diferenas no seio de uma mesma famlia para evitar os problemas de substituies mltiplas
(XYZ) e para simplificar os alinhamentos. Uma rvore filogentica ento construda
para cada uma das famlias, e as sequncias analisadas por pares de 2 sequncias observadas
ou de uma sequncia observada e uma sequncia ancestral inferida atravs da rvore. Todas
as substituies so contadas nos dois sentidos (XY et YX) (3a hiptese). Compilam-se
ento os resultados na matriz A: Ai,j = Aj,i = Nmero de substituies de ij e de ji.
16

Para o clculo da matriz M de probabilidades de mutao (matriz de transio no sentido


Markoviano): Mi,j representa a probabilidade de que ji durante o perodo evolutivo de 1
"PAM" ("point accepted mutation", i.e. 1% de mudanas). Constata-se portanto que o
tempo no tido em conta de forma explcita no clculo. Segundo Dayhoff, Mi,j o produto
da "mutabilidade" de j (mj), e da probabilidade condicional, P(ji | j), de que j mude para i
(Aij/N) sendo que j muda ( k j Akj /N). Pelo teorema de Bayes:
P(A|B) = P(A e B)/P(B),
e portanto, obtm-se:
P(ji | j) = P(ji e j) / P(j) = P(ji)/P(j) =

Aij

N
=
Akj
k j

Aij
Akj

Eq. 6

k j

(sendo N o nmero total de resduos). M i,j deveria ser a probabilidade P(ji | j)P(j) e
mj deveria ser a probabilidade de que j sofra uma substituio. De facto, mj antes uma
razo de duas probabilidades (odds): a razo do nmero total de mutaes observadas de
j pela exposio total mudana de j. Esta ltima a soma, sobre todos os pares de
sequncias, do nmero de ocorrncias (Nj,p) de j no par p, multiplicada pela percentagem de
mutaes no par. Assim, este termo permite normalizar em funo cada par de sequncias
aparentadas (por causa das distancias evolutivas diferentes e dos comprimentos de genes
diferentes). Vamos de seguida detalhar a construo de mj a partir dos pares de sequncias
alinhadas.
Denotando fj,p como a frequncia de j no par p, Lp como o comprimento do par, e tp como a
taxa de mutao no par p, obtm-se (Nj,p = fj,p Lp)

kj

mj =

k j

j, p

Eq. 7

Lp t p 100

Fazendo a aproximao de que a frequncia de j nos pares p (ft,p) idntica em todos eles
(fj), e de que a taxa de mutao a mesma para todos os pares (com tp = Mp/Lp
comprimento mdio de um par), tem-se ento:

17

kj

mj =

j, p

A
M

kj

k j

Lp t p 100

fj

A
A

kj

100

fj

kl

100

k l

Pode-se ver a mutabilidade como uma chance (odd) pois a relao entre a probabilidade
que j mude, ou seja

A
N

kj

k j

p(j) =

j, p

sobre a probabilidade de que j mude, se j muda como o conjunto dos cidos aminados mas
em proporo sua frequncia:
f j Akl
l

k l

N t
N
j, p

(ou ainda

, ou mesmo tp se tp o mesmo em todo o lado ).

j, p

j, p

Tipicamente, esta razo multiplicada por 100, o que d a mutabilidade por cada 100
posies. A multiplicao por d origem probabilidade de que j mude (ver em baixo).
Finalmente, tem-se:

kj

Mij = mj P(ji | j) =

k j

j, p

Lp t p 100

Aij
=
Akj
k j

M ij =

Aij
Aij
=
f j Akl 100
f j M p 100
l

Aij
,
f j, p M p 100
p

Eq. 8

k l

Mij ento a probabilidade de que j mude para i num conjunto de mutaes, ponderada
pela frequncia de j, e multiplicada por 100. De notar que M i,j no simtrica unicamente
por causa da mutabilidade que introduz a frequncia de j (pois a matriz A simtrica).
Na diagonal da matriz, incluem-se as probabilidades de jj, ou seja, a probabilidade no
haver alteraes. Os elementos diagonais escrevem-se portanto Mjj =1-p(j), logo:
Aij
= 1 m j
M jj = 1 Mij = 1 m j
i j
i j
Akj
k j

A
A

ij

i j

kj

k j

18

= 1 m j

Eq. 9

uma constante calculada de tal forma que a matriz M represente a mudana por unidade

de evoluo, i.e. o perodo durante o qual se observa 1% de mudanas, logo 99% de


conservao estrita. Tem-se portanto que

M jj =

(1 m j ) =

f j m j = 0.01
j

f f m

= 1 f j m j = 0.99
j

f j Akj

( f

k j

j, p

M p 100)

= 0.01

E seguindo a aproximao feita anteriormente para o denominador:



j

f j Akj
k j

f j Aml
l

A

A

=1

m l

kj

k j

= 1 = 1,

ml

m l

portanto um factor de escala para representar a "quantidade" de evoluo de 1%.

Podemos assim simular a evoluo de uma protena aplicando a matriz M 1 (PAM1). Para
cada cido aminado j, basta fazer uma extraco aleatria entre 0 e 1, se o nmero est entre
0 e Mj,j, no se muda, se est entre Mjj e M jj + M Aj, muda-se j em A, se est entre M jj +
M Aj e M jj + M Aj + M Cj, muda-se j em C, etc. Aplica-se de seguida este procedimento a
todos os cidos aminados da protena. Pode-se renovar a operao para simular um nmero
maior de mutaes. Uma outra forma de fazer a mesma coisa consiste em multiplicar a
matriz PAM1 por ela mesma, o que d origem a PAM2, e aplic-la como antes para simular
2 mutaes por cada 100 resduos. A matriz M0 a matriz identidade (sem mudana de
cidos aminados) e a matriz:
fa
fc
M =
fd
:

fa
fc
fd
:

fa
fc
fd
:
:

contm as frequncias de cada cido aminado em cada coluna. A matriz M corresponde a


uma distncia evolutiva infinita entre as sequncias, i.e. corresponde hiptese nula: a

19

semelhana entre as sequncias apenas devida semelhana na composio em cidos


aminados.

Estimao da distncia de evoluo


Para cada matriz, pode-se calcular a percentagem mdia de resduos que mudam atravs da
frmula:
100 (1 f j M jj ).
j

Observam-se 1% de diferenas por 1 PAM, 50% por 80 PAM e 85% por 328 PAM.
Utiliza-se em geral a matriz PAM250, excepto quando se pretende comparar sequncias
provenientes de espcies que divergiram h pouco tempo, para o que se utiliza
frequentemente a matriz PAM125.
Nota: ao contrrio do que poderia parecer natural primeira vista, uma matriz PAM50 no representa 50% de
mudanas porque comea a haver uma probabilidade importante de mutaes mltiplas por posio, pois o
nmero de mudanas por posio segue uma distribuio de Poisson. Para valores elevados de PAM, a
distribuio de Poisson deixa de ser um bom indicador das diferenas entre protenas, porque as hipteses de
independncia de mutaes e de probabilidade uniforme de mutaes so violadas (e.g. para os stios activos
de enzimas onde as mutaes so mais fortemente contra-seleccionadas).

Para cada distncia, os elementos M ij da matriz de probabilidade de mutao do a


probabilidade de que j seja substitudo por i numa sequncia homloga, no intervalo
correspondente a M. A frequncia normalizada, fi, corresponde probabilidade de que i
esteja na segunda sequncia por acaso. Os termos da matriz de chances ("odds matrix" - R)
so ento as razes da probabilidade de que a mudana seja devida a mutao nas duas
sequncias (fj Mij) pela probabilidade de que elas ocorram por acaso entre duas sequncias
aleatrias (fi fj):
Rij =

Mij
fi

Pela equao (8), tira-se que:


Rij =

Mij
Aij
Aij
=
=
fi
fi f j M p 100
f j f j Akl 100
p

Eq. 10

lk

Pode-se constatar que R simtrica e que corresponde de facto probabilidade de que j


mude para i (i.e. Aij

kl

), dividida pela probabilidade de que i esteja na posio de j

lk

20

por acaso (produto das frequncias de i e de j). Um valor (score) superior a 1 indica que j
muda para i nas sequncia prximas com maior frequncia do que se encontra por acaso face
a i em duas sequncias aleatrias de igual composio. Para calcular uma "chance" ("odd") de
alinhamento, basta multiplicar as "chances" dos pares de cidos aminados que so
coincidentes (na realidade, normalmente prefere-se adicionar os logaritmos das chances).
Assim, o log-odds ratio dado por:
S = s( xi , xi )

Eq. 11

onde sij a probabilidade de que o par (i,j) ocorra como um par alinhado, por comparao
com a probabilidade de ocorrer como um par no-alinhado:
p
sij = log ij
qi q j

Eq. 12

Scores e propriedades biolgicas


Constatou-se que os valores da matriz PAM esto correlacionados com:
1. tamanho e hidrofobicidade dos cidos aminados.
2. a composio qumica (relao hetero-tomos/carbonos), com a polaridade e com o
volume dos cidos aminados.
Isto demonstra que estas propriedades intervm na estrutura e na funo proteica e que a
sua alterao est sujeita s leis da seleco natural. As mutaes pontuais de cada cido
aminado (AA) da lisozima (Rennell et al. 1991) mostram que:
- 30% dos AA mutados conduzem a uma enzima parcialmente activa;
- 30% dos AA podem ser substitudos por qualquer outro AA;
- 30% dos AA podem ser substitudos por um subconjunto de AA;
- apenas 1 AA no pode de todo ser alterado (o doador de protes do stio activo).
Logo 2/3 das posies so neutras, i.e. a sua substituio no tem implicaes fenotipcas.
Estes resultados demonstram que a utilizao de uma matriz de substituio para toda a
sequncia uma simplificao considervel que pode por vezes conduzir a resultados
errados. Em particular, existe uma importncia considervel do contexto local, i.e. dos cidos
aminados vizinhos.

21

Regra geral, as pesquisas de alinhamento sem gaps so muito sensveis escolha da matriz,
ao passo que a pesquisa com gaps reduz significativamente as diferenas de performance
entre as matrizes utilizadas (Pearson 1995).

Outras matrizes
O modelo de evoluo por detrs da construo e utilizao das matrizes PAM criticvel:

pressupe que todos os resduos de uma protena so equi-mutveis e que todas as


mutaes so independentes das que j tiveram lugar.

pode-se notar os erros de estimao da matriz PAM1 atravs de como eles se propagam
e amplificam nas matrizes de ordem mais elevada. Estes erros esto ligados ao facto de
que as mutaes entre as sequncias prximas que servem elaborao da PAM1 so
dominados pelas substituies entre cidos aminados cujos codes apenas diferem de
uma base.

A alternativa em relao a este ltimo problema consiste em obter as probabilidades de


substituio calculadas directamente sobre os alinhamentos de sequncias distantes, i.e. sem
extrapolao. Contam-se neste caso as frequncias de substituio (por pares) observadas
nas colunas de alinhamentos mltiplos sem gap de protenas da mesma famlia. Isto realizase atravs da reduo de parte das sequncias prximas no alinhamento por uma ponderao
(por agrupamento dos blocos de sequncias baseado na sua percentagem de identidade).
BLOSUM 62 (Henikoff and Henikoff 1993) ("BLocks SUbstitution Matrix at 62%") foi a
primeira matriz de logaritmos de probabilidades derivada das substituies de cidos
aminados entre segmentos de sequncias de identidade inferior a 62%. De forma semelhante,
foram definidas matrizes BLOSUM para diferentes escalas evolutivas: BLOSUM50 para
famlias com 50% de semelhana ou menos e BLOSUM80 para protenas muito prximas.
BLOSUM62 a matriz utilizada por defeito em BLAST.

22

Exemplo: a matriz BLOSUM62:


A

-2

-1

-2

-2

-1

-1

-1

-1

-2

-1

-1

-1

-3

-2

-3

-4

-2

-3

-3

-1

-3

-1

-1

-3

-3

-3

-3

-1

-1

-1

-2

-2

-2

-3

-3

-1

-1

-3

-1

-4

-3

-1

-2

-1

-3

-4

-3

-1

-4

-3

-2

-3

-3

-2

-1

-1

-2

-3

-2

-2

-2

-3

-3

-3

-1

-3

-3

-4

-3

-3

-2

-2

-1

-3

-1

-2

-3

-2

-4

-2

-4

-3

-2

-2

-2

-2

-3

-2

-3

-2

-3

-1

-1

-2

-3

-1

-3

-2

-2

-1

-2

-3

-2

-1

-1

-3

-3

-4

-3

-3

-3

-3

-3

-3

-2

-1

-3

-1

-1

-3

-1

-3

-2

-1

-3

-2

-1

-1

-1

-2

-3

-2

-1

-1

-4

-3

-4

-3

-2

-3

-3

-2

-2

-2

-1

-2

-1

-1

-1

-3

-2

-3

-2

-1

-2

-2

-1

-1

-1

-1

-1

-2

-3

-3

-3

-3

-2

-2

-3

-4

-2

-1

-3

-1

-1

-4

-2

-2

-3

-1

-3

-2

-2

-1

-2

-1

-1

-2

-4

-3

-1

-3

-3

-2

-3

-2

-1

-1

-2

-2

-1

-1

-3

-2

-3

-2

-3

-2

-1

-2

-1

-1

-3

-3

-2

-1

-2

-1

-2

-2

-1

-1

-1

-2

-3

-2

-1

-1

-1

-2

-2

-2

-1

-1

-1

-1

-1

-1

-1

-2

-2

-1

-3

-2

-1

-3

-3

-2

-3

-2

-2

-3

-2

-3

-1

-3

-2

-4

-3

-2

-2

-3

-3

-2

-1

-4

-4

-2

-3

-3

-2

-3

11 2

-2

-2

-3

-2

-3

-1

-2

-1

-1

-2

-3

-1

-2

-2

-2

-1

Scores para ADN


No que se refere ao ADN, as probabilidades de substituio tambm variam de acordo com
as bases e de acordo com a posio. No que se refere posio, as terceiras posies dos
codes esto tipicamente menos sujeitas a constrangimentos selectivos (posies sinnimas)
e evoluem portanto mais depressa do que as outras (que quase sempre levam mudana de
cido aminado). Apesar de importante, este efeito no tido em conta nas matrizes de
substituio pois acarretaria um aumento considervel da complexidade do algoritmo de
alinhamento. Quando se pensa que este factor pode estar a ter um peso importante no
alinhamento, produz-se antes um alinhamento em protena que depois se traduz em ADN.
No que se refere s probabilidades de substituio, as transies, substituies entre duas
purinas ou duas pirimidinas (i.e. AG ou CT), so mais frequentes que as transverses
(i.e. AT, AC, TG ou CG) (Kimura 1980). Em consequncia, a maioria dos
programas de alinhamento providencia uma opo de scores que consiste em penalizar mais
fortemente as transverses que as transies.
23

pirimidinas

>

purinas

Scores de gap
Os primeiros algoritmos e sistemas de scores desenvolvidos para o alinhamento de
sequncias biolgicas penalizavam os gaps contabilizando um custo fixo para cada resduo
alinhado com um gap na outra sequncia. Consequentemente, a penalidade do gap era
proporcional ao seu comprimento, o que acarretava a introduo nos alinhamentos de
numerosos pequenos gaps. Ora, muito cedo se tornou evidente que nas sequncias
biolgicas os tamanhos e as frequncias de gaps no se distribuem desta forma (Pescarella
and Argos 1992). Num contexto biolgico, se se considerar a introduo de um gap de
comprimento k, distinguem-se normalmente duas penalidades diferentes: uma referente
existncia do gap e outra referente dimenso do gap. Assim, a generalidade dos algoritmos
de alinhamento utiliza como penalidade para os gaps a frmula:
Pgap(L)= a + bL

Eq. 13

onde L o comprimento do gap, a a penalidade de abertura de gap e b a penalidade de


extenso. No existe nenhuma teoria que permita o clculo da probabilidade de um gap (e.g.
em funo da distncia evolutiva ou do seu comprimento). No entanto, anlises de
alinhamentos de sequncias homlogas mostraram que tanto para protenas como para
cidos aminados, esta frmula subestima a probabilidade de longas inseres/delees
(Benner, Cohen and Gonnet 1993). Uma frmula mais realista, seria:
Pgap(L)= a + b log(L)

Eq. 14

No entanto como este ltimo clculo mais pesado que o precedente, esta frmula
raramente utilizada. Tal como para os scores de match, as penalidades de gap deveriam
variar com a distncia evolutiva das sequncias em anlise. No entanto, o problema da
24

contextualidade dos scores coloca-se aqui com acrescida acuidade, pois a probabilidade de
um indel dependente da existncia de repeties ou estruturas de ADN ou ARN na sua
proximidade.

25

Anlise estatstica dos resultados de alinhamento


Significado estatstico e significado biolgico
Os programas de alinhamento so desenhados para identificar sequncias homlogas
distantes baseados nas semelhanas em sequncia. Quando dizemos que duas sequncias so
homlogas, estamos a dizer que elas descendem de um antepassado comum, i.e. estamos a
assumir ume hiptese para a histria evolutiva das sequncias. Um resultado muito
interessante dos projectos de sequenciao de genomas bacterianos foi a descoberta de que
mais de metade dos genes de um genoma partilham de semelhanas em sequncia com outros
genomas que divergiram destes milhares de milhes de anos. Como a maioria dos estudos
moleculares e fisiolgicos em biologia so feitos com organismos modelos, a anlise de
semelhana um formidvel utenslio de anlise por homologia da funo de genes.
A inferncia de homologia a partir da identificao da semelhana hoje em dia um
procedimento de rotina para atribuir funes celulares e bioqumicas a genes ou protenas de
funo desconhecida. Isto de importncia crucial na anlise de genomas completos, que
tm tipicamente uma maioria de genes que no foram estudados na espcie. Por exemplo, na
altura em que foi publicada a sequncia genmica de Aeropyrum pernix (uma arqueobactria
termfila) menos de duas dezenas de artigos cientficos tinham sido escritos sobre a espcie.
No entanto, conseguiu-se por homologia identificar a funo putativa de cerca de metade dos
seus genes (i.e. mais de mil genes). A inferncia depende de duas componentes: a nossa
capacidade de identificar semelhana em sequncia de acordo com critrios de distncias de
edio baseados em argumentos biolgicos; e a nossa capacidade de estabelecer um critrio
estatstico correcto de que o alinhamento no devido ao acaso.

Estatsticas para alinhamentos globais


Apesar das estatsticas de semelhana para alinhamentos globais de sequncias aleatrias
no ter sido ainda completamente caracterizada, a principal caracterstica desta distribuio
o crescimento linear dos scores com o comprimento das sequncias. Isto , o score de
alinhamento de sequncias aleatrias aumenta linearmente com o comprimento destas
sequncias. A significncia estatstica de um score de sequncias "reais" estimada a partir
da probabilidade do score no alinhamento de sequncias aleatrias com o mesmo
26

comprimento e composio. Desta forma, estamos a testar se pudemos rejeitar a hiptese de


que o alinhamento tenha um score superior ao de sequncias aleatrias (hiptese nula). Se
for possvel rejeitar esta hiptese, ento podemos considerar que existem razes biolgicas
por detrs deste desvio em relao s sequncias aleatrias. Ascendncia comum, pode ser
uma razo para esta observao (outra pode ser evoluo convergente).
A varincia associada ao score do alinhamento global tambm no foi ainda determinada.
Assim, a estimao destes parmetros normalmente feita de forma emprica atravs da
simulao de sequncias aleatrias de igual comprimento e composio seguida pela anlise
do alinhamento entre elas. Repetindo-se esta operao um grande nmero de vezes,
possvel estimar a mdia e a varincia da distribuio e uma aproximao razovel da
probabilidade pode ser conseguida a partir do z-score seguinte:
Z=

Eq. 15

onde S o score do alinhamento global e e so a mdia e o desvio padro calculados a


partir das simulaes de sequncias aleatrias. Z segue aproximadamente uma distribuio
normal, pelo que esta pode ser utilizada para fazer inferncia estatstica. Para evitar um
nmero elevado de falsos positivos (dada a dimenso das bases de dados), utiliza-se
normalmente um limiar muito forte, e.g. cinco desvios padres.

Estatsticas de alinhamentos locais sem gaps


As estatsticas de scores para alinhamentos globais s tm (at ao momento) soluo exacta
para o problema do alinhamento sem gaps. O grande contributo a esta questo foi feito por
Karlin e Altschul (Karlin and Altschul 1993). Estes autores mostraram que para duas
sequncias aleatrias de comprimento n e m, o score do melhor alinhamento local sem gaps
esta centrado em torno de:
ln(n.m)

onde depende da distribuio de cidos aminados na base de dados e da matriz de scores, e


a nica soluo positiva possvel para x na equao:
r

ppe
i

s ij x

=1

i , j =1

27

onde pi a probabilidade da letra i (estimada a partir da sua frequncia relativa na base de


dados), sij o score correspondente ao alinhamento de i com j, r a dimenso do alfabeto (4
para ADN, 20 para protenas). um parmetro de escala que serve para normalizar o
sistema de scores. Note-se que se os cores foram determinados atravs da equao 12, ento
=1 pois esij=pij/qiqj. Note-se ainda que no caso do alinhamento local, o score aumenta com

o logaritmo do comprimento das sequncias, ao passo que no caso do alinhamento global o


crescimento linear.
No caso simplificado de um alinhamento fixo sem gaps, o score de um match com uma
sequncia aleatria a soma de muitas variveis aleatrias semelhantes e portanto aproximase bem de uma distribuio normal. A distribuio assinttica do mximo S, de uma srie de
mxn variveis aleatrias conhecida e tem a forma (distribuio de Gumbel):
Prob[ S x ] e Kmne

( x )

Eq. 16

onde K uma constante que depende da distribuio de cidos aminados na base de dados e
da matriz de scores. O parmetro u=ln(Kmn)/ corresponde ao mximo (unimodal) da
distribuio de Gumbel. A equao 16 descreve a probabilidade de obter um score de
semelhana S, numa comparao de 2 sequncias de comprimento m e n. Para valores
elevados de x pode-se utilizar a simplificao 1-e-exp(-x) ~ e-x:
Prob[ S x ] ~ e ( x u ) = e x e u = Kmne x

Eq. 17

Na literatura citam-se com frequncia p-values, que correspondem aos calculados pela
equao 17, pois esta corresponde probabilidade de obter um score igual ou superior ao
observado pelo acaso, i.e. utilizando sequncias aleatrias do mesmo comprimento e
composio.

Alinhamentos com gaps


Estudos recentes sugerem que os scores de alinhamentos locais com gaps podem ser
caracterizados de forma semelhante ao dos alinhamentos sem gaps, aparte alguns factores de
correco (Mott 1992). Na presena de gaps mantm-se a relao logartmica entre o
crescimento do score e o comprimento das sequncias. Pearson (Pearson 1995), derivou
estimativas para o alinhamento local com gaps utilizando as bases de dados existentes,
utilizando uma distribuio de valores extremos e o ajustamento bastante bom, desde que
28

as penalidades de gaps no sejam demasiado baixas. O factor de correco calculado


atravs de uma regresso linear S = a + b ln(n) para os scores obtidos numa pesquisa da base
de dados (de onde se excluem os verdadeiros homlogos). Este procedimento repetido
vrias vezes e utilizando-se a varincia deste processo e a mdia das rectas de regresso
calcula-se:
Z=

S ( a + b.ln(n))
2

Eq. 18

A distribuio de Z ento aproximada pela distribuio de extremos:


P = Prob(Z > x) = 1 - e -e

ax+b

onde a e b so constantes. Esta abordagem tem a vantagem de providenciar uma calibrao


interna da preciso das estimativas.

29

Pesquisa rpida de semelhanas numa base


Fast
Quando se trata de comparar uma dada sequncia com as bases de dados de sequncias, os
algoritmos exactos descritos precedentemente no so de todo adequados. O nmero de
comparaes a efectuar implica a necessidade de utilizar algoritmos de pesquisa rpida.
Wilbur e Lipman (Pearson and Lipman 1988; Wilbur and Lipman 1983) propuseram um
algoritmo que assenta sobre a noo de "palavra". Uma palavra ou "k-tuple" uma
sequncia ordenada de smbolos. O algoritmo desenvolve-se ao longo de 4 passos:
1.

Seleco das dez melhores regies. O primeiro passo consiste na localizao das
10 regies de melhor semelhana entre a sequncia de pesquisa e cada sequncia da base
de dados. A abordagem consiste em cortar a sequncia a analisar em palavras de dado
comprimento que se sobrepem. Em geral consideram-se palavras de dimenso 1 a 2
para as protenas e de 4 a 6 para o ADN. Depois, constri-se a tabela que contm as
posies onde cada palavra se encontra ("lookup table" ou "hashing table"). Esta tabela
serve ento como referncia para a anlise de cada entrada da base de dados. Para cada
palavra de uma sequncia da base, determina-se a distncia em relao sequncia a
analisar, i.e. calcula-se a deslocao a efectuar para pr as duas sequncias em
correspondncia (figura seguinte). Definem-se assim "sementes", que correspondem s
relaes entre palavras semelhantes existentes nas duas sequncias e que no fundo so
anlogas s diagonais de dot-plots, onde as distncias correspondem s distncias
diagonal principal. Produz-se ento um histograma com as distncias observadas. As dez
distncias mais abundantes so seleccionadas para posterior anlise. Este passo
extremamente importante no que respeita a sensibilidade do mtodo: apenas as regies
seleccionadas neste passo sero consideradas mais tarde. Adicionalmente, a seleco das
sequncias da base de dados que sero seleccionadas ter como critrio a utilizao
destas diagonais. O valor escolhido para o parmetro k muito importante: quanto
menor for k, maior a sensibilidade (mais potenciais sementes so consideradas) e menor
a velocidade de execuo. A noo de palavra implica a definio de semelhanas estritas.
As regies comuns postas em evidncia no sofrem nenhum rearranjo correspondente
introduo de eventuais substituies ou inseres/delees. Este mtodo constitui um
30

primeiro filtro de pesquisa. De facto, este algoritmo tambm em N2 no pior dos casos
(se a "hashing table" preenchida apenas com uma palavra, e se a sequncia de pesquisa
constituda de ocorrncias de apenas uma palavra).

sequncia de pesquisa
12 3

base de dados

S E Q UE N CE Q U E RY

9 10 11

D A T A B A SE SE Q U EN C E

k-tuples

.........
.........
.........
.........
.........
.........
.........
.........
.........
.........
.........
.........
.........
.........
.........

Tabela indexada
(Hashing Table)
1

a cada k-tuple
associa-se um ndice
(20 k k-tuples
possveis)

3, 9

= deslocao para
emparelhar os k-tuples

Histograma das
diagonais

(palavras, 2 letras para as


protenas)
+Lb

-Lq
-2 -1 0 1 2 3 4 5 6 7 8 9

o pico mais alto corresponde deslocao entre a


sequncia de pesquisa e a sequncia da base que
d o mximo de k-tuples alinhados

2.

Re-classificao das 10 melhores regies: As sequncias seleccionadas so em


seguida submetidas a uma anlise mais precisa usando matrizes de scores. Estas regies
so eventualmente estendidas de forma a se obter um score maximal para a semente.
Nesta extenso no se aceita a introduo de gaps, pelo que a complexidade do passo
linear (corresponde a uma procura exclusivamente na diagonal da matriz de programao
dinmica). Ao score da melhor destas sementes, d-se o nome de init1 score.

3.

Seleco das sequncias "mais semelhantes". O algoritmo tenta ento fundir


algumas das 10 regies seleccionadas. Para o processo de fuso apenas as regies com
31

um score acima de um dado limiar so consideradas. As combinaes de regies


compatveis so avaliadas atravs da soma dos scores das diferentes regies subtraindo
uma penalidade pela adio das junes (anlogo da penalidade de gap).
Processam-se todas as sequncias da base de dados com os passos 1 a 3 e atribuem-se-lhes
um score initn. De seguida, as sequncias com um score superior a um dado patamar so
seleccionadas para o passo 4. As restantes so eliminadas. Nas implementaes mais
correntes, apenas 10% das sequncias so descartadas.
Lq

Para cada palavra


Pos_ b- Pos_ q

Lb
-Lq

+ alinhamentos parciais
sem gaps
sem incompatibilidade
+ juno do
score "initn" com
penalidades para gaps
+ alinhamento (NWS) numa
banda de 32 resduos
volta de init1
->score "optimal"
4.

Alinhamento

+Lb

das sequncias

seleccionadas. Cada uma das sequncias

seleccionadas alinhada com a sequncia de pesquisa, usando uma variao do algoritmo


de alinhamento local. Faz-se o alinhamento por programao dinmica, mas apenas numa
zona centrada volta da regio da diagonal com o melhor score (init1). A dimenso desta
regio um parmetro ajustvel do programa. O score do alinhamento calculado usado
para ordenar os alinhamentos. Uma vez que a programao dinmica aplicada apenas a

32

uma fraco de toda a matriz de comparaes, o alinhamento mais rpido, mas perdese a garantia de optimalidade.
Uma vez que o algorimo de Fast termina por um alinhamento produzido por programao
dinmica, podem-se utilizar as estatsticas para alinhamento local para calcular a
probabilidade associada ao hit. O surgimento de Fast permitiu na altura a acelerao das
pesquisas sobre bases de dados por um factor 10 a 100, consoante as exigncias de
sensibilidade.

BLAST
BLAST foi o ltimo dos mais populares programas de pesquisa de semelhanas em bases de
dados a ser publicado (Altschul et al. 1990). A sua vantagem, por comparao com Fasta,
que procura as coincidncias de palavras estritas, a de procurar coincidncias de palavras
que se assemelham (e portanto no estritamente idnticas). A noo de semelhana
incorporada no algoritmo atravs da utilizao de uma matriz de scores, como por exemplo a
matriz BLOSUM62. Para evitar calcular o score associado ao match de cada par de palavras,
BLAST utiliza um dicionrio pr-calculado de palavras equivalentes do ponto de vista da
matriz de scores. Uma vez encontradas as palavras, BLAST tenta estender a regio de
homologia atravs de um alinhamento local nas duas extremidades (sem gaps). Aps este
passo, identificam-se os elementos de maior score "HSP" ( de "High Scoring Pairs"). Na
primeira verso de BLAST, estes elementos constituam o resultado final, i.e. os
alinhamentos produzidos no incluam gaps, o que acelerava consideravelmente as
pesquisas. Surpreendentemente, a pesquisa sem gaps d resultados bastante prximos da
pesquisa com gaps, i.e. os elementos de maior score coincidem na maioria dos casos. Alis,
as estatsticas descritas acima para o alinhamento local sem gaps, foram desenvolvidas para
esta verso do programa e apenas posteriormente includas nos outros programas. BLAST
baseia o score de alinhamento de dois segmentos nesta estatstica. Naturalmente, BLAST
particularmente sensvel matriz de substituio utilizada, pois ela utilizada logo de incio
na procura das sementes e mais tarde na definio dos HSP. A limitao do alinhamento sem
gaps incentivou os autores do algoritmo a elaborarem mais tarde uma verso com gaps. Este
programa chama-se Blast2 e utiliza uma heurstica simples para juntar diferentes HSP
(Altschul et al. 1997). Apenas os HSP prximos de menos de uma distncia pr-definida so
considerados numa tentativa de juno dos elementos por programao dinmica. BLAST2
33

apenas considera os alinhamentos cujo score no desce abaixo do melhor score observado at
esse ponto. A utilizao de dois HSP fazem BLAST2 mais rpido que BLAST, mas
obrigam a diminuir o comprimento das palavras na pesquisa inicial de sementes, para obter a
mesma sensibilidade. No entanto, uma vez que apenas uma pequena parte dos hits so
estendidos, o tempo de clculo diminui significativamente.

WU-BLAST / BLAST2 / PSI-BLAST / PHI-BLAST


Novas verses de BLAST apareceram nos ltimos anos (Altschul et al. 1997).
WU-BLAST e BLAST2 (NCBI): so BLAST modificados para incorporar gaps na etapa de
alongamento das palavras.
PSI-BLAST procede de forma iterativa. Aps alinhamento das regies conservadas, o
algoritmo constri um consenso a partir das regies alinhadas. Usando este consenso,
procede a uma nova pesquisa sobre a base de dados. O processo para, quando nenhuma
nova sequncia adicionada ao consenso, i.e. quando o consenso chega convergncia.
PHI-BLAST permite especificar para alm da sequncia de pesquisa, um motivo presente
nesta e que desejamos ver figurar nas solues dadas.

34

Alinhamento de N sequncias
Quando se pretende caracterizar uma famlia de sequncias que partilham uma mesma
actividade biolgica, a utilizao de alinhamentos de sequncias duas a duas no
satisfatria pois no providencia uma comparao do conjunto das sequncias. Podemos
estar interessados nesta viso global de um conjunto de sequncias por diversas razes, de
entre as quais duas se destacam: i) as sequncias tm uma histria evolutiva comum e a
partir delas podemos estudar a histria evolutiva das espcies respectivas; ii) as sequncias
esto relacionadas por uma razo de ordem funcional ou estrutural e o estudo das suas
semelhanas permite acrescentar novas informaes sobre elas.
O alinhamento mltiplo foi uma das primeiras respostas a estes tipos de problemas e ainda
continua a ser a abordagem dominante, pelo menos no que se refere ao estudo da filogenia. O
algoritmo de programao dinmica descrito precedentemente para alinhamento global
facilmente generalizvel ao alinhamento de N sequncias (Kruskal and Sankoff 1983). No
entanto, o tempo e a memria necessrios para a sua execuo cresce em LN (L sendo o
comprimento caracterstico das sequncias). Para valores tpicos de L de 1000, este tipo de
abordagem torna-se assim muito rapidamente impraticvel. Trs algoritmos alternativos tm
sido utilizados para contornar este problema, todos baseados em heursticas:
1.

Algoritmos baseados no alinhamento progressivo dois a dois das sequncias;

2.

Algoritmos que constrem um alinhamento global baseados em alinhamentos locais;

3.

Algoritmos que constrem alinhamentos locais mltiplos.

Na figura seguinte descrevem-se os casos em que se usam os diferentes tipos de algoritmos.

As sequncias parecem-se sobre todo


o seu comprimento
Alinhamento global progressivo
As sequncias partilham blocos de
semelhana, mas nem todos, nem sempre
Alinhamento por blocos
As sequncias tm um nmero no
consistente de blocos em comum
Alinhamento local com motivos
35

Alinhamento global progressivo


Uma forma de resolver o problema do alinhamento de N sequncias consiste em utilizar um
procedimento sequencial que pode ser descrito da seguinte forma:
-1- Alinhamento por programao dinmica das 2 primeiras sequncias.
-2- Alinhamento da terceira sequncia com o alinhamento precedente.
-n- Alinhamento da sequncia N com o alinhamento das N-1 sequncias precedentes.
A principal dificuldade deste tipo de mtodos consiste na definio da ordem dos
alinhamentos sucessivos, uma vez que o alinhamento final vai depender desta. Vrias
solues foram propostas para resolver este problema. Clustal que o programa mais
frequentemente utilizado para este tipo de alinhamento mltiplo usa a seguinte estratgia
(Higgins, Bleasby and Fuchs 1992) (Jeanmougin et al. 1998):
1.

Produzem-se todos os alinhamentos das sequncias dois a dois e constri-se uma


tabela com os scores. Isto pode ser realizado quer por programao dinmica quer por
uma heurstica (mais rpido, menos preciso). Naturalmente a preciso desta etapa
depende do sistema de scores utilizado.

2.

Usando a tabela de score utiliza-se um algoritmo de classificao (Neighbour-joining)


para construir uma rvore que reflecte as relaes de semelhana entre as sequncias.

3.

As sequncias so alinhadas pela ordem dada pela rvore.

Os mtodos associados com o passo 1 so j nossos conhecidos de captulos anteriores. De


seguida descrevem-se os mtodos e critrios associados com os outros dois passos.
Construo da rvore
Existem muitos mtodos que permitem construir uma rvore de classificao a partir de uma
matriz de distncias. O domnio da classificao vastssimo e naturalmente no cabe aqui
desenvolver este tpico em detalhe. No entanto vamos descrever o algoritmo de neighbourjoining que utilizado nas ltimas verses de Clustal e que pode servir de ponte para o
estudo de outros algoritmos pelo leitor interessado.
O algoritmo de neighbour-joining assume aditividade, i.e. dada uma rvore, os seus
comprimentos so aditivos se a distncia entre quaisquer pares de elementos a soma dos
comprimentos dos sub-percursos que os unem (Durbin et al. 1998).

36

Dada uma rvore T com comprimentos aditivos (d.), podemos tentar reconstrui-la a partir
dos pares de distncias entre os elementos (dij) da forma seguinte. Encontre-se um par de
elementos vizinhos, i.e. elementos que esto sob o mesmo nodo imediato, k. Remova-se o
par da lista de elementos e adicione-se o nodo k, definindo a sua distncia a m por:
dkm=1/2 (dim + djm - dij)

Eq 19

Por aditividade, as distncias dkm so equivalentes s distncias dos nodos equivalentes na


rvore original. Desta forma, vai-se removendo elementos at existir apenas um par. Se
pudssemos determinar a partir de uma tabela de distncias os pares de elementos mais
prximos, a rvore construir-se-ia de forma imediata e com comprimentos aditivos exactos.
No entanto isto geralmente no possvel, porque os comprimentos dos ramos so
diferentes. Veja-se por exemplo o caso da figura seguinte. Se os comprimentos so aditivos
ento d12=0.3 e d13=0.5, logo para 1 o vizinho 3 est mais longe que o no vizinho 2. Logo,
se um dos elementos de um par de vizinhos tem um ramo mais curto, ento ele pode
efectivamente estar mais prximo de outro elemento que do vizinho verdadeiro. Para evitar
este problema, a astcia consiste em subtrair a distncia mdia a todos os outros elementos
(Saitou and Nei 1987).

0.1

0.1

0.1
0.3

0.4

Definimos:
Dij = dij - (ri - rj)

Eq 20

onde
ri =

1
dik
L 2 k L

Eq 21

e |L| o comprimento do conjunto L de folhas. Demonstra-se que os verdadeiros vizinhos i,


j so aqueles para os quais Dij mnimo. O algoritmo completo funciona atravs da
construo da rvore T por passos, mantendo uma lista L dos nodos activos na rvore:

37

1.

Inicializao
1.1.
definir T como o conjunto de nodos da rvore, um
para cada sequncia
1.2.
L=T
2.
Iterao
2.1.
escolher um par i, j em L, para o qual D ij minimal
2.2.
definir um novo nodo k e aplicar dkm =1/2 (dim + djm dij), m L
2.3.
adicionar k a T com comprimentos dik=1/2 (dij + ri +
rj), djk = dij - dik
2.4.
juntar k a i, respectivamente
2.5.
remover i e j de L e adicionar k
3.
Concluso
3.1.
quando L consiste de dois elementos i e j adicionase o ltimo ramo entre i e j, com comprimento dij

Construo e alinhamento de consensos


O problema principal do terceiro passo consiste no alinhamento dos alinhamentos. O
mtodo mais simples para este problema consiste na reduo de cada alinhamento a uma
sequncia consenso. Na sequncia de consenso, cada posio corresponde letra maioritria
na coluna do alinhamento. Este mtodo era utilizado nas primeiras verses de Clustal, mas
foi abandonado devido pobre representao de um alinhamento que providenciada pela
sequncia de consenso. Assim, a maioria dos programas substituiu a noo de consenso pela
noo de perfil. Num perfil, uma coluna de alinhamento mltiplo reduzida a uma
distribuio das diferentes letras. Dois perfis podem ser alinhados por programao
dinmica sem grande alterao do algoritmo original. O alinhamento de dois perfis de
comprimento L tem complexidade O(a2L2), onde a o comprimento do alfabeto. Clustal usa
penalidades de gap, que tm em conta o contexto local da sequncia.

Problemas dos algoritmos de alinhamento progressivo


Um problema importante com o alinhamento progressivo advm da sua natureza gananciosa:
apesar da adio de nova informao, quaisquer erros que surjam nos primeiros
alinhamentos no vo ser corrigidos mais tarde. Suponha-se o alinhamento optimal de trs
sequncias, nas quais existem as seguintes subsequncias (Duret and Abdeddaim 2000):
x ACTTA
y A-GTA
z ACGTA
38

Suponha-se que a rvore baseada na comparao dois a dois das sequncias inteiras indica
um primeiro alinhamento de x com y, seguido de z. No primeiro passo, existem 3
alinhamentos possveis de x com y dando exactamente o mesmo score:
x ACTTA

ACTTA

ACTTA

y A-GTA

AGT-A

AG-TA

No segundo passo, o gap que j foi introduzido no poder ser mudado. O alinhamento com
z produzir ento:
x ACTTA

ACTTA

ACTTA

y A-GTA

AGT-A

AG-TA

z ACGTA

ACGTA

ACGTA

No entanto, apenas o primeiro alinhamento optimal. Se no primeiro passo se guardar uma


das possibilidades que no corresponde ao alinhamento optimal, este j no poder ser
recuperado no passo seguinte e o alinhamento resultar sub-optimal. Vrias estratgias de
optimizao foram propostas para contornar este problema, mas so frequentemente muito
lentas.
Um outro problema do alinhamento progressivo de que por vezes queremos alinhar um
conjunto de sequncias entre as quais existem sequncias completamente disjuntas (por
exemplo correspondendo a mdulos em protenas que existem num caso e no noutros). Se
algumas das sequncias no se sobrepem, a rvore produzida a partir da matriz de
distncias ser obviamente falsa e o alinhamento produzido ser imprevisvel. Isto pode ser
detectado a partir da anlise dos scores doa alinhamentos dois a dois (que devero ser muito
maus para duas sequncias no sobreponveis).

Alinhamento global por blocos


As sequncias a ser comparadas podem partilhar alguns blocos conservados separados por
regies no conservadas contendo numerosas inseres/delees. Neste caso, a utilizao
dos mtodos de alinhamento progressivo vo depender muito fortemente das penalidades
associadas aos gaps. Uma alternativa a esta abordagem consiste em utilizar os blocos
conservados como "ncoras" para alinhar as sequncias. Os blocos so alinhamentos locais e
representam portanto um conjunto de subsequncias. Dependendo dos programas, os
blocos podem ser exactos (i.e. sem mismatches) ou aproximados e podem ser uniformes
39

(presentes em todas as sequncias) ou no. Independentemente destas caractersticas, o


conjunto de blocos tem que ser consistente: i.e. tem que ser possvel fazer um alinhamento
mltiplo a partir destes. Por exemplo, se a maioria das sequncias apresenta uma sucesso
de blocos do tipo X-Y-Z, a existncia numa sequncia dos blocos por outra ordem (e.g. Y-ZX), no compatvel com o alinhamento mltiplo global. Uma vez alinhados os blocos
pode-se utilizar uma abordagem clssica para alinhar os segmentos entre blocos.

Alinhamento local por motivos


Quando estamos

interessados

em determinados domnios de protenas,

ocorre

frequentemente que se tente alinhar sequncias no relacionadas de um ponto de vista global.


Estes mdulos homlogos podem ocorrer em diferentes posies relativas e podem estar
duplicados em diferentes sequncias. Nestes casos, no possvel calcular o alinhamento
global, mas pode-se tentar estabelecer bons alinhamentos locais de certos segmentos. O
clculo de alinhamentos locais consiste na procura de padres aproximados repetidos num
certo conjunto de sequncias. Entramos portanto no domnio da caracterizao de padres,
que ser o objecto do prximo captulo. A programao dinmica tem sido utilizada para
encontrar as diagonais de mximo score para comparaes dois a dois. No entanto para mais
de duas sequncias, as heursticas tornam-se necessrias. Existem variados mtodos para
proceder a este tipo de alinhamento. No que se segue vamos apenas descrever um dos mais
populares: MACAW (Schuler, Altschul and Lipman 1991).
O programa MACAW parte do alinhamento local dois a dois de todas as sequncias e tenta
determinar as regies de similaridade que so comuns ao maior nmero possvel de
sequncias no grupo. As regies onde os pares de segmentos alinhados se sobrepem so
ento objecto de alinhamento mltiplo. A determinao dos segmentos que se sobrepem
um problema complicado e diferentes mtodos tm sido implementados. Em MACAW, os
segmentos que se sobrepem e que excedem um determinado score so combinados num
bloco de alinhamento sem gaps. A dimenso do bloco limitada pelo requerimento de que
cada coluna tenha um grau mnimo de homogeneidade. Os blocos que so separados pelo
mesmo nmero de resduos em todas as sequncias podem ser fundidos, e desta forma os
blocos passam a ser constitudos por posies mais ou menos conservadas. MACAW um
programa interactivo que permite a escolha dos blocos a partir de um conjunto de
40

candidatos. O limiar para a pesquisa de blocos um parmetro do programa que pode ser
diminudo de forma iterativa para encontrar regies conservadas entre os blocos definidos
nos passos anteriores. O facto destes programas comearem por um passo de alinhamentos
dois a dois implica o mesmo problema que para os alinhamentos progressivos, pois
informao conservada entre todas as sequncias no necessariamente evidente nas
comparaes dois a dois.

Avaliao de alinhamentos mltiplos


A avaliao estatstica da qualidade de um alinhamento mltiplo enferma dos mesmos
problemas da dos alinhamentos simples, acrescida de dois factores: i) nem sempre estamos
interessados em alinhar protenas com uma histria evolutiva em comum (e.g. nos
alinhamentos locais por blocos); ii) muitas vezes estamos interessados em detectar as zonas
mais conservadas dos alinhamentos, mas pretendemos que estes sejam globais; iii) quando as
sequncias partilham uma histria evolutiva os graus de semelhana dentro do alinhamento
so uma conjuno de divergncias funcionais e de divergncias neutras, confundindo o sinal.
O primeiro problema necessariamente abordado de uma forma emprica. Para sequncias
homlogas, a forma ideal de avaliar um alinhamento mltiplo de sequncias homlogas seria
atravs da completa especificao de um modelo probabilstico de evoluo. Dada uma
rvore filogentica verdadeira para as sequncias, a probabilidade do alinhamento mltiplo
o produto das probabilidades de todos os eventos evolutivos necessrios para produzir esse
alinhamento multiplicada pela probabilidade a priori da rvore. Mas no s esses modelos
so extremamente complexos, como assumem velocidades de evoluo semelhantes para
todas as sequncias (o que frequentemente no se verifica). Para alm disso, raramente
conhecida a rvore filogentica verdadeira.
Quase todos os mtodos de alinhamento assumem que as colunas individuais de um
alinhamento so estatisticamente independentes. Sendo assim, a funo de scores (a
posteriori) pode escrever-se simplesmente:
S( m) = G + S( mi )

Eq 22

onde mi a coluna i do alinhamento mltiplo, S(mi) o score para a coluna i, e G uma


funo de penalidades para os gaps que ocorrem no alinhamento. A funo G varia de
41

mtodo para mtodo, mas tem tipicamente a mesma forma da funo para alinhamentos dois
a dois, i.e. inclui um termo para abertura de gaps e outro para extenso. Existem
essencialmente dois mtodos para calcular S(mi), um baseado em princpios de mnima
entropia e outro baseado na soma dos pares.

Entropia Mnima
Considere-se mi como a coluna i do alinhamento, mij como o smbolo na posio i para a
sequncia j. Defina-se cia como as contagens observadas para o smbolo a na coluna i. Se se
considerar que os resduos na coluna assim como entre as colunas so independentes, ento
a probabilidade de uma coluna dada por:
P( mi ) = piacia
a

onde pia a probabilidade do resduo a na coluna i. Pode-se definir o score da coluna como o
negativo do logaritmo desta probabilidade:
S( mi ) = cia log pia

Eq 23

Isto uma medida da entropia da informao tal como ela foi definida por Shannon
(Shannon and Weaver 1949). No fundo, uma medida conveniente da variabilidade
observada numa coluna alinhada de resduos, pois quanto mais varivel a coluna for, maior
ser a entropia. As probabilidades dos resduos na coluna i podem ser estimadas a partir da
composio da coluna nos resduos (i.e. corresponde s suas frequncias empricas).

Soma dos pares


Este mtodo standard para avaliar alinhamentos mltiplos tambm assume independncia
entre as colunas do alinhamento mltiplo. As colunas so avaliadas pela funo de soma dos
pares (SP), usando uma matriz de substituies. O score SP para uma coluna definido
como:
S( mi ) = s( mik , mil )

Eq 24

k <1

onde os scores s(a,b) provem da matriz de substituio (e.g. BLOSUM). Tipicamente, a


funo de gap calculada parte. Segundo este mtodo a avaliao de um alinhamento
mltiplo meramente a extenso do mtodo standard para alinhamentos dois a dois. No

42

entanto, como as sequncias esto relacionadas por uma rvore filogentica os resultados so
apenas aproximados.

43

Caracterizao de sequncias pr-alinhadas


Identificao de blocos conservados
Objectivos
O alinhamento mltiplo apenas um passo numa metodologia de pesquisa. Tipicamente,
aps o alinhamento mltiplo das sequncias, estas metodologias encaminham-se para
diferentes vias consoante o objectivo do estudo, em particular para estudos de filogenia ou
de funcionalidades.
Em filogenia, o objectivo identificar a rvore evolutiva que melhor descreve a variabilidade
encontrada nos dados. Para isso preciso seleccionar as posies informativas dos
alinhamentos. Estas posies so aquelas que mostram alguma variabilidade, caso contrrio
no servem para discriminar entre sequncias, mas no variabilidade excessiva, para no
saturar o sinal com regies que divergiram muito e podem apresentar um grande nmero de
substituies mltiplas. Assim, antes de comear o estudo filogentico normalmente
necessrio retirar todas as posies excessivamente variveis (as estritamente idnticas no
contribuem para a classificao pelo que no vale a pena exclui-las). Adicionalmente, como
no existem modelos evolutivos para gaps, todas as posies com gaps so excludas dos
alinhamentos mltiplos antes de aplicar processos de construo de rvores mais precisos
que o Neighbour-Joining. A discusso destes mtodos sai fora do mbito destas folhas, mas
pode ser encontrada em (Li 1997; Nei 2000).
O outro objectivo frequente do estudo de alinhamentos mltiplos o de caracterizar os
mdulos bem conservados da sequncia. Neste caso pretende-se compreender o seu papel
na funo biolgica ou simplesmente determinar zonas conservadas que possam ser
utilizadas para identificar melhores critrios de pesquisa nas bases de dados. Tal como nas
pesquisas de filogenia estamos interessados em regies bastante conservadas. No entanto as
razes desta preferncia so um pouco diferentes. Enquanto que em filogenia estamos
interessados em posies informativas, i.e. que detenham um nvel de variabilidade
intermdio entre match total e grande nmero de mismatches, na pesquisa de motivos
estamos interessados nas posies mais conservadas pois estas reflectem as posies que
44

esto mais constrangidas na sua evoluo pela seleco natural. Dito de outra forma, uma
vez que as mutaes so aleatrias, as regies muito fortemente conservadas so
provavelmente regies que sofrem uma forte seleco para no mudarem. partida so
justamente estas que nos interessam.
Apesar destas diferenas, a anlise dos alinhamentos mltiplos comea pela procura das
regies conservadas, uma vez que frequentemente se analisam sequncias com um certo grau
de divergncia. Quando o conjunto de sequncias muito semelhante, a filogenia vai
simplesmente ignorar as colunas homogneas e a anlise de motivos vai providenciar
motivos muito grandes, dada a concordncia entre as colunas. Assim, tanto do ponto de
vista da anlise de motivos como da anlise filogentica a situao ideal aquela em que
existe suficiente variabilidade para identificar as regies importantes, mas no demasiada que
confunda o sinal com rudo.

Mtodo
Dados os comentrios feitos acima, torna-se evidente que no existe nenhum mtodo geral
para definir blocos de forte semelhana. No entanto tm sido propostos esquemas gerais,
tipicamente baseados num conjunto de parmetros regulveis (Castresana 2000):
5.

grau de conservao: cada coluna do alinhamento mltiplo classificada de acordo


com a frequncia do resduo mais abundante como muito conservada (score>X),
conservada (Y<score<X), ou no conservada (score<Y). Valores tpicos de X e Y para
protenas so 85% e 50%, respectivamente. Para efeitos de filogenia a existncia de um
gap implica imediatamente a classificao como coluna no conservada.

6.

subsequncias no conservadas: todas as sequncias de posies no conservadas


de comprimento superior a Z (e.g. Z=8) so excludas.

7.

definio de limites seguros: os limites dos blocos restantes so examinados e as


extremidades so removidas at que haja posies muito conservadas em ambas as
extremidades. Desta forma os blocos esto limitados por posies que podem ser
alinhadas com muita confiana.

8.

comprimento de blocos: apenas blocos de dimenso superior a BL1 so mantidos,


para evitar pequenas regies onde a qualidade do alinhamento de difcil avaliao.

9.

remoo de gaps: para efeitos de filogenia removem-se os gaps e as posies no


conservadas contguas aos gaps, pois estas so difceis de alinhar.
45

10.

finalizao: os blocos inferiores a BL2 (e.g. 10) so eliminados.

Os valores dados para os parmetros dependem naturalmente dos objectivos da anlise e da


divergncia entre as sequncias. A figura seguinte descreve um bloco determinado atravs da
anlise de um alinhamento mltiplo de protenas da famlia dos reguladores bacterianos do
tipo LacI.

Consensos
Por comparao de sequncias podem-se pr em evidncia regies conservadas comuns a
certas zonas de controlo da expresso gentica ou ligadas descrio de caractersticas
funcionais ou estruturais particulares. A extraco dos segmentos correspondentes (e.g.
atravs da identificao de blocos descrita acima) permite estabelecer os catlogos dos
motivos caractersticos. Obtm-se assim, exemplos que nos permitem definir uma
"assinatura" da sequncia. Uma primeira abordagem consiste na descrio de uma sequncia
de consenso. Estando os motivos previamente alinhados, procura-se em cada posio o
resduo mais representado (Lecomte and Matthews 1993; Stormo 1990). Os limites deste
mtodo rudimentar so claramente demostrados pelo exemplo da caixa de "Pribnow". Os
promotores procariotas so compostos de duas regies de controlo: a caixa de "Pribnow" ou
"TATA box" centrada volta da posio -10 a montante do incio de transcrio e a regio
de "reconhecimento" situada em torno da posio -35. Estes dois sinais foram durante muito
tempo descritos com a ajuda de duas sequncias de consenso, respectivamente TATAAT e
46

TTGACA. No entanto, medida que novos dados genticos foram obtidos, estes consensos
foram-se revelando mais "moles" que previsto. Em particular, para a caixa de Pribnow resta
hoje apenas o T em posio terminal como verdadeiramente consensual. Por este motivo
mais corrente utilizar consensos degenerados, onde cada posio do consenso descrita por
uma ou mais letras maioritrias na coluna de alinhamento. Se voltarmos ao bloco definido na
figura

acima,

podemos

definir

dois

tipos

de

consensos

para

ele:

IXDVARXAGVSXXTVSRVI ou [IL]XD[VI]A[RK]XAGVSXXTVSRV[IL].
Uma vez definido um consenso, a procura deste na base de dados pode ser feita com um
algoritmo de pesquisa de textos que admita mismatches. Note-se que estes consensos so
normalmente pequenos, pelo que frequentemente se probem os gaps. Quando os consensos
so maiores e a existncia de gaps no pode ser ignorada, ento pode-se usar o algoritmo
bestfit de programao dinmica citado atrs. Existem estatsticas exactas que permitem
determinar a probabilidade de um hit, sem gaps para um padro exacto (i.e. uma nica letra
possvel em cada posio) com mismatches (Tatusov, Altschul and Koonin 1994). No
entanto para uso de consensos gerais costuma-se utilizar a seguinte abordagem por
simulao.

4.

Para um nmero de mismatches de 0 a L/2 num consenso de


comprimento L
4.1. fazer o pattern-matching do consenso nas sequncias que
contm o padro
4.2. para
cada
sequncia
guardar
o
valor
mnimo
de
mismatches necessrio para encontrar o consenso
5. Para o conjunto S das sequncias com o consenso
5.1. Para um nmero de mismatches de 0 a L/2 num consenso de
comprimento L
5.1.1. Gerar sequncias aleatrias com a mesma composio
e comprimento que S (S')
5.1.2. fazer o pattern-matching do consenso em S'
5.1.3. guardar o nmero de matches observado em S'
5.2. estabelecer a curva de distribuio de probabilidade
emprica e usa-la para avaliar os matches verdadeiros.

Dependendo das nossas possibilidades de clculo e da situao a analisar, a aleatorizao das


sequncias pode ser feita mantendo a composio em palavras de 1 letra (e.g. nucleotdeos
ou cidos aminados) ou maiores (e.g. 3 nucleotdeos para manter a composio em codes).
Igualmente a aleatorizao pode ser feita a toda a base de dados de uma vez ou a cada

47

sequncia separadamente. Esta ltima abordagem mais pesada, mas mais correcta quando
a base de dados tem sequncias de composio muito diferente.
Quando os sinais so relativamente flexveis em relao ao consenso esta representao
demasiado pobre para descrever correctamente os exemplos. Os mtodos apresentados de
seguida permitem procurar a "assinatura" de um sinal a partir da integrao de informaes
mais flexveis.

Matriz de peso score-posio (PSSM)


Uma forma de contornar a pobreza da descrio providenciada pelas sequncias de consenso
consiste em definir matrizes de score-posio (Staden 1989). Esta matriz constri-se

partir de um lote de sequncias alinhadas. Cada linha da matriz corresponde a um tipo de


resduos (e.g. 1 linha para cada nucleotdeo) e cada coluna a uma coluna do bloco do
alinhamento. Cada posio da matriz tem a frequncia relativa observada de cada tipo de
resduos. De seguida procuram-se sinais potenciais sobre uma nova sequncia aplicando a
matriz considerada sobre uma janela que desliza ao longo da sequncia. Em cada passo,
calcula-se um score que igual soma dos pesos associados aos resduos delimitados pela
janela, em funo da sua natureza e da posio de consenso que se considera. No que
concerne a deteco de sinais, este mtodo tem dois inconvenientes importantes: i) em
sequncias proteicas no permite a ponderao dos matches por uma matriz de scores; ii) as
posies da coluna so consideradas independentes. Gribskov props um mtodo
igualmente baseado na definio de matrizes de pesos, mas permitindo adicionalmente ter
em conta uma matriz de scores (Gribskov, McLachlan and Eisenberg 1987). Esta matriz de
pesos chamada de "perfil" ou "position-specific scoring matrix" (PSSM). Quanto ao
problema da independncia entre posies, este inerente ao conceito de matriz, pelo que
poucas solues so possveis.
O clculo do score de uma posio por uma PSSM feito atravs da aplicao da frmula de
Bayes:
P(A e B) = P(A|B)P(B) = P(B|A)P(A)

Eq 25

Para cada subsequncia da sequncia examinada, pretende-se que o score represente a


probabilidade de encontrar uma instncia do motivo dada a subsequncia, i.e.
P(motivo | sequncia). O que se encontra na matriz de frequncia/posio, exactamente o
48

simtrico, i.e. a probabilidade de obter a sequncia quando se est na instncia do motivo,


logo P(sequncia|motivo). O teorema de Bayes permite-nos ento tirar a probabilidade
desejada P(motivo|sequncia) a partir da probabilidade P(sequncia|motivo).

Aplicao de Bayes s matrizes score-posio


Cada elemento da matriz corresponde frequncia do resduo correspondente no
alinhamento mltiplo. Esta matriz representa as probabilidades de ter este ou aquele resduo
em certa posio

do motivo: P(sequncia|motivo). Uma vez

que procuramos

P(motivo|sequncia), utilizando Bayes, vem:


P( motivo | sequncia) =

P( sequncia | motivo) P( motivo)


P( sequncia)

Eq 26

Supondo independncia entre posies sucessivas, a probabilidade da sequncia o produto


das probabilidades dos resduos em cada posio (ri):
P( sequncia) = P(ri )
i

e
P( sequncia motivo) = P(ri motivo)
i

Finalmente:

P(r | motivo) P(motivo) P(r | motivo)


P( motivo | sequncia) =
=
P( motivo)
P( r )

P( r )
i

Se os resduos que constituem o motivo so muito abundantes na base de dados, i.e. P(ri)
so grandes, a probabilidade de obter efectivamente um verdadeiro motivo ser mais baixa.
No conhecemos a priori a probabilidade do motivo. Em contrapartida, conhecemos as
P(ri|motivo), que a frequncia relativa do resduo na posio i do motivo. Da mesma forma,
conhecemos P(ri), que a probabilidade de encontrar o resduo ri nas sequncias examinadas
(frequncia de ri). Assim, P(motivo|ri) = P(ri|motivo)/P(ri) equivalente a ponderar a
frequncia do resduo na coluna de alinhamento pela sua frequncia na base de dados. O
score associado a uma posio numa sequncia examinada ser ento o produto dos
P(motivos|ri) (ou a soma dos log).
Considere-se a seguinte matriz que representa os RBS (ribosome binding site) de B. subtilis.

49

A
C
G
T

0.52
0.08
0.19
0.21

0.52
0.09
0.22
0.14

0.71
0.04
0.16
0.09

0.05
0.01
0.93
0.01

0.04
0.02
0.94
0.00

0.70
0.02
0.16
0.13

0.06
0.01
0.87
0.06

0.23
0.07
0.58
0.12

Suponha-se que em dado ponto da sequncia a analisar se observa a subsequncia


TCAGGAGT, o seu score (0.21*0.09*0.71*0.93*0.94*0.7*0.87*0.12)/(.258) = 56.
Por vezes h interesse em utilizar um modelo nulo mais refinado que a simples composio
dos resduos na sequncia. Um exemplo clssico surge na anlise de motivos de ADN em
genes. Neste caso, a abordagem anterior no resulta e recorre-se a simulaes, tal como no
caso da procura de consensos. Assim, gera-se um grande nmero de sequncias aleatrias
com o mesmo comprimento e composio em codes que a sequncia original e a anlise
estatstica parte da anlise do valor observado de motivos (ou o seu score), face ao esperado
(i.e. o observado nas sequncias aleatrias).
Nota: Normalmente evitam-se os scores nulos, i.e. P(motivo|ri)0, caso contrrio se um resduo presente na
sequncia no est de todo representado na coluna do alinhamento mltiplo, ento P(motivo|sequncia) ser
zero, mesmo se as posies restantes do motivo esto em excelente concordncia com o padro.

50

Anlise de distribuies enviesadas de palavras


Para uma palavra (motivo estrito) de comprimento m, procura-se determinar se a construo
aleatria da sequncia tendo em conta as frequncias de palavras de comprimento m-1 pode
explicar as frequncias observadas das palavras de comprimento m. Assim, a nossa questo
pode ser reformulada na determinao da probabilidade de encontrar mais ou menos palavras
no conjunto das sequncias aleatrias que partilham a mesma frequncia de palavras de
comprimento m-1.
Por exemplo, para uma palavra de comprimento 4 (GATC), tem-se em considerao a
frequncia das duas palavras mais longas (maximais) que a palavra original contm (i.e. GAT
e ATC) e implicitamente todas as sub-palavras de comprimentos inferiores. Se estas duas
palavras so muito frequentes, espera-se que GATC seja igualmente muito frequente,
simplesmente pelo acaso (i.e. devido composio em palavras de comprimento inferior). A
incorporao das sub-palavras maximais permite assim normalizar as contagens da palavra.
A utilizao de cadeias de Markov de ordem maximal a melhor soluo para a anlise do
vis que sofre uma palavra especfica. De facto, se o sinal exclusivo de uma s palavra (e.g.
stios de restrio), a anlise permitir a identificao do vis associado ao sinal, para l dos
vises impostos pela composio do sinal em sub-palavras. Em contrapartida, se o
comprimento do sinal varivel (e.g. 5 ou 6), ento esta abordagem vai desvalorizar a
deteco do vis nas variantes mais longas. Em qualquer dos casos, se o sinal degenerado
(e.g. o RBS considerado atrs), ento a anlise do vis por cadeias de Markov tem fortes
probabilidades de no o reconhecer, pois haver uma diluio do vis atravs das diferentes
variantes do sinal. Para estes casos as abordagens de consensos ou de matrizes scoreposio so melhores.
Na tabela seguinte resumem-se as expresses para o valor esperado de uma palavra de
comprimento k (em linhas), quando analisada por um modelo de Markov de uma certa
ordem (em colunas). Note-se que um modelo de Markov que corresponda a considerar a
composio de palavras de 3 letras (e.g. para avaliar palavras de 4 letras), de ordem 2. Um
modelo de ordem zero corresponde a considerar apenas a composio em resduos (i.e.
memria nula).

51

ordem da cadeia

i =1 N (wi )

i =1 N (wi wi +1 )

i =1 N (wi wi +1wi + 2 )

...

k-2

i =1 N (wi )
3

i =1 N (wi )
4

n3

N ( w2 )

i =1 N (wi wi +1 )
3
i = 2 N (wi )
3

N ( w2 w3 )

...
k

i =1 N (wi )
k

n k 1

k 1

k =1 N (wi wi +1 )
k 1
i = 2 N (wi )

k 2

i =1 N (wi wi +1wi + 2 )
k 2
i = 2 N (wi wi +1 )

i =1 N (wi ...wi + k 2 )
2

N ( w2 ...wk 1 )

As cadeias de Markov como hiptese nula


A ideia subjacente utilizao de cadeias de Markov no a construo efectiva de
sequncias biolgicas por mecanismos estocsticos. Isso no faria qualquer sentido pois as
sequncias biolgicas contm elementos funcionais contingentes sua histria evolutiva. Em
contrapartida, as cadeias de Markov produzem sequncias que respeitam as propriedades
mdias das frequncias de palavras de um certo comprimento. Assim, elas so utilizadas
para comparar uma sequncia biolgica com uma sequncia aleatria com a mesma
composio. As cadeias de Markov constituem ento uma hiptese nula de que nos
podemos servir para identificar a importncia dos vises, e o z-score permite de seguida o
teste desta hiptese.

Resumo do mtodo
Vamos agora resumir o mtodo experimental de anlise dos vises de palavras por
comparao com um modelo de Markov de ordem maximal. Comea-se por definir
conjuntos de dados que se considerem homogneos em relao caracterstica biolgica em
estudo. De seguida determina-se o nmero de palavras observadas de um dado comprimento
k. O nosso objectivo ento a determinao no conjunto destas palavras quais so as
enviesadas. Para isso utiliza-se o z-score seguinte:
52

zW =

N (W ) E (W )
Var (W )

Eq. 27

onde N(W) a contagem da palavra W=w1...wm, e E(W) e Var(W) so dadas por:


E (W ) =

N ( w1w2 ...wm 1 ) N ( w2 w3 ...wm )


N ( w2 w3 ...wm 1 )

Var (W ) = E(W )

Eq. 28

[( N (w2 w3 ...wm 1 ) N (w1w2 ...wm 1 ))( N (w2 w3 ...wm 1 ) N (w2 w3 ...wm ))] Eq. 29
N ( w2 w3 ...wm 1 )2

Sabe-se que a distribuio asinttica deste z-score uma Gaussiana centrada reduzida
(Schbath 1997). Assim, para contagens suficientemente grandes pode-se aplicar (27) para
cada palavra de comprimento k. O conjunto de palavras enviesadas ento constitudo pelas
palavras cujos z-scores saiam de um intervalo de confiana definido a priori. Utiliza-se
geralmente intervalos de confiana a 1. Naturalmente se k grande (e.g. 6), espera-se
identificar algumas palavras fora do intervalo fixado (uma vez que existem 4096 palavras de
comprimento 6 no ADN). No entanto, isto no ser muito importante dado o nmero muito
maior de palavras encontradas pelo mtodo (Rocha, Viari and Danchin 1998). Esta
observao por si s indica a incapacidade das cadeias de Markov de modelizarem com
grande preciso as sequncias biolgicas.
A figura seguinte resume o mtodo.

Palavras sobrepostas
de comprimento k
N

Modelo:
cadeia de Markov
de ordem k-2
i= 1 N (wi ...wi+ k 2 )
2

N (w2...wk 1 )

Contagens
observadas

Clculo das
contagens E

zW =

N(W) E(W)
Var(W)

Sub/sobre representao

53

Concluso
A anlise das sequncias biolgicas repousa sobre uma dualidade que ope trs aspectos
complementares do problema: o aspecto informtico, que assenta sobre a implementao de
algoritmos; o aspecto estatstico que valida a abordagem; e o aspecto biolgico, que controla
as diferentes etapas e autoriza a interpretao dos resultados. possvel analisar e comparar
as sequncias considerando-as como uma sucesso de smbolos. O problema consiste ento,
de uma maneira geral, a calcular alinhamentos e a definir regies de semelhana entre
sequncias. Os diferentes mtodos apresentados so baseados em tcnicas de comparao
lexicogrfica aptas a resolver o problema posto sobre a sua forma informtica. Para que os
resultados obtidos sejam significativos e interpretveis, certas condies ligadas ao domnio
de aplicao e questo biolgica subjacente devem ser tidas em conta. Em certos casos
estas so expressas com a ajuda de funes de peso permitindo a ligao entre as operaes
elementares de edio sobre as quais repousam os algoritmos de pesquisa de semelhana e os
eventos mutacionais e selectivos que permitem medir a homologia entre duas sequncias.

54

Referncias bibliogrficas
Altschul, S.F., Gish, W., Miller, W., Myers, E.W. and Lipman, D.J. 1990. Basic local
alignment search tool. J. Mol. Biol., 215:403-410.
Altschul, S.F., Madden, T.L., Schfer, A.A., Zhang, J., Zhang, Z., Miller, W. and Lipman,
D. 1997. Gapped BLAST and PSI-BLAST: A new generation of protein database
search programs. Nucleic Acids Res., 25:3389-3402.
Benner, S.A., Cohen, M.A. and Gonnet, G.H. 1993. 1993. Empirical and structural models
for insertions and deletions in the divergent evolution of proteins., 229:1065-1082.
Castresana, J. 2000. Selection of conserved blocks from multiple alignments for their use in
phylogenetic analysis. Mol Biol Evol, 17:540-552.
Dayhoff, M.O., Schwartz, R.M. and Orcutt, B.C. 1978. A model of evolutionary change in
proteins. In Dayhoff, M.O. (ed.) Atlas of protein sequence and structure. Natl.
Biomed. Res. Found., Vol. 5, pp. 345-352.
Durbin, R., Eddy, S., Krogh, A. and Mitchison, G. 1998. Biological sequence analysis.
Cambridge University Press, Cambridge.
Duret, L. and Abdeddaim, S. 2000. Multiple alignments for structural, functional, or
phylogenetic analyses of homologous sequences. In Higgins, D. and Taylor, W.
(eds.), BioInformatics: sequence, structure and databanks. Oxford University Press,
Oxford, pp. 51-76.
Erickson, B.W. and Sellers, P.H. 1983. Recognition of patterns in genetic sequences. In
Sankoff, D. and Kruskal, J.B. (eds.), Time warps, string edits, and macromolecules:
the theory and practice of sequence comparison. Addison-Wesley, pp. 55-91.
Feng, D.-F., Johnson, M.S. and Doolittle, R.F. 1985. Aligning amino acids sequences:
comparison of commonly used methods. J. Mol. Evol., 21:112-125.
Fickett, J.W. 1984. Fast optimal alignment. Nucleic Acids Res, 12:175-179.
Gibbs, A.J. and McIntyre, G.A. 1970. The diagram: a method for comparing sequences. Its
use with amino acid and nucleotide sequences. Eur. J. Biochem., 16:1-11.
Goad, W.B. and Kanehisa, M. 1982. Pattern recognition in nucleic acid sequences I: A
general method for finding local homologies and symmetries. Nucleic Acids Res,
10:247-263.
55

Gotoh, O. 1982. An improved algorithm for matching biological sequences. J. Mol. Biol.,
162:705-708.
Grantham, R. 1974. Amino acid difference formula to help explains protein evolution.
Science, 185:862-864.
Gribskov, M., McLachlan, A.D. and Eisenberg, D. 1987. Profile analysis: detection of
distantly related proteins. Proc. Natl. Acad. Sci. USA, 84:4355-4358.
Harvey, P.H., Brown, A.J.L., Smith, J.M. and Nee, S. (eds.) (1996) New uses for new
phylogenies. Oxford University Press, New York.
Henikoff, S. and Henikoff, J.G. 1993. Performance evaluation of amino acid substitution
matrices. Proteins, 17:49-61.
Higgins, D.G., Bleasby, A.J. and Fuchs, R. 1992. CLUSTAL V: improved software for
multiple sequence alignment. Comput Appl Biosci, 8:189-191.
Jeanmougin, F., Thompson, J.D., Gouy, M., Higgins, D.G. and Gibson, T.J. 1998.
Multiple sequence alignment with Clustal X. Trends Biochem Sci, 23:403-5.
Karlin, S. and Altschul, S.F. 1993. Methods for assessing the statistical significance of
molecular sequence features by using general scoring schemes. Proc. Natl. Acad. Sci.
USA, 87:2264-2268.
Kimura, M. 1980. A simple method for estimating evolutionary rates of base substitutions
through comparative studies of nucleotide sequences. J. Mol. Evol., 16:111-120.
Kruskal, J.B. and Sankoff, D. 1983. An anthology of algorithms and concepts for sequence
comparison. In Sankoff, D. (ed.) Time warps, string edits, and macromolecules: the
theory and practice of sequence comparison. Addison-Wesley, Reading, Mass, pp.
265-310.
Lecomte, J.T.J. and Matthews, C.R. 1993. Unraveling the Mechanism of Protein Folding New Tricks for an Old Problem. Protein Eng., 6:1-10.
Levenshtein, V.I. 1966. Binary codes capable of correcting deletions, insertions and
reversals. Cyber. Contr. Theory, 10:707-710.
Levin, J.M., Robson, B. and Garnier, J. 1986. An algorithm for secondary structure
determination in proteins based on sequence similarity. FEBS Lett., 205:303-308.
Li, W.-H. 1997. Molecular evolution. Sinauer Press, Sunderland, Massachussets.

56

Maizel, J.V., Jr. and Lenk, R.P. 1981. Enhanced graphic matrix analysis of nucleic acid and
protein sequences. Proc Natl Acad Sci U S A, 78:7665-7669.
McLachlan, A.D. 1971. Test for comparing related amino acid sequences. Cytochrome c
and cytochrome c551. J. Mol. Biol., 61:409-424.
Mott, R. 1992. Maximum likelihood estimation of the statistical distribution of SmithWaterman local sequence similarity scores. Bull. Math. Biol., 54.
Needleman, S. and Wunsch, C. 1970. A general method applicable to the search for
similarities in the amino acid sequence of two proteins. J. Mol. Biol., 48:443-453.
Nei, M. 2000. Molecular phylogenetics and evolution. Sinauer Press.
Pearson, W.R. 1995. Comparison of methods for searching protein sequence databases.
Protein Sci, 4:1145.
Pearson, W.R. and Lipman, D.J. 1988. Improved tools for biological sequence comparisons.
Proc. Natl. Acad. Sci. USA, 85:2444-2448.
Pescarella, S. and Argos, P. 1992. Analysis of insertions/deletions in protein sequences. J.
Mol. Biol., 224:461-471.
Rao, J.K.M. 1987. New scoring matrix for amino acid residue exchanges based on residue
characteristic physical parameters. Int. J. Pept. Prot. Res., 29:276-281.
Rennell, D., Bouvier, S.E., Hardy, L.W. and Poteete, A.R. 1991. Systematic mutation of
bacteriophage T4 lysozyme. J. Mol. Biol., 222:67-88.
Risler, J.-L., Delorme, M.-O., Delacroix, H. and Hnaut, A. 1988. Amino acid substitutions
in structurally related proteins. A pattern recognition approach. J. Mol. Biol.,
204:1019-1029.
Rocha, E.P.C., Viari, A. and Danchin, A. 1998. Oligonucleotide bias in Bacillus subtilis:
general trends and taxonomic comparisons. Nucleic Acids Res., 26:2971-2980.
Saitou, N. and Nei, M. 1987. The neighbor-joining method: a new method for reconstructing
phylogenetic trees. Mol. Biol. Evol., 4:406-425.
Sankoff, D. 1972. Matching sequences under deletion/insertion constraints. Proc. Natl.
Acad. Sci. USA, 69:4-6.
Sankoff, D. and Cedergren, R.J. 1973. A test for nucleotide sequence homology. J. Mol.
Biol., 77:159-164.

57

Schbath, S. 1997. An efficient statistic to detect over- and under-represented words in DNA
sequences. J. Comput. Biol., 4:189-192.
Schuler, G.D., Altschul, S.F. and Lipman, D.J. 1991. A workbench for multiple alignment
construction and analysis. Proteins, 9:180-190.
Sellers, P.H. 1974. On the theory and computation of evolutionary distances. SIAM J.
Appl. Math., 26:787-793.
Shannon, C.E. and Weaver, W. 1949. The mathematical theory of communication.
University of Illinois Press, Urbana.
Smith, T.F. and Waterman, M.S. 1981. Comparison of bio-sequences. Adv. Appl. Math.,
2:482-489.
Sonnhammer, E.L. and Durbin, R. 1995. A dot-matrix program with dynamic threshold
control suited for genomic DNA and protein sequence analysis. Gene, 167:GC1-10.
Staden, R. 1982. An interactive graphics program for comparing and aligning nucleic acid
and amino acid sequences. Nucleic Acids Res, 10:2951-2961.
Staden, R. 1989. Methods for calculating the probabilities of finding patterns in sequences.
CABIOS, 5:89-96.
Stormo, G. 1990. Consensus patterns in DNA. Meth. Enzym., 183:211-221.
Tatusov, R.L., Altschul, S.F. and Koonin, E.V. 1994. Detection of conserved segments in
proteins: iterative scanning of sequence databases with alignment blocks. Proc. Natl.
Acad. Sci. USA, 91:12091-12095.
Vingron, M. 1996. Near-optimal sequence alignement. Curr. Opin. Struct. Biol., 6:346-352.
Waterman, M.S. 1984. Efficient sequence alignment algorithms. J. Theor. Biol., 108:333337.
Wilbur, W.J. and Lipman, D.J. 1983. Rapid similarity searches of nucleic acid and protein
data banks. Proc. Natl. Acad. Sci. USA, 80:726-730.
Zuker, M. 1991. Suboptimal sequence alignment in molecular biology: alignment with error
analysis. J. Mol. Biol., 221:403-420.

58

Você também pode gostar