Você está na página 1de 20

ALINHAMENTO DE SEQUÊNCIAS

CONCEITO BIOLÓGICO: é a forma de organização primária Se quisermos alinhar essas sequências, podemos ter
do DNA, RNA ou proteínas com objetivo de encontrar diferentes combinações com diferentes Scores.
similaridade, e suas relações funcionais, estruturais e
evolutivas.

 Indica homologia entre as sequências ou


similaridade estatisticamente significante.

Alinhamentos podem ser entre:

– Pares de sequências

– Múltiplas sequências

Conceitos gerais: O exemplo acima é muito simples. Os sistemas de


pontuação utilizados são geralmente mais complexos,
Identidade: O número que indica a quantidade de
baseados em afinidades químicas ou frequências de
nucleotídeos alinhados.
emparelhamento observadas. Por exemplo, sabe-se que a
Similaridade: À medida que considera a probabilidade de o probabilidade de uma base púrica ser substituída por outra
alinhamento ter ocorrido por acaso considerando todos os é maior do que a de uma base pirimidina.
possíveis alinhamentos.
Portanto, o fato de ocorrer uma transversão deve ter uma
Homologia: A similaridade entre as sequências que dividem pontuação menor do que uma transição. Poderíamos então
a mesma ancestralidade possuindo um significado estabelecer um novo sistema de pontuação que reflita
evolutivo. essas diferenças. E para encomendar melhor, usamos uma
matriz.
1) ALINHAMENTO DE PARES DE SEQUÊNCIAS (PSA)
MATRIZES DE PONTUAÇÕES
Consiste em comparar duas sequências de ácidos nucleicos
ou aminoácidos para encontrar regiões semelhantes entre Matrizes contêm valores proporcionais à probabilidade de
elas e estabelecer relações estruturais, funcionais ou um aminoácido ser substituído por outro e isso é calculado
evolutivas. para todos os pares possíveis.

Os dois tipos de matrizes mais usados são:


PONTUAÇÃO DOS ALINHAMENTOS

É evidente que podemos ter infinitos alinhamentos PAM (POINT ACCEPTED MUTATION MATRIX)
diferentes à medida que movemos uma sequência em
Derivado de alinhamentos globais de sequências proximais.
relação à outra e de acordo com o número e a posição das
lacunas. Para encontrar o alinhamento mais razoável do Quanto maior o número assumimos que existe uma maior
ponto de vista biológico, são utilizadas pontuações. distância evolutiva.

O melhor alinhamento será aquele com a maior pontuação Sequências utilizadas com pelo menos 85% de similaridade;
(SCORE).
Usada para traçar origens da Evolução das proteínas.

Mínimo: PAM40 À Máx: PAM250

-- SEM COINCIDÊNCIA (MISMATCH) = - 1

-- COM COINCIDÊNCIA (MATCH) = 1

-- VAZIO (GAP) = 0
ALINHAMENTO LOCAL

Somente as áreas mais semelhantes são pesquisadas,


independentemente de toda a sequência não ser coberta.

 similaridade é considerada apenas nas melhores


regiões.

BLOSUM (BLOCKS SUBSTITUTION MATRIX) APLICAÇÕES DOS ALINHAMENTOS

Derivado de alinhamentos locais de sequências distantes. Predição de funções

Quanto maior o número que assumimos, maior a Busca em base de dados


proximidade evolutiva.
Descobrimento de genes
Pode-se selecionar a similaridade entre as sequências;
Divergência de sequências
Cada matriz é gerada do resultado de uma análise;

Usada para encontrar domínios conservados DOT PLOT

é um método visual que compara duas sequências entre si


Mínimo: BLOSUM90 a Máximo: BLOSUM45.
e ajuda a identificar regiões de interesse e possíveis
semelhanças entre elas. Deve-se enfatizar que o DOT PLOT
não oferece um resultado numérico (escore), portanto sua
interpretação permanece nas mãos do pesquisador.

COMO FUNCIONA?

DOIS TIPOS GERAIS DE ALINHAMENTOS

ALINHAMENTO GLOBAL
1. Primeiro, marcamos as caixas nas quais duas letras
No global, tenta-se que o alinhamento cubra as duas coincidem. As diagonais indicam coincidências entre as
sequências, introduzindo completamente as lacunas duas sequências.
necessárias.

 Similaridade é considerada ao longo de toda as


sequências;
5. Diagonais longas fora da diagonal principal indicam
grandes regiões repetidas, embora as duas sequências
não sejam as mesmas.

2. Para eliminar o "ruído de fundo", deixando as diagonais mais


visíveis, usamos o método SLIDING WINDOWS. Nesse caso,
pegamos os nucleotídeos três a três e, se houver pelo menos
duas correspondências diagonais, marcamos uma
"correspondência" na posição central das janelas. Podemos
configurar o tamanho da janela e o intervalo
correspondente.

6. Diagonais longas fora da diagonal principal indicam


grandes regiões repetidas, embora as duas sequências
não sejam as mesmas.

3. Ao eliminar o “ruído de fundo, as diagonais podem ser


distinguidas muito melhor. 7. Uma diagonal escalonada (como mostra a imagem)
pode ser devido a uma exclusão ou inserção.

8. Linhas paralelas indicam repetições em tandem


(minissatélites). A distância entre as diagonais é igual
4. Uma diagonal principal indica que as duas sequências
ao comprimento do padrão de repetição.
são exatamente iguais.
É um método para alinhamentos globais. É um método de
alinhamento determinístico ou ideal, ou seja, oferece o
melhor resultado possível. É baseado em programação
dinâmica. Isso nos dá um resultado final (Score) do
alinhamento. Não pode ser usado em grandes pesquisas de
banco de dados (somente quando precisamos alinhar duas
sequências conhecidas).

COMO FUNCIONA?
Para implementar o algoritmo, precisaremos de duas
9. Se as linhas paralelas estiverem próximas (na verdade,
sequências A e B, uma matriz de substituição S e uma
geralmente aparece como um ponto quadrado), isso
matriz para executar o algoritmo M.
indica uma repetição do mesmo resíduo nas duas
sequências (microssatélites).

O algoritmo consiste em três fases:


-- Preenchendo o dado
-- Rastrear de volta
-- Alinhamento

10. Uma diagonal perpendicular à diagonal principal indica


a repetição de um palíndromo nas sequências.

SOFTWARE Colocamos as duas sequências para alinhar na linha


superior e na coluna direita da matriz. Já determinamos a
Aqui está uma lista de alguns programas gratuitos para matriz de substituição e a penalidade de diferença.
executar alinhamentos de sequência usando DOT PLOT.

Programa JEMBOSS EMBOSS (Conjunto Europeu de


Software Aberto de Biologia Molecular). Para LINUX

http://emboss.sourceforge.net/Jemboss/

JEMBOSS para Windows. (Requer Java)

https://www.java.com/en/download/chrome.jsp)

ftp://emboss.open-bio.org/pub/EMBOSS/windows/

UGENE PARA LINUX, WINDOWS, MAC


Preenchemos a segunda linha e a segunda coluna, como o
http://ugene.net/download.html exemplo indica.

DOTLET Online

https://dotlet.vital-it.ch/

ALGORITMO DE NEEDLEMAN-WUNSCH
PREENCHENDO A MATRIZ III

Para preencher cada caixa, precisamos calcular três valores


e escolher o maior dos três. Esses valores são calculados da
seguinte maneira:

O valor acima e à esquerda mais o valor da matriz de


substituição para os dois nucleotídeos envolvidos. Nesse
caso, como temos os nucleotídeos G e C, o resultado seria 0
+ (- 1) = -1.

O valor à esquerda mais o valor da diferença. Nesse caso,


seria: (-2) + (- 2) = - 4

O valor acima mais o valor da lacuna. Nesse caso, seria: (-2) SOFTWARE NEEDLEMAN-WUNSCH
+ (- 2) = - 4 Como o maior valor seria -1, esse será o valor
 Aqui está uma lista de alguns programas gratuitos para
que colocaremos na caixa.
realizar alinhamentos usando o algoritmo Needleman-
Wunsch.

NEEDLE: ferramenta JEMBOSS para alinhamentos globais


de duas sequências.

NEEDLE: Online.

LALING: Ferramenta Online Expasy.

SMS: Conjunto de manipulação de sequência

ALIGN: Ferramenta Online Uniprot.

ALGORITMO DE SMITH-WATERMAN

É um método para alinhamentos locais. É um método de


alinhamento determinístico. É baseado em programação
dinâmica. Isso nos dá um resultado final (Score) do
alinhamento. Não pode ser usado em grandes pesquisas de
banco de dados (somente quando precisamos alinhar duas
sequências conhecidas).
COMO FUNCIONA?

O algoritmo consiste em três fases:

 Preenchendo o dado
 Rastrear de volta PREENCHENDO A MATRIZ III
 Alinhamento Como o algoritmo Needleman-Wunsch, para preencher
cada caixa, precisamos calcular três valores e escolher o
maior dos três. Esses valores são calculados da seguinte
maneira:

O valor acima e à esquerda mais o valor da matriz de


substituição para os dois nucleotídeos envolvidos. Nesse
caso, como temos os nucleotídeos G e C, o resultado seria 0
+ (- 5) = -5.

O valor à esquerda mais o valor da diferença. Nesse caso,


seria: 0 + (- 2) = - 2

O valor acima mais o valor da lacuna. Nesse caso, seria: 0 +


1. Colocamos as duas sequências para alinhar na
(- 2) = - 2. Como todos os valores são negativos, colocamos
linha superior e na coluna direita da matriz. Já
0 na caixa.
determinamos a matriz de substituição e a
penalidade de diferença.

2. Preenchemos a segunda linha e a segunda coluna,


como o exemplo indica.
Este é um gráfico que relaciona a quantidade de pontos (Y)
com a pontuação da matriz de pontuação. Podemos ajustar
para melhorar o contrate do gráfico, facilitando a análise.
SOFTWARE SMITH-WATERMAN
 Aqui está uma lista de alguns programas gratuitos para
realizar alinhamentos usando o algoritmo Smith-Waterman.

LALING: Ferramenta Online Expasy.

WATER: Online.

USANDO SOFTWARE

ALINHAMENTO POR DOT BLOT

Programa: Dotlet JS Beta

Site: https://dotlet.vital-it.ch/

Quanto mais escura a diagonal, mais coincidências entre os


aminoácidos.

Pode-se inserir as sequencias nas lacunas referente a


sequência 1 e da sequência 2. Pode também ajustar a
(window size), eliminado os interferentes, e até mesmo
selecionar a matriz de pontuação.

A intensidade de cada quadrado, está relacionado com a


pontuação referente daqueles aminoácidos.
Ao focar no início da diagonal principal, podemos ver o 3. Éxons e íntrons
início, onde as sequencias se alinham.
A sequência horizontal é o gene calmodulina de Emericella
Utilidades do programa: https://myhits.isb- (Aspergillus) nidulans, e a sequência vertical é o produto
sib.ch/util/dotlet/doc/dotlet_examples.html do gene. Escolhemos uma matriz muito rigorosa, já que
esperamos uma correspondência exata nos quadros
Exemplos: corretos e uma janela muito pequena, pois os limites do
exão-íntron são tão nítidos quanto possível.
01. Domínios proteicos repetidos
Vemos claramente quatro exons, na verdade há mais um,
Este é um gráfico da proteína SLIT de Drosophila
mas é muito pequeno e só pode ser visto se diminuirmos o
melanogaster contra si mesma. Possui vários domínios
tamanho da janela (mas isso também aumenta o ruído de
repetidos. Na parte N-terminal (A), vemos quatro regiões
fundo - experimente você mesmo).Posicionamos o cursor
repetidas, que são compostas por unidades repetidas
no início de um exon e a janela de alinhamento mostra uma
menores (neste caso, repetições ricas em leucina). Depois,
combinação perfeita a partir dessa posição, no segundo
há outro domínio que é repetido pelo menos seis vezes em
quadro de leitura.
um cluster restrito (B), com uma ocorrência adicional perto
do terminal C. Este é um FEG.

4. Terminadores e outras estruturas de Stem-Loop

Este é um gráfico do gene da UTP-glicose-1-fosfato-


uridililtransferase de Bacillus subtilis contra si próprio. O
cursor está posicionado no local de um terminador de
tradução, que neste caso é um Stem-Loop na molécula de
RNA. Isso significa que a sequência é localmente
semelhante ao seu complemento invertido, daí o
2. Domínios proteicos conservados
aparecimento de pequenas perpendiculares à diagonal
A sequência horizontal é um antígeno humano da superfície principal. Isso também é mostrado claramente na janela de
celular de MS2, o vertical é a adamalysin II, uma alinhamento.
metaloprotease do veneno de Crotalus adamanteus
(cascavel de diamante oriental). Ambos contêm um
domínio de protease de zinco; como a imagem mostra que
a adamalysin consiste apenas nesse domínio, enquanto
representa aproximadamente um quarto do MS2.

5. Frameshifts

A sequência horizontal é uma EST humana de 3 'que


codifica para uma proteína não identificada (bem, agora foi
identificada, mas vamos fingir que não tinha ...). A vertical é
a sequência proteica da combinação BLASTX mais próxima;
nesse caso, um precursor do fator receptor de estímulo de
colônias de granulócitos de camundongo (ufa! :-). USANDO SOFTWARE

Como podemos ver no gráfico, o EST corresponde à parte ALINHAMENTO PSA GLOBAL E LOCAL
C-terminal da proteína e contém um 3'-UTR. Porém, a
diagonal não é perfeita: existem duas diagonais parciais, Programa: LALING
mas a do terminal C é deslocada uma posição a jusante em
Site: https://embnet.vital-it.ch/software/LALIGN_form.html
relação à primeira. Este é um sinal claro de mudança de
quadro. A janela de alinhamento mostra isso bem: há uma  Realiza um alinhamento do tipo pares de bases
correspondência bastante boa no quadro 1, mas começa na (PSA) tanto global quanto local.
posição 806 ou mais (na sequência da proteína).

6. Regiões de baixa complexidade

Este é um gráfico do precursor da proteína antigênica de


repetição serina de Plasmodium falciparum. Os domínios
serine-repeat se destacam como um quadrado preto. Esta é
a marca registrada das regiões de baixa complexidade,
onde um ou alguns resíduos exibem uma periodicidade
mais ou menos perfeita. Nesse caso, o padrão depende
fortemente do tamanho da janela deslizante.

A sua utilização é bem simples, no canto superior é possível


escolher se é um alinhamento Local ou Global, pode-se
mudar penalidade de GAP ou Matriz de pontuação. E por
fim inserir as duas sequências nos respectivos campos.
O input da sequência tanto de proteína quanto de DNA
pode ser por formato .fasta. E a opção do tipo de sequência
a ser analisada deve ser escolhido ainda ano Step one.
A análise apresentou as opções com os melhor scores,
comprando 3 sistemas (N-W, Bits, E-Vaule). No exemplo  Em more option pode-se alterar outros
proposto, o alinhamento F (Forward) humano tem parâmetros do alinhamento.
apresentou um melhor alinhamento.

 Como o programa realiza o alinhamento tanto com


a cadeia reverso e forward. (Melhora as chances
de alinhar)

A identidade fornecida pelo alinhamento, que expressa a


similaridade entre as sequências foi de 60%.

 Lembrado que é possível nesse programar, realizar


alinhamentos globais e locais.

USANDO SOFTWARE

ALINHAMENTO PSA EMBOSS- NEEDLE

Programa EMBOSS - Needle

Site: https://www.ebi.ac.uk/Tools/psa/emboss_needle/

Este alinhamento fornece várias informações, como


porcentagem de similaridade, identidade e Gaps de cada
alinhamento, além do Score.

 A barrinha significa coincidência entre os


aminoácidos ou nucleotídeos, dois pontos
significam a troca por muito semelhante e um
ponto quando a troca é por outro elemento com
pouca semelhança.

FERRAMENTA BLAST
necessário que ambos sejam idênticos, mas que permite a
presença de descontinuidades.

BLAST P

A partir de uma sequência PROTEIN, ele realiza uma


pesquisa em um banco de dados PROTEIN.

APLICAÇÕES:
FERRAMENTA BÁSICA DE LOCALIZAÇÃO DE
ALINHAMENTO LOCAL
 Quando se tem uma sequência nova e de função  Identifique uma sequência de problemas: nesse
desconhecida, a primeira coisa a se fazer é comparar com caso, a semelhança é 100% e o programa gera um
sequencias já existentes nas bases de dados. alinhamento global. Para identificação inequívoca,
pode ser uma boa ideia desativar o filtro de baixa
TIPOS DE BLAST complexidade.
 Encontre sequências semelhantes em um banco
BLAST N de dados de sequência de proteínas. Se a
semelhança for grande, podem ser proteínas
A partir de uma sequência de NUCLEOTÍDEOS, ele realiza
homólogas e é bem provável que as anotações das
uma pesquisa em um banco de dados NUCLEOTÍDEOS.
sequências homólogas também sejam válidas para
APLICAÇÕES: a sequência do problema. O BLAST permite que
uma coleção de sequências homólogas de
 Localize oligonucleotídeos, cDNAs, ESTs, produtos diferentes organismos seja montada para
de PCR ou elementos repetitivos em um genoma. alinhamentos de múltiplas sequências ou análises
 Identificação de sequências de DNA e anotação de filogenéticas.
DNA genômico.  Localizar regiões de similaridade: nesse caso, a
 Localize sequências homólogas em diferentes similaridade é limitada a uma região das
espécies. sequências e o programa gera alinhamentos locais
 Geração de contigs a partir das leituras mais curtas que podem corresponder a domínios conservados.
obtidas durante o processo de seqüenciamento.
 Exclua as subsequências pertencentes aos vetores. VARIANTES:
 Detecção de contaminação.
O PSI-BLAST usa os resultados do BLASTP para construir
uma matriz de pontuação específica da posição (PSSM) e
VARIANTES:
depois localizar sequências com parentesco remoto. Se
MEGABLAST: Projetado para identificar uma sequência de uma pesquisa BLASTP não conseguiu encontrar proteínas
problemas (100% de semelhança) ou para encontrar semelhantes ou se muitos dos resultados estão em dúvida,
sequências muito semelhantes (> 95% de resíduos podemos usar o PSI-BLAST. Este programa é o mais sensível
idênticos). É muito rápido porque utiliza um tamanho de de todos e é muito útil para encontrar proteínas
palavra (parâmetro w) de 28 resíduos. relacionadas remotamente, identificar novos membros de
uma família de proteínas ou descobrir proteínas com
Blastn: É mais sensível que o anterior, porque usa por
sequências altamente divergentes, mas com uma estrutura
padrão um parâmetro w = 11, mas é mais lento. Ele foi
tridimensional semelhante.
projetado para encontrar seqüências semelhantes em
diferentes organismos. Se necessário, você também pode BLAST X
pesquisar com w = 7, aumentando a sensibilidade, mas
reduzindo significativamente a velocidade. A partir de uma sequência de NUCLEOTIDES, ele realiza
uma pesquisa em um banco de dados PROTEIN. O
MEGABLAST descontínuo: Ele também foi projetado para programa traduz a sequência de nucleotídeos em seus seis
encontrar seqüências semelhantes em diferentes quadros de leitura possíveis (três quadros de leitura por
organismos. Ele usa w = 11 e, nessas mesmas condições, é fita) e compara essas sequências traduzidas com um banco
mais sensível e eficaz que o blastn, porque ignora algumas de dados de proteínas. O BLAST X é útil quando
bases (a terceira de cada códon) e porque, ao procurar as suspeitamos que nossa sequência de DNA possa codificar
palavras da sequência do problema nos BDs, não é alguma proteína.
APLICAÇÕES: Essa área em torno de 25% é chamada de "zona
crepuscular" ou twilight zone. Os valores ao redor da zona
 Localize genes que codificam proteínas no DNA
crepuscular devem ser tomados com cautela e outros
genômico.
parâmetros devem ser observados para confirmar ou
 Determine se uma transcrição (convertida em
rejeitar a existência de homologia. Por exemplo, sequências
cDNA ou EST) codifica alguma proteína conhecida.
curtas de problemas em bancos de dados grandes têm mais
 Defina as regiões de codificação e não codificação
chances de fornecer correspondências altas. Um parâmetro
de um mRNA.
muito interessante que nos permite valorizar nossa
TBLAST X pesquisa, levando em consideração esses fatores, é o valor
E (valor esperado) que veremos em mais detalhes na
A partir de uma sequência de NUCLEOTIDES, ele realiza próxima seção do tópico.
uma pesquisa em um banco de dados NUCLEOTIDE, mas, ao
contrário de Blast n, o TBLASTX compara as traduções de ALGORITMO DO BLAST
seis quadros de leitura da sequência de consulta de
A realização de uma pesquisa exata exigiria uma
nucleotídeo com as traduções de seis quadros de leitura do
quantidade computacionalmente excessiva de
banco de dados de sequência de nucleotídeos.
comparações. O Blast realiza alinhamentos locais entre a
sequência do problema e o banco de dados, mas usa um
APLICAÇÕES:
algoritmo heurístico, ou seja, ele não garante um resultado
 Detecte novos genes em sequências genômicas (da ideal, mas permite realizar o alinhamento com bons
mesma espécie ou de espécies diferentes), resultados.
especialmente aquelas que são difíceis de
encontrar pelos métodos tradicionais (genes O Blast é baseado no pressuposto de que bons
dentro de outros genes, processamento alinhamentos contêm regiões curtas com correspondências
alternativo ou genes com baixos níveis de perfeitas (ou muito boas). Este algoritmo consiste em três
expressão). fases:
 Descubra transcrições (na forma de cDNA ou EST)
cujos produtos ainda não estão incluídos nos BDs. 1) SEMENTES OU SEEDING: A sequência do problema é
dividida em pequenos fragmentos (WORDS). No caso de
OUTRAS CONSIDERAÇÕES sequências de DNA, eles geralmente são 11 nucleotídeos (w
= 11) e no caso de proteínas são geralmente 3 aminoácidos
Podemos descobrir sequências nucleotídicas semelhantes a (w = 3), embora esse parâmetro possa ser ajustável.
uma sequência problemática desconhecida, mas o mais Posteriormente, a partir de cada uma dessas palavras, são
comum é trabalhar com sequências de aminoácidos. Dessa criadas listas de palavras semelhantes (Neighbors) até um
forma, podemos identificar proteínas, encontrar proteínas determinado valor limite T (Threshold), e tomando como
homólogas, selecionar proteínas para realizar MSA ou referência uma matriz de pontuação (por exemplo, match =
identificar regiões ou domínios conservados em proteínas 2, incompatibilidade = -3 gap = -5 para nucleotídeos e
de várias espécies. Blosum62 para aminoácidos). As palavras na lista que estão
acima desse valor são marcadas nas sequências do banco
Quando duas sequências são parecidas, é muito provável
de dados (sementes ou SEEDING) e as que estão abaixo
que sejam homólogas, isso significa que, evolutivamente,
desse limite não são levadas em consideração pelo
elas têm um ancestral comum e, portanto, sua estrutura
programa.
pode ser muito semelhante e também sua função. Isso nos
permite saber muitas coisas sobre nossa sequência recém-
descoberta apenas comparando-a com o restante das
sequências para as quais já temos muitas informações. No
caso de proteínas, considera-se que acima de 25% de
similaridade é muito provável que exista homologia (no
caso de ácidos nucléicos deve exceder 70%), desde que
comparemos sequências de pelo menos 100 resíduos. Mas,
na realidade, a existência ou não de homologia que não
podemos saber com certeza, é possível que proteínas com
15% de identidade em seus resíduos de aminoácidos
tenham a mesma estrutura e função.
USANDO SOFTWARE

FERRAMENTA BLAST

2) EXTENSÃO: A partir de cada uma das SEEDING o Programa: BLAST N


programa estende o alinhamento entre o banco de dados e
Site: https://blast.ncbi.nlm.nih.gov/Blast.cgi?
a sequência do problema nas duas direções. A extensão é
PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=bla
feita usando o algoritmo Smith-Waterman e novamente
sthome
seguindo a matriz de pontuação. O alinhamento para
quando um valor X é atingido abaixo do valor máximo
anterior. Nesse momento, o programa retorna ao ponto do
valor máximo, que será a "SCORE" do referido alinhamento.
Essa é a chave para viabilizar o algoritmo, pois não temos
certeza de que todos os alinhamentos possíveis sejam
criados, porque o programa pode parar no máximo local.
Os alinhamentos que obtiverem uma pontuação igual ou
superior à selecionada anteriormente serão selecionados e
receberão o nome HSP (High-scoring Segment Pair) e
aquele com a pontuação mais alta é o MSP (Maximal
Segment Pair).

3) AVALIAÇÃO: Uma vez concluído o alinhamento e


calculado o score final de cada resultado obtido, o
programa realiza significância estatística, ou seja, um Podemos inserir a sequência desejada em um arquivo no
estudo da probabilidade de que cada um desses resultados formato Fasta, ou diretamente na lacuna superior.
seja obtido aleatoriamente. Como resultado deste estudo,
o programa mostra um valor E (e-value) para cada um dos
alinhamentos obtidos.

O valor esperado (E) é um parâmetro que indica o número Podemos escolher qual Database, será usado na análise do
de coincidências que podem ser "esperadas" por acaso, alinhamento feito pelo Blast. Seguidamente podemos
com uma pontuação igual ou melhor que a obtida ao escolher o organismo ou o grupo de organismos a qual o
pesquisar em um banco de dados de tamanho semelhante. programa irra utilizar, caso aperte em Excluide, o programa
Por exemplo, um valor E = 1 significa que, em um banco de irá procurar em todos menos o escolhido na opção
dados de tamanho atual, seria de esperar ver 1 organismo.
corresponder a uma pontuação igual ou melhor,
simplesmente por acaso. Quanto menor o valor E, ou mais
próximo de zero, mais "significativa" será a
correspondência. Nessa opção podemos escolher os tamanhos das
sequências nas quais o programa deve buscar e alinhar.
Como no exemplo que selecionamos 100:400[slen] isso
indica que é interessante apenas sequencias de tamanho
entre 100 a 400 nucleotídeos.
Podemos ainda escolher o tipo, sendo o (megablast) uma
método de análise mais rápido que apresentará resultados
mais próximos da sequência em análise, já somente o Blast
N, resultará em uma buscar mais ampla, considerando
qualquer sequência com o mínimo de similaridade.

Selecionamos o número máximo de resultados o programa


forneça.

Em azul vemos a sequência em estudo, e em vermelho as


sequencias encontradas na base análise, correspondente as
Permite ajustar o número máximo de E-Value. listas de resultados abaixo.

 Nesse resultado podemos analisar que a primeira


sequência corresponde totalmente com a
sequência analisada, já as sequencias mais para
Permite selecionar os tamanhos das palavras utilizadas pelo
baixo da lista encontramos apenas trechos
programa, quando menor amis precisa será a análise,
coincidentes.
porém mais custosa computacionalmente.
 As cores destacadas acima estão relacionadas as
pontuações do alinhamento, sendo sequência em
vermelho com maior pontuação.
 A linha cinza separando duas regiões indica que
apenas os trechos destacados alinham com a
sequência problema.

Usado quando, não queremos realizar um Blast em toda


sequência problema. Então podemos sinalizar um início
(From) e o fim (to) em número de nucleotídeo.

 Analisando resultados; Clicando tanto na sequência representativa, como vimos


acima quanto na sequencia correspondente na lista, a
A analise é dividida em três partes principais:
plataforma leva para o alinhamento correspondente.
1) Visor gráfico;
2) Lista de sequencias encontradas;
3) Os alinhamentos de cada resultado;

Podemos selecionar alguns itens da lista e baixar apertando


em download. Ainda podemos clicar em Genbank e ser
direcionado para as sequencias que alinharam com a
problema. Ou fazer uma arvore filogenética com os
resultados selecionados apertando em Distance tree of
results.

Na parte direita vemos a pontuação de cada alinhamento.


PLUS-> indica que a sequência é codificante
Os parâmetros MAX SCORE e TOTAL SCORE indicam a
pontuação do respectivo alinhamento. Se eles coincidirem, MINUS-> indica que a sequência não é codificante
isso indica que só há um alinhamento com aquela
STRAND – (sequência problema/sequência do banco de dados)
sequência da base de dados, caso sejam diferente, entre os
resultados há amis de um alinhamento possível com a
correspondente sequencia d banco de dados.

Max score- escore máximo resultante de um único HSPs


(High-scoring Segment Pairs)

Total score- Escore resultante da soma de HSPs.

Query coverage- Porcentagem da sequência submetida ao


programa que é coberta pelo alinhamento.

valor E (e-value)  é um parâmetro que indica o número


de coincidências que podem ser "esperadas" por acaso,
2) ALINHAMENTO MÚLTIPLO DE SEQUÊNCIAS (MSA)
com uma pontuação igual ou melhor que a obtida ao
pesquisar em um banco de dados de tamanho semelhante. Um alinhamento de sequências múltiplas ( MSA ) é
um alinhamento de sequências de três ou mais sequências
(quando mais próximo de 0,00 for o e-value melhor será o
biológicas , geralmente de proteínas , DNA , ou RNA .
alinhamento)
 Permite um alinhamento com mais de duas
Identidade: porcentagem de resíduos que coincidem.
sequencias ao mesmo tempo, pode servir para
Accession: código que remete a sequência do banco de identificar padrões conservados em famílias de
dados utilizada no alinhamento. sequências.
CONCEITOS GERAIS
A programação dinâmica não é usada neste tipo de
alinhamento.

Os algoritmos são baseados em métodos heurísticos.

Isso nos dá um resultado final do alinhamento com base na


soma dos pares (SP).

Portanto, vários algoritmos de alinhamento visam


maximizar o valor da Soma dos pares.
Alinhamentos de sequências múltiplas são uma das ferramentas
mais amplamente utilizadas em bioinformática. Entre suas
utilidades, podemos destacar o seguinte:

ANÁLISE FLOGENÉTICA A partir de um conjunto de proteínas


escolhidas de modo a diferir cada vez mais e em percentagens
adequadas, podemos reconstruir a história filogenética da referida
proteína e, portanto, da referida espécie.

INVESTIGAÇÂO A partir de um alinhamento múltiplo, podemos


Na imagem acima, podemos ver um exemplo de verificar se uma sequência desconhecida pertence, por exemplo, a
alinhamento múltiplo de 11 sequências de aminoácidos uma família de proteínas.
correspondentes a diferentes espécies animais. A última
IDENTIFICAÇÃO DE PADRÃO A partir de regiões proteicas
linha representa a sequência de consenso, deduzida das altamente conservadas, podemos inferir a presença de padrões ou
semelhanças encontradas em cada coluna de aminoácidos. regiões fundamentais para uma determinada função.
As letras maiúsculas na sequência de consenso coincidem
com as áreas marcadas em azul e representam posições PREDIÇÃO DE ESTRUTURAS DE PROTEÍNA Um alinhamento de
muito bem preservadas. Essas posições podem múltiplas sequências pode nos oferecer informações sobre regiões
bem conservadas e, portanto, essenciais para o correto
corresponder a regiões importantes para a manutenção da
dobramento e função de uma proteína. Isso pode até nos ajudar a
estrutura e função das proteínas.
prever sua estrutura secundária ou mesmo tridimensional.

SISTEMA DE PONTUAÇÃO (SOMA DOS PARES) ANÁLISE PCR A presença de regiões nucleotídicas bem
conservadas em uma família de proteínas pode ser muito útil ao
Para cada coluna de resíduos (nucleotídeos ou projetar iniciadores para PCR.
aminoácidos), obtemos um valor que será o resultado da
adição de todos os pares de valores possíveis obtidos a MÉTODOS DE ALINHAMENTO MÚLTIPLO
partir de uma matriz de pontuação. O SCORE final do
alinhamento será a soma dos valores obtidos em cada Algoritmos heurísticos para MSA
coluna.
  Como já vimos nos tópicos anteriores, existem métodos
exaustivos para alinhar pares de sequência. Esses métodos,
como os baseados em programação dinâmica, embora nos
ofereçam resultados ótimos, normalmente não podem ser
usados em problemas de alinhamentos de múltiplas
sequências. Isso se deve aos enormes requisitos
computacionais, tanto de tempo quanto de memória, que
seriam necessários para realizá-los. Para resolver isso,
MATRIZ DE PONTUAÇÃO
existem outros métodos que, apesar de não garantirem o
melhor resultado possível, têm a vantagem de serem
computacionalmente viáveis e de obter bons resultados.

  Esses métodos são chamados de HEURÍSTICOS, em


oposição aos determinísticos, descritos acima.

TIPOS DE MÉTODOS HEURÍSTICOS


ALINHAMENTO PROGRESSIVO Antes de alinhar, é muito importante escolher as
sequências adequadamente, caso contrário, não obteremos
Nem todas as sequências estão alinhadas de uma só vez.
as informações que estamos procurando. Há várias
Eles são adicionados ao processo aos poucos. Consiste em
recomendações a serem lembradas ao escolher as
várias etapas:
sequências com as quais vamos trabalhar:
1) Todos os alinhamentos possíveis são realizados
1. TIPO DE SEQUÊNCIA
dois a dois (o algoritmo global Needleman-Wunsch
é usado). Com algumas exceções (como o design de primers ou a
construção de árvores filogenéticas baseadas em DNA), é
2) É feito um ÁRBOL + GUÍA (semelhante às árvores sempre melhor usar sequências de proteínas do que DNA.
filogenéticas), onde você pode ver o grau de Isso ocorre porque as sequências de aminoácidos são mais
similaridade entre todas as sequências. curtas que as sequências de nucleotídeos e nos fornecem
muito mais informações (20 aminoácidos por 4
nucleotídeos). Por outro lado, o alinhamento do DNA pode
3) Seguindo a ÁRBOL + GUÍA, as duas seqüências levar a erros, já que em muitas ocasiões podem ser
mais estreitamente relacionadas são obtidas e um introduzidas lacunas entre os trigêmeos nucleotídeos,
alinhamento global é executado novamente. alterando assim o quadro de leitura.

4) Desse alinhamento, é obtida uma SEQUÊNCIA DE 2. NÚMERO DE SEQUÊNCIAS


CONSENSO, que é alinhada novamente com a
Normalmente, o alinhamento começa usando 10 a 15
próxima mais intimamente relacionada na ÁRBOL
sequências. Se necessário, você sempre pode adicionar
+ GUÍA. E assim por diante até que todas as
mais sequências ao alinhamento. Por outro lado, trabalhar
sequências estejam alinhadas.
com muitas sequências pode ser muito caro em termos de
computação e menos preciso.

3. SIMILARIDADE ENTRE SEQUÊNCIAS


Este método tem algumas desvantagens:
O alinhamento deve manter um equilíbrio entre a
Sendo um método de alinhamento global, permite apenas
qualidade do processo e a quantidade de informações que
sequências de comprimento semelhante.
nos fornece. Escolher sequências muito parecidas entre si
Qualquer erro produzido nos estágios iniciais do algoritmo certamente nos dará um bom alinhamento, mas a questão
é corrigido e pode ser propagado até o final. é se será útil para nós. Muitos dos benefícios de um
alinhamento têm a ver com a capacidade de diferenciar as
ALINHAMENTO ITERATIVO regiões conservadas daquelas que não são, e isso só será
possível se nossas sequências estiverem suficientemente
Esse tipo de método usa várias iterações aleatórias para
distantes uma da outra. Por outro lado, sequências muito
gerar pontuações crescentes, até um ponto em que essas
diferentes não serão bem aceitas pelos programas e podem
pontuações não aumentam mais.
nos dar resultados indesejados.

Para não cometer erros desse tipo, existe uma regra que
ALINHAMENTO BASEADO EM BLOCOS geralmente funciona bem: cada sequência deve estar entre
30 e 70% semelhante, com mais da metade do total de
Os métodos acima são baseados principalmente no sequências.
alinhamento global e, portanto, não são adequados para o
reconhecimento de regiões conservadas entre sequências 4. COMPRIMENTO DA SEQUÊNCIA
de comprimentos variados. Para sequências que
Os programas de alinhamento de sequência geralmente
compartilham apenas semelhanças regionais, é melhor usar
preferem que sejam aproximadamente do mesmo
métodos baseados no alinhamento local. A estratégia
tamanho. Misturar sequências completas com fragmentos
identifica um bloco de alinhamento compartilhado por
mais curtos pode nos dar problemas de alinhamento.
todas as sequências.

SELEÇÃO DAS SEQUÊNCIAS SOFTWARE PARA ALINHAMENTO MÚLTIPLO DE


SEQUÊNCIAS 
Aqui está uma lista de alguns programas gratuitos para
executar vários alinhamentos de sequência.

ALINHAMENTO PROGESIVO:

 CLUSTAL: Podemos usar este programa on-line em:

Expassy: https://embnet.vital-it.ch/software/ClustalW.html

EMBOSS: https://www.ebi.ac.uk/Tools/msa/clustalo/

Também podemos fazer o download em


http://www.clustal.org/omega/

 T-CAFFEE: Podemos usar este programa on-line


2) BLAST na sequência desejada.
em:

Expassy: http://tcoffee.vital-it.ch/apps/tcoffee/index.html

EMBOSS: https://www.ebi.ac.uk/Tools/msa/tcoffee/

Também podemos fazer o download em:


http://www.tcoffee.org/Projects/tcoffee/#DOWNLOAD

ALINHAMENTO ITERATIVO

PRRN: http://www.genome.jp/tools-bin/prrn

MUsCLE: Podemos usar este programa on-line em:

Expasy: https://www.ebi.ac.uk/Tools/msa/muscle/  Entre os resultados vamos identificar proteínas


muitos semelhantes entre sí, oque não fornecerá
EMBOSS: https://www.ebi.ac.uk/Tools/msa/muscle/ muitas informações, nem proteínas muitos
distantes.
Podemos fazer o download em: Abaixo de 15-20% de identidade, as sequências
https://www.drive5.com/muscle/downloads.htm não indicam homologia.
 Não deve-se escolher nem abaixo de 15% nem
ALINHAMENTO BASEADO EM BLOCOS
100%, tem que ser uma faixa entre esses números
DIALIGN: http://dialign- para termos um bom alinhamento.
tx.gobics.de/submission?type=protein
3) Após selecionar as sequencias desejadas no
USANDO SOFTWARE alinhamento, clicar em Align.

FERRAMENTA BLAST

Programa: BLAST N

Site:

1) Inicialmente podemos baixar as sequências de


proteínas na plataforma UniProt:
()), buscando a proteína desejada, e apertando no
blast para encontrar proteínas semelhantes e
poder interpretar a identidade para melhor
escolha das sequencias. Obteremos o alinhamento, salientando que o UniProt usa o
programa Clustal Omega.
OBS:

* (Asterisco) – indica que os resíduos das mesmas coluna


são idênticos entre sí.

: (dois pontos) – indica que os aminoácidos daquela coluna


possuem propriedades similares.

. (Um ponto) – indica eu os aminoácidos possuem


prosperidades parecidas, menos do que os dois pontos.

2) Realiza o alinhamento com proteínas


semelhantes pertencestes a mesma família de
proteínas. (EX: alinho 4 sequências de
espécies diferentes da mesma proteína,
Rodopsina quinase)

Em (Annotation) podemos destacas os domínios


conservados, clicando em DOMAIN.

OBS 2: é importante analisar a qualidade da sequência que


você estar analisando, se ela foi revisada já e qual o seu
nível de anotação. Essas informações podem ser obtidas
voltando a base de dados UniProt e buscando informações
da dita sequência.
OBS: O resultado demostrará muita similaridade entre os
nucleotídeos, apresentando bastantes (* , ; e .) .

EX: essa proteína não é revisada, tem um Score de


anotação baixo, com certeza não é uma sequência segura 3) Para verificar se a proteína problema pertence
para se fazer um alinhamento. Podendo interferi no a família de proteína suspeita, que usamos
resultado. como exemplo, adicionamos esta sequência
desconhecida ao alinhamento no espaço
 Podemos descobrir se uma proteína desconhecida
abaixo do alinhamento, e segue clicando em
pertence a determinada família de proteínas
ADD SEQUENCCE AND ALIGN
suspeita.

1) Na plataforma UniProt, segue para opção


Align. (https://www.uniprot.org/align/)
4) No resultado, caso pertença a família,
veremos certa conservação entre as
sequências, com elevada similaridade e
coincidência entre elas.

Você também pode gostar