Escolar Documentos
Profissional Documentos
Cultura Documentos
Para alinhar sequências, existem diferentes tipos de algoritmos que podem ser
utilizados. Entre os métodos de alinhamento, estão algoritmos de programação dinâmica, o
qual tende a quebrar a sequência em problemas menores para encontrar o melhor resultado
de alinhamento. Entretanto, esse tipo de abordagem consome tempo, e é inviável para alinhar
sequências muito grandes ou comparar uma sequência com várias sequências em um banco
de dados. Alguns programas utilizam algoritmos heurísticos, os quais são utilizados em
buscas em bancos de dados e para alinhar sequências maiores em um menor tempo, porém
não esses algoritmos não garantem encontrar o melhor alinhamento, diferente da
programação dinâmica.
Embora métodos heurísticos não encontrem a solução ótima para o problema, sua
eficiência e rapidez na busca e alinhamento de sequências em bancos de dados fazem dessas
ferramentas as mais utilizadas em bioinformática. Métodos de palavras (words), também
chamados de métodos k-tuple são os tipos de algoritmos heurísticos mais utilizados no
alinhamento de sequências.
FASTA (https://www.ebi.ac.uk/Tools/sss/fasta/)
FASTA (lido “fast A”) é um algoritmo de passos múltiplos para alinhamento de
sequências criado em 1985 por Wilbur e Lipman. Originalmente, o software foi
desenvolvido para alinhamento de proteínas e, por tanto, era conhecido por FASTP (“fast
protein”). Com o avanço tanto no conhecimento de genética como na área da computação,
em 1987, foi introduzida a capacidade do software de realizar buscas por DNA e proteínas
traduzidas, sendo então denominado de FASTA (“fast all”). O formato FASTA (Fig. 1)
usado como entrada no software é hoje amplamente utilizado em diversos outros programas
para alinhamento e bancos de dados de sequências.
Figura 1. Texto em formato FASTA. Note o cabeçalho (marcado por um “>”) contendo
informações sobre a sequência de aminoácidos. A sequência apresenta 68 caracteres em cada
linha, exceto na última.
Após dar entrada na sequência (o query) que se quer alinhar com bancos de dados, o
algoritmo FASTA irá seguir os seguintes passos (Fig. 2): a) após organizar duas sequências
em uma matriz (o query e uma sequência do banco), é realizada uma busca por locais de
similaridades. b) K-mers (palavras) similares são pontuadas utilizando escores ou matrizes
de similaridade. Os melhores escores são mantidos. c) Os segmentos de similaridade que
não fazem parte do alinhamento de maior escore são eliminados. d) É utilizado um algoritmo
de programação dinâmica (Smith-Waterman) para otimizar o alinhamento na região mais
estreita com melhor pontuação encontrada anteriormente.
BLAST (https://blast.ncbi.nlm.nih.gov/Blast.cgi)
O Basic Local Alignment Search Tool (ferramenta de busca para alinhamento local
básico, BLAST) é um dos programas de bioinformática mais utilizados. Ele foi desenvolvido
especificamente para busca alinhamento e pesquisa em bancos de dados em 1990 por
Stephen F. Altschul e colaboradores. Na busca por sequências semelhantes àquela que
estamos consultando (o query), podemos identificar sequências e relacioná-las
filogeneticamente, identificar possíveis funções com base em semelhanças com sequências
conhecidas e identificar organismos através de alinhamento de regiões altamente
conservadas do DNA, como o rRNA.
O algoritmo heurístico do BLAST funciona da seguinte forma (Fig. 3): 1) a sequência
query é quebrada em “palavras”. O tamanho dessas palavras varia, sendo que geralmente
nucleotídeos são quebrados em um kmer de tamanho 11 e aminoácidos em kmer de 3. Essas
palavras serão utilizadas para semear os alinhamentos. 2) O programa busca por
similaridades ou matches sequências alvo nos bancos de dados. Tenta-se alinhar cada palavra
do query com o alvo, procurando por similaridades. 3) Se o alvo tiver 3 matches com as
palavras do query (dado esse threshold), o alinhamento é estendido em ambas as direções
buscando por similaridade adicional. Por fim, é realizado o escore do alinhamento.
___________________________________________________________________
___________________________________________________________________
___________________________________________________________________
___________________________________________________________________
___________________________________________________________________
MARLLQASCLLSLLLAGFVSQSRGQEKSKMDCHGGISGTIYEYGALTIDGEEYIPFKQYAGKYVLFVNVA
SYUGLTGQYIELNALQEELAPFGLVILGFPCNQFGKQEPGENSEILPTLKYVRPGGGFVPNFQLFEKGDV
NGEKEQKFYTFLKNSCPPTSELLGTSDRLFWEPMKVHDIRWNFEKFLVGPDGIPIMRWHHRTTVSNVKMD
ILSYMRRQAALGVKRK