Escolar Documentos
Profissional Documentos
Cultura Documentos
CONCEITO BIOLÓGICO: é a forma de organização primária Se quisermos alinhar essas sequências, podemos ter
do DNA, RNA ou proteínas com objetivo de encontrar diferentes combinações com diferentes Scores.
similaridade, e suas relações funcionais, estruturais e
evolutivas.
– Pares de sequências
– Múltiplas sequências
É evidente que podemos ter infinitos alinhamentos PAM (POINT ACCEPTED MUTATION MATRIX)
diferentes à medida que movemos uma sequência em
Derivado de alinhamentos globais de sequências proximais.
relação à outra e de acordo com o número e a posição das
lacunas. Para encontrar o alinhamento mais razoável do Quanto maior o número assumimos que existe uma maior
ponto de vista biológico, são utilizadas pontuações. distância evolutiva.
O melhor alinhamento será aquele com a maior pontuação Sequências utilizadas com pelo menos 85% de similaridade;
(SCORE).
Usada para traçar origens da Evolução das proteínas.
-- VAZIO (GAP) = 0
ALINHAMENTO LOCAL
COMO FUNCIONA?
ALINHAMENTO GLOBAL
1. Primeiro, marcamos as caixas nas quais duas letras
No global, tenta-se que o alinhamento cubra as duas coincidem. As diagonais indicam coincidências entre as
sequências, introduzindo completamente as lacunas duas sequências.
necessárias.
COMO FUNCIONA?
Para implementar o algoritmo, precisaremos de duas
9. Se as linhas paralelas estiverem próximas (na verdade,
sequências A e B, uma matriz de substituição S e uma
geralmente aparece como um ponto quadrado), isso
matriz para executar o algoritmo M.
indica uma repetição do mesmo resíduo nas duas
sequências (microssatélites).
http://emboss.sourceforge.net/Jemboss/
https://www.java.com/en/download/chrome.jsp)
ftp://emboss.open-bio.org/pub/EMBOSS/windows/
DOTLET Online
https://dotlet.vital-it.ch/
ALGORITMO DE NEEDLEMAN-WUNSCH
PREENCHENDO A MATRIZ III
O valor acima mais o valor da lacuna. Nesse caso, seria: (-2) SOFTWARE NEEDLEMAN-WUNSCH
+ (- 2) = - 4 Como o maior valor seria -1, esse será o valor
Aqui está uma lista de alguns programas gratuitos para
que colocaremos na caixa.
realizar alinhamentos usando o algoritmo Needleman-
Wunsch.
NEEDLE: Online.
ALGORITMO DE SMITH-WATERMAN
Preenchendo o dado
Rastrear de volta PREENCHENDO A MATRIZ III
Alinhamento Como o algoritmo Needleman-Wunsch, para preencher
cada caixa, precisamos calcular três valores e escolher o
maior dos três. Esses valores são calculados da seguinte
maneira:
WATER: Online.
USANDO SOFTWARE
Site: https://dotlet.vital-it.ch/
5. Frameshifts
Como podemos ver no gráfico, o EST corresponde à parte ALINHAMENTO PSA GLOBAL E LOCAL
C-terminal da proteína e contém um 3'-UTR. Porém, a
diagonal não é perfeita: existem duas diagonais parciais, Programa: LALING
mas a do terminal C é deslocada uma posição a jusante em
Site: https://embnet.vital-it.ch/software/LALIGN_form.html
relação à primeira. Este é um sinal claro de mudança de
quadro. A janela de alinhamento mostra isso bem: há uma Realiza um alinhamento do tipo pares de bases
correspondência bastante boa no quadro 1, mas começa na (PSA) tanto global quanto local.
posição 806 ou mais (na sequência da proteína).
USANDO SOFTWARE
Site: https://www.ebi.ac.uk/Tools/psa/emboss_needle/
FERRAMENTA BLAST
necessário que ambos sejam idênticos, mas que permite a
presença de descontinuidades.
BLAST P
APLICAÇÕES:
FERRAMENTA BÁSICA DE LOCALIZAÇÃO DE
ALINHAMENTO LOCAL
Quando se tem uma sequência nova e de função Identifique uma sequência de problemas: nesse
desconhecida, a primeira coisa a se fazer é comparar com caso, a semelhança é 100% e o programa gera um
sequencias já existentes nas bases de dados. alinhamento global. Para identificação inequívoca,
pode ser uma boa ideia desativar o filtro de baixa
TIPOS DE BLAST complexidade.
Encontre sequências semelhantes em um banco
BLAST N de dados de sequência de proteínas. Se a
semelhança for grande, podem ser proteínas
A partir de uma sequência de NUCLEOTÍDEOS, ele realiza
homólogas e é bem provável que as anotações das
uma pesquisa em um banco de dados NUCLEOTÍDEOS.
sequências homólogas também sejam válidas para
APLICAÇÕES: a sequência do problema. O BLAST permite que
uma coleção de sequências homólogas de
Localize oligonucleotídeos, cDNAs, ESTs, produtos diferentes organismos seja montada para
de PCR ou elementos repetitivos em um genoma. alinhamentos de múltiplas sequências ou análises
Identificação de sequências de DNA e anotação de filogenéticas.
DNA genômico. Localizar regiões de similaridade: nesse caso, a
Localize sequências homólogas em diferentes similaridade é limitada a uma região das
espécies. sequências e o programa gera alinhamentos locais
Geração de contigs a partir das leituras mais curtas que podem corresponder a domínios conservados.
obtidas durante o processo de seqüenciamento.
Exclua as subsequências pertencentes aos vetores. VARIANTES:
Detecção de contaminação.
O PSI-BLAST usa os resultados do BLASTP para construir
uma matriz de pontuação específica da posição (PSSM) e
VARIANTES:
depois localizar sequências com parentesco remoto. Se
MEGABLAST: Projetado para identificar uma sequência de uma pesquisa BLASTP não conseguiu encontrar proteínas
problemas (100% de semelhança) ou para encontrar semelhantes ou se muitos dos resultados estão em dúvida,
sequências muito semelhantes (> 95% de resíduos podemos usar o PSI-BLAST. Este programa é o mais sensível
idênticos). É muito rápido porque utiliza um tamanho de de todos e é muito útil para encontrar proteínas
palavra (parâmetro w) de 28 resíduos. relacionadas remotamente, identificar novos membros de
uma família de proteínas ou descobrir proteínas com
Blastn: É mais sensível que o anterior, porque usa por
sequências altamente divergentes, mas com uma estrutura
padrão um parâmetro w = 11, mas é mais lento. Ele foi
tridimensional semelhante.
projetado para encontrar seqüências semelhantes em
diferentes organismos. Se necessário, você também pode BLAST X
pesquisar com w = 7, aumentando a sensibilidade, mas
reduzindo significativamente a velocidade. A partir de uma sequência de NUCLEOTIDES, ele realiza
uma pesquisa em um banco de dados PROTEIN. O
MEGABLAST descontínuo: Ele também foi projetado para programa traduz a sequência de nucleotídeos em seus seis
encontrar seqüências semelhantes em diferentes quadros de leitura possíveis (três quadros de leitura por
organismos. Ele usa w = 11 e, nessas mesmas condições, é fita) e compara essas sequências traduzidas com um banco
mais sensível e eficaz que o blastn, porque ignora algumas de dados de proteínas. O BLAST X é útil quando
bases (a terceira de cada códon) e porque, ao procurar as suspeitamos que nossa sequência de DNA possa codificar
palavras da sequência do problema nos BDs, não é alguma proteína.
APLICAÇÕES: Essa área em torno de 25% é chamada de "zona
crepuscular" ou twilight zone. Os valores ao redor da zona
Localize genes que codificam proteínas no DNA
crepuscular devem ser tomados com cautela e outros
genômico.
parâmetros devem ser observados para confirmar ou
Determine se uma transcrição (convertida em
rejeitar a existência de homologia. Por exemplo, sequências
cDNA ou EST) codifica alguma proteína conhecida.
curtas de problemas em bancos de dados grandes têm mais
Defina as regiões de codificação e não codificação
chances de fornecer correspondências altas. Um parâmetro
de um mRNA.
muito interessante que nos permite valorizar nossa
TBLAST X pesquisa, levando em consideração esses fatores, é o valor
E (valor esperado) que veremos em mais detalhes na
A partir de uma sequência de NUCLEOTIDES, ele realiza próxima seção do tópico.
uma pesquisa em um banco de dados NUCLEOTIDE, mas, ao
contrário de Blast n, o TBLASTX compara as traduções de ALGORITMO DO BLAST
seis quadros de leitura da sequência de consulta de
A realização de uma pesquisa exata exigiria uma
nucleotídeo com as traduções de seis quadros de leitura do
quantidade computacionalmente excessiva de
banco de dados de sequência de nucleotídeos.
comparações. O Blast realiza alinhamentos locais entre a
sequência do problema e o banco de dados, mas usa um
APLICAÇÕES:
algoritmo heurístico, ou seja, ele não garante um resultado
Detecte novos genes em sequências genômicas (da ideal, mas permite realizar o alinhamento com bons
mesma espécie ou de espécies diferentes), resultados.
especialmente aquelas que são difíceis de
encontrar pelos métodos tradicionais (genes O Blast é baseado no pressuposto de que bons
dentro de outros genes, processamento alinhamentos contêm regiões curtas com correspondências
alternativo ou genes com baixos níveis de perfeitas (ou muito boas). Este algoritmo consiste em três
expressão). fases:
Descubra transcrições (na forma de cDNA ou EST)
cujos produtos ainda não estão incluídos nos BDs. 1) SEMENTES OU SEEDING: A sequência do problema é
dividida em pequenos fragmentos (WORDS). No caso de
OUTRAS CONSIDERAÇÕES sequências de DNA, eles geralmente são 11 nucleotídeos (w
= 11) e no caso de proteínas são geralmente 3 aminoácidos
Podemos descobrir sequências nucleotídicas semelhantes a (w = 3), embora esse parâmetro possa ser ajustável.
uma sequência problemática desconhecida, mas o mais Posteriormente, a partir de cada uma dessas palavras, são
comum é trabalhar com sequências de aminoácidos. Dessa criadas listas de palavras semelhantes (Neighbors) até um
forma, podemos identificar proteínas, encontrar proteínas determinado valor limite T (Threshold), e tomando como
homólogas, selecionar proteínas para realizar MSA ou referência uma matriz de pontuação (por exemplo, match =
identificar regiões ou domínios conservados em proteínas 2, incompatibilidade = -3 gap = -5 para nucleotídeos e
de várias espécies. Blosum62 para aminoácidos). As palavras na lista que estão
acima desse valor são marcadas nas sequências do banco
Quando duas sequências são parecidas, é muito provável
de dados (sementes ou SEEDING) e as que estão abaixo
que sejam homólogas, isso significa que, evolutivamente,
desse limite não são levadas em consideração pelo
elas têm um ancestral comum e, portanto, sua estrutura
programa.
pode ser muito semelhante e também sua função. Isso nos
permite saber muitas coisas sobre nossa sequência recém-
descoberta apenas comparando-a com o restante das
sequências para as quais já temos muitas informações. No
caso de proteínas, considera-se que acima de 25% de
similaridade é muito provável que exista homologia (no
caso de ácidos nucléicos deve exceder 70%), desde que
comparemos sequências de pelo menos 100 resíduos. Mas,
na realidade, a existência ou não de homologia que não
podemos saber com certeza, é possível que proteínas com
15% de identidade em seus resíduos de aminoácidos
tenham a mesma estrutura e função.
USANDO SOFTWARE
FERRAMENTA BLAST
O valor esperado (E) é um parâmetro que indica o número Podemos escolher qual Database, será usado na análise do
de coincidências que podem ser "esperadas" por acaso, alinhamento feito pelo Blast. Seguidamente podemos
com uma pontuação igual ou melhor que a obtida ao escolher o organismo ou o grupo de organismos a qual o
pesquisar em um banco de dados de tamanho semelhante. programa irra utilizar, caso aperte em Excluide, o programa
Por exemplo, um valor E = 1 significa que, em um banco de irá procurar em todos menos o escolhido na opção
dados de tamanho atual, seria de esperar ver 1 organismo.
corresponder a uma pontuação igual ou melhor,
simplesmente por acaso. Quanto menor o valor E, ou mais
próximo de zero, mais "significativa" será a
correspondência. Nessa opção podemos escolher os tamanhos das
sequências nas quais o programa deve buscar e alinhar.
Como no exemplo que selecionamos 100:400[slen] isso
indica que é interessante apenas sequencias de tamanho
entre 100 a 400 nucleotídeos.
Podemos ainda escolher o tipo, sendo o (megablast) uma
método de análise mais rápido que apresentará resultados
mais próximos da sequência em análise, já somente o Blast
N, resultará em uma buscar mais ampla, considerando
qualquer sequência com o mínimo de similaridade.
SISTEMA DE PONTUAÇÃO (SOMA DOS PARES) ANÁLISE PCR A presença de regiões nucleotídicas bem
conservadas em uma família de proteínas pode ser muito útil ao
Para cada coluna de resíduos (nucleotídeos ou projetar iniciadores para PCR.
aminoácidos), obtemos um valor que será o resultado da
adição de todos os pares de valores possíveis obtidos a MÉTODOS DE ALINHAMENTO MÚLTIPLO
partir de uma matriz de pontuação. O SCORE final do
alinhamento será a soma dos valores obtidos em cada Algoritmos heurísticos para MSA
coluna.
Como já vimos nos tópicos anteriores, existem métodos
exaustivos para alinhar pares de sequência. Esses métodos,
como os baseados em programação dinâmica, embora nos
ofereçam resultados ótimos, normalmente não podem ser
usados em problemas de alinhamentos de múltiplas
sequências. Isso se deve aos enormes requisitos
computacionais, tanto de tempo quanto de memória, que
seriam necessários para realizá-los. Para resolver isso,
MATRIZ DE PONTUAÇÃO
existem outros métodos que, apesar de não garantirem o
melhor resultado possível, têm a vantagem de serem
computacionalmente viáveis e de obter bons resultados.
Para não cometer erros desse tipo, existe uma regra que
ALINHAMENTO BASEADO EM BLOCOS geralmente funciona bem: cada sequência deve estar entre
30 e 70% semelhante, com mais da metade do total de
Os métodos acima são baseados principalmente no sequências.
alinhamento global e, portanto, não são adequados para o
reconhecimento de regiões conservadas entre sequências 4. COMPRIMENTO DA SEQUÊNCIA
de comprimentos variados. Para sequências que
Os programas de alinhamento de sequência geralmente
compartilham apenas semelhanças regionais, é melhor usar
preferem que sejam aproximadamente do mesmo
métodos baseados no alinhamento local. A estratégia
tamanho. Misturar sequências completas com fragmentos
identifica um bloco de alinhamento compartilhado por
mais curtos pode nos dar problemas de alinhamento.
todas as sequências.
ALINHAMENTO PROGESIVO:
Expassy: https://embnet.vital-it.ch/software/ClustalW.html
EMBOSS: https://www.ebi.ac.uk/Tools/msa/clustalo/
Expassy: http://tcoffee.vital-it.ch/apps/tcoffee/index.html
EMBOSS: https://www.ebi.ac.uk/Tools/msa/tcoffee/
ALINHAMENTO ITERATIVO
PRRN: http://www.genome.jp/tools-bin/prrn
FERRAMENTA BLAST
Programa: BLAST N
Site: