Você está na página 1de 48

NCBI e alinhamento de sequências

Profa. Melise Chaves Silveira

Descrição

Portal do NCBI (Centro Nacional de Informação Biotecnológica), alinhamentos de sequências biológicas e desenho
de primers.

Propósito

O conhecimento das plataformas e ferramentas mais utilizadas na bioinformática é essencial para acompanhar a
constante evolução da ciência, que reflete em diferentes formas de obtenção e análises de dados biológicos para o
desenvolvimento de novos testes diagnósticos e metodologias científicas.

Objetivos
Módulo 1

A importância do NCBI
Reconhecer a importância do NCBI para as ciências biomédicas.

Módulo 2

Alinhamentos de sequências
Distinguir os tipos de alinhamentos de sequências biológicas disponíveis.

Módulo 3

Os Primers
Aplicar o conhecimento sobre primers no desenho dessas sequências utilizando programas de computador.

Introdução
A tecnologia está presente o tempo inteiro na nossa vida pessoal, como, por exemplo, os smartphones ou
aparelhos de televisão cada vez mais modernos. A sua vida profissional também não pode negar todas as
vantagens, facilidades e desafios que as novas tecnologias trazem.

Ao longo deste conteúdo, discutiremos como são armazenados dados biológicos que são produzidos a partir
de equipamentos modernos, como os sequenciadores de DNA. Além disso, você vai aprender a usar
ferramentas computacionais que permitem gerar informações e trazer conhecimento a partir dessas
sequências. Ao final deste conteúdo, termos como NCBI, alinhamento de sequência e desenho de primers
serão agregados ao seu repertório acadêmico e estarão bem claros para você.
1 - A Importância do NCBI
Ao final deste módulo, você será capaz de reconhecer a importância do
NCBI para as ciências biomédicas.

NCBI (National Center for Biotechnology


Information)
Um dos marcos históricos mais importantes da bioinformática foi a realização do Projeto Genoma Humano, com o
objetivo de identificar a sequência de nucleotídeos que compõe os 46 cromossomos humanos.

Ao final desse projeto, que durou de 1990 a 2001, a bioinformática ganhou um grande impulso. Logo surgiram
tecnologias para o sequenciamento de DNA capazes de determinar a ordem de nucleotídeos de genomas inteiros,
de forma mais rápida e barata.
Ilustração de sequenciamento genético.

Até o final da década de 1990, os arquivos de sequência de ácidos nucleicos continham cerca de 4 bilhões de
nucleotídeos, que correspondem a pouco mais de um único genoma humano. No final dos anos 2000, esse número
já era maior que 100 bilhões.

Mas onde está guardada toda essa quantidade de sequências de nucleotídeos?

Funções e aplicações do NCBI


Sequências de nucleotídeos e aminoácidos, estruturas tridimensionais de proteínas e vias metabólicas são
exemplos de dados biológicos. A bioinformática utiliza bancos de dados para armazenar e organizar o grande
volume de dados gerados a partir da prática biomédica.

Isso permite que quando alguém precise de um determinado dado biológico, ele possa ser recuperado facilmente.
Muitos desses bancos de dados podem ser acessados por qualquer pessoa, de qualquer lugar do mundo, utilizando
a rede mundial de computadores (World Wide Web).

O NCBI (National Center for Biotechnology Information), Centro Nacional para Informação Biotecnológica, é uma
organização sediada nos Estados Unidos da América que controla o portal mais famoso da bioinformática, cujo
acesso é feito pelo endereço ncbi.nlm.nih.gov. Dentro desse portal estão disponíveis diferentes bancos de dados
biológicos e ferramentas para analisá-los.

O NCBI se propõe a reunir o resultado do trabalho de pesquisadores ao redor do mundo em um só lugar, facilitando o
acesso e manipulação desses registros. Essa iniciativa impulsiona o avanço do conhecimento na área
biotecnológica.
Sede do NCBI em Bethesda, Maryland, EUA.

Mas como funciona esse processo? expand_more

Imagine que você está estudando uma cepa de bactéria resistente a todos os antibióticos disponíveis e
decidiu sequenciar o genoma desse organismo para descobrir quais genes são responsáveis por essa
característica. Com a sequência em mãos, você pode enviá-la para os responsáveis pelo NCBI e, então, seu
trabalho se juntará a milhões de outras sequências em um banco de dados de sequências nucleotídicas.

Se um pesquisador, em qualquer lugar do mundo, quiser saber a ordem dos nucleotídeos no cromossomo da
“sua” bactéria, é só ele usar ferramentas de busca disponíveis no portal do NCBI, fazer o download dessa
sequência para o seu computador e estudá-la.

Agora, vamos aprender sobre exemplos reais de bancos e ferramentas disponíveis pelo portal do NCBI.

PubMed
É um banco de dados de informações sobre literatura biomédica com acesso parcialmente livre. Nesse banco,
encontramos artigos científicos publicados em milhares de revistas científicas diferentes, principalmente aquelas
que publicam em inglês, o “idioma universal da ciência”.

Atenção
É importante ressaltar que, para algumas revistas, é possível acessar livremente apenas o resumo dos artigos.
Nesses casos, é necessário pagar uma “assinatura” para conseguir o acesso completo, o que é normalmente feito
por instituições de pesquisa. Existe também a possibilidade de pagamento apenas do artigo de interesse, caso você
realmente precise ler o conteúdo e sua instituição não tenha a assinatura de determinada revista científica.

Quando estiver desenvolvendo seu trabalho de conclusão de curso (TCC), após a escolha do tema, você vai começar
a buscar artigos científicos sobre ele. Uma forma de encontrar essa literatura é acessar o PubMed pelo portal do
NCBI e buscar por palavras-chave. Imagine que sua busca resulte em 100 artigos.
Nesse número estão incluídos os artigos de acesso livre e os de acesso restrito. É possível, então, “filtrar” a busca
apenas por artigos que você consiga ler inteiros. Nesse caso, é muito provável que o número de artigos disponíveis
seja bem menor que 100. Além de direcionar a busca para artigos de acesso livre, também é possível utilizar os
filtros para determinar o período de publicação desejado, o tipo de artigo (ensaio clínico ou revisão, por exemplo),
dentre outras formas de busca mais específicas que falaremos adiante.

GenBank
Outro banco de dados biológico mantido pelo NCBI. O tipo de dado armazenado nesse caso são sequências
primárias de nucleotídeos de quase todos os organismos, com acesso liberado. Trata-se principalmente de
sequências de DNA, que podem corresponder a um gene, partes do cromossomo, o cromossomo inteiro ou
plasmídeos. Essas sequências são resultado do trabalho de pesquisadores da comunidade científica mundial, que
as enviam ao GenBank. O acesso a esses dados é totalmente livre, e qualquer pessoa pode fazer o download das
sequências de nucleotídeos para seu computador.

Você se lembra do exemplo da bactéria resistente a todos os antibióticos que discutimos agora mesmo?

Podemos aplicar esse exemplo ao contexto do GenBank, conforme os seguintes passos:

Extrair o DNA da célula Sequenciá-lo utilizando Entrar no portal do NCBI para


bacteriana; tecnologias de enviar o arquivo com as
sequenciamento total de sequências de nucleotídeos
genoma; ao GenBank.
Feito isso, após um processo de triagem automatizada, em alguns dias sua sequência estará disponível
mundialmente!

Diante dessas informações, você pode estar se perguntando:

E por que devo disponibilizar esses dados ao mundo?

Resposta
Para que você possa provar que fez, é preciso “mostrar”. Além disso, ciência é feita em conjunto, o avanço de um é o
avanço de todos.

RefSeq
Existem vários outros exemplos de bancos de dados disponíveis no portal do NCBI, mas o último que veremos será
um banco de dados referência (RefSeq). O RefSeq possui um conjunto de sequências primárias de DNA genômico,
transcritos e proteínas. O que faz desse banco uma referência é o fato de seus dados serem não redundantes, bem
anotados e de livre acesso.

Transcritos
RNAs “transformados” em DNA complementar.

As sequências genômicas disponíveis no RefSeq são cópias de sequências selecionadas a partir do GenBank. Essa
seleção é feita continuamente pela equipe que trabalha no NCBI e por colaboradores, que verificam se não existem
sequências repetidas (não redundantes) e se a localização e função dos genes foram corretamente atribuídos (bem
anotados).

Os dados contidos no RefSeq fornecem uma referência confiável para identificação e caracterização de genes,
análise de mutações e polimorfismos, estudos de expressão gênica e anotação de genomas (tema que iremos
estudar em outro momento).
Curiosidade
As sequências dos transcritos e das proteínas contidas no RefSeq são geradas por várias etapas, que incluem o
processamento computacional e curadoria manual (realizada por especialistas), de maneira que podemos dizer,
então, que o RefSeq é um banco de dados curado.

No contexto da pandemia da covid-19, uma das grandes preocupações é o surgimento de novas variantes do vírus
SARS-CoV-2.

Variantes do SARS-CoV-2 conhecidas e suas regiões de origem.

Variantes são amostras da mesma espécie, mas que apresentam pequenas mudanças na ordem de bases
nitrogenadas (A, T, G e C) do material genético em relação às primeiras cepas sequenciadas desse vírus.

Mudanças no material genético podem conferir ao vírus maior capacidade de disseminação, aumentar a chance de
provocar doença ou até provocar sintomas mais graves no doente.

Por isso é tão importante que laboratórios que realizem o sequenciamento genômico do vírus SARS-CoV-2 sejam
também capazes de identificar se a amostra analisada se trata de uma variante. Isso é possível se o profissional
comparar a sequência de bases obtidas pelo sequenciamento com uma sequência referência.

Já pensou onde podemos encontrar essa sequência referência? No RefSeq.

Exemplo
No RefSeq está disponível a sequência de nucleotídeos de uma amostra de SARS-CoV-2 isolada em Wuhan, na
China, local onde a pandemia teve início. Os dados dessa amostra são confiáveis e foram usados em um artigo
publicado na revista Nature, que relata a emergência da covid-19 (Wu et al., 2020).

Blast
Agora que já falamos sobre bancos de dados, vamos conhecer uma ferramenta muito útil que está disponível no
portal do NCBI, o BLAST (Basic Local Alignment Search Tool), um software (programa de computador) que encontra
regiões de similaridade entre sequências biológicas. Ele é capaz de comparar tanto sequências de nucleotídeos
quanto sequências de aminoácidos. No final da comparação, o programa mostra a porcentagem de semelhança
entre as sequências e um valor de significância estatística sobre aquela comparação.

Em bioinformática, essa comparação entre sequências é chamada de alinhamento. Vamos estudar com detalhes os
vários tipos de alinhamento de sequências possíveis nos próximos tópicos, mas, por agora, vamos nos deter a à
aplicação do BLAST no portal do NCBI.

Agora que você já sabe o que o BLAST é capaz de fazer, o próximo passo é entender como ele pode ser aplicado no
portal do NCBI. Esse programa foi criado por Stephen Altschul e colaboradores, em 1990, e hoje é usado em vários
bancos de dados que armazenam sequências biológicas.

Comparação
Em bioinformática, essa comparação entre sequências é chamada de alinhamento. Vamos estudar com detalhes os
vários tipos de alinhamento de sequências possíveis nos próximos tópicos.

Ao acessar o BLAST pelo portal do NCBI, você pode comparar uma sequência de nucleotídeos ou aminoácidos de
seu interesse com todas as milhões de sequências armazenadas nos bancos de dados do NCBI. Como resultado,
você vai obter uma lista com as sequências do banco mais similares à sua. Essa informação pode ser usada para
descobrir sequências evolutivamente próximas, que tenham funções relacionadas ou que pertençam a uma mesma
“família” de genes.

Vamos fazer uma analogia à função do BLAST no NCBI. expand_more

Imagine que você esteja voltando do trabalho no ônibus exclusivo da empresa. De repente, começa uma
chuva muito forte, mas você não trouxe guarda-chuva. Uma pessoa do seu lado tem um reserva e lhe
empresta, mas, na correria, você saltou do ônibus e esqueceu de perguntar o nome da pessoa, e precisará
devolver o guarda-chuva.
Uma forma de encontrar essa pessoa é descrevendo suas características físicas ao motorista do ônibus
naquele dia. Pode ser que ele não saiba exatamente quem é, afinal, o fluxo de pessoas na empresa é muito
grande, mas ele poderia lhe dar uma “lista” com nomes de prováveis donos.

Grosso modo, podemos comparar todas as pessoas que usam o transporte da empresa às sequências nos
bancos de dados do NCBI. As características físicas que você descreveu ao motorista seriam as regiões de
similaridade que o BLAST encontra entre a sua sequência e as sequências dos bancos de dados. Enfim, a
lista de nomes do motorista pode ser comparada à lista com as sequências que resultam da busca feita
usando o BLAST.

Pesquisa e recuperação de dados


Como já sabemos, a ferramenta BLAST é uma das formas de acessar os dados armazenados em alguns bancos do
NCBI, e vamos agora explorar essa e outras alternativas. Convido você a me acompanhar nas etapas que vou
descrever, e você poderá vivenciar daí onde está uma parte prática da bioinformática. Contextualizando nossas
buscas, vamos supor que você esteja iniciando em um novo laboratório de pesquisa sobre bactérias resistentes aos
antibióticos. Para se inteirar do assunto, você precisa ler artigos sobre esse tema. Uma das alternativas é usar o
banco de dados PubMed.

Para isso, você deve seguir os seguintes passos:

Primeiro, acesse o PubMed pelo portal do NCBI (pubmed.ncbi.nlm.nih.gov/).


Em seguida, digite palavras-chave em inglês que envolvam o tema de interesse.

E, por último, selecione search (procurar) para buscar os resultados da pesquisa.

Após a busca, poderemos observar o número total de artigos recuperados sobre o tema e o período em anos dessas
publicações:

Uma busca feita no dia 23 de julho de 2021 usando como palavras-chave “bacteria”, “resistance” e “antimicrobial”
resultou em 201.011 artigos, publicados entre 1945 e 2021.

Ao observarmos a quantidade de resultados encontrados, vemos que esse número é muito grande e muito tempo
seria gasto para ler toda essa bibliografia. Uma solução para diminuir o número de resultados de uma busca inicial
no PubMed é restringindo-a. Na mesma página que mostra o resultado da busca, é possível observar, do lado
esquerdo, os filtros de pesquisa no PubMed; dentre eles, está disponibilidade do texto, tipo de artigo e ano de
publicação.
No caso do exemplo que estamos seguindo, ao filtrar a busca por textos completos e gratuitos (free full text), o
número de resultados diminui para 77.903. Isso acontece porque alguns artigos do PubMed são liberados para
leitura integral apenas mediante pagamento.

Uma busca ainda mais específica pode ser realizada ao clicarmos em Advanced (avançado), na página inicial do
PubMed. Dessa forma, é possível especificar as palavras-chave por campo de pesquisa.

Para isso, você precisa:

Escolher o campo de Na caixa à frente, digitar as Clique em “Adicionar” (Add). É


pesquisa em “Adicione palavras-chave; e
termos à caixa de consulta” u
(Add terms to the query box), a
como, por exemplo, “Título” s
(Title); (

Alguns dos outros campos de pesquisa disponíveis são autor, data e nome da revista. Em um teste especificando
que as três palavras-chave do exemplo que estamos usando deveriam aparecer no título artigo ao mesmo tempo. O
resultado dessa busca avançada foram 9.413 artigos (na data pesquisada), número bem menor do que o que
estávamos vendo nos resultados das buscas anteriores.
Atenção
É importante que as palavras-chave sejam traduzidas para o inglês porque a maioria dos textos científicos são
publicados nesse idioma.

Após cada busca, uma lista de títulos de artigos é disponibilizada. Esses títulos aparecem na cor azul e são
hiperlinks para a página em que você vai encontrar mais informações sobre o artigo. Se o texto estiver disponível de
forma integral, nessa segunda página haverá um novo hiperlink para a revista na qual o artigo foi publicado (full text
link).

Os próximos bancos que vamos explorar serão GenBank e RefSeq. Como ambos armazenam sequências, a forma
de busca é semelhante. Podemos utilizar como ferramentas a busca textual ou a busca através do BLAST.

Hiperlinks
Ligam aquela página em que você está à página em que você vai encontrar mais informações sobre o artigo.

Busca textual
A primeira delas é a busca textual usando palavras-chave. A ferramenta textual implementada vai buscar por essas
palavras nos descritores das sequências depositadas nos bancos de dados.

Suponha que, após ler a bibliografia relacionada às bactérias resistentes aos antibióticos, você tenha percebido que
uma das principais causas da resistência sejam bactérias produtoras de enzimas que destroem essas moléculas.
Uma dessas enzimas é chamada de KPC (Klebsiella pneumoniae carbapenemase) e você pode encontrar a
sequência de nucleotídeos do gene que codifica para essa enzima.

Para consultar nesses dois bancos, devemos:

Acessar o GenBank ou RefSeq pelo portal do NCBI: ncbi.nlm.nih.gov/genbank/;

Em seguida, digitar a palavra-chave relacionada à sua sequência de interesse;

E, por último, clicar no botão “Search”.


A palavra-chave de interesse pode ser o nome do gene ou a espécie, por exemplo. Como resultado da busca, você
vai encontrar uma lista de descritores de sequências depositadas no banco que contenham sua palavra-chave.

Quem define o descritor da sequência é a pessoa que submeteu os dados ao NCBI.

Exemplo
Um exemplo de descritor que aparece para a pesquisa usando “KPC” como palavra-chave é “Escherichia coli strain
E02162 plasmid pE02162_KPC, complete sequence” (plasmídeo pE02162_KPC da cepa E02162 de Escherichia coli,
sequência completa).

Esses descritores aparecem na cor azul e são hiperlinks, ou seja, ligam aquela página em que você está à página em
que estão mais informações sobre aquela determinada sequência. Nessa nova página, é possível saber o tamanho
da sequência em pares de bases, quem foi o autor da submissão, se ela foi publicada em algum artigo, dentre outras
informações.

O dado mais importante é a sequência em si, que possui download liberado, tanto para GenBank quanto para RefSeq.
A partir deste ponto, devemos realizar três etapas:

1 - Clicar em Send to. 2 - Selecionar File (arquivo) e 3 - Clicar em Create File (criar
escolher o formato do arquivo).
arquivo.
A maioria dos programas desenvolvidos por bioinformatas para trabalhar com dados de sequências de nucleotídeos
ou sequências de aminoácidos consegue “ler” o formato FASTA, um formato baseado em texto para representar
tanto sequências de nucleotídeos quanto sequências de aminoácidos usando códigos de uma única letra.

As regras desse formato são que uma única linha, que comece com um colchete angular (>), contenha a definição
das sequências, e as próximas linhas sejam letras que correspondem a bases nitrogenadas (A, T, C e G) ou
aminoácidos (G, A, L, V, I, P, F, S, T, C, Y, N, Q, D, E, R, K, H, W e M). Portanto, se você for fazer o download de uma
sequência do GenBank ou RefSeq e deseja um arquivo de fácil utilização, escolha o formato FASTA.

Formato
Formato de um arquivo é a forma como o dado deve ser armazenado para que determinado programa de computador
possa usá-lo. Formatos conhecidos de arquivos são DOC e XLS, usados pelos programas Microsoft Word e Microsoft
Excel, respectivamente.

Busca a partir do BLAST


Outra forma de buscar por sequências dentro dos bancos GenBank e RefSeq é usando a ferramenta BLAST. Esse
programa precisa de uma sequência pergunta, chamada de query, que será fornecida pelo usuário. A partir dela, o
BLAST realiza alinhamentos com todas as sequências do banco de dados com o objetivo de encontrar sequências
com regiões altamente similares e de alta confiança (subject). Veremos com detalhes como isso é feito quando
estudarmos alinhamento de sequências.

video_library
Como utilizar o PubMed, GenBank e RefSeq
Neste vídeo, a especialista apresenta um passo a passo sobre como buscar por artigos no PubMed usando
palavras-chave e sequências no GenBank e RefSeq, utilizando os filtros de resultados e a busca avançada.
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1

Vimos que o NCBI controla o portal mais famoso da bioinformática que se propõe a reunir o resultado do
trabalho de pesquisadores ao redor do mundo em um só lugar. A partir disso, analise a frase a seguir: "O NCBI
mantém o PubMed, que é um (1) que serve para (2)." Qual opção completa corretamente os números "1" e "2"?

A (1) banco de dados, (2) armazenar artigos científicos

B (1) programa para alinhamento, (2) comparar sequências biológicas

C (1) banco de dados, (2) armazenar sequências de nucleotídeos

D (1) programa para alinhamento, (2) armazenar artigos científicos

E (1) banco de dados, (2) armazenar estrutura tridimensional de proteínas

Parabéns! A alternativa A está correta.


O PubMed é um banco de dados de bibliografia da área biomédica, administrado e disponível no portal do NCBI,
que armazena artigos científicos publicados em milhares de revistas científicas.

Questão 2

Bancos de dados biológicos podem armazenar diferentes tipos de dados. O GenBank é um banco de dados
disponível no portal do NCBI, no qual podemos obter sequências de nucleotídeos. Qual das opções abaixo é um
formato disponível para armazenamento de sequências no GenBank?

A JPEG

B Docx

C PDF

D FASTA

E Texto

Parabéns! A alternativa D está correta.


O formato FASTA é o mais usado pelos programas de computador que manipulam sequências biológicas
primárias. É possível fazer o download da sequência nesse formato pelo GenBank.
2 - Alinhamentos de sequências
Ao final deste módulo, você será capaz de distinguir os tipos de
alinhamentos de sequências biológicas disponíveis.

Alinhamento de sequências
Todas as milhões de sequências de nucleotídeos e aminoácidos que já estão depositadas em bancos de dados são
superimportantes. É possível usar essas sequências para, por exemplo, descobrir variações dentro de uma espécie,
identificar relações evolutivas entre espécies ou sugerir o papel de uma nova proteína.

Essas inferências são feitas a partir de comparações, realizadas fundamentalmente pelo processo de alinhamento
de sequências.

O objetivo de um alinhamento é encontrar o maior número de resíduos similares ou idênticos


entre sequências biológicas primárias.
ilustração de sequenciamento de nucleotídeos.

No alinhamento, os resíduos iguais ficam um embaixo do outro, e em casos de divergências observamos resíduos
diferentes na mesma posição ou “buracos”. Em se tratando de sequências de DNA, os resíduos são nucleotídeos,
enquanto para proteínas os resíduos são os aminoácidos.

Considerando as sequências “ATGGC” e “AAGGC”, ambas possuem cinco nucleotídeos, e um alinhamento entre elas
iria mostrar uma porcentagem de identidade de 80% (4 em 5 bases nitrogenadas são idênticas e uma é diferente,
marcada em vermelho).

Em bioinformática, nos referimos às letras que representam os nucleotídeos na sequência de DNA como bases. Isso
acontece porque o que difere um nucleotídeo do outro na molécula de DNA é sua base nitrogenada.

Agora, se vamos nos referir ao comprimento de uma sequência de DNA, a “medida” usada são pares de bases (pb).
Falamos em pares, pois o DNA é uma molécula de fita dupla.

Curiosidade
Podemos dizer que o genoma humano (todo o conteúdo de DNA de uma célula humana) é formado por mais de 3,2
bilhões de pares de bases.

Tipos de aplicações do alinhamento


Muitos programas de computador já foram e vêm sendo desenvolvidos com a função de realizar o alinhamento de
sequências. O objetivo geral é o mesmo, mas existem diferenças entre eles que precisamos saber, pois isso ajuda na
escolha da melhor opção para cada análise. Essas diferenças estão relacionadas à exigência ao encontrar o melhor
pareamento possível, à extensão que será alinhada e ao número de sequências alinhadas.

Precisão do alinhamento
Como já mencionado, o objetivo dos programas de alinhamento de sequências é encontrar o melhor pareamento
possível, aquele que reflita o maior número de similaridade entre as sequências comparadas. No entanto, o
alinhamento “perfeito” leva tempo e poder computacional para ser alcançado. Por isso, algumas ferramentas optam
por acelerar o processo e buscam por uma aproximação do alinhamento ideal. Usando esse critério, o programa de
alinhamento pode ser do tipo ótimo ou do tipo heurístico. Vamos conhecê-los?

Um software que execute o alinhamento ótimo fornece como resultado o melhor alinhamento possível entre as
sequências, de acordo com os seus critérios. Isso significa que usando essa mesma ferramenta você não vai
conseguir um resultado melhor, mesmo que você refaça milhares de vezes a comparação entre as mesmas
sequências. No entanto, encontrar o alinhamento perfeito pode se tornar inviável devido ao número de comparações
ou de sequências alinhadas. Esses casos exigiriam computadores com memória e processadores poderosíssimos e
levariam um tempo gigantesco para serem concluídos.

A opção para acelerar a comparação de sequências é adotar programas de alinhamento heurístico. Esse tipo de
estratégia pega atalhos e não analisa todos os alinhamentos possíveis, contanto que isso não prejudique
significativamente a qualidade do resultado. Dessa forma, você vai encontrar uma comparação adequada, mesmo
que imperfeita. A ferramenta para alinhamento heurístico busca pela aproximação ao alinhamento ideal e por isso é
mais rápida. Fica mais fácil escolher pelo alinhamento ótimo ou heurístico quando compreendermos as próximas
características relevantes sobre o alinhamento de sequências.

Extensão alinhada
Existem duas formas de alinharmos sequências biológicas considerando sua extensão: alinhamentos globais ou
locais.

Alinhamento global

Um programa para alinhamento global vai parear os resíduos em toda a extensão das sequências, de ponta a
ponta. Essa abordagem é indicada quando pressupomos que as sequências são similares ao longo de todo seu
comprimento.
Se desejamos comparar a sequência de um mesmo gene em organismos diferentes dentro da mesma espécie,
é bem provável que as sequências se diferenciem em poucas posições devido a mutações pontuais. Nesse
caso, o alinhamento global é indicado.

close

Alinhamento local

Não considera o comprimento total da sequência, e vai alinhar as regiões mais similares. Esse tipo de
alinhamento é indicado quando as sequências são divergentes ou possuem comprimento diferente. Imagine
uma sequência de proteína recém-obtida. Por ser nova, ela pode não apresentar semelhança significativa em
todo o seu comprimento com sequências de um banco de dados de funções conhecidas. A estratégia, então, é
realizar o alinhamento local com as sequências desse banco e encontrar similaridade com regiões curtas que
sejam padrões relacionados às funções conhecidas, como se fossem “blocos”.

As sequências curtas conservadas entre diferentes proteínas são chamadas de domínios.

Comparação entre os alinhamentos global e local.

Vejamos, então, um exemplo com a aplicabilidade prática em conseguirmos diferenciar os alinhamentos global e
local e sabermos em quais situações usar cada um deles:

Exemplo
O domínio contendo repetições ricas em leucina (um aminoácido) é evolutivamente conservado em muitas proteínas
associadas à imunidade inata em plantas, invertebrados e vertebrados. Imagine que você esteja estudando uma
nova espécie de planta que foi encontrada na Floresta Amazônica. Nos seus estudos, você obteve uma proteína que
é muito produzida por essa espécie, mas, comparando a sequência completa de aminoácidos dessa proteína
(alinhamento global), você não encontra nenhuma outra sequência conhecida similar. A opção é comparar blocos
dessa sequência com outras pequenas partes de proteínas conhecidas (alinhamento local). Se você encontrar uma
região muito similar e essa região estiver relacionada a uma função conhecida (domínio), você já pode sugerir um
papel biológico para a sua proteína de estudo.
Número de sequências
Quanto ao número de sequências alinhadas, temos dois tipos de alinhamentos: simples e múltiplos. Vamos
conhecer agora cada um deles.

Alinhamento simples

Primeiro, vamos falar sobre o alinhamento simples, também chamado de par a par ou pairwise, quando apenas duas
sequências são comparadas.

Essa é a estratégia de alinhamento usada em bancos de dados de sequências biológicas, por exemplo. O programa
de busca por alinhamento implementado em um banco de dados vai realizar o pareamento entre a “sequência-
pergunta” de interesse do usuário com as sequências que estão no banco. O número de alinhamentos simples que
será feito é proporcional ao número de sequências armazenadas no banco de dados, sempre par a par: sequência-
pergunta + sequência do banco.

Quando fazemos o alinhamento de uma sequência contra um banco de dados, é esperado encontrarmos várias
sequências similares. No final podemos obter um grupo de sequências bem parecidas e é possível converter os
vários alinhamentos simples em um único alinhamento com todas elas.

Alinhamento múltiplo

É a comparação de três ou mais sequências relacionadas para obter a correspondência ideal entre elas. O resultado
desse alinhamento permite a identificação de regiões que sejam conservadas entre todas as sequências. Também é
possível visualizarmos quais as diferenças na ordem dos resíduos, que correspondem a mudanças evolutivas
ocorridas ao longo dos anos.

É a partir desse tipo de alinhamento que a relação evolutiva entre os organismos pode ser sugerida, e assim são
geradas as árvores filogenéticas (parecidas com uma árvore genealógica).

Árvore filogenética do Micoplasma (bactérias da classe dos Mollicutes).

Na árvore filogenética, os galhos são as distâncias entre os organismos, as ramificações são os ancestrais e as
pontas os descendentes comparados.
Programas para alinhamento de sequência
Antes de darmos exemplos reais de programas de computador que são usados para o alinhamento de sequências,
precisamos definir alguns termos usados para explicar o funcionamento dessas ferramentas.

Observe a imagem seguir que mostra um alinhamento simples entre duas sequências de nucleotídeos e acompanhe
as definições.

Alinhamento simples de sequências de nucleotídeos.

Na figura, observamos algumas nomenclaturas. São elas: Match, Mismatch, Gap e uma pontuação. Vamos entender
o que cada uma delas significa?
Match
Posição no alinhamento em que o resíduo é o mesmo entre as sequências comparadas. Podemos
dizer que essas são posições conservadas.

Mismatch
Posição no alinhamento em que o resíduo é diferente entre as sequências comparadas. Nesses
casos, ocorreu uma mutação por substituição de nucleotídeo em uma das sequências.

Gap
É um “espaço” em uma das sequências comparadas, causado pelo deslocamento de resíduos dela em
relação à outra sequência. É inserido pelo programa para melhorar o alinhamento e encontrar mais
similaridades. Esses espaços representam deleções ou inserções que as sequências comparadas
possam ter sofrido.

Pontuação (score)
É o total do somatório de matches subtraídos do número de mismatches e gaps ao longo do
alinhamento. Cada alinhamento possui uma pontuação.

Basic Local Alignment Search Tool – BLAST


O programa BLAST é o programa para alinhamento de sequências mais popular. Ele se caracteriza por realizar
alinhamento simples, local e heurístico. Isso quer dizer que o BLAST sempre vai comparar as sequências duas a
duas, buscando por regiões similares entre elas, e o resultado vai ser próximo ao ideal. Nós já falamos dele antes,
pois ele está disponível no portal no NCBI como uma forma de buscar por sequências dentro de seus bancos de
dados. Agora, vamos ver com mais detalhes as funcionalidades do BLAST.
Imagine que você possui a seguinte sequência de proteína “MRDPYNKLI” e deseja encontrar sequências similares a
ela dentro de um banco de dados de sequência. Essa sequência é chamada de “pergunta”, do inglês query.

O BLAST irá dividir a sequência query em “palavras”, como, por exemplo, “MRD”, “PYN” e “KLI”. O próximo passo é
identificar todas as sequências do banco de dados que possuam uma dessas “palavras”.

Quando a região com a “palavra” é encontrada, ela é considerada uma semente (seed). A partir dela, o alinhamento
vai “brotando” (seeding), estendendo-se nas duas direções.

Procedimento do alinhamento pelo programa BLAST.

Saiba mais
O BLAST é considerado heurístico, porque ele não compara cada resíduo das sequências entre si. Ao invés disso,
cria uma lista de “palavras” curtas e a partir delas realiza o alinhamento, o que diminui o número de comparações e
acelera a obtenção do resultado. A velocidade do resultado do BLAST permite que seja viável usá-lo para buscar por
sequências similares em bancos enormes, com milhões de sequências.

Já que o BLAST não fornece o resultado perfeito, como saber se o seu resultado é confiável?

Além de informações como a porcentagem de identidade, o programa também fornece um valor de significância
estatística para cada alinhamento, chamado de e-value (valor esperado, valor e).

O valor de e-value representa a probabilidade do alinhamento obtido a partir da busca no


banco de dados ter ocorrido ao acaso.

Se o e-value for alto, você pode entender que as sequências alinhadas não são próximas, que aquele mesmo
alinhamento poderia ter ocorrido com várias outras sequências no banco de dados aleatoriamente.
Quanto mais baixo for o e-value, mais significativa e confiável é aquela correspondência entre sequências que você
está analisando.

Agora você pode estar se perguntando: e qual é esse valor ideal?

O valor ideal é o mais próximo possível de zero. De forma geral, se o valor de e-value é menor que 1 x 10-50, esse é

um alinhamento extremamente confiável. Quando o valor está entre 1 x 10-2 e 1 x 10-50, esse alinhamento pode ser
confiável.

Agora, se for algo entre 1 x 10-2 e 10, então você está olhando para um alinhamento sem significância.

O melhor valor de e-value, mais significativo estatisticamente, que você pode obter para um alinhamento com o
BLAST, é 0,0.

Relembrando
O número negativo ao qual o 10 está elevado representa o número de casas decimais depois da vírgula, por

exemplo, 1 x 10-2 é igual a 0,01.

Existem algumas variações do programa, e por isso você pode ouvir falar de “família de programas BLAST”. A
diferença entre as variantes é qual o tipo de sequência biológica usada como query (nucleotídeos ou aminoácidos), e
qual tipo de sequência está no banco de dados, conforme demonstrado abaixo:

BLASTn
Faz buscas em um banco de dados de sequência de nucleotídeos usando como query uma sequência também de
nucleotídeos.
BLASTp
Usa sequências de aminoácidos (proteínas) para buscar correspondências dentro de um banco de dados de
proteínas.

BLASTx
Faz buscas em um banco de dados de proteínas usando como query uma sequência de nucleotídeos. Para
conseguir isso, antes da busca em si, a query é traduzida.

tBLASTn
Usa sequências de aminoácidos (proteínas) para buscar correspondências dentro de um banco de dados de
nucleotídeos. Para isso, as sequências do banco estão traduzidas.

tBLASTx
Essa variante traduz tanto a sequência query quanto as sequências no banco de dados. Faz buscas em um banco de
dados traduzido, usando como query uma sequência de nucleotídeos também traduzida.

Essas variações que realizam a tradução são úteis quando, por exemplo, você tem uma sequência de proteína e
gostaria de saber a sequência do gene (DNA) que deu origem a ela (tBLASTn). Outra possibilidade é quando a
intenção é saber qual proteína será sintetizada a partir de determinada sequência de DNA (BLASTx). Quando utilizar
o BLAST, o usuário (você) vai escolher a forma de busca que mais atende ao seu interesse de pesquisa. Vejamos um
exemplo real de uso do BLAST.

Após um pesquisador sequenciar o genoma de uma bactéria, ele observou que um dos genes possuía a sequência a
seguir.

O interesse dele era descobrir qual a proteína que seria produzida a partir desse gene e qual a sua sequência de
aminoácidos. Para isso, ele optou pela opção BLASTx no portal do NCBI, como você observa na imagem ao lado.
Após a inclusão dos dados, ele pesquisou no banco e o resultado mostrou que a sequência corresponde à proteína
chamada de BasR, cuja função é regular um sistema de dois componentes na espécie de bactéria Escherichia coli.

A descrição dos resultados está ordenada pelo valor de e-value, onde os alinhamentos mais confiáveis aparecem
primeiro. Clicando no hiperlink para a descrição do alinhamento, você poderá visualizá-lo em detalhes.

Nesse alinhamento, você pode observar que o valor de e-value foi igual a 2 x 10-145, um alinhamento extremamente
confiável. A identidade entre a proteína traduzida a partir de seu gene em relação à proteína no banco de dados foi
igual a 99%, assim como a positividade.

Captura de tela demonstrando alinhamento local pela ferramenta BLAST®.

Positividade
Positividade é a similaridade entre as sequências. Para calcular esse valor são considerados tanto os resíduos
pareados que são idênticos quanto aqueles pareados que possuem propriedades parecidas (tamanho, carga e
hidrofobicidade). As bases nitrogenadas não são consideradas similares entre si, porém alguns aminoácidos sim, como
a treonina (T) e a serina (S), com cadeias laterais pequenas, polares e sem carga.
Quando alinhamos aminoácidos, o valor de positividade pode ser superior à identidade em situações em que os
aminoácidos diferentes na mesma posição possuem características químicas parecidas, ou seja, não são idênticos,
mas são similares. Mas esse não foi o caso do exemplo mostrado. Conseguimos ver também que nenhum gap foi
introduzido pelo BLAST, pois não foi necessário.

video_library
Alinhamento de sequências com a
ferramenta BLAST
Assista a este vídeo, no qual a especialista demonstra o processo de alinhamento de sequências a partir do banco
de dados do NCBI e do uso da ferramente BLAST.

Clustal
O Clustal é um programa que realiza alinhamento múltiplo e global de sequências biológicas de forma heurística.
Sendo assim, usamos esse programa quando queremos comparar três ou mais sequências ao longo de toda sua
extensão. Como não é viável garantir o resultado perfeito para esse tipo de comparação, ele utiliza uma estratégia
aproximada, igualmente heurística. Por ser global, as sequências alinhadas devem ter cumprimentos semelhantes e
ser evolutivamente relacionadas.

Mas, então, de que forma podemos usar o Clustal? expand_more

O Clustal é indicado, por exemplo, para comparar a sequência de aminoácidos da proteína histona entre
diferentes espécies, como homem, chimpanzé, camundongo, rato e vaca. Essa é a principal proteína que
compõe o nucleossomo dos organismos eucariotos e, portanto, vai ter a mesma função em todas essas
espécies. Para conservar a função, a sequência de aminoácidos precisa ser bem parecida, diferindo em
apenas alguns pontos, devido a diferentes “caminhos” evolutivos que as espécies tomaram. Essa
semelhança possibilita usar um programa que realize um alinhamento global, e como estamos comparando
cinco sequências diferentes, ele também é caracterizado como múltiplo.

O alinhamento múltiplo realizado pelo Clustal começa a ser feito a partir de vários alinhamentos simples, para todos
os pares possíveis entre as sequências comparadas. Observe a seguir para entender como funciona este processo:

Procedimento do alinhamento feito pelo programa Clustal.

Clustal e outras ferramentas de alinhamento múltiplo são aplicadas quando queremos responder perguntas do tipo:
qual a região conservada entre as proteínas que são receptores celulares? Quem é mais próximo evolutivamente
quando eu comparo homem, chimpanzé e orangotango? Qual seria o alvo ideal de um primer de PCR (Reação em
Cadeia da Polimerase) para detectar o mesmo gene em diferentes espécies?

Como resposta, você poderia encontrar que uma região rica em aminoácidos hidrofóbicos está presente em todas
as sequências de proteínas receptoras que você alinhou, o que faz sentido, já que elas precisam atravessar a
membrana plasmática para se “firmar”. Comparando a sequência de nucleotídeos do RNA ribossômico de homem,
chimpanzé e orangotango, você poderia verificar que a sequência do chimpanzé é mais similar à humana, e,
portanto, o orangotango seria o mais “antigo” evolutivamente. Agora, a resposta da última pergunta será respondida
quando estudarmos os primers, em breve!

A seguir, vemos um quadro comparativo dos principais programas de alinhamento por nós estudados.

Extensão Número de
Programa Precisão
alinhada sequências

BLAST Heurístico Local Simples

Clustal Heurístico Global Múltiplo

Quadro: Principais programas de alinhamento de sequência e suas características.


Elaborado por: Melise Silveira.
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1

Imagine que você precise comparar, a partir do alinhamento de sequências, 1000 sequências de proteínas com
580 aminoácidos cada uma. Qual tipo de programa de alinhamento seria recomendado neste caso?

A Simples e local

B Múltiplo e heurístico

C Simples e heurístico

D Simples e ótimo

E Múltiplo e ótimo

Parabéns! A alternativa B está correta.


A comparação de 3 ou mais sequências é feita por alinhamento múltiplo. O resultado perfeito entre muitas
sequências é inviável computacionalmente devido ao número de comparações ou de sequências alinhadas.
Assim, o alinhamento heurístico, que busca pela aproximação ao alinhamento ideal, é o mais rápido e indicado
neste caso.

Questão 2
A comparação de sequências biológicas por meio de alinhamento utilizando o programa BLAST é feita de que
maneira?

A Alinhamento simples e global

B Alinhamento múltiplo e global

C Alinhamento simples e local

D Alinhamento múltiplo e local

E Alinhamento simples e múltiplo

Parabéns! A alternativa C está correta.


O BLAST realiza um alinhamento simples, local e heurístico. Isso quer dizer que o BLAST sempre vai comparar
as sequências duas a duas, buscando por regiões similares entre elas, e o resultado vai ser próximo ao ideal.

3 - Os Primers
Ao final deste módulo, você será capaz de aplicar o conhecimento sobre
primers no desenho dessas sequências usando programas de computador.

Primers: definições e aplicações


Uma das aplicações do alinhamento múltiplo é a identificação de uma região comum a diferentes sequências. Essas
sequências podem, por exemplo, corresponder a um mesmo gene em espécies distintas.

Vamos pensar no caso do gene RNAr 16S, que codifica para uma pequena subunidade do RNA ribossômico de
bactérias. Todos os organismos que pertencem ao domínio Bacteria possuem esse gene. No entanto, ao longo de
milhões de anos, as diferentes espécies evoluíram sob variadas condições, e o RNAr 16S sofreu algumas mutações.

Se a minha pergunta for “qual região permanece conservada no gene RNAr 16S de diferentes espécies bacterianas?”,
posso respondê-la a partir de um alinhamento múltiplo desses genes, a partir do programa Clustal.

Além disso, após definir uma região de interesse específica no DNA, podemos detectá-la a partir da Reação em
Cadeia da Polimerase (PCR). A PCR é uma técnica desenvolvida para amplificar uma determinada região do DNA,
fazendo várias cópias desse local. Dentre os reagentes necessários para que a reação aconteça, destacam-se a
enzima DNA polimerase (que sintetiza os novos fragmentos de DNA), moléculas de DNA extraídas da amostra (DNA
molde) e os primers.

Os primers são pequenas sequências de nucleotídeos utilizados na PCR para indicar a região
do DNA que será copiada. Essas sequências irão se ligar, de forma complementar, às
extremidades da região de interesse, demarcando onde a DNA polimerase deve começar
seus trabalhos.

Em uma PCR convencional, dois primers são utilizados, ligando-se em posições diferentes, que “cercam” a região
alvo.
Pareamento de um par de primers a uma região alvo no DNA molde.

Suponha que a região de interesse seja aquela conservada no gene RNAr 16S de diferentes espécies bacterianas.
Essa parte do DNA pode ser utilizada para desenvolver primers capazes de detectar bactérias presentes em
diferentes tipos de amostras, como solo, água e fezes.

Já sabemos que a sequência de nucleotídeos dos primers deve ser complementar ao local que queremos que eles
se liguem. Se na região alvo existe a sequência CCGCC, para que um primer se ligue a ela, sua sequência deve ser
GGCGG.

Na imagem abaixo, vemos que entre as posições 890 e 1000 (indicadas pelas setas vermelhas), aproximadamente,
temos uma região parcialmente conservada (o asterisco é usado para indicar que a base é a mesma entre as
sequências comparadas naquela posição).

Captura de tela com parte do alinhamento múltiplo de sequências do gene RNAr 16S de diferentes espécies bacterianas.

Parâmetros
Além de ser complementar ao DNA alvo, existem outros parâmetros importantes dos primers para que eles possam
cumprir sua função de forma eficiente: tamanho do produto, comprimento, conteúdo de bases guanina e citosina,
temperatura de melting e temperatura de anelamento. Vamos conhecê-los?

Tamanho do produto

O tamanho da região amplificada a partir da PCR, também chamado de tamanho do produto, é uma informação
muito importante. Esse valor pode ser calculado subtraindo a primeira posição à qual o primer 1 se liga da primeira
posição à qual o primer 2 se liga. O primer 1, chamado de senso ou forward, se liga no início da região a ser
amplificada, enquanto o primer 2, chamado de antissenso ou reverse, se liga ao final.

Exemplo
Se o primer senso começa na base 50 do gene e o primer antissenso começa na base 300, então o tamanho do
produto amplificado será 250 pares de bases (300-50 =250).

Podemos conferir esse tamanho após a eletroforese, técnica usada para separar fragmentos de DNA de acordo com
seu peso molecular.

Para isso, o produto que sai da máquina da PCR é aplicado em um gel de agarose e sofre ação de uma corrente
elétrica, que empurra os fragmentos de DNA do polo negativo para o polo positivo. Quanto menos pares de bases
possui um fragmento, mais leve ele é, e mais rápido ele migra pelo gel. Ao contrário, fragmentos com muitos pares
de bases são mais pesados e migram de forma mais lenta.

Fragmentos de DNA separados por eletroforese.

Estimamos o tamanho do fragmento amplificado usando como referência o marcador de peso molecular (solução
adquirida pelo laboratório que contém diferentes fragmentos de DNA com tamanhos já definidos).

O tamanho ideal do produto da PCR está entre 150 e 1.000 pares de bases (pb). Fragmentos muito pequenos podem
ser confundidos com restos de primers que não se ligaram ao alvo e aparecem no final do gel da eletroforese. Por
outro lado, se a região amplificada for muito grande, a DNA polimerase pode não conseguir adicionar todos os
nucleotídeos necessários, e nesses casos a PCR não vai funcionar.

Comprimento

O primer pode também ser chamado de oligonucleotídeo, ou seja, um fragmento curto de uma cadeia simples de
ácido nucleico.

Mas o quão curta deve ser a sequência de um primer?

Resposta
O comprimento deve variar entre 18 e 24 bases. Um primer muito curto, com menos de 18 bases, é considerado
inespecífico, podendo se ligar em diferentes posições no DNA molde.
Você pode imaginar que a chance de encontrar a sequência CCGCC aleatoriamente ao longo de um DNA é maior,
quando comparada à chance de encontrar a sequência CCGCCTGGGGA. Portanto, existe um tamanho mínimo para
“garantir” que o primer vai se ligar somente na região que você deseja.

Existe um limite superior para o tamanho dos primers, de cerca de 24 bases. Esse limite é estabelecido, pois primers
muito longos tendem a se combinar com si mesmos, em estruturas secundárias. Uma estrutura secundária
conhecida que um primer longo pode assumir é chamada de “grampo”, do inglês hairpin.

O comprimento muito longo também aumenta a chance de um primer se combinar com outro, o que chamamos de
dímeros de primers. Os dois casos diminuem a chance de ligação do primer à região alvo do DNA molde, e, portanto,
também torna a PCR menos produtiva.

Primers formando estrutura secundária (hairpin) e dímeros.

Na imagem ao lado, vemos as estruturas secundárias ocasionadas pelo alinhamento errado dos primers.

Conteúdo de bases guanina e citosina (GC)


O conteúdo GC é a porcentagem das bases nitrogenadas guanina (G) e citosina (C) ao longo da sequência de DNA.
Se a soma de G mais C ao longo de um primer com 20 bases de comprimento é igual a 10, então o conteúdo GC
dele é igual a 50%.

As bases guanina e citosina ligam-se por meio de três pontes de hidrogênio, diferente de adenina (A) e timina (T),
que se ligam por duas. Por isso, uma quantidade maior de energia está envolvida na ligação G+C, ela é mais “forte”.

Pontes de hidrogênio entre as bases nitrogenadas que compõem os nucleotídeos.

Atenção
A porcentagem ideal de GC para um primer deve estar entre 40% e 60%. Estabelecer um limite mínimo (40%) permite
que o primer se ligue ao alvo com mais força, trazendo estabilidade para o pareamento. O limite máximo (60%) é
necessário, pois altas porcentagens de GC demandam muita energia para a ligação, e ela pode não acontecer.

A energia envolvida na ligação entre as bases influencia diretamente no cálculo da temperatura de anelamento.

A temperatura de anelamento da PCR é a segunda etapa de cada ciclo dessa reação.

Desnaturação
Esta é a primeira etapa da PCR, ocorre entre 90°C e 96°C, quando a dupla fita do DNA se desfaz.

Anelamento
Depois disso, ocorre o anelamento dos primers, quando a temperatura cai entre 50°C e 60°C.
Extensão (DNA Polimerase)
A última etapa do ciclo é a síntese do fragmento de DNA pela ação da DNA polimerase. A polimerase especial
usada na PCR (Taq DNA polimerase), que resiste a altas temperaturas sem perder sua função, trabalha de forma
ideal a 72°C.

O valor da temperatura de anelamento é calculado dependendo da sequência de bases dos primers usados. Tanto o
conteúdo GC quanto o comprimento é importante nessa conta.

Reações de PCR diferentes, com alvos diferentes e, portanto, com sequência dos primers
diferente, terão cada uma sua temperatura de anelamento própria.

O nosso próximo passo é entender como é calculada essa temperatura. Uma vez definida, o profissional deve usá-la
para programar a máquina usada para PCR, chamada termociclador.

Temperatura de melting (Tm)


Temperatura de melting (Tm) é aquela em que metade dos primers estão ligados ao seu alvo na fita de DNA molde e
a outra metade está livre na solução. A Tm é importante, pois a temperatura de anelamento dos primers é calculada
com base nesse valor. O anelamento também pode ser chamado de hibridização, pois é nessa etapa que os primers
vão se ligar à região complementar no DNA alvo.

O cálculo da Tm depende da sequência de bases do primer, portanto, cada primer do par vai ter a sua Tm. A maneira
mais simples de calcular esse valor é a partir da seguinte fórmula:

Tm = 4(G+C) + 2(A+T)

Nesse cálculo, os dois parâmetros que mais influenciam são o conteúdo GC do primer e seu comprimento.

Conteúdo – quanto maior a porcentagem de GC, maior será a Tm, pois mais energia está envolvida na ligação entre
essas duas bases.

Comprimento – quanto mais bases, mais energia de ligação é demandada para que todas elas se liguem ao DNA
alvo e, assim, mais elevada será a Tm.

Temperatura de melting
Traduzindo para o português, podemos chamar de “ponto de fusão médio”.
Temperatura de anelamento (Ta)
Por fim, chegamos na temperatura de anelamento (Ta), aquela que permite que os primers se liguem à sua
sequência complementar no DNA alvo. A Ta é calculada subtraindo 5°C, a partir da fórmula:

Ta = Tm-5

O valor da Ta deve estar entre 50°C e 60°C.

Baixas temperaturas de anelamento correspondem a primers com ligações mais fracas e


menos específicas. Por outro lado, Ta muito elevadas tornam a PCR pouco eficiente, pois o
primer pode não se ligar.

Outro ponto muito importante é que a Ta dos dois primers do par (senso e antissenso) devem ser próximas, diferindo
no máximo em 5°C. Quando você for programar o aparelho termociclador para realizar a PCR, você só informa uma
Ta e, portanto, ela deve servir para os dois primers usados naquela reação.

Agora que aprendemos todos os parâmetros, vamos a um exemplo.

Supondo as sequências de primers a seguir, avalie-as com base nos parâmetros vistos até agora: comprimento,
conteúdo GC, Tm e Ta.

Primer 1 -> 5’-TAGCGCGTAGCGATGCGATG-3’

Primer 2 -> 5’-ATGTTCGATCGAGCTGACGC-3’

1. Ambos possuem 20 bases, sendo:

Primer 1: oito bases G, quatro bases C, quatro bases T e quatro bases A.

Primer 2: seis bases G, cinco bases C, cinco bases T e quatro bases A.

2. Conteúdo GC do primer 1 é 60% e do primer 2 é 55%.

Vamos entender como ? expand_more

Vamos considerar que as 20 bases no primer são iguais a 100%. Em seguida, devemos contar as bases G e C
do primer 1. Assim, vemos que oito bases são do tipo G e quatro são do tipo C, totalizando 12 bases. Ao
aplicar uma simples regra de 3, achamos 60% de conteúdo GC.
20 ---- 100%

12 ----- X (%)

X = 60%

Ao contar as bases do primer 2, vemos que seis bases são do tipo G e cinco do tipo C, totalizando 11 bases.
Aplicando a regra de três, agora temos que o conteúdo GC no primer 2 é 55%.

20 ---- 100%

11 ----- X (%)

X = 55%

3. Ao calcular a Tm pela fórmula, temos:

Primer 1:
Tm= 4(8+4) + 2(4+4)

Tm= 4(12) + 2(8)

Tm = 64°C

Primer 2:
Tm= 4(6+5) + 2(5+4)

Tm= 4(11) + 2(9)

Tm = 62°C

4. Ao calcular a Ta de cada primer, pela fórmula, temos:

Primer 1 (Tm: 64ºC):


Ta = 64 - 5

Ta = 59°C

Primer 2 (Tm: 62ºC):


Ta = 62 - 5

Ta = 57°C
Por esses critérios, os primers estão adequados para que a PCR seja eficiente e específica.

A eficiência está relacionada ao número de “cópias” da região alvo do DNA que será feito por ciclo de PCR, enquanto
a especificidade garante que a região copiada seja realmente a que você deseja, e não outra qualquer.

Exemplo
Se você espera copiar uma região conservada do gene RNAr 16S, a intenção é que apenas essa região seja
amplificada. Se você espera conseguir 1 milhão de cópias dessa região, quanto mais próximo a sua PCR chegar
desse número, mais eficiente ela será.

Um trabalho minucioso deve ser feito para escolher qual será a sequência dos primers e garantir que ambas
atendam aos parâmetros necessários. A boa notícia é que podemos contar com programas de computador para
realizar esse trabalho!

Softwares usados para desenho de primers


Programas de computador foram desenvolvidos para testar muitas combinações de primers e fornecer como
resultado apenas os mais adequados.

A qualidade dos primers é melhor quando usamos esses programas, comparada à qualidade daqueles escolhidos e
testados manualmente pelo profissional. É importante que você saiba como utilizar essas ferramentas, pois isso irá
poupar seu tempo e garantir resultados melhores para suas análises.

A primeira coisa que todo programa para desenho de primers precisa é a sequência de bases no DNA molde. Como
os primers são complementares à sequência molde, essa informação se torna indispensável. Se você espera que
uma carta chegue exatamente ao remetente esperado, então você precisa dizer o endereço completo. O endereço
para os primers é a sequência no DNA molde onde eles devem se ligar. Essas sequências moldes podem ser obtidas
em bancos de dados biológicos de sequências de nucleotídeos, como GenBank e RefSeq, disponíveis no portal do
NCBI.

Depois de fornecer a sequência molde, você irá definir os parâmetros que acabamos de discutir.

Saiba mais
Existem diferentes programas usados para o desenho de primers, e eles diferem em relação a quais parâmetros são
usados como critério de seleção, facilidade de uso e o fato de ser gratuito ou pago, por exemplo.

Vamos usar como exemplo o software Primer3, disponível gratuitamente na Internet.

Na página inicial do programa, você deve colar a sequência do DNA molde (1). Depois, você seleciona as opções
para desenho de primers senso e antissenso (2). Na figura a seguir, conseguimos observar onde entramos com
esses parâmetros. Observe a seta verde (local para colocarmos o DNA molde) e as setas amarelas (local de
desenhos de primers senso e antissenso).

Você pode (mas não precisa) customizar os parâmetros considerados pelo Primer3. Dentre eles, estão:

Tamanho do produto (Product Size Ranges);

Comprimento dos primers (Primer Size);

Temperatura de melting (Primer Tm);

Conteúdo GC (Primer GC%).

Também é possível especificar qual região deseja incluir no fragmento que será amplificado (Targets) ou definir qual
região não deve estar incluída nele (Excluded Regions). Outros parâmetros menos usados também estão disponíveis.
Para saber o que significa cada um deles, é só clicar em cima do hiperlink no portal do programa.

Captura de tela com parte do alinhamento múltiplo de sequências do gene RNAr 16S de diferentes espécies bacterianas.

Vamos usar como exemplo a sequência do gene RNAr 16S de bactérias, que vimos anteriormente. Com base no
resultado do alinhamento múltiplo de sequências desse gene em quatro espécies bacterianas diferentes
(Escherichia coli, Klebsiella pneumoniae, Staphylococcus aureus e Neisseria gonorrhoeae), escolhi a região
conservada entre as posições 890 e 1000 como alvo.
A sequência abaixo é uma das quatro presentes no alinhamento múltiplo da imagem que acabamos de ver. Todas
foram copiadas do GenBank. Vamos usar a sequência da espécie S. aureus como molde para desenhar os primers.

Sequência do S. aureus.

Primeiro, a sequência molde é copiada para o retângulo em branco. Dentre os parâmetros do Primer3, vamos
especificar a região que desejamos incluir no fragmento amplificado: posição 970 mais 60 bases à frente (Targets:
970,60). Essa região foi escolhida por ser conservada, sem muitas diferenças entre as espécies comparadas. Vamos
especificar também o tamanho do produto (150-180pb), para que os primers pareiem perto da parte conservada,
evitando, assim, as regiões muito variáveis (Product Size Range: 150-180). Feito isso, é só selecionar a opção
“Escolher Primers” (Pick Primers).

Como resultado obtido ao final desse processo, o Primer3 mostra o par de primers mais adequado e, no final da
página, existe a sugestão de outros pares.

Sobre os parâmetros que os primers devem seguir, verificamos que todos eles estão dentro dos valores
recomendados.

1. Comprimento (len): 20pb;

2. Tm: 60°C para ambos os primers;

3. Conteúdo GC: 50% para ambos os primers;

4. Tamanho do produto (product size): 169pb.

Além dos parâmetros que discutimos, o Primer3 também prioriza outros dois: any e 3’, que se referem à tendência
dos primers se ligarem com eles mesmos ou formar estruturas secundárias. Valores positivos são considerados
aceitáveis, pois indicam baixa tendência dos primers manterem essas combinações que prejudicam a eficiência da
reação de PCR.
video_library
Desenho de primers usando o Primer3
Neste vídeo, demonstramos como você pode utilizar o Primer3, usando como ponto de partida a sequência de um
gene obtido em banco de dados.

Falta pouco para atingir seus objetivos.


Vamos praticar alguns conceitos?
Questão 1

A Reação em Cadeira da Polimerase (PCR) utiliza etapas com variação de temperatura que são repetidas várias
vezes, em ciclos. As características dos primers usados na PCR influenciam mais diretamente na temperatura
de qual etapa do ciclo?

A Desnaturação

B Extensão
C Anelamento

D Melting

E Fusão

Parabéns! A alternativa C está correta.


O anelamento é quando o primer se liga à sequência correspondente no DNA molde. Essa ligação depende da
sequência de bases e do tamanho dos primers, principalmente.

Questão 2

Primers ou iniciadores são sequências de nucleotídeos que se ligam de forma complementar a um DNA molde e
permitem que a replicação aconteça. Na PCR, eles indicam a região do DNA molde que será amplificada, pois
cada um dos primers se liga a uma das extremidades do molde. Um dos fatores que contam para que a PCR
seja eficiente são as características dos primers. Qual das opções abaixo é um parâmetro importante dos
primers, que contribui para que a PCR aconteça de forma adequada?

A Os primers devem ter conteúdo de GC de cerca de 90%.

B Os primers devem apresentar temperatura de melting inferior a 50°C.

C O comprimento dos primers deve variar entre 30 e 90 pares de bases.

D Os primers devem apresentar temperatura de anelamento superior a 72°C.

E A temperatura de anelamento de cada primer do par deve ser bem próxima.

Parabéns! A alternativa E está correta.


Apenas uma temperatura de anelamento (Ta) é informada no momento de programar o termociclador, portanto,
os dois primers do par devem possuir Ta próxima, com no máximo 5°C de diferença.

Considerações finais
Muitas perguntas biológicas podem ser respondidas usando-se apenas computadores, programas e fonte de dados
adequados. Ir para a bancada, pipetar e preparar substâncias é essencial para alcançar respostas, mas o caminho
pode ficar muito mais curto se usarmos as possibilidades que a bioinformática nos apresenta.

Agora você já sabe onde obter artigos científicos e sequências biológicas, comparar essas sequências e também
usá-las para o desenvolvimento dos testes moleculares como a PCR. A partir deste momento, você está ainda mais
preparado para se formar como um profissional completo e atualizado!

headset
Podcast
Antes de encerrarmos, ouça este podcast, no qual a especialista fala sobre o crescimento do NCBI e de seus bancos
de dados nos últimos anos, as aplicações do alinhamento de sequências e explica o que são primers degenerados.

Explore +
Para saber mais sobre os assuntos tratados neste conteúdo:
Explore a playlist “Alinhamento de sequências”, no canal do YouTube OnlineBioinfo Bioinformática.

Leia o artigo “Desenho e Validação de Primers In Silico para Detecção do Vírus Sincicial Respiratório Humano”, de
Jackson Alves da Silva Queiroz e colaboradores, e acompanhe um exemplo real de desenho de primers.

Referências
DIEFFENBACH, C. W.; LOWE, T. M. J.; DVEKSLER, G. S. General Concepts for PCR Primer Design. Genome Res. 1993
Dec;3(3):S30-7.

NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Consultado na Internet em: 16 jul. 2021.

PROSDOCIMI, F. Introdução à Bioinformática. Biotecnologia – Ciência e Desenvolvimento. Curso On-line. São Paulo:
USP, 2007. Consultado na Internet em: 16 jul. 2021.

SILVA, S. A.; NOTARI, D. L.; DALL’ALBA, G. Bioinformática: contexto computacional e aplicações. 1. ed. Caxias do Sul:
Educs. 2020.

WATUGULY, T. W.; SAMSURIA, I. K.; ASTUTI, P.; NURINGTYAS, T. R.; WIJAYANTI, N.; WAEL, S. The Analysis of Primer
Gene of Phosphodiesterase Type 5 (PDE5) on Erectile Dysfunction. Open Journal of Applied Sciences, 2018, 8, 398-
410.

WU, F. et al. A new coronavirus associated with human respiratory disease in China. Nature. Publicado em: 3 fev.
2020. Consultado na Internet em: 16 jul. 2021.

XIONG, J. Essential Bioinformatics. 1. ed. Cambridge, England: Cambridge University Press, 2006.

Material para download


Clique no botão abaixo para fazer o download do conteúdo completo em formato PDF.

Download material

O que você achou do conteúdo?


Relatar problema

Você também pode gostar